xiaoxiong's blog Thinking and Action

python 正则表达式

2016-08-30

简述

python正则表达式 包含了模块简介,正则表达式编译,Raw原字符,正则表达式语法几个模块,TODO模块将遇到过的特殊使用记录下来

模块简介

python 字符串模块 re

正则表达式首先通过正则表达式文本进行编译,生成如何进行匹配的信息

然后对文本进行匹配,包含成功匹配的信息,包含匹配到的字符串,分组以及在文本中的索引

pattern = re.compile()
pattern.match()

正则表达式编译

正则表达式被编译成RegexObject实例,可以为不同的操作提供方法,如模式匹配搜索或字符串替换

>>> import re
>>> p = re.compile('ab')
>>> print p
<_sre.SRE_Pattern object at 0x00000000029AF458>

编译re.compile(strPattern[, flag]):

这个方法是Pattern类的工厂方法,用于将字符串形式的正则表达式编译为Pattern对象。 第二个参数flag是匹配模式,取值可以使用按位或运算符|表示同时生效,(re.I|re.M)。也可以在regex字符串中指定模式,比如re.compile('pattern', re.I|re.M)re.compile('(?im)pattern')是等价的。

匹配模式

re.I(re.IGNORECASE): 忽略大小写(括号内是完整写法)
M(MULTILINE):       多行模式,改变'^'和'$'的行为
S(DOTALL):          点任意匹配模式,改变'.',完全匹配任何字符,包括换行
L(LOCALE):          使预定字符类 \w \W \b \B \s \S 取决于当前区域设定
U(UNICODE):         使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性
X(VERBOSE):         详细模式。这个模式下正则表达式可以是多行,忽略空白字符,并可以加入注释。以下两个正则表达式是等价的:
a = re.compile(r"""\d +  # the integral part
                   \.    # the decimal point
                   \d *  # some fractional digits""", re.X)
b = re.compile(r"\d+\.\d*")

match对象

Match对象是一次匹配的结果,包含了很多关于此次匹配的信息,可以使用Match提供的可读属性或方法来获取这些信息。

属性

  1. string:匹配时使用的文本。
  2. re: 匹配时使用的Pattern对象。
  3. pos: 文本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.search()方法的同名参数相同。
  4. endpos: 文本中正则表达式结束搜索的索引。值与Pattern.match()和Pattern.search()方法的同名参数相同。
  5. lastindex: 最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组,将为None。
  6. lastgroup: 最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组,将为None。

方法

group([group1, …]) 

获得一个或多个分组截获的字符串;指定多个参数时将以元组形式返回。group1可以使用编号也可以使用别名;编号0代表整个匹配的子串;不填写参数时,返回group(0);没有截获字符串的组返回None;截获了多次的组返回最后一次截获的子串。

groups([default]): 

以元组形式返回全部分组截获的字符串。相当于调用group(1,2,…last)。default表示没有截获字符串的组以这个值替代,默认为None。

groupdict([default]): 

返回以有别名的组的别名为键、以该组截获的子串为值的字典,没有别名的组不包含在内。default含义同上。

start([group]): 

返回指定的组截获的子串在string中的起始索引(子串第一个字符的索引)。group默认值为0。

end([group]): 

返回指定的组截获的子串在string中的结束索引(子串最后一个字符的索引+1)。group默认值为0。

span([group]): 

返回(start(group), end(group))。

expand(template): 

将匹配到的分组代入template中然后返回。template中可以使用\id或\g、\g引用分组,但不能使用编号0。\id与\g是等价的;但\10将被认为是第10个分组,如果你想表达\1之后是字符'0',只能使用\g<1>0。

import re
m = re.match(r'(\w+) (\w+)(?P<sign>.*)', 'hello world!')
 
print "m.string:", m.string
print "m.re:", m.re
print "m.pos:", m.pos
print "m.endpos:", m.endpos
print "m.lastindex:", m.lastindex
print "m.lastgroup:", m.lastgroup
 
print "m.group(1,2):", m.group(1, 2)
print "m.groups():", m.groups()
print "m.groupdict():", m.groupdict()
print "m.start(2):", m.start(2)
print "m.end(2):", m.end(2)
print "m.span(2):", m.span(2)
print r"m.expand(r'\2 \1\3'):", m.expand(r'\2 \1\3')
 
### output ###
# m.string: hello world!
# m.re: <_sre.SRE_Pattern object at 0x016E1A38>
# m.pos: 0
# m.endpos: 12
# m.lastindex: 3
# m.lastgroup: sign
# m.group(1,2): ('hello', 'world')
# m.groups(): ('hello', 'world', '!')
# m.groupdict(): {'sign': '!'}
# m.start(2): 6
# m.end(2): 11
# m.span(2): (6, 11)
# m.expand(r'\2 \1\3'): world hello!

Pattern

Pattern对象是一个编译好的正则表达式,通过Pattern提供的一系列方法可以对文本进行匹配查找。

Pattern不能直接实例化,必须使用re.compile()进行构造。

Pattern提供了几个可读属性用于获取表达式的相关信息:

  1. pattern: 编译时用的表达式字符串。
  2. flags: 编译时用的匹配模式。数字形式。
  3. groups: 表达式中分组的数量。
  4. groupindex: 以表达式中有别名的组的别名为键、以该组对应的编号为值的字典,没有别名的组不包含在内。
import re
p = re.compile(r'(\w+) (\w+)(?P<sign>.*)', re.DOTALL)
 
print "p.pattern:", p.pattern
print "p.flags:", p.flags
print "p.groups:", p.groups
print "p.groupindex:", p.groupindex
 
### output ###
# p.pattern: (\w+) (\w+)(?P<sign>.*)
# p.flags: 16
# p.groups: 3
# p.groupindex: {'sign': 3}

match方法

pattern.match(string[, pos[, endpos]]) 
re.match(pattern, string[, flags]): 

这个方法将从string的pos下标处起尝试匹配pattern;如果pattern结束时仍可匹配,则返回一个Match对象;如果匹配过程中pattern无法匹配,或者匹配未结束就已到达endpos,则返回None。

pos和endpos的默认值分别为0和len(string);re.match()无法指定这两个参数,参数flags用于编译pattern时指定匹配模式。

注意:这个方法并不是完全匹配。当pattern结束时若string还有剩余字符,仍然视为成功。想要完全匹配,可以在表达式末尾加上边界匹配符’$’。

search方法

pattern.search(string[, pos[, endpos]]) 
re.search(pattern, string[, flags]):

这个方法用于查找字符串中可以匹配成功的子串。从string的pos下标处起尝试匹配pattern,如果pattern结束时仍可匹配,则返回一个Match对象;若无法匹配,则将pos加1后重新尝试匹配;直到pos=endpos时仍无法匹配则返回None。

pos和endpos的默认值分别为0和len(string));re.search()无法指定这两个参数,参数flags用于编译pattern时指定匹配模式。

split方法

pattern.split(string[, maxsplit])
re.split(pattern, string[, maxsplit]): 

按照能够匹配的子串将string分割后返回列表。maxsplit用于指定最大分割次数,不指定将全部分割。

findall方法

pattern.findall(string[, pos[, endpos]])
re.findall(pattern, string[, flags]): 

搜索string,以列表形式返回全部能匹配的子串。

finditer方法

pattern.finditer(string[, pos[, endpos]])
re.finditer(pattern, string[, flags]): 

搜索string,返回一个顺序访问每一个匹配结果(Match对象)的迭代器。

sub

pattern.sub(repl, string[, count])
re.sub(pattern, repl, string[, count])

使用repl替换string中每一个匹配的子串后返回替换后的字符串。

当repl是一个字符串时,可以使用\id或\g、\g引用分组,但不能使用编号0。

当repl是一个方法时,这个方法应当只接受一个参数(Match对象),并返回一个字符串用于替换(返回的字符串中不能再引用分组)。

count用于指定最多替换次数,不指定时全部替换。

import re
 
p = re.compile(r'(\w+) (\w+)')
s = 'i say, hello world!'
 
print p.sub(r'\2 \1', s)
 
def func(m):
    return m.group(1).title() + ' ' + m.group(2).title()
 
print p.sub(func, s)
 
### output ###
# say i, world hello!
# I Say, Hello World!

subn() 方法作用一样,但返回的是包含新字符串和替换执行次数的两元组。

原字符串

反斜杠

转义:\作为转义字符,使后一个字符改变原来的意思

匹配文本中的字符\,那么使用正则表达式需要使用\\\\,前两个和后两个分别用来转义成一个反斜杠,最后两个反斜杠再在正则表达式中转义成一个反斜杠

raw

为正则表达式使用Python的raw字符串表示;在字符串前加个r反斜杠就不会被任何特殊方式处理,所以r"\n"就是包含"\""n" 的两个字符,而"\n"则是一个字符,表示一个换行。正则表达式通常在Python代码中都是用这种raw字符串表示

re.compile('python\n')
re.compile('python\\n')
re.compile(r'python\n')

第一条语句会将\n转义成换行符

第二条语句\\取消转义,匹配\n

第三条语句等同于第二条语句,r的意思是不用转义,匹配源字符串

正则表达式语法

匹配单个字符

.        匹配任意字符(除了\n)
[...]     匹配字符集:[abc]匹配abc中的字符;[a-zA-Z0-9]
\w / \W  匹配单词字符[a-zA-Z0-9]/非单词字符
\d / \D  匹配数字/非数字
\s / \S  匹配空白/非空白字符,它相当于类[ \t\n\r\f\v]

注意匹配中括号中间的任意字符re.compile(r'\[[/w]\]')

匹配多个字符

*        匹配前一个字符0次或者无限次
+        匹配前一个字符1次或者无限次
?        匹配前一个字符0次或者1次
{m} / {m,n}  匹配前一个字符m次或者m到n次
*? / +? / ?? 匹配模式变为非贪婪(尽可能少匹配字符)

边界匹配

^        匹配字符串开头
$        匹配字符串结尾
\A / \Z  指定的字符串匹配出现在开头/结尾

匹配一个163邮箱re.compile(r'^[\w]{4,10}@163.com$')

分组匹配

|        左右匹配任意一个字符表达式
(ab)     括号表达式表示分组
\<number>引用编号为num的分组匹配到的字符串
?P<name> 给分组起别名
(?P=name)引用名字为name的字符串

匹配0-100,re.compile(r'[1-9]?\d$|100')

匹配163,126邮箱re.compile(r'[\w]{4/6}@(163|126).com')

TODO

正则表达式的特殊用法及实例

匹配私有IP网段地址

A类:10.0.0.0--10.255.255.255
^10(\.([2][0-4]\d|[2][5][0-5]|[01]?\d?\d)){3}$
B类:172.16.0.0--172.31.255.255
^172\.([1][6-9]|[2]\d|3[01])(\.([2][0-4]\d|[2][5][0-5]|[01]?\d?\d)){2}$
C类:192.168.0.0--192.168.255.255
^192\.168(\.([2][0-4]\d|[2][5][0-5]|[01]?\d?\d)){2}$

注意:防止改变IP地址进制绕过,IP地址也可以用8进制,10进制,16进制表示

参考

  1. imooc python 正则表达式
  2. 正则表达式指南

下一篇 python 日志

Comments