简述
python正则表达式 包含了模块简介,正则表达式编译,Raw原字符,正则表达式语法几个模块,TODO模块将遇到过的特殊使用记录下来
模块简介
python 字符串模块 re
正则表达式首先通过正则表达式文本进行编译,生成如何进行匹配的信息
然后对文本进行匹配,包含成功匹配的信息,包含匹配到的字符串,分组以及在文本中的索引
pattern = re.compile()
pattern.match()
正则表达式编译
正则表达式被编译成RegexObject
实例,可以为不同的操作提供方法,如模式匹配搜索或字符串替换
>>> import re
>>> p = re.compile('ab')
>>> print p
<_sre.SRE_Pattern object at 0x00000000029AF458>
编译re.compile(strPattern[, flag]):
这个方法是Pattern类的工厂方法,用于将字符串形式的正则表达式编译为Pattern对象。 第二个参数flag是匹配模式,取值可以使用按位或运算符|
表示同时生效,(re.I|re.M
)。也可以在regex字符串中指定模式,比如re.compile('pattern', re.I|re.M)
与re.compile('(?im)pattern')
是等价的。
匹配模式
re.I(re.IGNORECASE): 忽略大小写(括号内是完整写法)
M(MULTILINE): 多行模式,改变'^'和'$'的行为
S(DOTALL): 点任意匹配模式,改变'.',完全匹配任何字符,包括换行
L(LOCALE): 使预定字符类 \w \W \b \B \s \S 取决于当前区域设定
U(UNICODE): 使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性
X(VERBOSE): 详细模式。这个模式下正则表达式可以是多行,忽略空白字符,并可以加入注释。以下两个正则表达式是等价的:
a = re.compile(r"""\d + # the integral part
\. # the decimal point
\d * # some fractional digits""", re.X)
b = re.compile(r"\d+\.\d*")
match对象
Match对象是一次匹配的结果,包含了很多关于此次匹配的信息,可以使用Match提供的可读属性或方法来获取这些信息。
属性
- string:匹配时使用的文本。
- re: 匹配时使用的Pattern对象。
- pos: 文本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.search()方法的同名参数相同。
- endpos: 文本中正则表达式结束搜索的索引。值与Pattern.match()和Pattern.search()方法的同名参数相同。
- lastindex: 最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组,将为None。
- lastgroup: 最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组,将为None。
方法
group([group1, …])
获得一个或多个分组截获的字符串;指定多个参数时将以元组形式返回。group1可以使用编号也可以使用别名;编号0代表整个匹配的子串;不填写参数时,返回group(0);没有截获字符串的组返回None;截获了多次的组返回最后一次截获的子串。
groups([default]):
以元组形式返回全部分组截获的字符串。相当于调用group(1,2,…last)。default表示没有截获字符串的组以这个值替代,默认为None。
groupdict([default]):
返回以有别名的组的别名为键、以该组截获的子串为值的字典,没有别名的组不包含在内。default含义同上。
start([group]):
返回指定的组截获的子串在string中的起始索引(子串第一个字符的索引)。group默认值为0。
end([group]):
返回指定的组截获的子串在string中的结束索引(子串最后一个字符的索引+1)。group默认值为0。
span([group]):
返回(start(group), end(group))。
expand(template):
将匹配到的分组代入template中然后返回。template中可以使用\id或\g
import re
m = re.match(r'(\w+) (\w+)(?P<sign>.*)', 'hello world!')
print "m.string:", m.string
print "m.re:", m.re
print "m.pos:", m.pos
print "m.endpos:", m.endpos
print "m.lastindex:", m.lastindex
print "m.lastgroup:", m.lastgroup
print "m.group(1,2):", m.group(1, 2)
print "m.groups():", m.groups()
print "m.groupdict():", m.groupdict()
print "m.start(2):", m.start(2)
print "m.end(2):", m.end(2)
print "m.span(2):", m.span(2)
print r"m.expand(r'\2 \1\3'):", m.expand(r'\2 \1\3')
### output ###
# m.string: hello world!
# m.re: <_sre.SRE_Pattern object at 0x016E1A38>
# m.pos: 0
# m.endpos: 12
# m.lastindex: 3
# m.lastgroup: sign
# m.group(1,2): ('hello', 'world')
# m.groups(): ('hello', 'world', '!')
# m.groupdict(): {'sign': '!'}
# m.start(2): 6
# m.end(2): 11
# m.span(2): (6, 11)
# m.expand(r'\2 \1\3'): world hello!
Pattern
Pattern对象是一个编译好的正则表达式,通过Pattern提供的一系列方法可以对文本进行匹配查找。
Pattern不能直接实例化,必须使用re.compile()进行构造。
Pattern提供了几个可读属性用于获取表达式的相关信息:
- pattern: 编译时用的表达式字符串。
- flags: 编译时用的匹配模式。数字形式。
- groups: 表达式中分组的数量。
- groupindex: 以表达式中有别名的组的别名为键、以该组对应的编号为值的字典,没有别名的组不包含在内。
import re
p = re.compile(r'(\w+) (\w+)(?P<sign>.*)', re.DOTALL)
print "p.pattern:", p.pattern
print "p.flags:", p.flags
print "p.groups:", p.groups
print "p.groupindex:", p.groupindex
### output ###
# p.pattern: (\w+) (\w+)(?P<sign>.*)
# p.flags: 16
# p.groups: 3
# p.groupindex: {'sign': 3}
match方法
pattern.match(string[, pos[, endpos]])
re.match(pattern, string[, flags]):
这个方法将从string的pos下标处起尝试匹配pattern;如果pattern结束时仍可匹配,则返回一个Match对象;如果匹配过程中pattern无法匹配,或者匹配未结束就已到达endpos,则返回None。
pos和endpos的默认值分别为0和len(string);re.match()无法指定这两个参数,参数flags用于编译pattern时指定匹配模式。
注意:这个方法并不是完全匹配。当pattern结束时若string还有剩余字符,仍然视为成功。想要完全匹配,可以在表达式末尾加上边界匹配符’$’。
search方法
pattern.search(string[, pos[, endpos]])
re.search(pattern, string[, flags]):
这个方法用于查找字符串中可以匹配成功的子串。从string的pos下标处起尝试匹配pattern,如果pattern结束时仍可匹配,则返回一个Match对象;若无法匹配,则将pos加1后重新尝试匹配;直到pos=endpos时仍无法匹配则返回None。
pos和endpos的默认值分别为0和len(string));re.search()无法指定这两个参数,参数flags用于编译pattern时指定匹配模式。
split方法
pattern.split(string[, maxsplit])
re.split(pattern, string[, maxsplit]):
按照能够匹配的子串将string分割后返回列表。maxsplit用于指定最大分割次数,不指定将全部分割。
findall方法
pattern.findall(string[, pos[, endpos]])
re.findall(pattern, string[, flags]):
搜索string,以列表形式返回全部能匹配的子串。
finditer方法
pattern.finditer(string[, pos[, endpos]])
re.finditer(pattern, string[, flags]):
搜索string,返回一个顺序访问每一个匹配结果(Match对象)的迭代器。
sub
pattern.sub(repl, string[, count])
re.sub(pattern, repl, string[, count])
使用repl替换string中每一个匹配的子串后返回替换后的字符串。
当repl是一个字符串时,可以使用\id或\g
当repl是一个方法时,这个方法应当只接受一个参数(Match对象),并返回一个字符串用于替换(返回的字符串中不能再引用分组)。
count用于指定最多替换次数,不指定时全部替换。
import re
p = re.compile(r'(\w+) (\w+)')
s = 'i say, hello world!'
print p.sub(r'\2 \1', s)
def func(m):
return m.group(1).title() + ' ' + m.group(2).title()
print p.sub(func, s)
### output ###
# say i, world hello!
# I Say, Hello World!
subn() 方法作用一样,但返回的是包含新字符串和替换执行次数的两元组。
原字符串
反斜杠
转义:\
作为转义字符,使后一个字符改变原来的意思
匹配文本中的字符\
,那么使用正则表达式需要使用\\\\
,前两个和后两个分别用来转义成一个反斜杠,最后两个反斜杠再在正则表达式中转义成一个反斜杠
raw
为正则表达式使用Python的raw字符串表示;在字符串前加个r
反斜杠就不会被任何特殊方式处理,所以r"\n"
就是包含"\"
和"n"
的两个字符,而"\n"
则是一个字符,表示一个换行。正则表达式通常在Python代码中都是用这种raw字符串表示
re.compile('python\n')
re.compile('python\\n')
re.compile(r'python\n')
第一条语句会将\n
转义成换行符
第二条语句\\
取消转义,匹配\n
第三条语句等同于第二条语句,r的意思是不用转义,匹配源字符串
正则表达式语法
匹配单个字符
. 匹配任意字符(除了\n)
[...] 匹配字符集:[abc]匹配abc中的字符;[a-zA-Z0-9]
\w / \W 匹配单词字符[a-zA-Z0-9]/非单词字符
\d / \D 匹配数字/非数字
\s / \S 匹配空白/非空白字符,它相当于类[ \t\n\r\f\v]
注意匹配中括号中间的任意字符re.compile(r'\[[/w]\]')
匹配多个字符
* 匹配前一个字符0次或者无限次
+ 匹配前一个字符1次或者无限次
? 匹配前一个字符0次或者1次
{m} / {m,n} 匹配前一个字符m次或者m到n次
*? / +? / ?? 匹配模式变为非贪婪(尽可能少匹配字符)
边界匹配
^ 匹配字符串开头
$ 匹配字符串结尾
\A / \Z 指定的字符串匹配出现在开头/结尾
匹配一个163邮箱re.compile(r'^[\w]{4,10}@163.com$')
分组匹配
| 左右匹配任意一个字符表达式
(ab) 括号表达式表示分组
\<number>引用编号为num的分组匹配到的字符串
?P<name> 给分组起别名
(?P=name)引用名字为name的字符串
匹配0-100,re.compile(r'[1-9]?\d$|100')
匹配163,126邮箱re.compile(r'[\w]{4/6}@(163|126).com')
TODO
正则表达式的特殊用法及实例
匹配私有IP网段地址
A类:10.0.0.0--10.255.255.255
^10(\.([2][0-4]\d|[2][5][0-5]|[01]?\d?\d)){3}$
B类:172.16.0.0--172.31.255.255
^172\.([1][6-9]|[2]\d|3[01])(\.([2][0-4]\d|[2][5][0-5]|[01]?\d?\d)){2}$
C类:192.168.0.0--192.168.255.255
^192\.168(\.([2][0-4]\d|[2][5][0-5]|[01]?\d?\d)){2}$
注意:防止改变IP地址进制绕过,IP地址也可以用8进制,10进制,16进制表示
参考
- imooc python 正则表达式
- 正则表达式指南