编程语言

python中的正则表达式使用

 Python的正则表达式模块
import re

Pattern对象(正则表达式对象)
p=re.compile(\'[a-z]+\')   表示的是有小写英文字母组成的字符串,长度大于0
方法:
findall(str)
finditer(str)
match(str)
scanner
search
split
sub
subn


正则表达式

元字符:

.  匹配除换行符以外的任意字符
\w  匹配字母或数字或下划线或汉字
\s  匹配任意的空白符
\d  匹配数字
\b  匹配单词的开始或结束
^   匹配字符串的开始
$   匹配字符串的结束

重复
*     重复零次或更多次
    重复一次或更多次
    重复零次或一次
{n}   重复n次
{n,}  重复n次或更多次
{n,m} 重复n到m次

字符类
当元字符不能满足要求的时候,自己定义字符类来实现
[aeiou]       就匹配任何一个英文元音字母
[0-9]         代表的含意与\d就是完全一致的
[a-z0-9A-Z_]  也完全等同于\w(如果只考虑英文的话)

分支条件
正则表达式里的分枝条件指的是有几种规则,如果满足其中任意一种规则都应该当成匹配,具体方法是用|把不同的规则分隔开
使用分枝条件时,要注意各个条件的顺序,原因是匹配分枝条件时,将会从左到右地测试每个条件,如果满足了某个分枝的话,就不会去再管其它的条件了。
\d{5}-\d{4}|\d{5}这个表达式用于匹配美国的邮政编码

分组
你可以用小括号来指定子表达式(也叫做分组)
重复多个字符时候使用
(\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式

反义
有时需要查找不属于某个能简单定义的字符类的字符。比如想查找除了数字以外,其它任意字符都行的情况,这时需要用到反义
\W       匹配任意不是字母,数字,下划线,汉字的字符
\S       匹配任意不是空白符的字符
\D       匹配任意非数字的字符
\B       匹配不是单词开头或结束的位置
[^x]     匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou这几个字母以外的任意字符

贪婪与懒惰
当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符
懒惰符号是?, 加在重复的符号limian
*?       重复任意次,但尽可能少重复
+?       重复1次或更多次,但尽可能少重复
??       重复0次或1次,但尽可能少重复
{n,m}?   重复n到m次,但尽可能少重复
{n,}?    重复n次以上,但尽可能少重复


文章来自上海聚炎软件科技有限公司www.web5s.com请保留出处!
上海聚炎业务范围综合网站建设、网站推广、虚拟主机、域名注册、企业软件开发等。
联系方式: eplussoft@gmail.com   021-66380361   13482043258
在线客服
x
销售部
客服部
MSN
TEL 66380361