7正则表达式

  

在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!

1。了解正则表达式

正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符,及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。

正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正则表达式,我们想要从返回的页面内容提取出我们想要的内容就易如反掌了。

正则表达式的大致匹配过程是:
1。依次拿出表达式和文本中的字符比较,
2。如果每一个字符都能匹配,则匹配成功,一旦有匹配不成功的字符则匹配失败。
3。如果表达式中有量词或边界,这个过程会稍微有一些不同。


2。正则表达式的语法规则

下面是Python中正则表达式的一些匹配规则,图片资料来自CSDN

?正则表达式"


3。正则表达式相关注解

(1)数量词的贪婪模式与非贪婪模式

正则表达式通常用于在文本中查找匹配的字符串.Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;非贪婪的则相反,总是尝试匹配尽可能少的字符。例如:正则表达式“ab *”如果用于查找“abbbc”,将找到“abbb”。而如果使用非贪婪的数量词“ab * ?”,将找到“一个”。

注:我们一般使用非贪婪模式来提取。

(2)反斜杠问题

与大多数编程语言相同,正则表达式里使用“\”作为转义字符,这就可能造成反斜杠困扰。假如你需要匹配文本中的字符“\”,那么使用编程语言表示的正则表达式里将需要4个反斜杠”\ \ \ \”:前两个和后两个分别用于在编程语言里转义成反斜杠,转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。

Python里的原生字符串很好地解决了这个问题,这个例子中的正则表达式可以使用r”\ \“表示。同样,匹配一个数字的“\ \ d”可以写成r \ d”。有了原生字符串,妈妈也不用担心是不是漏写了反斜杠,写出来的表达式也更直观勒。

4。Python重新模块

Python自带了再保险模块,它提供了对正则表达式的支持。主要用到的方法列举如下

#返回模式对象   re.compile (string[标记]),,   #以下为匹配所用函数   re.match(模式,字符串(,旗帜))   re.search(模式,字符串(,旗帜))   re.split(模式,string [, maxsplit])   re.findall(模式,字符串(,旗帜))   re.finditer(模式,字符串(,旗帜))   re.sub(模式,repl,字符串(,,))   re.subn(模式,repl,字符串(,,))

pattern =, re.compile (r 'hello”)


另外大家可能注意到了另一个参数旗帜,在这里解释一下这个参数的含义:

参数国旗是匹配模式,取值可以使用按位或运算符“|”表示同时生效,比如再保险。我| re.M .

可选值有:

,,re.I(全拼:IGNORECASE):,忽略大小写(括号内是完整写法,下同)   re.M才能(全拼:多行):,多行模式,改变“^”和“美元”的行为(参见上图)   re.S才能(全拼:DOTALL):,点任意匹配模式,改变‘。’的行为   re.L才能(全拼:语言环境):,使预定字符类,\ w  \ w  \ b  \ b  \ s  \ s 取决于当前区域设定   re.U才能(全拼:UNICODE):,使预定字符类,\ w  \ w  \ b  \ b  \ s  \ s  \ d  \ d 取决于UNICODE定义的字符属性   re.X才能(全拼:详细):,详细模式。这个模式下正则表达式可以是多行,忽略空白字符,并可以加入注释。

注:以下七个方法中的旗帜同样是代表匹配模式的意思,如果在模式生成时已经指明了旗帜,那么在下面的方法中就不需要传入这个参数了。

(1)再保险。(模式中,字符串匹配[、旗帜])

这个方法将会从字符串(我们要匹配的字符串)的开头开始,尝试匹配模式,一直向后匹配,如果遇到无法匹配的字符,立即返回没有,如果匹配未结束已经到达字符串的末尾,也会返回没有。两个结果均表示匹配失败,否则匹配模式成功,同时匹配终止,不再对弦向后匹配。下面我们通过一个例子理解一下

7正则表达式