在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!
1。了解正则表达式
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符,及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
引用>正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正则表达式,我们想要从返回的页面内容提取出我们想要的内容就易如反掌了。
正则表达式的大致匹配过程是:
引用>
1。依次拿出表达式和文本中的字符比较,
2。如果每一个字符都能匹配,则匹配成功,一旦有匹配不成功的字符则匹配失败。
3。如果表达式中有量词或边界,这个过程会稍微有一些不同。
2。正则表达式的语法规则
下面是Python中正则表达式的一些匹配规则,图片资料来自CSDN
3。正则表达式相关注解
(1)数量词的贪婪模式与非贪婪模式
正则表达式通常用于在文本中查找匹配的字符串.Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;非贪婪的则相反,总是尝试匹配尽可能少的字符。例如:正则表达式“ab *”如果用于查找“abbbc”,将找到“abbb”。而如果使用非贪婪的数量词“ab * ?”,将找到“一个”。
注:我们一般使用非贪婪模式来提取。
(2)反斜杠问题
与大多数编程语言相同,正则表达式里使用“\”作为转义字符,这就可能造成反斜杠困扰。假如你需要匹配文本中的字符“\”,那么使用编程语言表示的正则表达式里将需要4个反斜杠”\ \ \ \”:前两个和后两个分别用于在编程语言里转义成反斜杠,转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。
Python里的原生字符串很好地解决了这个问题,这个例子中的正则表达式可以使用r”\ \“表示。同样,匹配一个数字的“\ \ d”可以写成r \ d”。有了原生字符串,妈妈也不用担心是不是漏写了反斜杠,写出来的表达式也更直观勒。
4。Python重新模块
Python自带了再保险模块,它提供了对正则表达式的支持。主要用到的方法列举如下
#返回模式对象 re.compile (string[标记]),, #以下为匹配所用函数 re.match(模式,字符串(,旗帜)) re.search(模式,字符串(,旗帜)) re.split(模式,string [, maxsplit]) re.findall(模式,字符串(,旗帜)) re.finditer(模式,字符串(,旗帜)) re.sub(模式,repl,字符串(,,)) re.subn(模式,repl,字符串(,,))
pattern =, re.compile (r 'hello”)
另外大家可能注意到了另一个参数旗帜,在这里解释一下这个参数的含义:
参数国旗是匹配模式,取值可以使用按位或运算符“|”表示同时生效,比如再保险。我| re.M .
可选值有:
,,re.I(全拼:IGNORECASE):,忽略大小写(括号内是完整写法,下同) re.M才能(全拼:多行):,多行模式,改变“^”和“美元”的行为(参见上图) re.S才能(全拼:DOTALL):,点任意匹配模式,改变‘。’的行为 re.L才能(全拼:语言环境):,使预定字符类,\ w \ w \ b \ b \ s \ s 取决于当前区域设定 re.U才能(全拼:UNICODE):,使预定字符类,\ w \ w \ b \ b \ s \ s \ d \ d 取决于UNICODE定义的字符属性 re.X才能(全拼:详细):,详细模式。这个模式下正则表达式可以是多行,忽略空白字符,并可以加入注释。注:以下七个方法中的旗帜同样是代表匹配模式的意思,如果在模式生成时已经指明了旗帜,那么在下面的方法中就不需要传入这个参数了。
引用>(1)再保险。(模式中,字符串匹配[、旗帜])
这个方法将会从字符串(我们要匹配的字符串)的开头开始,尝试匹配模式,一直向后匹配,如果遇到无法匹配的字符,立即返回没有,如果匹配未结束已经到达字符串的末尾,也会返回没有。两个结果均表示匹配失败,否则匹配模式成功,同时匹配终止,不再对弦向后匹配。下面我们通过一个例子理解一下
7正则表达式