Python爬虫中正则表达式的使用方法 - 行业资讯 - 肥雀云

　　介绍

这篇文章主要介绍了Python爬虫中正则表达式的使用方法,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获。下面让小编带着大家一起了解一下。

<强>正则表达式

<强>

<强>再保险模块的一般使用步骤如下:

使用编译()函数将正则表达式的字符串形式编译为一个模式对象。

通过模式对象提供的一系列方法对文本进行匹配查找,获得匹配结果,一个匹配对象。

最后使用匹配对象提供的属性和方法获得信息,根据需要进行其他的操作。

pattern =, re.compile (& # 39; \ d # 39;),,,, #将正则表达式编译成一个模式规则对象　　pattern.match(),,,, #从起始位置开始往后查找,返回第一个符合规则的,只匹配一次　　pattern.search(),,, #从任意位置开始往后查找,返回第一个符合规则的,只匹配一次　　pattern.findall(),, #所有的全部匹配,返回列表　　pattern.finditer(), #所有的全部匹配,返回的是一个迭代器　　pattern.split(),,,, #分割字符串,返回列表　　pattern.sub(),,,,,, #替换　　re.I ,, #表示忽略大小写　　re.S ,, #表示全文匹配

<强> 1.匹配()

import 再保险　　时间=pattern re.compile (& # 39; \ d + & # 39;) 　　时间=m pattern.match (& # 39; aaa123bbb456& # 39;, 3、5),,, #可以指定匹配起始和结束的位置匹配(字符串,开始,结束) 　　print m.group (),,,,, # 12 　　时间=m pattern.match (& # 39; aaa123bbb456& # 39;, 3, 6) 　　print m.group (),,,,, # 123 import 再保险　　#匹配两组,re.I忽略大小写　　时间=pattern re.compile (r" ([a - z] +), ([a - z] +)“, re.I),, #第一组(字母)和第二组(字母)之间以空格分开　　时间=m pattern.match (“Hello world 以及Python") 　　print m.group (0),,,,, # Hello world ,,,组(0)获取所有子串　　print m.group (1),,,,, # Hello ,,,,,,,,,组(1)所有子串里面的第一个子串　　print m.group (2),,,,, # world ,,,,,,,,,(2)组所有子串里面的第二个子串

<强> 2.搜索()

import 再保险　　时间=pattern re.compile (" # 39; \ d + & # 39;) 　　时间=m pattern.search (& # 39; aaa123bbb456& # 39;) 　　print m.group (),,, # 123 　　时间=m pattern.search (& # 39; aaa123bbb456& # 39;, 2、5) 　　print m.group (),,,, # 12

<强> 3. findall()

import 再保险　　时间=pattern re.compile (" # 39; \ d + & # 39;) 　　时间=m pattern.findall (& # 39; hello 123456, 789 & # 39;),, # 　　print m ,,, # [& # 39; 123456 & # 39;,, & # 39; 789 & # 39;】　　时间=m pattern.findall (& # 39; hello 123456, 789 & # 39;, 5、10) 　　print m ,,, # [& # 39; 1234 & # 39;]

<强> 4.分()

#,_ * _ 编码:utf-8 _ * _ 　　import 再保险　　pattern =, re.compile (" # 39; [\ s \ d \ \ \;] + & # 39;),,,, #以空格、数字,& # 39;\ & # 39;& # 39;;& # 39;做分割　　时间=m pattern.split (" # 39; a b22b \ cc; d33d ,, ee # 39;) 　　print m ,,,,,,, #[& # 39;一个# 39;,,& # 39;b # 39;,, & # 39; b # 39;,, & # 39; cc # 39;,, & # 39; d # 39;,, & # 39; d # 39;,, & # 39; ee # 39;]

<强> 5.子()

#,_ * _ 编码:utf-8 _ * _ 　　import 再保险　　时间=pattern re.compile (" # 39; (\ w +), (\ w +) & # 39;) 　　时间=str & # 39; good 111年,job 222 & # 39; 　　时间=m pattern.sub (& # 39; hello python # 39;, str) 　　print m ,,, # hello python, hello python 　　m =, pattern.sub (r" & # 39; \ 1 & # 39;: & # 39; \ 2 & # 39;“, str) 　　print m ,,, # & # 39;好# 39;:& # 39;111 & # 39;& # 39;工作# 39;:& # 39;222 & # 39; #,_ * _ 编码:utf-8 _ * _ 　　import 再保险　　时间=pattern re.compile (" # 39; \ d + & # 39;) 　　时间=str & # 39; a1b22c33d4e5f678& # 39; 　　时间=m pattern.sub (& # 39; * & # 39;, str),,,, # * b * c * d * e * f *,,,把数字替换成& # 39;* & # 39; 　　print m

<强>内涵段子实例