介绍
这篇文章主要介绍了Python爬虫中正则表达式的使用方法,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获。下面让小编带着大家一起了解一下。
<强>正则表达式强>
<强> 强>
<强>再保险模块的一般使用步骤如下:强>
使用编译()函数将正则表达式的字符串形式编译为一个模式对象。
通过模式对象提供的一系列方法对文本进行匹配查找,获得匹配结果,一个匹配对象。
最后使用匹配对象提供的属性和方法获得信息,根据需要进行其他的操作。
pattern =, re.compile (& # 39; \ d # 39;),,,, #将正则表达式编译成一个模式规则对象 pattern.match(),,,, #从起始位置开始往后查找,返回第一个符合规则的,只匹配一次 pattern.search(),,, #从任意位置开始往后查找,返回第一个符合规则的,只匹配一次 pattern.findall(),, #所有的全部匹配,返回列表 pattern.finditer(), #所有的全部匹配,返回的是一个迭代器 pattern.split(),,,, #分割字符串,返回列表 pattern.sub(),,,,,, #替换 re.I ,, #表示忽略大小写 re.S ,, #表示全文匹配
<强> 1.匹配()强>
import 再保险 时间=pattern re.compile (& # 39; \ d + & # 39;) 时间=m pattern.match (& # 39; aaa123bbb456& # 39;, 3、5),,, #可以指定匹配起始和结束的位置匹配(字符串,开始,结束) print m.group (),,,,, # 12 时间=m pattern.match (& # 39; aaa123bbb456& # 39;, 3, 6) print m.group (),,,,, # 123
import 再保险 #匹配两组,re.I忽略大小写 时间=pattern re.compile (r" ([a - z] +), ([a - z] +)“, re.I),, #第一组(字母)和第二组(字母)之间以空格分开 时间=m pattern.match (“Hello  world 以及Python") print m.group (0),,,,, # Hello world ,,,组(0)获取所有子串 print m.group (1),,,,, # Hello ,,,,,,,,,组(1)所有子串里面的第一个子串 print m.group (2),,,,, # world ,,,,,,,,,(2)组所有子串里面的第二个子串
<强> 2.搜索()强>
import 再保险 时间=pattern re.compile (" # 39; \ d + & # 39;) 时间=m pattern.search (& # 39; aaa123bbb456& # 39;) print m.group (),,, # 123 时间=m pattern.search (& # 39; aaa123bbb456& # 39;, 2、5) print m.group (),,,, # 12
<强> 3. findall() 强>
import 再保险 时间=pattern re.compile (" # 39; \ d + & # 39;) 时间=m pattern.findall (& # 39; hello 123456, 789 & # 39;),, # print m ,,, # [& # 39; 123456 & # 39;,, & # 39; 789 & # 39;】 时间=m pattern.findall (& # 39; hello 123456, 789 & # 39;, 5、10) print m ,,, # [& # 39; 1234 & # 39;]
<强> 4.分()强>
#,_ * _ 编码:utf-8 _ * _ import 再保险 pattern =, re.compile (" # 39; [\ s \ d \ \ \;] + & # 39;),,,, #以空格、数字,& # 39;\ & # 39;& # 39;;& # 39;做分割 时间=m pattern.split (" # 39; a  b22b \ cc; d33d ,, ee # 39;) print m ,,,,,,, #[& # 39;一个# 39;,,& # 39;b # 39;,, & # 39; b # 39;,, & # 39; cc # 39;,, & # 39; d # 39;,, & # 39; d # 39;,, & # 39; ee # 39;]
<强> 5.子()强>
#,_ * _ 编码:utf-8 _ * _ import 再保险 时间=pattern re.compile (" # 39; (\ w +), (\ w +) & # 39;) 时间=str & # 39; good 111年,job 222 & # 39; 时间=m pattern.sub (& # 39; hello python # 39;, str) print m ,,, # hello python, hello python m =, pattern.sub (r" & # 39; \ 1 & # 39;: & # 39; \ 2 & # 39;“, str) print m ,,, # & # 39;好# 39;:& # 39;111 & # 39;& # 39;工作# 39;:& # 39;222 & # 39;
#,_ * _ 编码:utf-8 _ * _ import 再保险 时间=pattern re.compile (" # 39; \ d + & # 39;) 时间=str & # 39; a1b22c33d4e5f678& # 39; 时间=m pattern.sub (& # 39; * & # 39;, str),,,, # * b * c * d * e * f *,,,把数字替换成& # 39;* & # 39; print m
<强>内涵段子实例