Python爬虫中正则表达式的使用方法

  介绍

这篇文章主要介绍了Python爬虫中正则表达式的使用方法,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获。下面让小编带着大家一起了解一下。

<强>正则表达式

<强>  Python爬虫中正则表达式的使用方法

<强>再保险模块的一般使用步骤如下:

使用编译()函数将正则表达式的字符串形式编译为一个模式对象。

通过模式对象提供的一系列方法对文本进行匹配查找,获得匹配结果,一个匹配对象。

最后使用匹配对象提供的属性和方法获得信息,根据需要进行其他的操作。

pattern =, re.compile (& # 39; \ d # 39;),,,, #将正则表达式编译成一个模式规则对象   pattern.match(),,,, #从起始位置开始往后查找,返回第一个符合规则的,只匹配一次   pattern.search(),,, #从任意位置开始往后查找,返回第一个符合规则的,只匹配一次   pattern.findall(),, #所有的全部匹配,返回列表   pattern.finditer(), #所有的全部匹配,返回的是一个迭代器   pattern.split(),,,, #分割字符串,返回列表   pattern.sub(),,,,,, #替换   re.I ,, #表示忽略大小写   re.S ,, #表示全文匹配

<强> 1.匹配()

import 再保险   时间=pattern  re.compile (& # 39; \ d + & # 39;)   时间=m  pattern.match (& # 39; aaa123bbb456& # 39;, 3、5),,, #可以指定匹配起始和结束的位置匹配(字符串,开始,结束)   print  m.group (),,,,, # 12   时间=m  pattern.match (& # 39; aaa123bbb456& # 39;, 3, 6)   print  m.group (),,,,, # 123 import 再保险   #匹配两组,re.I忽略大小写   时间=pattern  re.compile (r" ([a - z] +), ([a - z] +)“, re.I),, #第一组(字母)和第二组(字母)之间以空格分开   时间=m  pattern.match (“Hello  world 以及Python")   print  m.group (0),,,,, # Hello  world ,,,组(0)获取所有子串   print  m.group (1),,,,, # Hello ,,,,,,,,,组(1)所有子串里面的第一个子串   print  m.group (2),,,,, # world ,,,,,,,,,(2)组所有子串里面的第二个子串

<强> 2.搜索()

import 再保险   时间=pattern  re.compile (" # 39; \ d + & # 39;)   时间=m  pattern.search (& # 39; aaa123bbb456& # 39;)   print  m.group (),,, # 123   时间=m  pattern.search (& # 39; aaa123bbb456& # 39;, 2、5)   print  m.group (),,,, # 12

<强> 3. findall()

import 再保险   时间=pattern  re.compile (" # 39; \ d + & # 39;)   时间=m  pattern.findall (& # 39; hello  123456, 789 & # 39;),, #   print  m ,,, # [& # 39; 123456 & # 39;,, & # 39; 789 & # 39;】   时间=m  pattern.findall (& # 39; hello  123456, 789 & # 39;, 5、10)   print  m ,,, # [& # 39; 1234 & # 39;]

<强> 4.分()

#,_ * _ 编码:utf-8  _ * _   import 再保险   pattern =, re.compile (" # 39; [\ s \ d \ \ \;] + & # 39;),,,, #以空格、数字,& # 39;\ & # 39;& # 39;;& # 39;做分割   时间=m  pattern.split (" # 39; a  b22b \ cc; d33d ,, ee # 39;)   print  m ,,,,,,, #[& # 39;一个# 39;,,& # 39;b # 39;,, & # 39; b # 39;,, & # 39; cc # 39;,, & # 39; d # 39;,, & # 39; d # 39;,, & # 39; ee # 39;]

<强> 5.子()

#,_ * _ 编码:utf-8  _ * _   import 再保险   时间=pattern  re.compile (" # 39; (\ w +), (\ w +) & # 39;)   时间=str  & # 39; good  111年,job  222 & # 39;   时间=m  pattern.sub (& # 39; hello  python # 39;, str)   print  m ,,, # hello  python, hello  python   m =, pattern.sub (r" & # 39; \ 1 & # 39;: & # 39; \ 2 & # 39;“, str)   print  m ,,, # & # 39;好# 39;:& # 39;111 & # 39;& # 39;工作# 39;:& # 39;222 & # 39; #,_ * _ 编码:utf-8  _ * _   import 再保险   时间=pattern  re.compile (" # 39; \ d + & # 39;)   时间=str  & # 39; a1b22c33d4e5f678& # 39;   时间=m  pattern.sub (& # 39; * & # 39;, str),,,, # * b * c * d * e * f *,,,把数字替换成& # 39;* & # 39;   print  m

<强>内涵段子实例

Python爬虫中正则表达式的使用方法