怎么在Python3使用正则表达式爬取数据 - 行业资讯 - 肥雀云

　　介绍

这篇文章给大家介绍怎么在Python3使用正则表达式爬取数据,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。

代码如下:

#, - *安康;编码:utf-8 - * - 　　得到urllib import request as urllib2 　　import 再保险　　#,利用正则表达式爬取内涵段子　　时间=url " # 39; http://www.neihanpa.com/article/list_5_ {} . html # 39; 　　headers =, { 　　& # 39;才能用户代理# 39;:& # 39;Mozilla/5.0, (Windows NT 10.0;, Win64;, x64;,房车:57.0),壁虎/20100101,Firefox/57.0 & # 39; 　　} 　　时间=file_name & # 39;内涵段子. txt # 39; 　　for page 拷贝范围(2): 　　#,2表示页数,可以自行调整　　时间=fullurl 才能;url.format (str(+ 1)页) 　　request 才能=,urllib2.Request (url=fullurl,标题=标题) 　　时间=response 才能;urllib2.urlopen(请求) 　　html 才能=,response.read () .decode (& # 39; gbk # 39;) 　　#,才能re.S 如果没有re.S 则是只匹配一行有没有符合规则的字符串,如果没有则下一行重新匹配　　#才能,如果加上re.S 则是将所有的字符串作为一个整体进行匹配　　pattern 才能=,re.compile (" # 39; & lt; div \ sclass=癴18 mb20"祝辞(. * ?)& lt;/div> & # 39;, re.S) 　　时间=duanzis 才能;pattern.findall (html) 　　for 才能;duanzi duanzis:拷贝　　,,,duanzi =, duanzi.replace (& # 39; & lt; p> & # 39;, & # 39; & # 39;) .replace (& # 39; & lt;/p> & # 39;, & # 39; & # 39;) .replace (& # 39; & lt; br /祝辞& # 39;,& # 39;\ n # 39;) .replace(& # 39;和“& # 39;,& # 39;& # 39;).replace (& # 39;,”# 39;, & # 39; & # 39;) .replace(& # 39;,白马王子& # 39;,& # 39;& # 39;) 　　,,,试一试: 　　,,,,,#,将爬取的段子写入文件　　,,,,,file =,开放(file_name & # 39;一个# 39;,编码=& # 39;utf - 8 # 39;) 　　,,,,,file.write (& # 39; \ n # 39; . join (duanzi.split ())) 　　,,,,,file.close () 　　,,,except OSError as e: 　　,,,,,印刷(e)

关于怎么在Python3使用正则表达式爬取数据就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看的到。