介绍
这篇文章给大家介绍怎么在Python3使用正则表达式爬取数据,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。
代码如下:
#, - *安康;编码:utf-8 - * - 得到urllib import  request as  urllib2 import 再保险 #,利用正则表达式爬取内涵段子 时间=url " # 39; http://www.neihanpa.com/article/list_5_ {} . html # 39; headers =, { & # 39;才能用户代理# 39;:& # 39;Mozilla/5.0, (Windows NT 10.0;, Win64;, x64;,房车:57.0),壁虎/20100101,Firefox/57.0 & # 39; } 时间=file_name & # 39;内涵段子. txt # 39; for page 拷贝范围(2): #,2表示页数,可以自行调整 时间=fullurl 才能;url.format (str(+ 1)页) request 才能=,urllib2.Request (url=fullurl,标题=标题) 时间=response 才能;urllib2.urlopen(请求) html 才能=,response.read () .decode (& # 39; gbk # 39;) #,才能re.S 如果没有re.S 则是只匹配一行有没有符合规则的字符串,如果没有则下一行重新匹配 #才能,如果加上re.S 则是将所有的字符串作为一个整体进行匹配 pattern 才能=,re.compile (" # 39; & lt; div \ sclass=癴18 mb20"祝辞(. * ?)& lt;/div> & # 39;, re.S) 时间=duanzis 才能;pattern.findall (html) for 才能;duanzi  duanzis:拷贝 ,,,duanzi =, duanzi.replace (& # 39; & lt; p> & # 39;, & # 39; & # 39;) .replace (& # 39; & lt;/p> & # 39;, & # 39; & # 39;) .replace (& # 39; & lt; br /祝辞& # 39;,& # 39;\ n # 39;) .replace(& # 39;和“& # 39;,& # 39;& # 39;).replace (& # 39;,”# 39;, & # 39; & # 39;) .replace(& # 39;,白马王子& # 39;,& # 39;& # 39;) ,,,试一试: ,,,,,#,将爬取的段子写入文件 ,,,,,file =,开放(file_name & # 39;一个# 39;,编码=& # 39;utf - 8 # 39;) ,,,,,file.write (& # 39; \ n # 39; . join (duanzi.split ())) ,,,,,file.close () ,,,except OSError as e: ,,,,,印刷(e)
关于怎么在Python3使用正则表达式爬取数据就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看的到。