怎么在Python3使用正则表达式爬取数据

  介绍

这篇文章给大家介绍怎么在Python3使用正则表达式爬取数据,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。

代码如下:

#, - *安康;编码:utf-8  - * -   得到urllib  import  request  as  urllib2   import 再保险   #,利用正则表达式爬取内涵段子   时间=url  " # 39; http://www.neihanpa.com/article/list_5_ {} . html # 39;   headers =, {   & # 39;才能用户代理# 39;:& # 39;Mozilla/5.0, (Windows  NT  10.0;, Win64;, x64;,房车:57.0),壁虎/20100101,Firefox/57.0 & # 39;   }   时间=file_name  & # 39;内涵段子. txt # 39;   for  page 拷贝范围(2):   #,2表示页数,可以自行调整   时间=fullurl 才能;url.format (str(+ 1)页)   request 才能=,urllib2.Request (url=fullurl,标题=标题)   时间=response 才能;urllib2.urlopen(请求)   html 才能=,response.read () .decode (& # 39; gbk # 39;)   #,才能re.S 如果没有re.S 则是只匹配一行有没有符合规则的字符串,如果没有则下一行重新匹配   #才能,如果加上re.S 则是将所有的字符串作为一个整体进行匹配   pattern 才能=,re.compile (" # 39; & lt; div \ sclass=癴18  mb20"祝辞(. * ?)& lt;/div> & # 39;, re.S)   时间=duanzis 才能;pattern.findall (html)   for 才能;duanzi  duanzis:拷贝   ,,,duanzi =, duanzi.replace (& # 39; & lt; p> & # 39;, & # 39; & # 39;) .replace (& # 39; & lt;/p> & # 39;, & # 39; & # 39;) .replace (& # 39; & lt; br /祝辞& # 39;,& # 39;\ n # 39;) .replace(& # 39;和“& # 39;,& # 39;& # 39;).replace (& # 39;,”# 39;, & # 39; & # 39;) .replace(& # 39;,白马王子& # 39;,& # 39;& # 39;)   ,,,试一试:   ,,,,,#,将爬取的段子写入文件   ,,,,,file =,开放(file_name & # 39;一个# 39;,编码=& # 39;utf - 8 # 39;)   ,,,,,file.write (& # 39; \ n # 39; . join (duanzi.split ()))   ,,,,,file.close ()   ,,,except  OSError  as  e:   ,,,,,印刷(e)

关于怎么在Python3使用正则表达式爬取数据就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看的到。

怎么在Python3使用正则表达式爬取数据