python实现网络爬虫的案例

  介绍

小编给大家分享一下python实现网络爬虫的案例,希望大家阅读完这篇文章后大所收获、下面让我们一起去探讨吧!

python实现网络爬虫的方法:1、使用请求库中的得到方法,请求url的网页内容;2、【找到()】和【find_all()】方法可以遍历这个html文件,提取指定信息。

<强> python实现网络爬虫的方法:

<强>第一步:爬取

使用请求库中的得到方法,请求url的网页内容

编写代码

[root@localhost演示]# demo.py联系   [root@localhost演示]# vim演示。py
  [root@localhost演示]# python3演示。py 

 python实现网络爬虫的案例

<强>第二步:分析

使用bs4库中BeautifulSoup类,生成一个对象;()和find_all()方法可以遍历这个html文件,提取指定信息。

编写代码

[root@localhost演示]# demo1.py联系   # vim demo1.py root@localhost演示   # web爬虫学习,分析   #获取页面信息      #输入:url   #处理:请求库获取页面信息,并从爬取到的内容中提取关键信息   #输出:打印输出提取到的关键信息      进口的要求   从bs4进口BeautifulSoup   进口再保险      def getHTMLText (url):   试一试:   r=请求。得到(url,超时=30)   r.raise_for_status() #如果状态码不是200年,产生异常   r。=& # 39;编码utf - 8 # 39;#字符编码格式改成utf - 8   返回r.text   除了:   #异常处理   返回“;错误”;      def findHTMLText(文本):   汤=BeautifulSoup(文本、“html.parser")#返回BeautifulSoup对象   返回soup.find_all(字符串=re.compile(& # 39;百度& # 39;))#结合正则表达式,实现字符串片段匹配      url=癶ttp://www.baidu.com"   html文本=getHTMLText (url) #获取文本内容   res=findHTMLText(文本)#匹配结果      打印(res) #打印输出 [root@localhost演示]# python3 demo1。py

 python实现网络爬虫的案例

看完了这篇文章,相信你对python实现网络爬虫的案例有了一定的了解,想了解更多相关知识,欢迎关注行业资讯频道,感谢各位的阅读!

python实现网络爬虫的案例