python实现网络爬虫的案例 - 行业资讯 - 肥雀云

　　介绍

小编给大家分享一下python实现网络爬虫的案例,希望大家阅读完这篇文章后大所收获、下面让我们一起去探讨吧!

python实现网络爬虫的方法:1、使用请求库中的得到方法,请求url的网页内容;2、【找到()】和【find_all()】方法可以遍历这个html文件,提取指定信息。

<强> python实现网络爬虫的方法:

<强>第一步:爬取

使用请求库中的得到方法,请求url的网页内容

编写代码
[root@localhost演示]# demo.py联系　　[root@localhost演示]# vim演示。py
[root@localhost演示]# python3演示。py

<强>第二步:分析

使用bs4库中BeautifulSoup类,生成一个对象;()和find_all()方法可以遍历这个html文件,提取指定信息。

编写代码
[root@localhost演示]# demo1.py联系　　# vim demo1.py root@localhost演示　　# web爬虫学习,分析　　#获取页面信息　　　　#输入:url 　　#处理:请求库获取页面信息,并从爬取到的内容中提取关键信息　　#输出:打印输出提取到的关键信息　　　　进口的要求　　从bs4进口BeautifulSoup 　　进口再保险　　　　def getHTMLText (url): 　　试一试: 　　r=请求。得到(url,超时=30) 　　r.raise_for_status() #如果状态码不是200年,产生异常　　r。=& # 39;编码utf - 8 # 39;#字符编码格式改成utf - 8 　　返回r.text 　　除了: 　　#异常处理　　返回“;错误”; 　　　　def findHTMLText(文本): 　　汤=BeautifulSoup(文本、“html.parser")#返回BeautifulSoup对象　　返回soup.find_all(字符串=re.compile(& # 39;百度& # 39;))#结合正则表达式,实现字符串片段匹配　　　　url=癶ttp://www.baidu.com" 　　html文本=getHTMLText (url) #获取文本内容　　res=findHTMLText(文本)#匹配结果　　　　打印(res) #打印输出 [root@localhost演示]# python3 demo1。py

看完了这篇文章,相信你对python实现网络爬虫的案例有了一定的了解,想了解更多相关知识,欢迎关注行业资讯频道,感谢各位的阅读!
python实现网络爬虫的案例