介绍
小编给大家分享一下python实现网络爬虫的案例,希望大家阅读完这篇文章后大所收获、下面让我们一起去探讨吧!
python实现网络爬虫的方法:1、使用请求库中的得到方法,请求url的网页内容;2、【找到()】和【find_all()】方法可以遍历这个html文件,提取指定信息。
引用><强> python实现网络爬虫的方法:强>
<强>第一步:爬取强>
使用请求库中的得到方法,请求url的网页内容
编写代码
[root@localhost演示]# demo.py联系 [root@localhost演示]# vim演示。py[root@localhost演示]# python3演示。py
![]()
<强>第二步:分析强>
使用bs4库中BeautifulSoup类,生成一个对象;()和find_all()方法可以遍历这个html文件,提取指定信息。
编写代码
[root@localhost演示]# demo1.py联系 # vim demo1.py root@localhost演示 # web爬虫学习,分析 #获取页面信息 #输入:url #处理:请求库获取页面信息,并从爬取到的内容中提取关键信息 #输出:打印输出提取到的关键信息 进口的要求 从bs4进口BeautifulSoup 进口再保险 def getHTMLText (url): 试一试: r=请求。得到(url,超时=30) r.raise_for_status() #如果状态码不是200年,产生异常 r。=& # 39;编码utf - 8 # 39;#字符编码格式改成utf - 8 返回r.text 除了: #异常处理 返回“;错误”; def findHTMLText(文本): 汤=BeautifulSoup(文本、“html.parser")#返回BeautifulSoup对象 返回soup.find_all(字符串=re.compile(& # 39;百度& # 39;))#结合正则表达式,实现字符串片段匹配 url=癶ttp://www.baidu.com" html文本=getHTMLText (url) #获取文本内容 res=findHTMLText(文本)#匹配结果 打印(res) #打印输出[root@localhost演示]# python3 demo1。py
![]()
看完了这篇文章,相信你对python实现网络爬虫的案例有了一定的了解,想了解更多相关知识,欢迎关注行业资讯频道,感谢各位的阅读!
python实现网络爬虫的案例