Python通过请求实现腾讯新闻抓取爬虫的方法 - 行业资讯 - 肥雀云

最近也是学习了一些爬虫方面的知识。以我自己的理解,通常我们用浏览器查看网页时,是通过浏览器向服务器发送请求,然后服务器响应以后返回一些代码数据,再经过浏览器解析后呈现出来。而爬虫则是通过程序向服务器发送请求,并且将服务器返回的信息,通过一些处理后,就能得到我们想要的数据了。

<强>以下是前段时间我用python写的一个爬取TX新闻标题及其网址的一个简单爬虫:

首先需要用到python中请求(方便全面的http请求库)和BeautifulSoup (html解析库)。

通过pip来安装这两个库,命令分别是:pip安装请求和pip安装bs4(如下图)

先放上完整的代码

　　　　　　utf - 8编码: 　　进口的要求　　从bs4进口BeautifulSoup 　　　　url=" http://news.qq.com/" 　　#请求腾讯新闻的URL,获取其文本文本　　wbdata=https://www.yisu.com/zixun/requests.get (url)。text 　　#对获取到的文本进行解析　　汤=BeautifulSoup (wbdata lxml的) 　　#从解析文件中通过选择选择器定位指定的元素,返回一个列的表　　news_titles=soup.select (" div。文本在;em.f14祝辞a.linkto”) 　　　　#对返回的列表进行遍历　　在news_titles n: 　　title=n.get_text () 　　链接=n.get (“href”) 　　data=https://www.yisu.com/zixun/{”标题”:标题、　　的链接”:链接　　} 　　打印(数据) 　　　　

首先引入上述两个库

　　　　　　进口的要求　　从bs4进口BeautifulSoup 　　　　

然后得到请求腾讯新闻网网址,返回的字符串实质上就是我们手动打开这个网站,然后查看网页源代码所看到的html代码。

　　　　　　wbdata=https://www.yisu.com/zixun/requests.get (url)。text 　　　　

我们需要的仅仅是某些特定标签里的内容:

Python通过请求实现腾讯新闻抓取爬虫的方法