本文实例讲述了Python基于BeautifulSoup和请求实现的爬虫功能。分享给大家供大家参考,具体如下:
爬取的目标网页:
这是一个招投标网站,我们使用python脚本爬取红框中的信息,包括链接网址,链接名称,时间等三项内容。
使用到的Python库:BeautifulSoup,请求
代码如下:
# - * -编码:utf - 8 - * 进口的要求 从bs4进口BeautifulSoup url=' http://www.qianlima.com/zb/area_305/' user_agent=' Mozilla/5.0 (Windows NT 6.1;AppleWebKit WOW64)/537.36 (KHTML,像壁虎)Chrome/45.0.2454.101 Safari/537.36” 头={“用户代理”:user_agent} r=requests.get (url,头=头)#连接 内容=r.text #获取内容,自动转码unicode 汤=BeautifulSoup(内容、“lxml”) tags1=汤。选择(“div .shixian_zhaobiao”) 标签1=tags1 [0] 标签2=标签1。找到(name=癲l”) tags2=标签2。find_all (name=' a ') tags3=标签2。find_all (name=艿堋? 在tags2标签: 打印tag.get (“href”) 打印tag.string 打印tag.next_element.next_element.string >之前运行结果如下
更多关于Python相关内容可查看本站专题:《Python套接字编程技巧总结》,《巨蟒正则表达式用法总结》,《Python数据结构与算法教程》、《Python函数使用技巧总结》,《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》
希望本文所述对大家Python程序设计有所帮助。
Python基于BeautifulSoup和请求实现的爬虫功能示例