Python - - -爬虫学习总结

  

首先这次学习的是利用Python写脚本对网页信息的获取,并且把他保存到我们的数据库里最后形成一个Excel表格

  

下载第三方模块和源码安装MongoDB

  

刚开始我们需要做一些准备:
先安装第三方模块

  

 Python——爬虫学习总结

  

 Python——爬虫学习总结

  https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-3.2.5.tgz

  

 Python——爬虫学习总结

  <人力资源/>   

思路如下:

  

1。访问网站,拿网到html页

  

头获取:
 Python——爬虫学习总结

  

脚本1:

  

运行前打开mongod:

  
 <代码>。/mongod, 之前
  

 Python——爬虫学习总结

  

2。提取html里面我们想要的内容

  

脚本2:
 Python——爬虫学习总结

  

 Python——爬虫学习总结

  

跳远和视图图是根据他们可以定位到我们想获取的信息的标签上

  

这个脚本写完不需要运行,他的url是由第三个脚本导入的

  

3。把我们爬到的内容存到数据库中

  

脚本3:

  

 Python——爬虫学习总结

  

运行前都要检查MongoD是否运行,运行后可进入数据库去看我们存入的信息
在MongoDB的本下

  
 <代码>。/mongo
  
  使用田联
  
  db.athletes.find()  
  

4。转成Excel表格

  

脚本4:

  

 Python——爬虫学习总结

  

 Python——爬虫学习总结

  

5.请求、pymongo bs4的用法总结

  

请求是一个很实用的Python HTTP客户端库,编写爬虫和测试服务器响应数据时经常会用的到。可以说,请求完全满足如今网络的需求

  

1。作用:发送请求获取响应为什么使用requesst ?
1)请求底层实现的是urllib2)请求在python2和python3中通用,方法完全一样
3)请求简单易用python特(性)
4)请求能够帮助我们解压响应内容(自动解压完善请求头,自动获取饼干)

     <李>发送简单的就请求,获取响应响应=requests.get (url)      

pymongo是python操作mongodb的工具包

  

bs4概念:

  

bs4库是解析,遍历,维护,“标签树“的功能库
通俗一点说就是:bs4库把HTML源代码重新进行了格式化,
从而方便我们对其中的节点,标签,属性等进行操作
2. bs4的4中对象
①标签对象:是HTML中的一个标签,用BeautifulSoup就能解析出来标记的具体内容,具体
的格式为“soup.name”,其中名字是HTML下的标签。
②BeautifulSoup对象:整个HTML文本对象,可当作标记对象
③NavigableString对象:标签内的文本对象
④评论对象:是一个特殊的NavigableString对象,如果HTML标签内存在注释,那么它可以过滤掉注释符号保留注释文本
最常用的还是BeautifulSoup对象和标签对象

Python - - -爬虫学习总结