python的版本经过了python2.x和python3.x等版本,无论哪种版本,关于python爬虫相关的知识是融会贯通的,关于爬虫这个方便整理过很多有价值的教程,小编通过本文章给大家做一个关于python爬虫相关知识的总结,以下就是全部内容:
1。什么是爬虫
网络爬虫,即网络蜘蛛,是一个很形象的名字。把互联网比喻成一个蜘蛛的网,那么蜘蛛就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。这样看来,网络爬虫就是一个爬行程序,一个抓取网页的程序。网络爬虫的基本操作是抓取网页。
2。浏览网页的过程
在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如http://image.baidu.com/,我们会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器HTML、javascript、CSS等文件,浏览器解析出来,用户便可以看到形形色色的图片了。
因此,用户看到的网页实质是由HTML代码构成的,爬虫爬来的便是这些内容,通过分析和过滤这些HTML代码,实现对图片,文字等资源的获取。
3。URL的含义
URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
URL的格式由三部分组成:
①第一部分是协议(或称为服务方式)。
②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
③第三部分是主机资源的具体地址,如目录和文件名等。
爬虫爬取数据时必须要有一个目标的URL才可以获取数据,因此,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大帮助。
4。环境的配置
学习Python,当然少不了环境的配置,最初我用的是记事本+ +,不过发现它的提示功能实在是太弱了,于是,在Windows下我用了PyCharm,在Linux下我用了EclipseforPython,另外还有几款比较优秀的IDE,大家可以参考这篇文章学习Python推荐的IDE。好的开发工具是前进的推进器,希望大家可以找到适合自己的IDE
分享一下关于Python环境搭建教程大家可以参考:
windows系统下Python环境搭建教程
Python-3.5.2开发环境搭建
简单易懂的python环境安装教程
Win10下Python环境搭建与配置教程
Win7下搭建python开发环境图文教程(安装python,皮普,解释器)
Linux搭建python环境详解
详解linux下安装python3环境
Linux中Python环境软件包安装步骤
Linux安装Python虚拟环境virtualenv的方法
linux环境下的python安装过程图解(含setuptools)
Urllib是python内置的HTTP请求库,包括以下模块Urllib。请求请求模块,urllib。urllib错误异常处理模块。urllib url解析解析模块。robotparser robots . txt解析模块,为大家整理了关于Urllib库的一些教程:
Python的Urllib库的基本使用教程
介绍Python的Urllib库的一些高级用法
Python爬虫中urllib库的进阶学习
Python3学习urllib的使用方法示例
这个是学习python爬虫的第三个大知识点、下面详细的相关教程:
处理的URLError异常的方法
Python爬虫之超链接url中含有中文出错及解决办法
饼干模块,顾名思义,就是用来操作饼的模块.Cookie这块小蛋糕,玩过网络的人都知道,它是服务器与客户端保持会话时用到的信息切片。Http协议本身是无状态的,也就是说,同一个客户端发送的两次请求,对于Web服务器来说,没有直接的关系,既然这样,有人会问,既然Http是无状态的,为什么有些网页,只有输入了用户名与密码通过验证之后才可以访问?那是因为:对于通过身份验证的用户,服务器会偷偷的在发往客户的数据中添加饼干,饼干中一般保存一个标识该客户机的唯一的ID、客户在接下来对服务器的请求中,会将该ID以饼干的形式一并发往服务器,服务器从回传回来的饼干中提取ID并与相应的用户绑定起来,从而实现身份验证。说白了,饼干就是一个在服务器与客户端之间相互传递的字符串。以下是为大家整理关于python爬虫学习中对饼干的处理教程: