Python爬虫指的是什么 - 行业资讯 - 肥雀云_南京肥雀信息技术有限公司

小编给大家分享一下Python爬虫指的是什么，相信大部分人都还不怎么了解，因此分享这篇文章给大家学习，希望大家阅读完这篇文章后大所收获，下面让我们一起去学习方法吧！

什么是爬虫，讲点通俗易懂的，爬虫就是爬取网页，从中按照一定规则提取信息，重复以上过程自动化重复完成的程序。

爬虫的核心

一只爬虫，第一件事情就是要爬取网页，这里主要是指获取网页的源代码。在网页的源代码里，会含有我们所需要的信息，而我们要做的事情就是从源代码中将这些信息提取出来。

我们请求网页的时候， Python 为我们提供了很多库来做这件事情，比如官方提供的 urllib ，以及第三方提供的 requests 、 Aiohttp 等。

我们可以使用这些库来发送 HTTP 请求，获取响应的数据，得到响应之后，我们只需要解析其中 body 部分的数据，就可以获得网页的源代码。

获取到源代码以后，我们接下来的工作就是解析源代码，从中提取出我们需要的数据。

提取数据最基础也是最常用的是使用正则表达式的方式的，但是这种方式比较复杂，也比较容易出错，不过不得不说，一个正则表达式写的非常厉害的人，完全用不着下面的这些解析类库，这是一个万能的方法。

悄悄的说一句，小编的正则表达式写的也不好，才会使用到这些由第三方提供的类库。

用于提取数据的类库有 Beautiful Soup 、 pyquery 、 lxml 等等。使用这些库，我们可以高效快速地从 HTML 中提取网页信息，如节点的属性、文本值等。

从源代码中提取到数据以后，我们会对数据进行保存，这里的保存形式多种多样，可以直接保存成 txt 、 json 、 Excel 文件等等，也可以保存至数据库，如 Mysql 、 Oracle 、 SQLServer 、 MongoDB 等等。

抓取的数据格式

一般而言，我们抓取到的都是 HTML 的网页源代码，这个是我们看得到的、常规的、直观的网页信息。

但是有些信息，并不是直接和 HTML 一起返回至网页的，会存在各种各样的 API 接口，这种接口返回的数据现在大多数是 JSON 的格式，也有一些会返回 XML 的数据格式，还会有一些个别的奇葩的接口直接返回程序猿自定义的字符串。这种 API 数据接口就需要具体问题具体分析了。

还有一些信息，比如各大图片站、视频站（如抖音、 B站），我们想要爬取的信息是图片或者视频，这些信息是已二进制的形式存在的，我们需要将这些二进制的数据爬取下来再进行转储。

此外，我们还能抓取到一些资源文件，如 CSS 、 JavaScript 等脚本资源，有的还会有一些 woff 等字体信息。这些信息是一个网页组成不可或缺的元素，只要浏览器能访问到的，我们都可以将其爬取下来。

现代前端页面爬取

很多时候，我们使用 HTTP 请求库爬取网页源代码时，爬取到的信息和我们在网页上看到的信息完全不一样，只有短短的几行。

这是因为最近这几年，前端技术突飞猛进，大量的采用前端模块化工具来构建前端页面，比较常用的框架有 Vue 、 React 等等。

导致我们获取到的网页只有一个空壳子，例如这种：


　　& lt; html 风格=癰ackground:, # 26282;,高度:,“100%;比;
　　& lt;才能head>
　　,,,& lt; meta  charset=皍tf-8"比;
　　,,,& lt; meta  http-equiv=癤-UA-Compatible",内容=癐E=edge"比;
　　,,,& lt; meta  name=皏iewport",内容=翱矶?设备宽度,初始=1,最小规模=1,最大范围=1,,
　　,,,user-scalable=no"比;
　　,,,& lt; link  rel=癷con" https://www.yisu.com/zixun/, href=" ico”位于>
　　<标题>演示项目
　　头
　　<时尚>
　　超文本标记语言
　　的身体,
　　#应用{
　　高度:100%
　　}>