介绍
这期内容当中小编将会给大家带来有关Python爬取世纪佳缘的数据是否能证明它不靠谱的示例分析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。
前言
今天在知乎上看到一个关于【世纪佳缘找对象靠谱吗?】的讨论,其中关注的人有1903人,被浏览了1940753次,355个回答中大多数都是不靠谱。用Python爬取世纪佳缘的数据是否能证明它的不靠谱吗?
翻了几页找到一个search_v2。php的链接,它的返回值是一个不规则的json串,其中包含了昵称,性别,是否婚配,匹配条件等等
通过url +参数的获取方式,抓取了10000页的数据<强>总计240116 强>
<强>二,去重强>
在处理数据去掉重复的时候发现有好多重复的,还以为是代码写的有问题呢,查了好久的错误最后才发现网站在100页上只有数据有好多重复的,下面两个图分别是110页数据和111页数据,是不是有很多熟面孔。
110页数据
111页数据