介绍
小编给大家分享一下Python如何实现北京积分落户数据,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获、下面让我们一起去了解一下吧!
具体如下:
<编辑>北京积分落户状况获取数据(爬虫/文件下载)→分析(维度——指标)编辑>- <李>
从公司维度分析不同公司对落户人数指标的影响,即什么公司落户人数最多也更容易落户
李> <李>从年龄维度分析不同年龄段对落户人数指标影响,即什么年龄段落户人数最多也更容易落户
李> <李>从百家姓维度分析不同姓对落户人数的指标影响,即什么姓的落户人数最多即也更容易落户
李> <李>不同分数段的占比情况
李>#,导入库 import numpy  as np import pandas  as pd import matplotlib.pyplot  as plt 得到matplotlib import  font_manager
#读取数据(文件),,,并查看数据相应结构和格式 时间=lh_data pd.read_csv (& # 39;。/bj_luohu.csv& # 39;, index_col=& # 39; id # 39;, usecols=(0, 1, 2, 3, 4)) lh_data.describe ()
#, 1只公司维度- - - - - -人数指标 #,对公司进行分组聚合,,,并查看分数的相关数据,(个数,,,总分数,,,平均分,,,人数占比) group_company =, lh_data.groupby(& # 39;公司# 39;,as_index=False)[& # 39;分数# 39;].agg((& # 39;计数# 39;& # 39;和# 39;,& # 39;意味着# 39;]).sort_values(& # 39;计数# 39;提升=False) #更改列名称 group_company.rename(列={& # 39;计数# 39;:& # 39;people_num& # 39;, & # 39;和# 39;:& # 39;score_sum& # 39;, & # 39;意味着# 39;:& # 39;score_mean& # 39;},原地=True) #定一个函数,,,得到占比 def num_percent (people_num=1, people_sum=1): return 才能;str (& # 39; % .2f& # 39; % (/people_num people_sum *, 100)) + & # 39; % & # 39; #增加一个占比列 group_company [& # 39; people_percent& # 39;],=, group_company [& # 39; people_num& # 39;]苹果(num_percent people_sum=lh_data[& # 39;名字# 39;].count ()) #查看只有一个人落户的公司,布尔索引 group_company [group_company [& # 39; people_num& # 39;],==, 1] group_company.head (10)
#, 2。年龄维度- - - - -人数指标 #将出生年月转为年龄 lh_data[& # 39;年龄# 39;],=,(pd.to_datetime(& # 39; 2019 - 09 & # 39;),安康;pd.to_datetime (lh_data[& # 39;生日# 39;])),/,pd.Timedelta(& # 39; 365,天# 39;) #,分桶 lh_data.describe () 时间=bins_age pd.cut (lh_data[& # 39;年龄# 39;],垃圾箱=np.arange (70 5)) 时间=bins_age_group lh_data[& # 39;年龄# 39;].groupby (bins_age) .count () bins_age_group.index =, (str (i.left), +, & # 39; ~ & # 39;, +, str (i.right), for 小姐:拷贝bins_age_group.index] bins_age_group.plot(类型=& # 39;酒吧# 39;,α=1,腐烂=60,网格=0.2)
#, 3只姓维度- - - - -人数指标 #,增加姓列 #定义一个函数,得到姓名的姓 def get_fname(名称): if 才能;len (str(名字)),& lt;=, 3: ,,,return str(名称[0]) 其他的才能: ,,,return str(名称[0:2]) lh_data[& # 39;帧# 39;],=,lh_data[& # 39;名字# 39;]苹果(get_fname) #,对姓进行分组 group_fname =, lh_data.groupby(& # 39;帧# 39;)[& # 39;分数# 39;].agg((& # 39;计数# 39;& # 39;和# 39;,& # 39;意味着# 39;]).sort_values(& # 39;计数# 39;提升=False) #,更改列名称 group_fname.rename(列={& # 39;计数# 39;:& # 39;people_num& # 39;, & # 39;和# 39;:& # 39;people_sum& # 39;, & # 39;意味着# 39;:& # 39;score_mean& # 39;},原地=True) #,增加占比列 group_fname [& # 39; people_percent& # 39;],=, group_fname [& # 39; people_num& # 39;]苹果(num_percent people_sum=lh_data[& # 39;名字# 39;].count ()) group_fname.head (10)
#, 4只查看分数段占比, #,分桶,将分数划分为一个个的区间 时间=bins_score pd.cut (lh_data[& # 39;分数# 39;],np.arange (90130 5)) #,将分数装入对应的桶里 时间=bins_score_group lh_data[& # 39;分数# 39;].groupby (bins_score) .count () #,更改索引显示格式 bins_score_group.index =, (str (i.left) + & # 39; ~ & # 39; + str (i.right), for 小姐:拷贝bins_score_group.index] bins_score_group.plot(类型=& # 39;酒吧# 39;,α=1,腐烂=60,网格=0.2,title=& # 39; score-people_num& # 39;, colormap=& # 39; RdBu_r& # 39;)Python如何实现北京积分落户数据