Python如何实现北京积分落户数据

  介绍

小编给大家分享一下Python如何实现北京积分落户数据,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获、下面让我们一起去了解一下吧!

具体如下:

<编辑>北京积分落户状况获取数据(爬虫/文件下载)→分析(维度——指标) <李>

从公司维度分析不同公司对落户人数指标的影响,即什么公司落户人数最多也更容易落户

<李>

从年龄维度分析不同年龄段对落户人数指标影响,即什么年龄段落户人数最多也更容易落户

<李>

从百家姓维度分析不同姓对落户人数的指标影响,即什么姓的落户人数最多即也更容易落户

<李>

不同分数段的占比情况

#,导入库   import  numpy  as  np   import  pandas  as  pd   import  matplotlib.pyplot  as  plt   得到matplotlib  import  font_manager #读取数据(文件),,,并查看数据相应结构和格式   时间=lh_data  pd.read_csv (& # 39;。/bj_luohu.csv& # 39;, index_col=& # 39; id # 39;, usecols=(0, 1, 2, 3, 4))   lh_data.describe ()

 Python如何实现北京积分落户数据

#, 1只公司维度- - - - - -人数指标   #,对公司进行分组聚合,,,并查看分数的相关数据,(个数,,,总分数,,,平均分,,,人数占比)   group_company =, lh_data.groupby(& # 39;公司# 39;,as_index=False)[& # 39;分数# 39;].agg((& # 39;计数# 39;& # 39;和# 39;,& # 39;意味着# 39;]).sort_values(& # 39;计数# 39;提升=False)   #更改列名称   group_company.rename(列={& # 39;计数# 39;:& # 39;people_num& # 39;, & # 39;和# 39;:& # 39;score_sum& # 39;, & # 39;意味着# 39;:& # 39;score_mean& # 39;},原地=True)   #定一个函数,,,得到占比   def  num_percent (people_num=1, people_sum=1):   return 才能;str (& # 39; % .2f& # 39; % (/people_num  people_sum  *, 100)) + & # 39; % & # 39;   #增加一个占比列   group_company [& # 39; people_percent& # 39;],=, group_company [& # 39; people_num& # 39;]苹果(num_percent people_sum=lh_data[& # 39;名字# 39;].count ())   #查看只有一个人落户的公司,布尔索引   group_company [group_company [& # 39; people_num& # 39;],==, 1]   group_company.head (10)

 Python如何实现北京积分落户数据

#, 2。年龄维度- - - - -人数指标   #将出生年月转为年龄   lh_data[& # 39;年龄# 39;],=,(pd.to_datetime(& # 39; 2019 - 09 & # 39;),安康;pd.to_datetime (lh_data[& # 39;生日# 39;])),/,pd.Timedelta(& # 39; 365,天# 39;)   #,分桶   lh_data.describe ()   时间=bins_age  pd.cut (lh_data[& # 39;年龄# 39;],垃圾箱=np.arange (70 5))   时间=bins_age_group  lh_data[& # 39;年龄# 39;].groupby (bins_age) .count ()   bins_age_group.index =, (str (i.left), +, & # 39; ~ & # 39;, +, str (i.right), for 小姐:拷贝bins_age_group.index]   bins_age_group.plot(类型=& # 39;酒吧# 39;,α=1,腐烂=60,网格=0.2)

 Python如何实现北京积分落户数据

#, 3只姓维度- - - - -人数指标   #,增加姓列   #定义一个函数,得到姓名的姓   def  get_fname(名称):   if 才能;len (str(名字)),& lt;=, 3:   ,,,return  str(名称[0])   其他的才能:   ,,,return  str(名称[0:2])   lh_data[& # 39;帧# 39;],=,lh_data[& # 39;名字# 39;]苹果(get_fname)   #,对姓进行分组   group_fname =, lh_data.groupby(& # 39;帧# 39;)[& # 39;分数# 39;].agg((& # 39;计数# 39;& # 39;和# 39;,& # 39;意味着# 39;]).sort_values(& # 39;计数# 39;提升=False)   #,更改列名称   group_fname.rename(列={& # 39;计数# 39;:& # 39;people_num& # 39;, & # 39;和# 39;:& # 39;people_sum& # 39;, & # 39;意味着# 39;:& # 39;score_mean& # 39;},原地=True)   #,增加占比列   group_fname [& # 39; people_percent& # 39;],=, group_fname [& # 39; people_num& # 39;]苹果(num_percent people_sum=lh_data[& # 39;名字# 39;].count ())   group_fname.head (10)

 Python如何实现北京积分落户数据

#, 4只查看分数段占比,   #,分桶,将分数划分为一个个的区间   时间=bins_score  pd.cut (lh_data[& # 39;分数# 39;],np.arange (90130 5))   #,将分数装入对应的桶里   时间=bins_score_group  lh_data[& # 39;分数# 39;].groupby (bins_score) .count ()   #,更改索引显示格式   bins_score_group.index =, (str (i.left) + & # 39; ~ & # 39; + str (i.right), for 小姐:拷贝bins_score_group.index]   bins_score_group.plot(类型=& # 39;酒吧# 39;,α=1,腐烂=60,网格=0.2,title=& # 39; score-people_num& # 39;, colormap=& # 39; RdBu_r& # 39;)

Python如何实现北京积分落户数据