举例说明数据分析思维

  
  

<强>前两天刷知乎的时候看到这样的问题:

  

<>强”为什么我国人才流失如此严重?”

     

题主的疑问来自于×××的数据:
举例说明数据分析思维

  
  

2014年出国人数为<强> 46万强,而回国人数仅为36.5 <强>万

  

两者相除,得出“归国率”仅为<强> 79%,而2015年仅有<强> 78%。

  

因此,题主得出结论:<强>我国海外人才大量流失

     <人力资源/>   

随后,各路人马纷纷跳出来,开始一本正经地分析为什么中国人才流失这么严重。

  

问题是,这样的数据解读正确吗?

  
  

<强>用同一年内的出国人数和归国人,计算出来的所谓“归国率”,真的有意义吗?

  

<>强如果这个数据本身就没有意义,那么”分析“背后的“原因”,无疑是南辕北辙了。

     

——请先思考一分钟——

  
  

2015年归国的留学生,肯定在2014年甚至更早就出国了。

  

极少有学校会开设1月入学,12月毕业的计划。

  

所以,这里用同一年内的回国人数和出国人数相除,算出来的所谓“归国率”纯粹是瞎几把算。

  

一般国外本科是3 - 4年,美国的主人是1.5 - 2年,英国及英联邦是1 - 1.5年,博士一般要5年。

  

由于查不到不同项目人数的比例,因此保守估计平均出国年份为2年。
举例说明数据分析思维

     

-

  
  

根据×××的数据,2015年回国是40.9万,往前推2年,2013年出国人数是41.4万。

  

2915年归国率=40.9/41.4≈99%,远高于所谓的“78%”。

  

同理,2014年的归国率是91%,2013年甚至超过100%(可能是由于较多其他年份出国留学的学生在2013年集中回的国,导致数据爆表)。

  

近几年的归国率均高达90%以上,因此“我国人才流失严重“显然是不成立了。

  

所以说,以后数据分析之前应该先动动脑子,不要总想着搞个大新闻批判一番。

     <人力资源/>   

这个问题是解决了,那么还能挖出什么别的东西呢?

  

还可以观测趋势。

  
  

整理了从1949 - 2015年,每一年的出国留学和归国人数。

  

加总后,得到归国人数总计218个万,出国人数总计292年万(不含2014和2015年),从而得出回国率75%。

  

为什么总体只有75% ?这和我们计算的2013 - 2015年的归国率相差甚大。

  

首先做一个简单推测:<强>早年的归国率低,因此整体归国率被拖了后腿

  

分别计算每年的归国率(篇幅原因,取1980年开始):
举例说明数据分析思维”> <br/>果然,从改革开放以来,大部分年份的归国率是非常低的,算术平均数仅为63% . </p>
  <p>因此得出结论:<强>近年来,越来越多的留学生选择回国</强>。</p>
  </引用>
  <h2>那么,还能不能挖掘出别的东西? </h2>
  <blockquote>
  <p>在分析过程中,我发现了一个有趣的现象,如果只看2000年以后的数据,2003 - 2008年出现了明显的洼地。<br/> <img src=举例说明数据分析思维