从身高分布到马太效应
正态分布无处不在
去年的超级名模在高考前一天在押中了高考作文题。
离紧张刺激的高考只剩两天了。
看来超模君又该拿冠军了。以下内容可能是考试的重点。请做笔记:
一位不愿透露姓名的考生问超模君,现在考上清华还有希望吗?
超模看了看自己最近的成绩,Emmm。
该考生近期模拟考试成绩分别为580,600,680,620。四门考试平均分620,标准差37.4。但是,一个学生的分数可以近似视为正态分布。
清华大学的分数是680。在图表上显示出来:
上图阴影的面积是0.03,也就是说考上清华的概率是3%。
所以超模君的建议是:
其实除了高考成绩,我们生活中还有很多这样的例子,比如:
高度
人类智商分布
正态分布的前世今生
正态分布的概念最早是由德国数学家、天文学家德莫伊弗尔(de Moivre)在1733年提出的,但当时他并没有更多正态分布的应用成果,所以也没有什么名气。
后来,德国数学家高斯率先将其应用于天文学家的研究。这时,正态分布引起了人们的广泛关注,所以正态分布也叫高斯分布。
左:德莫维尔右:高斯
在19世纪,高尔顿和凯特勒在其他学科中使用了正态分布。他们用实际行动发展了应用统计学,为数理统计的产生奠定了基础。
在二者的影响下,正态分布得到了普遍的认可和广泛的应用(甚至被滥用)。
左:高尔顿右:凯特勒
那么如此强大的正态分布是关于什么的呢?别急,让我们先看看高尔顿的研究。
1877年,高尔顿设计了一个叫做高尔顿钉板的实验来模拟正态分布的本质:
实验视频只需要14秒!
高尔顿钉板试验内容:
墙上贴着一块板。木板上有一些横钉。它们彼此之间的距离都是一样的。让一些小球从棋盘上方的入口自由落下。经过反复碰撞,这些小球最终落入下面的竖槽中。
知道了实验的内容,我们再来看看高尔顿钉板实验的细节:
弹珠滚下来,碰到钉子会随机选择向左还是向右:
看数据写短文13.jpg">这些小球最终的分布位置如下图:
像这种左右对称,两头低,中间高的曲线我们称它为正态分布,又因其曲线呈钟形,人们又经常叫它钟形曲线。
为什么正态分布会如此常见呢?
咳咳,接下来就是今天内容的重点了(敲黑板)!
这个问题可以用中心定理(central limit theorem)来回答:在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。
中心极限定理提出者――棣莫弗
这个定理可以这么理解:
生活中各种各样的因素就像高尔顿钉板实验中的钉子一样,对我们各个方面产生了大大小小的影响,使得最后的结果分布趋近于正态分布;
但中心定理并不是万能的,他拥有两个很重要的前提:
首先,第一个前提就是取样需要随机。
这个前提相信大家可以很好地理解,如果我们抽取的人的时候,只抽抽长的高的或者只抽取长得矮的人,那么结果自然不符合正态分布。
第二,影响结果的因素是相互独立或者是相互影响比较小的。
也就是说,如果影响结果的因素之间并没有太大的关系,那么这些因素可以看成是相互独立的,这样结果才能符合正态分布。
以身高为例,影响一个人长高的因素有很多,例如:
父母长得高还是矮
营养是否跟得上
是否热爱运动
......
等等
父母长得高还是矮对营养的补充没有很大的关系,跟是否热爱运动也没有关系,所以可以看成是相互独立的因素,所以身高的人群分布曲线自然就符合正态分布。
这时刻可能有人会问,如果这些因素不独立,甚至是有紧密的联系会怎么样呢?
我们来看看下面这个例子:人均财富分布(马太效应)。
从下图可以发现:富人的有钱程度(可以一直向x轴右端延伸)远远超出穷人的贫穷程度,即财富分布曲线有右侧的长尾。
人均财富分布图
这是因为导致财富差距的因素比如教育资源,家庭背景,工作单位相互影响,并不独立。
如果一个人家庭背景不错,那么他大有机会获得好的教育资源,从而选择更好的工作。
这么来看的话,家庭,教育,工作3个因素产生了1+1+1>3的结果;而相互独立的因素应该是1+1+1=3(加法)。
这就导致图像并没有出现正态分布。
但是后来统计学家们发现,既然这些因素相互影响,那么完全可以把这些相互影响的因素看做乘法,接下来我们通过对数把乘法转换为加法。
这里需要补一点高中的数学识:
大家在高中的时候都学过对数,对数有一个独特的性质――可以把乘法变成加法。(如下图所示)
把乘法变成加法后,不就可以看成结果是是由一个个独立的因素影响的吗?
因此我们对之前的数据取自然对数,结果就接近于正态分布了:
这就是正态分布的一个衍生――对数正态分布。
总的来说,正态分布解释了自然界中大部分常见的分布问题,但事情的结果往往还是由自己决定的。
3%离100%的成功还差了32倍的汗水和付出。
如果想在高考(或者考研,国考)这个战场上取得更好的成绩,走进更好的学术殿堂,那么还是需要不断地提升自己,减小随机性(标准差)。