这是笔试/面试题系列的第2篇文章
在了解何为偏态数据前,要先从正态数据说起。
正态分布
正态分布是自然界中广泛存在的,我们都知道它是两头低,中间高,整个形态呈现对称钟形的一个分布,之所以叫正态分布,是因为在大量连续数据测量的情况下,我们比较希望看到这种状态,一个标准的正态分布是u(均值)=0,σ(标准差)=1。
从下图可以看出,横坐标代表随机变量X的一个取值,在均值(u=0)附近概率密度最大,越偏离均值,概率密度减小,不在(u-3σ,u+3σ)范围内的数据就属于统计学意义上的异常值了。
偏态分布
但是现实生活中总是会存在不是正态分布的情况,非正态分布,那就是偏态分布了,有两种,左偏(负偏态)和右偏(正偏态),可以用偏度来描述,偏度>0,则频数分布的高峰向左偏移,呈右(正)偏态分布;偏度1,呈高度偏态,0.5