49码三中三公式阵图

数据精华---统计学

发布日期:2020-10-12 21:45   来源:未知   阅读:

  描述统计学这个工具可以将复杂的数据浓缩为一个单一的数字,通过比较这些数字快速得出结论。并且不仅仅是描述这个数据集,用这些数字预测未来事件发生的概率也是统计学的拿手好戏。

  在公司中高层通过商业流程的设计来管理风险。将不确定因素降低至可以接受范围内。在学校,可以通过学生错题的重合率来判断是否存在抄袭。在公众安全中我们可以通过往年犯罪记录推测即将发生犯罪的区域。等等等等。

  上面说了,描述统计学是一种简化的工具,简化意味着省略不必要的细节,所以描述统计学对于细节的展示很少。另外,对于所有统计学都不应该过分依赖,否则会带来误导性结论以及糟糕的后果,比如2008年那次金融危机就是金融高管们过分依赖VaR模型所导致的。

  优点则是很明显的:迅速对数据集产生认知的能力,比如:虽然你完全不懂棒球,但是我告诉你A棒球员评分为8.9,B棒球员评分为3.2。你几乎马上就能做出判断,选择A棒球员能增加赢球概率。

  以公司盈利为例A、B、C、D、E、F、G、H八家公司18年盈利如下(万元):

  最小值、第一四分位数Q1(25%)、中位数(50%)、第三四分位数Q3(75%)、最大值

  四分位数和中位数:先将数据按从小到大排列,分别取第25%、50%、75%位置的数据(中位数若为两位数则相加除以2)

  这两个数都是用来表示数据集中趋势的统计量,但是算数平均数受异常值影响较大,而中位数受异常值影响较小,通常这两个数据一起求,如果差距较大则表示数据集异常值较多或者数据较分散,极值多。

  平均数还有一种是调整平均数,比如5%调整平均数就是删除了5%的最小值和5%的最大值之后求得的平均数。当数据量大并且极值影响剧烈的时候我们可以考虑使用。

  加权平均数则是我们给每一个数值都设定了相应的权重(球员绩点组成权重)在计算平均数的时候用权重乘以数值在除以个数,从而得出的平均数就叫加权平均数。

  标准差是衡量用来衡量数据相对于平均值的分散程度的值(STDEV.S)用每个数值减去平均数,之后平方再开方。这么麻烦的一个原因是如果只是减去平均值在相加,那么所有数据集相加后都等于0,我们要得到距离大小就要平方,平方后的值我们称为方差,而开方则是因为在平方的同时单位也是被平方了的,我们要统一单位就要再开一次方。

  异常值的判断很简单,如果一个数值与平均值的偏差超过两个标准差,那么就可以认为是异常值、如果超过三个标准差就是高度异常值,要重点关注。

  标准差系数用来衡量拥有不同标准差和平均数的数据集,标准差系数越大则数据越不稳定.

  应用则是:我们知道一个公司一共100个员工,平均每个人赚7000元,标准差为500,那么估计一下有多少人赚6000-8000,有多少人赚5800-8200

  绝对数字与相对数字:例如今天的温度为18摄氏度,我不告诉你背景也不会影响你的判断,这就是绝对数字,而相对数字是因为背景才有了意义,比如上面说的销售额在总的销售额中是最小值。

  8家公司营业额中营业额最好的是H公司为870万元,最差的是E公司为16万元,平均每个公司的销售额为333.5万元,但有一半的公司销售额在188万以下,算数平均数与中位数相差了0.77个标准差,说明数据有些分散,销售差距大,此时我们可以建议重点观察E、H公司。

  回归分析听起来很有专业术语的感觉,但其实是一个非常好理解的分析方法,主要是用来判断变量之间相互依赖程度。

  虽然回归分析可以判断变量们之间的相关程度但无法解释为什么存在着这样的联系,也无法确定是否为因果关系。相关系数也不等于因果关系A与B变量同时发生变化的真实原因可能是因为变量C。

  eg.家中装修花费与孩子学习好坏有相关性的根本原因可能是:家长的受教育程度。

  受教育程度高的家庭收入高导致装修花费高,因此孩子成绩好坏其实是与家长受教育程度有强相关,与装修花费弱相关。

  频数是数据出现的频率,将这些频率画成图就成了频数分布图。频数分布图可以很直观的告诉你数据的分布情况、数据的重要程度,如果数据集很大的话就会有大部分数据占比小,数量多。建议你最好建立一个“其它”的项来放它们,这样才不会影响正常的数据展示。

  频数分布图的价值在于它提供了有关数据的内在性质,频数分组建议在5-20个组之内。

  eg.“C公司今年营业额提升500万” VS “C公司今年营业额提升了500%”

  打点图是将数据以点的形式在图中画出来,它有一个非常棒的优势:展示数据的细节。直方图则能展现数据的分布情况。穹形图则是累积分布图,它通常可以展现数据的上限,我们可以用穹型图来判断何时逼近于上限,对于业务即时收手。茎叶图可以同时体现数据等级和数据形状。

  品质数据是归类于判断的作用、数量数据是表示有多少。品质数据可以以数字形式体现(one-hot编码,为了方便录入计算机),但它依旧是品质数据。比如销售前三名就是品质数据,而年销售额就是数量数据。而“众数”则是衡量品质数据位置的重要量度。

  数据的收集并非我们想象的那么轻松,在一些情况下我们不能干预变量,所以只能采用观察法,将所有有关变量的信息收集分析,得出结论。

  研究的衡量定义:比如中国中产阶级交税最多。这样的结论我们第一反应应该是:如何定义中产阶级?衡量指标是什么?交税最多的衡量指标又是什么?

  对于误差:不要害怕误差,对于误差我们无法避免但是可以控制、比如通过一些技术手段来控制误差:重点关注异常值、设定对比机制,衡量误差的产生情况。

Power by DedeCms