什么是数据(Data) ?
我们经常说“ 水的温度是30℃,礼物的重量是500克,竹竿的长度是2米,大楼的高度50层“。通过水,温度,30℃,礼物,重量,500克,竹竿,长度,2米,大楼,高度,50层这些关键词,我们的大脑里就形成了对客观世界的印象。这些约定俗成的字符或关键词就构成了我们探讨的数据基础。不同领域的人在描述同一事物可能会出现不同的数据描述。比如中国人叫星期天,英语国家的人叫Sunday,还有教徒叫礼拜天。最后我们对数据进行这样的定义:数据是使用约定俗成的关键词,对客观事物的数量、属性、位置及其相互关系进行抽象表示。数据可以是事实,例如数字、文字、测量、观察结果,甚至可以是事物的描述。
定性(Qualitative)与定量(Quantitative)
数据可以是定量或者定性的。
定量属性是指以数量形式存在着的属性,并因此可以对其进行测量。
定性是指通过非量化的手段来探究事物的本质。包括观测、实验和分析等。
比如某女对这个男人的描述,“2套房产,工资每月1万。”这是定量分析。“他是个好人,他很帅”。这是定性分析。
定量数据可以分成离散和连续的:
- 离散数据(Discrete data)只可以是某些既定的值(例如整数),通过计数取得。例如职工人数。
- 连续数据(Continuous data)可以是在一个区间范围里的任何值,通过测量取得。例如8月份的降雨量。
- 数据是否无限可分是判断连续和离散的依据。身高的数据是整数,如果提高精度可以量出小数点后面很多位,因此是连续数据。而计数的、分类的、等级的数据是离散的,因为数据无法继续分割了。
变量
统计学中的变量(variables)大致可以分为数值变量 / 定量变量(numeric orquantitative variable)和分类变量 / 定性定量 / 属性变量(categorical, qualitative or attribute variable)
数值变量分为两类:
离散型变量(discrete):值只能用自然数或整数单位计算,其数值是间断的,相邻两个数值之间不再有其他数值,这种变量的取值一般使用计数方法取得。
连续型变量(continuous):在一定区间内可以任意取值,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。如身高、绳子的长度等。
注:日期型变量用于表示日期或时间,可以进行算数运算,是一种特殊的数值型变量。
分类变量分为两类:
有序分类变量(ordinal):描述事物等级或顺序,变量值可以是数值型或字符型,可以进而比较优劣,如喜欢的程度:很喜欢、一般、不喜欢 。
无序分类变量(nominal):取值之间没有顺序差别,仅做分类,又可分为二分类变量和多分类变量二分类变量是指将全部数据分成两个类别,如男、女等,二分类变量是一种特殊的分类变量,有其特有的分析方法。多分类变量是指两个以上类别,如血型分为A、B、AB、O等。
有序分类变量和无序分类变量的区别是:前者对于“比较”操作是有意义的,而后者对于“比较”操作是没有意义的。
测量尺度
测量尺度(scale of measure)或称度量水平(level of measurement)、度量类别,是统计学和定量研究中,对不同种类的数据,依据其尺度水平所划分的类别。史蒂文斯(S. S. Stevens)将尺度分为四种类型,即名义尺度、顺序尺度、间距尺度和比例尺度。
定量研究的四种测定尺度及特征:
- 定类测量(nominal scale):定类测量水平是以观察结果的属性特征定义的,是准确水平最低的测量。例如:性别、种族、八大菜系都是定类变量。
- 定序测量(ordinal scale):定序测量也称为等级测量或顺序测量。定序测量的取值可以的按照某种逻辑顺序将研究对象排列出高低或大小,确定其等级及次序。
- 定距测量(interval scale):定距测量也称为间距测量或区间测量。它不仅能够将社会现象或是事物区分为为不同的类别、不同的级别,而且可以确定它们相互之间的间隔距离和数量差别。
- 定比测量(ratio scale):定比测量也称为等比测量或比例测量。定比测量除了具有上述三种尺度的全部性质之外,还具有一个绝对的0点(有实际意义的0点)。例如:在物理学和生物学中可以有不存在属性特征的情况,如绝对零值(没有分子运动)或零光程。在社会和行为科学中,这会使人迷惑,因为你的拼写成绩是0并不意味着你的拼写能力为零,答错了IQ测试的每个题目也不意味着你全无智力。
名义尺度和顺序尺度的数值不能进行加减乘除,但间距尺度的数值是可以进行加减运算的。然而,由于原点是任意设定的,所以不能进行乘除运算。例如,5℃和 10℃之间的差,可以说与15℃和20℃之间的差是相同的, 都是5C。但不能说 20℃就是比5℃高4倍的温度。
比例尺度的意义是绝对的,即它有着含义为“无”量的原点0。长度、重量、时间等都是比例尺度测定的范围。比例尺度测定值的差和比都是可以比较的。例如:5分钟与10 分钟之间的差和10分钟与15分钟之间的差都是5 分钟,10 分钟是2分钟的5倍。比例尺度可以进行加减乘除运算。
什么是统计学?(Statistics)
统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。统计学又分描述统计和推断统计:
- 描述统计(descriptive statistics):研究数据收集、处理和描述的统计学方法。
- 推断统计(inferential statistics):研究如何利用样本数据来推断总体特征的统计学方法。、
数据分析的基础是统计学。其中描述性统计又是统计学的基础,也是推断性统计的前导。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。
一、集中趋势分析(Central Tendency)
- 平均数:平均数是总和除以总量。平均数就是求数据的算术平均数,描述数据的平均水平。总体均数和样本均数的符号分别是 $ $ 和$ \bar X$
- 中位数:中位数是数值大小位于中间的值,其中数值根据总数的奇偶而不同。奇数取中间值,偶数取中间2位数的平均。是位于正中间的数描述,描述数据的中等水平。
- 众数:众数是出现次数最多的值。描述数据的一般水平。在一组数据中,可能存在多个众数。
二、离中趋势分析(离散)(DivergenceTendency)
- 极差(Range):最大值减去最小值。
- 方差(Variance):所有数据与平均数之差平方和的平均数。
-
标准差(Standard Deviation):离均差平方的算术平均数的算术平方根,是方差的算术平方根。用表示。在概率统计中最常使用作为统计分布程度上的测量依据。
总体标准差:$ = \sqrt{\frac{\sum_{i=1}^{n}(X_{i}- \mu )^{2}}{n}}$
样本标准差:$ s = \sqrt{\frac{\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}}{n-1}} $
- 变异系数(CoefficientofVariation):原始数据标准差与原始数据平均数的比。
贝赛尔修正
- 在方差公式和标准差公式中,存在一个值为N的分母,其作用为将计算得到的累积偏差进行平均,从而消除数据集大小对计算数据离散程度所产生的影响。不过,使用N所计算得到的方差及标准差只能用来表示该数据集本身(population)的离散程度;如果数据集是某个更大的研究对象的样本(sample),那么在计算该研究对象的离散程度时,就需要对上述方差公式和标准差公式进行贝塞尔修正,将N替换为N-1。
偏离程度– z-score
- z-score 也就是测量值距离平均数的差与标准差的比。
计算公式是:z-score =z = (x-) / =[X – mean(X)]/std(X),其中z-score分布的方差和标准差为1,均值为0。
通常来说,z-分数的绝对值大于3将视为异常。
三、相关分析(Correlation)
-
协方差(COV):如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值,即为协方差。协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。协方差为正值表示正相关,负值为负相关,0为不相关。标准差和方差一般是用来描述一维数据的;而协方差是用于描述任意两维数据之间的关系,一般用协方差矩阵来表示。因此协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。cov(X,Y)中X、Y必须是各维数都相等的矩阵,其功能是把X中所有元素看做一个变量的样本,Y中所有元素看做另外一个变量的样本,把矩阵中每个对应位置看做一个联合观察值,函数实现的是求出两个变量的协方差矩阵。
$COV(X,Y) = \sum_{i=1}^{n}\frac{(X_{i}-\bar{X})(Y_{i}-\bar{Y})}{(n-1)}$
- 相关系数(CORRCOEF):两个变量X,Y的协方差比上各自的标准差乘积。皮尔森(pearson)相关系数、斯皮尔曼(spearman)相关系数和肯德尔(kendall)相关系数并称为统计学三大相关系数。其中,spearman和kendall属于等级相关系数亦称为“秩相关系数”,是反映等级相关程度的统计分析指标。pearson是用来反应两变量之间相似程度的统计量,在机器学习中可以用来计算特征与类别间的相似度,即可判断所提取到的特征和类别是正相关、负相关还是没有相关程度。皮尔森相关系数为了确定每个特征之间是否紧密相关,如果高相关就属于重复特征,可以去除。 我们输入机器学习模型中的每个特征都独一无二,这才是最佳。(In statistics, the Pearson correlation coefficient, also referred to as Pearson\’s r, the Pearson product-moment correlation coefficient, or the bivariate correlation, is a statistic that measures linear correlation between two variables X and Y. It has a value between +1 and −1. From Wikipedia) 按***的解释:在统计学中,皮尔森相关系数,也称为皮尔森 r,皮尔森积矩相关系数,或二元相关系数,是一种测量两个变量X和Y之间的线性相关性的统计,其值介于+1和-1之间。
- 通过协方差可以计算出相关性,而无法度量它的强和弱, 所以为了度量强弱又引入了相关系数。函数的返回值还是一个二维数组矩阵。自己和自己的相关性最大,值为1,所以对角线的值全为1。
皮尔森相关系数公式:
$r =\frac{COV(X,Y)}{\delta X\delta Y}$
= $\sum_{i=1}^{n}\frac{(X_{i}-\bar{X})(Y_{i}-\bar{Y})}{(n-1)}/\sqrt{\frac{\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}}{n-1}}\sqrt{\frac{\sum_{i=1}^{n}(Y_{i}-\bar{Y})^{2}}{n-1}}$
= $\frac{\sum_{i=1}^{n}{(X_{i}-\bar{X})(Y_{i}-\bar{Y})}}{\sqrt{{\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}}}\sqrt{{\sum_{i=1}^{n}(Y_{i}-\bar{Y})^{2}}}}$
矩阵中值的意义:
0列 1列
0行 0 0 相关性 0 1相关性
1行 10 相关性 1 1相关性
当两组数据有紧密的关联时,我们说他们是高相关的。
- 正相关是两组数值一起增加
- 负相关是当一组数值增加时,另一组数值减小
像这样:(由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔森相关系数。)
相关系数图片引用来源:https://www.mathsisfun.com/data/scatter-xy-plots.html