数据中有很多数字。这些数字看起来没有规律。我们想找到数字背后的信息。统计方法可以帮助我们。统计方法像一把尺子。我们用它测量数据的特征。
我们收集数据。数据来自不同的地方。医院记录病人的体温。学校记录学生的身高。工厂记录产品的重量。这些数据放在一起。我们需要整理它们。整理数据是第一步。我们列出所有的数字。数字可能很大也可能很小。我们计算平均值。平均值代表中间水平。一个班级学生的平均身高。一条生产线产品的平均重量。平均值是一个参考。
平均值不能说明全部问题。我们还需要看数据的波动。有些数据离平均值近。有些数据离平均值远。我们计算方差和标准差。方差表示数据的分散程度。标准差是方差的平方根。它们都是重要的指标。比如比较两个班级的成绩。第一个班级平均分高。第二个班级平均分稍低。但第一个班级的成绩波动大。好的学生很好。差的学生很差。第二个班级的成绩很稳定。大部分学生分数接近。这时标准差告诉我们更多信息。
我们经常比较两组数据。比如新药和旧药的效果。我们找两组病人。一组用新药。一组用旧药。记录他们的恢复时间。恢复时间有长有短。我们想知道新药是否更好。不能只看平均恢复时间。因为数据本身有波动。可能碰巧新药组的病人恢复快。我们需要统计检验。t检验是常用的方法。它帮助我们判断差异是否真实。计算t值。查表得到p值。p值小于0.05表示差异显著。我们认为新药可能真的有效。
有时候数据不止两组。比如三种教学方法的效果比较。我们需要方差分析。方差分析比较多个组的平均值。它告诉我们这些组之间是否有差异。计算F值。查表得到p值。p值小说明至少有一个组与其他不同。具体哪个组不同还需要进一步分析。
数据之间的关系很重要。比如身高和体重。一般来说身高高的人体重也重。我们想量化这种关系。计算相关系数。相关系数在-1到1之间。正数表示正相关。负数表示负相关。0表示没有线性关系。相关系数接近1表示关系强。接近0表示关系弱。我们画散点图。点沿着一条直线分布表示线性关系强。点分散表示关系弱。
我们想用身高预测体重。建立回归模型。体重是因变量。身高是自变量。找到一条直线。使得所有点到直线的距离最小。这条直线叫回归线。回归方程包含斜率和截距。斜率表示身高增加一单位体重增加多少。截距表示身高为零时的体重。当然身高为零没有实际意义。我们关注斜率的正负和大小。
数据可能不服从正态分布。正态分布是钟形曲线。很多统计方法要求数据正态。实际数据可能偏斜。比如收入数据。少数人收入很高。大多数人收入中等。数据向右偏斜。这时我们使用非参数检验。非参数检验不要求分布形式。它更灵活。比如Wilcoxon检验代替t检验。Kruskal-Wallis检验代替方差分析。
我们收集数据时可能遇到缺失值。比如调查问卷有人未填写年龄。直接删除缺失值可能造成偏差。我们尝试填补缺失值。用平均值填补。用回归预测值填补。多种方法比较。
大数据时代数据量很大。传统方法可能不够。我们使用机器学习方法。比如决策树。随机森林。支持向量机。这些方法处理复杂关系。它们可以预测分类。比如根据肿瘤特征判断良性恶性。我们划分训练集和测试集。训练集建立模型。测试集评估模型。准确率。召回率。F1分数。这些指标衡量模型好坏。
统计不是万能的。它只能提供证据。不能证明因果关系。相关不等于因果。比如冰淇淋销量和溺水事故相关。不是因为冰淇淋导致溺水。是因为夏天两者都增加。统计结论需要合理解释。
实际分析中我们使用统计软件。R语言。Python。SPSS。这些软件帮助我们计算。我们输入数据。选择方法。软件输出结果。我们读懂这些结果。p值。置信区间。系数估计。我们做出判断。
统计思维很重要。它帮助我们理解世界。我们看到数据不轻易下结论。我们考虑variability。我们考虑偶然性。我们做出更明智的决策。