回归结果很重要。我们看数字。数字告诉我们关系。两个变量一起变化。一个变大另一个也变大。这是正相关。一个变大另一个变小。这是负相关。我们想知道这种关系是不是真的。
显著性就是答案。P值是一个数字。P值小表示关系可靠。通常P值小于0.05算小。意思是这种关系偶然出现的可能性很低。一百次里不到五次。我们相信这个关系存在。
系数是另一个重要数字。系数表示影响程度。系数大表示影响大。系数小表示影响小。我们举例说明。教育程度和收入的关系。教育程度每增加一年收入增加多少。系数告诉具体数值。系数为500表示多读一年书每月多赚500元。
我们做研究收集数据。数据来自问卷调查。数据来自实验记录。我们整理这些数据。输入电脑用软件分析。软件给出回归结果。我们看三个数字。系数正负表示方向。系数大小表示力度。P值大小表示可信度。
样本量很关键。样本量是调查人数。样本量大结果更可靠。样本太小容易出错。就像问两个人不能代表所有人。问很多人结论更可信。我们尽量收集大样本。
控制变量有必要。收入不只和教育有关。还和年龄性别地区有关。我们把这些因素加进来。这样教育的影响更纯净。我们能看到教育本身的作用。不考虑其他因素的干扰。
结果显著让人高兴。说明我们的假设可能正确。研究有了发现。结果不显著也没关系。告诉我们可能没有关系。这也是有用的信息。我们如实报告结果。
表格展示结果。第一列变量名称。第二列系数值。第三列标准误。第四列P值。我们看P值打星号。一颗星表示P小于0.05。两颗星表示P小于0.01。三颗星表示P小于0.001。星号越多越显著。
我们解释这些数字。系数为正表示正相关。教育对收入有正向作用。多读书真的能多赚钱。系数为负表示负相关。每天看电视时间越长成绩越差。我们根据系数大小判断影响程度。
不要忘记置信区间。置信区间是一个范围。我们95%确信真实系数落在这个区间。区间不包含零表示显著。区间包含零可能不显著。置信区间给我们更多信息。
显著不代表因果关系。相关不是因果。教育收入一起变化。但可能还有其他原因。聪明的人读书多年薪也高。教育本身可能不是原因。我们需要更严谨的设计。
我们检查模型是否合适。R平方表示模型解释力。R平方越大模型越好。但不要过分追求R平方。重要的是关系是否真实存在。
异常值要注意。异常值是特别大或特别小的数。一个亿万富翁会让收入数据扭曲。我们检查数据排除异常影响。保证结果稳健。
做多次测试会增大误差。测试越多越可能碰到显著结果。但可能是偶然现象。我们要调整显著性水平。使用更严格的标准。
结果要能够重复。别人用同样方法能得到类似结果。这样的发现才可靠。一次结果可能只是巧合。
我们报告所有结果。显著的要报告。不显著的也要报告。只报告显著的结果是片面的。完整报告让读者自己判断。
软件操作要正确。数据输入不能错。命令写对很重要。一个小错误会导致错误结果。我们反复检查确保无误。
理解结果的意义。统计显著不等于实际重要。系数很小即使显著也没什么实际价值。我们既要看统计意义也要看现实意义。
读者不一定懂统计。我们用简单语言解释。不要说“在5%水平上拒绝零假设”。我们说“这个关系不太可能是偶然发生的”。大家都听得懂。
研究有局限性。数据可能不完美。模型可能不完整。我们诚实地说明这些限制。不过度解读结果。
回归是工具。帮助我们理解世界。正确使用它。正确解释它。我们的研究就有价值。