四分位数是统计学中的一个概念。它把数据分成四个部分。每一部分包含相同数量的数据点。这四个部分由三个点分开。这三个点就是四分位数。第一个四分位数叫下四分位数。第二个四分位数就是中位数。第三个四分位数叫上四分位数。下四分位数表示有百分之二十五的数据小于它。中位数表示有百分之五十的数据小于它。上四分位数表示有百分之七十五的数据小于它。
人们为什么要研究四分位数。因为它能帮助人们理解数据的分布。平均数只能告诉我们数据的中心位置。平均数容易受到极端值的影响。一组数据里如果有一个特别大的数。平均数就会被拉高。这不能反映大多数数据的真实情况。四分位数可以避免这个问题。四分位数关注的是数据的排序和位置。极端值对它的影响比较小。
计算四分位数的方法不止一种。最简单的方法是找到中位数。中位数把数据分成两半。在下半部分数据中再找中位数。这个就是下四分位数。在上半部分数据中再找中位数。这个就是上四分位数。数据量有时是偶数。数据量有时是奇数。这时计算要小心。要确定数据点该归到哪一边。
四分位数在研究中有很多用处。它可以用来识别异常值。异常值就是那些特别大或特别小的数。人们通常用四分位距来定义异常值。四分位距是上四分位数减去下四分位数。它是一个数据中间一半的跨度。如果有一个数据比下四分位数小一点五倍四分位距。或者比上四分位数大一点五倍四分位距。这个数据就可能是一个异常值。这个方法在检测数据错误时很有用。
在商业分析中四分位数很重要。公司查看员工的工资分布。只看平均工资可能不够。平均工资可能被少数高管的薪水拉高。用四分位数看就更清楚。下四分位数告诉我们低收入员工的工资水平。上四分位数告诉我们高收入员工的工资水平。中位数告诉我们典型员工的工资。这有助于公司制定更公平的薪酬政策。
在经济学中四分位数也常用。政府研究居民收入。他们想知道收入不平等的情况。他们会计算所有家庭收入的四分位数。比较下四分位数和上四分位数的数值。如果差距很大。说明收入分配不均匀。穷人收入很低。富人收入很高。这种信息对制定税收和福利政策有帮助。
教育领域同样用到四分位数。老师分析班级的考试成绩。平均分可能掩盖问题。也许有一些学生成绩特别差。也许有一些学生成绩特别好。老师计算成绩的四分位数。看看有多少学生落在下四分位数以下。这些学生可能需要额外帮助。看看有多少学生落在上四分位数以上。这些学生可能需要更有挑战性的任务。
医学研究依赖四分位数。科学家测试一种新药。他们记录病人服药后的恢复时间。恢复时间的数据往往不是对称分布的。有些病人恢复很快。有些病人恢复很慢。报告中位数和四分位数比报告平均数更好。它能告诉医生典型的恢复时间范围。病人问医生我大概多久能好。医生可以回答一半的病人在这段时间内恢复了。
制作箱线图是四分位数的主要应用。箱线图是一个简单的图形。它用盒子表示数据的中间一半。盒子的下端是下四分位数。盒子的上端是上四分位数。盒子中间有一条线。这条线就是中位数。从盒子两端还会伸出两条线。这两条线叫做须。须的长度通常由四分位距决定。箱线图可以一眼看出数据的分布。它还能比较不同组的数据。把几个箱线图画在一起。它们的分布差异就很明显。
计算四分位数现在很容易。计算机软件可以完成。电子表格程序有内置函数。统计软件就更不用说了。人们输入数据。点击几个按钮。结果就出来了。但理解结果的意义更重要。知道这些数字代表什么。知道如何用它们做决定。
四分位数也有局限。它主要描述数据的局部特征。它只用了三个点来总结数据。数据的整体形状它反映不够。比如数据是否有两个峰。四分位数无法告诉我们。这时需要其他统计方法补充。
生活中人们不自觉用到四分位数的思想。家长给孩子排身高。班里孩子从矮到高站一排。家长找最中间的孩子。这就是找中位数。家长看排在前面四分之一的孩子有多高。这就是找下四分位数。这种排序比较的思想很自然。
研究四分位数就是研究如何更好地理解数字。数字本身没有意义。分析数字的方法赋予它们意义。四分位数是一种朴素又坚实的工具。它不追求复杂。它追求清晰有效。它帮助我们从一堆杂乱的数据中。找出那些稳定可靠的信息。这些信息帮助人们做出判断。这些判断影响工作生活。这就是四分位数研究的价值。