01
平均数与中位数 - 集中趋势的测量
平均数是所有数据之和除以数量所得的值,是最常用的代表值。但它对极端值敏感,容易被扭曲。中位数是将数据排序后位于中间位置的值,不受异常值影响,能提供更稳定的中心值。例如1、2、3、4、100的平均数是22,但中位数是3,更能反映实际分布。
计算数据的集中趋势、离散程度、四分位数并检测异常值。
平均数是所有数据之和除以数量所得的值,是最常用的代表值。但它对极端值敏感,容易被扭曲。中位数是将数据排序后位于中间位置的值,不受异常值影响,能提供更稳定的中心值。例如1、2、3、4、100的平均数是22,但中位数是3,更能反映实际分布。
方差衡量每个数据点离平均数有多远。标准差是方差的平方根,与数据具有相同的单位,因此更易于解释。标准差大表示数据在平均数周围广泛分散,小则表示聚集在平均数附近。在金融领域用于衡量波动性,在质量管理中用于衡量产品的一致性。
四分位数是将数据四等分的值,由Q1(25%)、Q2(50%,中位数)、Q3(75%)组成。IQR(四分位距)的计算方式为Q3 - Q1,表示中间50%数据的分散程度。IQR也用于检测异常值。低于Q1 - 1.5×IQR或高于Q3 + 1.5×IQR的值被判定为异常值。
异常值(outlier)是与其他数据显著不同的值,可能是测量误差或特殊事件的结果。最常用的异常值检测方法是1.5×IQR规则。小于Q1 - 1.5×IQR或大于Q3 + 1.5×IQR的值被视为异常值。识别异常值有助于改善数据质量或发现特殊模式。
直方图是将数据分成区间(bin),并用柱形表示每个区间频数的图表。它能让人一眼看出数据的分布形态(正态分布、偏度、峰度)。对称的钟形表示正态分布,向一侧倾斜的形态表示偏态分布。通过直方图可以轻松查看数据的众数区间、分布模式和异常值。
箱线图用一张图表现最小值、Q1、中位数(Q2)、Q3、最大值这五个统计量。箱体表示IQR(Q1~Q3),箱内的线表示中位数,须(whisker)表示正常范围。须之外的点为异常值。它在比较多组数据或判断分布对称性时非常有用。