🌐 ZH

📊 置信区间计算器

临界值表 (Critical Values)

Z临界值(大样本,n ≥ 30)

  • 90%置信水平: Z = 1.645
  • 95%置信水平: Z = 1.96
  • 99%置信水平: Z = 2.576

T临界值(小样本)

自由度 (df) t(90%) t(95%) t(99%)
指南

了解更多

01

什么是置信区间?

置信区间(Confidence Interval)表示总体参数(均值、比例等)落在某一特定区间内的概率。95%的置信水平意味着抽样100次时约有95次总体参数会落在区间内,置信水平越高,置信区间越宽。误差范围 E = 临界值 × (标准差 / √n),样本量越大,误差范围越小。当 n ≥ 30 时使用Z分布(正态分布近似),当 n < 30 时使用T分布(更保守,尾部更厚)。

02

置信区间的定义与基本概念

置信区间(Confidence Interval,CI)是指基于样本数据、预期包含总体参数(均值、比例、标准差等)的区间。例如,若500名大学生的平均身高为170cm、标准差为10cm,而95%置信区间为 [168.1cm, 171.9cm],则解释为「全体大学生的平均身高有95%的把握介于168.1cm到171.9cm之间」。置信水平通常采用90%、95%、99%,其中95%表示「若重复抽样100次,约有95个区间会包含真实参数」。置信区间的形式为 [x̄ - E, x̄ + E],其中 E(误差范围)由「临界值 × 标准误」计算得出。标准误(SE)为 s / √n,因此样本量 n 越大,误差范围越小,置信区间越窄。

03

Z分布与T分布: 何时用哪一个?

计算置信区间时,根据样本量选择Z分布或T分布。Z分布(标准正态分布)用于样本量足够大的情况(一般 n ≥ 30),因为根据中心极限定理,样本均值的分布近似于正态分布。Z临界值是固定的: 90% = 1.645、95% = 1.96、99% = 2.576。T分布用于样本量较小时(n < 30),其尾部比正态分布更厚,可提供更保守的估计。T分布的形状随自由度(df = n - 1)变化,自由度越大越接近正态分布。例如当 n=10(df=9)时,95%置信水平的t临界值为2.262,大于Z的1.96。

04

均值置信区间的计算方法与示例

总体均值的置信区间用以下公式计算: CI = x̄ ± (临界值 × s / √n)。示例: 某高中25名学生的数学成绩平均为75分、标准差为12分,求95%置信区间时,由于 n=25 < 30,使用T分布。自由度 df = 24,t(95%, df=24) = 2.064。标准误 SE = 12 / √25 = 2.4,误差范围 E = 2.064 × 2.4 = 4.95。因此95%置信区间 = [70.05分, 79.95分]。若将置信水平提高到99%,则 t(99%, df=24) = 2.797、E = 6.71、CI = [68.29分, 81.71分],区间变宽。提高置信水平会更有把握,但区间会变宽,这是一种权衡。

05

比例置信区间的计算(二项分布)

总体比例(p)的置信区间用样本比例(p̂)计算。公式: CI = p̂ ± Z × √[p̂(1-p̂) / n]。示例: 800名选民中有480人支持候选人A,样本比例 p̂ = 480/800 = 0.6(60%)。求95%置信区间时,Z(95%) = 1.96,标准误 SE = √[0.6 × 0.4 / 800] = 0.0173,误差范围 E = 1.96 × 0.0173 = 0.034(3.4%)。95%置信区间 = [56.6%, 63.4%]。使用比例置信区间时须满足正态近似条件(np̂ ≥ 5 且 n(1-p̂) ≥ 5)。若样本量较小或 p̂ 接近0或1,则应使用威尔逊得分区间或精确二项置信区间。

06

样本量的确定: 达到期望的误差范围

设计研究时,「需要多少样本?」是一个重要问题。在给定期望误差范围 E 和置信水平时,所需样本量的公式为: n = (Z × σ / E)²。示例: 在95%置信水平下希望误差范围在 ±2分以内,若总体标准差为15分,则 n = (1.96 × 15 / 2)² = 216.09 → 至少需要217个样本。要将误差范围减半,样本量须增加到4倍(E 与 n 呈平方反比)。对于比例,则假定最坏情况(p=0.5),用 n = (Z / E)² × 0.25 计算。

07

置信区间解释中的常见误解与正确理解

将95%置信区间 [168cm, 172cm] 解释为「总体均值落在此区间内的概率为95%」是错误的。在频率主义统计中,总体均值是固定值,因此概率非0%即100%。正确的解释是: 「以此方法抽样100次并构建置信区间,约有95次所构建的区间会包含总体均值。」另一个误解是「95%置信区间是包含95%数据的区间」,但这其实是预测区间(Prediction Interval)的定义。置信区间反映的是参数的不确定性,而预测区间反映的是单个观测值的不确定性。

常见问题

Z分布和T分布何时使用?
样本量 n 达到30或以上时使用Z分布(正态分布近似),小于30时使用T分布(自由度 df = n - 1)。T分布尾部更厚,可提供更保守的估计。
误差范围如何计算?
误差范围 E = 临界值 × (标准差 / √n)。样本量越大,误差范围越小,置信区间也就越窄。