📊 置信区间计算器

临界值表 (Critical Values)

Z临界值(大样本，n ≥ 30)

90%置信水平: Z = 1.645
95%置信水平: Z = 1.96
99%置信水平: Z = 2.576

T临界值(小样本)

自由度 (df)	t(90%)	t(95%)	t(99%)

指南

了解更多

什么是置信区间?

置信区间(Confidence Interval)表示总体参数(均值、比例等)落在某一特定区间内的概率。95%的置信水平意味着抽样100次时约有95次总体参数会落在区间内，置信水平越高，置信区间越宽。误差范围 E = 临界值 × (标准差 / √n)，样本量越大，误差范围越小。当 n ≥ 30 时使用Z分布(正态分布近似)，当 n < 30 时使用T分布(更保守，尾部更厚)。

置信区间的定义与基本概念

置信区间(Confidence Interval，CI)是指基于样本数据、预期包含总体参数(均值、比例、标准差等)的区间。例如，若500名大学生的平均身高为170cm、标准差为10cm，而95%置信区间为 [168.1cm, 171.9cm]，则解释为「全体大学生的平均身高有95%的把握介于168.1cm到171.9cm之间」。置信水平通常采用90%、95%、99%，其中95%表示「若重复抽样100次，约有95个区间会包含真实参数」。置信区间的形式为 [x̄ - E, x̄ + E]，其中 E(误差范围)由「临界值 × 标准误」计算得出。标准误(SE)为 s / √n，因此样本量 n 越大，误差范围越小，置信区间越窄。

Z分布与T分布: 何时用哪一个?

计算置信区间时，根据样本量选择Z分布或T分布。Z分布(标准正态分布)用于样本量足够大的情况(一般 n ≥ 30)，因为根据中心极限定理，样本均值的分布近似于正态分布。Z临界值是固定的: 90% = 1.645、95% = 1.96、99% = 2.576。T分布用于样本量较小时(n < 30)，其尾部比正态分布更厚，可提供更保守的估计。T分布的形状随自由度(df = n - 1)变化，自由度越大越接近正态分布。例如当 n=10(df=9)时，95%置信水平的t临界值为2.262，大于Z的1.96。

均值置信区间的计算方法与示例

总体均值的置信区间用以下公式计算: CI = x̄ ± (临界值 × s / √n)。示例: 某高中25名学生的数学成绩平均为75分、标准差为12分，求95%置信区间时，由于 n=25 < 30，使用T分布。自由度 df = 24，t(95%, df=24) = 2.064。标准误 SE = 12 / √25 = 2.4，误差范围 E = 2.064 × 2.4 = 4.95。因此95%置信区间 = [70.05分, 79.95分]。若将置信水平提高到99%，则 t(99%, df=24) = 2.797、E = 6.71、CI = [68.29分, 81.71分]，区间变宽。提高置信水平会更有把握，但区间会变宽，这是一种权衡。

比例置信区间的计算(二项分布)

总体比例(p)的置信区间用样本比例(p̂)计算。公式: CI = p̂ ± Z × √[p̂(1-p̂) / n]。示例: 800名选民中有480人支持候选人A，样本比例 p̂ = 480/800 = 0.6(60%)。求95%置信区间时，Z(95%) = 1.96，标准误 SE = √[0.6 × 0.4 / 800] = 0.0173，误差范围 E = 1.96 × 0.0173 = 0.034(3.4%)。95%置信区间 = [56.6%, 63.4%]。使用比例置信区间时须满足正态近似条件(np̂ ≥ 5 且 n(1-p̂) ≥ 5)。若样本量较小或 p̂ 接近0或1，则应使用威尔逊得分区间或精确二项置信区间。

样本量的确定: 达到期望的误差范围

设计研究时，「需要多少样本?」是一个重要问题。在给定期望误差范围 E 和置信水平时，所需样本量的公式为: n = (Z × σ / E)²。示例: 在95%置信水平下希望误差范围在 ±2分以内，若总体标准差为15分，则 n = (1.96 × 15 / 2)² = 216.09 → 至少需要217个样本。要将误差范围减半，样本量须增加到4倍(E 与 n 呈平方反比)。对于比例，则假定最坏情况(p=0.5)，用 n = (Z / E)² × 0.25 计算。

置信区间解释中的常见误解与正确理解

将95%置信区间 [168cm, 172cm] 解释为「总体均值落在此区间内的概率为95%」是错误的。在频率主义统计中，总体均值是固定值，因此概率非0%即100%。正确的解释是: 「以此方法抽样100次并构建置信区间，约有95次所构建的区间会包含总体均值。」另一个误解是「95%置信区间是包含95%数据的区间」，但这其实是预测区间(Prediction Interval)的定义。置信区间反映的是参数的不确定性，而预测区间反映的是单个观测值的不确定性。

常见问题

Z分布和T分布何时使用?

样本量 n 达到30或以上时使用Z分布(正态分布近似)，小于30时使用T分布(自由度 df = n - 1)。T分布尾部更厚，可提供更保守的估计。

误差范围如何计算?

误差范围 E = 临界值 × (标准差 / √n)。样本量越大，误差范围越小，置信区间也就越窄。