📈 P值计算器

计算Z、T、卡方、F检验的P值并判断统计显著性。包含检验效能分析和效应量计算。

指南

了解更多

P值的定义与解读

P值（P-value）是指在假设原假设（H₀）为真的前提下，得到实际观测到的统计量或比其更极端数值的概率。例如，若P值为0.03，则意味着"当原假设为真时，出现如此极端结果的概率为3%"。当P值小于显著性水平α（通常为0.05或5%）时，我们拒绝原假设并接受备择假设。因为P=0.03 < 0.05，所以得出"统计上显著（statistically significant）"的结论。P值越小，反对原假设的证据越强。但P值并不说明效应的大小或重要性，仅仅判断结果是否由偶然造成。P=0.001和P=0.049都显著，但证据强度不同。

Z检验与T检验：比较均值的基础

Z检验用于总体标准差（σ）已知且样本量较大（n≥30）的情形。Z = (x̄ - μ₀) / (σ / √n)。例如：检验平均身高是否为170cm（μ₀）时，若100人的样本均值为172cm、σ=10cm，则Z = (172-170)/(10/√100) = 2/1 = 2.0。双侧检验P值 = 2×P(Z>2.0) ≈ 0.046 < 0.05，显著。T检验用于总体标准差未知而使用样本标准差（s）的情形，或样本量较小时（n<30）。T = (x̄ - μ₀) / (s / √n)，自由度df=n-1。例如：25人平均75分、s=12、μ₀=70时，T = (75-70)/(12/√25) = 5/2.4 = 2.08，df=24。由T分布得P值 ≈ 0.048，显著。

卡方检验：分类数据分析

卡方（χ²）检验用于分类变量间的独立性检验或拟合优度检验。χ² = Σ(观测频数 - 期望频数)² / 期望频数。例如：将骰子掷60次，各点数分别出现{12, 8, 11, 9, 10, 10}次，则期望频数各为10次。χ² = (12-10)²/10 + (8-10)²/10 + ... = 1.0。自由度df=6-1=5，P值 ≈ 0.96 > 0.05，因此骰子是公平的（不显著）。卡方检验可用于独立性检验（例如性别与产品偏好）、齐性检验（比较多个群体的比例）、拟合优度检验（观测分布是否服从理论分布）。

F检验：方差比较与ANOVA

F检验用于比较两个群体的方差，或在ANOVA（方差分析）中同时比较多个群体的均值。F = s₁² / s₂²（较大方差 / 较小方差）。例如：群体1方差s₁²=25、群体2方差s₂²=16，则F = 25/16 = 1.56。自由度df₁=n₁-1、df₂=n₂-1。ANOVA在比较三个及以上群体的均值时，用F检验一次性完成检验，而非反复进行t检验（避免第一类错误累积）。F值越大，表示群体间方差大于群体内方差，即群体间均值差异显著。

检验效能与效应量：超越P值

检验效能（Power）是指当备择假设为真时正确检测到它的概率，Power = 1 - β（第二类错误）。通常以0.8（80%）以上为目标。检验效能受效应量、样本量和显著性水平的影响。样本量越大、效应量越大、α越大，检验效能越高。效应量（Effect Size）表示实际差异的大小。Cohen's d = (均值1 - 均值2) / 合并标准差。d=0.2为小效应，d=0.5为中等效应，d=0.8为大效应。即使P值显著，若效应量很小，也可能没有实际意义。

P值的误解与正确使用

关于P值的常见误解：①"P=0.05表示原假设为真的概率为5%"是错误的。P值是"当H₀为真时数据出现的概率"，而非"给定数据时H₀为真的概率"（需要贝叶斯定理）。②"P<0.05表示效应大"是误解。P值表示显著性，而非效应量。③把0.05当作绝对界限，如"P=0.051不显著而P=0.049显著"，是有问题的。P值应作为连续的证据来解读。正确使用：应将P值与置信区间、效应量、实际意义综合评估。为保证可重复性，应进行预注册（pre-registration），并避免P-hacking。

常见问题

P值小是否意味着效应大？

不是。P值仅表示统计显著性，并不说明效应的大小。当样本非常大时，即使很小的效应也可能显著，因此应将P值与效应量（如Cohen's d）和置信区间一并查看。

什么时候使用单侧检验和双侧检验？

对于方向明确的假设（例如"大于"）使用单侧检验，而在同时考虑两个方向的差异时使用双侧检验。双侧检验的P值约为单侧检验的2倍。