🌐 ZH

📈 P值计算器

计算Z、T、卡方、F检验的P值并判断统计显著性。包含检验效能分析和效应量计算。

指南

了解更多

01

P值的定义与解读

P值(P-value)是指在假设原假设(H₀)为真的前提下,得到实际观测到的统计量或比其更极端数值的概率。例如,若P值为0.03,则意味着"当原假设为真时,出现如此极端结果的概率为3%"。当P值小于显著性水平α(通常为0.05或5%)时,我们拒绝原假设并接受备择假设。因为P=0.03 < 0.05,所以得出"统计上显著(statistically significant)"的结论。P值越小,反对原假设的证据越强。但P值并不说明效应的大小或重要性,仅仅判断结果是否由偶然造成。P=0.001和P=0.049都显著,但证据强度不同。

02

Z检验与T检验:比较均值的基础

Z检验用于总体标准差(σ)已知且样本量较大(n≥30)的情形。Z = (x̄ - μ₀) / (σ / √n)。例如:检验平均身高是否为170cm(μ₀)时,若100人的样本均值为172cm、σ=10cm,则Z = (172-170)/(10/√100) = 2/1 = 2.0。双侧检验P值 = 2×P(Z>2.0) ≈ 0.046 < 0.05,显著。T检验用于总体标准差未知而使用样本标准差(s)的情形,或样本量较小时(n<30)。T = (x̄ - μ₀) / (s / √n),自由度df=n-1。例如:25人平均75分、s=12、μ₀=70时,T = (75-70)/(12/√25) = 5/2.4 = 2.08,df=24。由T分布得P值 ≈ 0.048,显著。

03

卡方检验:分类数据分析

卡方(χ²)检验用于分类变量间的独立性检验或拟合优度检验。χ² = Σ(观测频数 - 期望频数)² / 期望频数。例如:将骰子掷60次,各点数分别出现{12, 8, 11, 9, 10, 10}次,则期望频数各为10次。χ² = (12-10)²/10 + (8-10)²/10 + ... = 1.0。自由度df=6-1=5,P值 ≈ 0.96 > 0.05,因此骰子是公平的(不显著)。卡方检验可用于独立性检验(例如性别与产品偏好)、齐性检验(比较多个群体的比例)、拟合优度检验(观测分布是否服从理论分布)。

04

F检验:方差比较与ANOVA

F检验用于比较两个群体的方差,或在ANOVA(方差分析)中同时比较多个群体的均值。F = s₁² / s₂²(较大方差 / 较小方差)。例如:群体1方差s₁²=25、群体2方差s₂²=16,则F = 25/16 = 1.56。自由度df₁=n₁-1、df₂=n₂-1。ANOVA在比较三个及以上群体的均值时,用F检验一次性完成检验,而非反复进行t检验(避免第一类错误累积)。F值越大,表示群体间方差大于群体内方差,即群体间均值差异显著。

05

检验效能与效应量:超越P值

检验效能(Power)是指当备择假设为真时正确检测到它的概率,Power = 1 - β(第二类错误)。通常以0.8(80%)以上为目标。检验效能受效应量、样本量和显著性水平的影响。样本量越大、效应量越大、α越大,检验效能越高。效应量(Effect Size)表示实际差异的大小。Cohen's d = (均值1 - 均值2) / 合并标准差。d=0.2为小效应,d=0.5为中等效应,d=0.8为大效应。即使P值显著,若效应量很小,也可能没有实际意义。

06

P值的误解与正确使用

关于P值的常见误解:①"P=0.05表示原假设为真的概率为5%"是错误的。P值是"当H₀为真时数据出现的概率",而非"给定数据时H₀为真的概率"(需要贝叶斯定理)。②"P<0.05表示效应大"是误解。P值表示显著性,而非效应量。③把0.05当作绝对界限,如"P=0.051不显著而P=0.049显著",是有问题的。P值应作为连续的证据来解读。正确使用:应将P值与置信区间、效应量、实际意义综合评估。为保证可重复性,应进行预注册(pre-registration),并避免P-hacking。

常见问题

P值小是否意味着效应大?
不是。P值仅表示统计显著性,并不说明效应的大小。当样本非常大时,即使很小的效应也可能显著,因此应将P值与效应量(如Cohen's d)和置信区间一并查看。
什么时候使用单侧检验和双侧检验?
对于方向明确的假设(例如"大于")使用单侧检验,而在同时考虑两个方向的差异时使用双侧检验。双侧检验的P值约为单侧检验的2倍。