01
平均數與中位數 - 集中趨勢的測量
平均數是所有資料之和除以數量所得的值,是最常用的代表值。但它對極端值敏感,容易被扭曲。中位數是將資料排序後位於中間位置的值,不受離群值影響,能提供更穩定的中心值。例如1、2、3、4、100的平均數是22,但中位數是3,更能反映實際分布。
計算資料的集中趨勢、離散程度、四分位數並偵測離群值。
平均數是所有資料之和除以數量所得的值,是最常用的代表值。但它對極端值敏感,容易被扭曲。中位數是將資料排序後位於中間位置的值,不受離群值影響,能提供更穩定的中心值。例如1、2、3、4、100的平均數是22,但中位數是3,更能反映實際分布。
變異數衡量每個資料點離平均數有多遠。標準差是變異數的平方根,與資料具有相同的單位,因此更易於解讀。標準差大表示資料在平均數周圍廣泛分散,小則表示聚集在平均數附近。在金融領域用於衡量波動性,在品質管理中用於衡量產品的一致性。
四分位數是將資料四等分的值,由Q1(25%)、Q2(50%,中位數)、Q3(75%)組成。IQR(四分位距)的計算方式為Q3 - Q1,表示中間50%資料的分散程度。IQR也用於偵測離群值。低於Q1 - 1.5×IQR或高於Q3 + 1.5×IQR的值被判定為離群值。
離群值(outlier)是與其他資料顯著不同的值,可能是測量誤差或特殊事件的結果。最常用的離群值偵測方法是1.5×IQR規則。小於Q1 - 1.5×IQR或大於Q3 + 1.5×IQR的值被視為離群值。找出離群值有助於改善資料品質或發現特殊模式。
直方圖是將資料分成區間(bin),並用長條圖表示每個區間頻數的圖表。它能讓人一眼看出資料的分布形態(常態分布、偏度、峰度)。對稱的鐘形表示常態分布,向一側傾斜的形態表示偏態分布。透過直方圖可以輕鬆看出資料的眾數區間、分布模式和離群值。
箱形圖用一張圖呈現最小值、Q1、中位數(Q2)、Q3、最大值這五個統計量。箱體表示IQR(Q1~Q3),箱內的線表示中位數,鬚(whisker)表示正常範圍。鬚之外的點為離群值。它在比較多組資料或判斷分布對稱性時非常有用。