평균과 중앙값 - 중심경향 측정
평균은 모든 데이터의 합을 개수로 나눈 값으로, 가장 일반적인 대푯값입니다. 하지만 극단적인 값에 민감하여 왜곡될 수 있습니다. 중앙값은 데이터를 정렬했을 때 중간에 위치한 값으로, 이상값의 영향을 받지 않아 더 안정적인 중심값을 제공합니다. 예를 들어 1, 2, 3, 4, 100의 평균은 22이지만 중앙값은 3으로 실제 분포를 더 잘 반영합니다.
데이터의 중심경향, 분산도, 사분위수를 계산하고 이상값을 감지합니다.
평균은 모든 데이터의 합을 개수로 나눈 값으로, 가장 일반적인 대푯값입니다. 하지만 극단적인 값에 민감하여 왜곡될 수 있습니다. 중앙값은 데이터를 정렬했을 때 중간에 위치한 값으로, 이상값의 영향을 받지 않아 더 안정적인 중심값을 제공합니다. 예를 들어 1, 2, 3, 4, 100의 평균은 22이지만 중앙값은 3으로 실제 분포를 더 잘 반영합니다.
분산은 각 데이터가 평균으로부터 얼마나 떨어져 있는지를 측정합니다. 표준편차는 분산의 제곱근으로, 데이터와 같은 단위를 가지므로 해석이 쉽습니다. 표준편차가 크면 데이터가 평균 주변에 널리 퍼져 있고, 작으면 평균 근처에 모여 있습니다. 금융에서는 변동성, 품질관리에서는 제품의 일관성을 측정하는 데 사용됩니다.
사분위수는 데이터를 4등분하는 값입니다. Q1(25%), Q2(50%, 중앙값), Q3(75%)로 구성됩니다. IQR(사분위수 범위)는 Q3 - Q1으로 계산되며 중간 50%의 데이터가 퍼진 정도를 나타냅니다. IQR은 이상값 감지에도 사용됩니다. Q1 - 1.5×IQR 미만이거나 Q3 + 1.5×IQR 초과인 값을 이상값으로 판단합니다.
이상값(outlier)은 다른 데이터들과 현저히 다른 값으로, 측정 오류나 특별한 사건의 결과일 수 있습니다. 가장 일반적인 이상값 감지 방법은 1.5×IQR 규칙입니다. Q1 - 1.5×IQR보다 작거나 Q3 + 1.5×IQR보다 큰 값을 이상값으로 간주합니다. 이상값을 식별하면 데이터 품질을 개선하거나 특별한 패턴을 발견할 수 있습니다.
히스토그램은 데이터를 구간(bin)으로 나누어 각 구간의 빈도를 막대로 표시한 그래프입니다. 데이터의 분포 형태(정규분포, 왜도, 첨도)를 한눈에 파악할 수 있습니다. 대칭적인 종 모양은 정규분포, 한쪽으로 치우친 형태는 왜곡 분포를 나타냅니다. 히스토그램을 통해 데이터의 최빈값 구간, 분포 패턴, 이상값을 쉽게 확인할 수 있습니다.
박스플롯(상자그림)은 최솟값, Q1, 중앙값(Q2), Q3, 최댓값의 5가지 통계량을 하나의 그래프로 표현합니다. 상자는 IQR(Q1~Q3)을 나타내고, 상자 안의 선은 중앙값, 수염(whisker)은 정상 범위를 표시합니다. 수염 밖의 점들은 이상값입니다. 여러 그룹의 데이터를 비교하거나 분포의 대칭성을 판단하는 데 매우 유용합니다.