윈디하나의 누리사랑방. 이런 저런 얘기

글쓴시간
분류 시사,사회
중앙값, 최빈값, 평균값, 분산, 표준편차

- 중앙값(median):  자료를 순서대로 나열할때, 중앙에 위치한 값(자료가 짝수개일때는 n/2에 위치한 값)
- 최빈값(mode): 자료중 많이 나타난 값
- 평균값(mean): 자료를 더한 값을 자료의 개수로 나눈 값
- 분산(variance):  각 자료에서 평균값을 뺀 값을 제곱한 값의 합
- 표준편차(standard deviation): 분산의 양의 제곱근

※ average 는 평균값이 아니라 대표값을 의미한다. 통계학이나 공학에서는 mean 이 평균값을 의미한다.

----

아래와 같은 자료가 있다고 하자.
1,2,32,33,33,100,10000
중앙값: 33 (4번째수)
최빈값: 33 (33이 두번 나타났음)
평균값: 1457

전체 7개 항목중 6개가 평균 이하다.

----

제시된 자료를 볼 때는 평균 뿐만 아니라, 중앙값, 자료의 분포를 나타낸 그래프까지 감안해 봐야 한다. 그렇지 않으면 통계값을 왜곡하는 경우가 있기 때문이다.

특히 소득통계에서는 평균만 가지고 판단하기엔 왜곡이 심하다. 개인적으로는 소득순위 1등과 꼴등의 소득 차이가 10000배차이는 되지 않을까 생각한다. 이 정도 차이면 평균값은 수치로써 가치가 없다. 쉽게 말하면 중앙값은 평균값보다 많이 낮다는 의미다.

어느 자료인지는 잘 모르겠는데, 나라마다 차이는 있겠지만 소득의 평균값은 상위 25%라고 본것 같다.