티스토리 뷰

데이터 분석이 굉장히 중요한 시대인데요, 데이터 분석하는 방법도 굉장히 다양하게 진화되어오고 있습니다. 저는 하나의 카테고리를 잡아서 앞으로 데이터 분석에 관련된 내용을 연재하고자 하며 정의 부터, 실제 구현에 이르는 내용을 통해서 쉽게 데이터분석가가 되도록 해보겠습니다. 그 중 첫번째 데이터 분석 기법으로 박스플롯부터 시작해 보도록 하겠습니다.

정의

박스플롯(Box plot)은 데이터 분포를 시각적으로 나타내는 통계 그래프 중 하나입니다. 주로 수치형 데이터를 다룰 때 사용되며, 데이터의 중앙값, 최대값, 최소값, 사분위수 등을 표현할 수 습니다.

  • 카테고리 별 분포를 비교할 때도 유용하게 사용됨
  • 데이터의 속성을 유추할 수 있는 5개의 대표적인 수치를 그림으로 표현하여 데이터 특성을 바로 알아낼 수 있음
    • 이를 통해 해당 데이터 활용 시의 유의점을 인식할 수 있고, 분석 방향을 잡을 수 있다.

박스플롯은 직사각형 박스와 수염(whisker)으로 구성됩니다. 직사각형 박스의 상단부분은 상위 25% 지점(3사분위수), 하단부분은 하위 25% 지점(1사분위수)을 나타냅니다. 박스 내외의 가로선은 중앙값을 나타냅니다. 수염은 전체 데이터 범위에서 상위 25% 지점과 하위 25% 지점을 제외한 값들 중에서 최대값과 최소값을 나타냅니다. 그리고 박스플롯을 통해 데이터의 중심 경향과 분산 정도를 한눈에 파악할 수 있으며, 이상치(outlier)를 식별할 수 있습니다. 이상치란 일반적인 데이터 분포에서 벗어난 극단적인 값들을 의미합니다.

    1. 최소값 : 제 1사 분위에서 1.5 IQR을 뺀 위치
    2. 제 1사 분위(Q1) : 25%의 위치
    3. 제 2사 분위(Q2) : 50%의 위치(중앙 값 을 의미)
    4. 제 3사 분위(Q3) : 75%의 위치
    5. 최대값 : 제 3사분위에서 1.5 IQR을 더한 위치
  • IQR이란, 3사분위 수에서 1사분위 수를 뺀 사분위수 범위를 뜻합니다.

박스플롯 수치

 

  • 위  예시 그림의 박스 플롯을 해석하면, 중앙값이 다소 아래에 있으므로, 오른쪽으로 약간 치우친 분포를 가지고 있음을 유추할 수 있습니다. 그리고 최소값 범위(제 1사 분위에서 1.5 IQR을 뺀 위치) 보다 실제 최소값이 훨씬 높이에 위치해 있기 때문에 왼쪽으로는 데이터가 적게 펴져 있음을 알 수 있습니다. 그리고 최대값을 넘어선 이상치가 존재하는 것으로 보아 역시 이 분포는 오른 꼬리가 긴 분포를 하고 있음을 알 수 있습니다.
  • 99 개의 데이터가 작은 값부터 순서대로 있다고 했을 때, 앞에서부터 25번째 값이 1사분위 수가 되는데 분위수를 구하는 수식은 다음과 같습니다.

분위수 구하는 수식

  • Z-Score

 Z-Score는 박스플롯을 그리기 위해 사용되는 값을 계산할 때, 데이터 포인트의 위치를 표준 정규 분포에서의 위치로 변환한 값인데요, Z-Score는 각 항목에 전체 평균을 뺀 후 표준편차로 나눠주면 구할 수 있으며, 각각이 어느 퍼센타일에 위치하는지 알 수 있게 해주는 통계적 기법입니다.

z-score는 데이터 포인트가 평균값에서 얼마나 떨어져 있는지를 나타내며, 표준 편차의 배수로 계산됩니다. 즉, z-score가 0일 경우에는 데이터 포인트가 평균값과 같은 위치에 있으며, z-score가 양수일 경우에는 평균값보다 더 높은 위치에 있고, z-score가 음수일 경우에는 평균값보다 더 낮은 위치에 있습니다.

박스플롯에서는 데이터 포인트가 상위 25% 지점부터 하위 25% 지점까지의 범위에 위치한 경우에는 z-score가 [-0.67, 0.67] 사이에 있으며, 이 범위 밖의 데이터 포인트는 이상치(outlier)로 처리됩니다. 이를 통해 데이터의 이상치를 식별할 수 있으며, 이상치를 제거하거나 다른 방식으로 처리할 수 있습니다.

  • 수식

 

Z-score 수식

  • (예시) 두 학생의 조건이 아래와 같을 때, 각각의 Z-Score는 아래와 같은 의미를 지닌다.

학생별 Z-Score
Z-Score

  1. A 학생은 1 표준편차만큼 평균으로부터 위에 있다. 그러므로 A 학생은 84.13 퍼센타일 위치해 있다.
  2. B 학생은 0.6 표준편차만큼 평균으로부터 위에 있다. 그러므로 B 학생은 72.57 퍼센타일 위치해 있다.

다음시간에는 박스플롯을 실제로 구현해보도록 하겠습니다. 데이터 분석은 파이썬으로 진행하는게 가장 빠르고 편하기 때문에 파이썬으로 진행하도록 하겠습니다.

 

댓글