Ori's IT 공부일지

[위클리 페이퍼 #3] 사분위수 / 기술통계, 추론통계 본문

코드잇 스프린트/위클리 페이퍼

[위클리 페이퍼 #3] 사분위수 / 기술통계, 추론통계

daminjeong 2024. 12. 20. 21:03

* 세 번째 위클리 페이퍼 주제 *

1. 사분위수에 대해 설명해주세요.

2. 기술통계와 추론통계는 무엇이고, 어떤 차이가 있나요?


1. 사분위수에 대해 설명해주세요.

 

- 사분위수 : 데이터를 낮은 값에서 높은 값으로 정렬한 후 4등분하는 값으로, 주로 데이터의 분포를 파악하고, 특히 이상치(outlier)을 판별할 때 유용하게 쓰인다.

 

  • 제1사분위수(Q1) : 25%지점, 중앙값을 기준으로 하위 범위에서의 중앙값
  • 제2사분위수(Q2, 중앙값) : 50% 지점
  • 제3사분위수(Q3) : 75% 지점, 중앙값을 기준으로 상위 범위에서의 중앙값
  • 제4사분위수(Q4) : 100%지점, 최댓값

- IQR(사분위수 범위) : 제3사분위수 - 제2사분위수 값

 

- 상자그림 : 데이터 분포와 범위를 시각적으로 나타내는 그래프, 주로 사분위수, 최솟값, 최댓값 등을 나타내며 이상치 판별할 때 사용된다. 가운데 상자는 중앙값(50%)기준으로 상하위에 25%씩 데이터가 몰려있는 것을 나타낸다.

 

  • 상한선 : Q3 + 1.5 * IQR
  • 하한선 : Q1 - 1.5 * IQR

  이 범위를 벗어나는 값은 이상치(Outlier)로 간주한다.

 

 

 

2. 기술통계와 추론통계는 무엇이고, 어떤 차이가 있나요?

 

- 기술통계 : 주로 데이터를 요약하고 설명하는 데 사용되며, 데이터의 특성을 파악하는 데 초점이 맞춰져 있다.

 

  • 평균 : 데이터 값의 합 / 데이터 개수
  • 중앙값 : 데이터를 오름차순 또는 내림차순으로 정렬했을 때, 가운데 값(데이터 개수가 짝수일 경우 가운데 두 값의 평균)
  • 최빈값 : 가장 많은 빈도수의 값
  • 분산/표준편차 : 데이터가 평균으로부터 얼마나 퍼져있는지 정도를 나타내는 값
  • 왜도/첨도 : 데이터가 어느 쪽으로 치우쳤는지를 나타내는 값 / 데이터 분포의 꼭대기가 얼마나 뾰족한지를 나타내는 값 
  • 산점도, 히스토그램, 상자그림 등 : 데이터의 분포나 관계 등을 그래프를 통해 시각적으로 표현

 

- 추론통계 : 표본 데이터를 통해서 모집단을 추론하고 예측하는 과정. 확률론적인 방법을 바탕으로 하여 항상 오차가 존재한다.

  • 표본/모집단 : 모집단에서 일부만 추출한 샘플 데이터 / 전체 집
  • 점추정/구간추정 : 모집단의 모수를 단 하나의 값으로 추정(ex.모집단의 평균 추정) / 모집단의 모수가 포함될 수 있는 범위 추정(보통 95% 신뢰구간 사용)
  • P값 : 가설 설정 후 이를 검증할 때 기준이 되는 값(일반적으로 p값 < 0.05이면 귀무가설 기각)
  • 카이제곱검정, 분산분석, 회귀분석 등 : 가설설정하고 이를 검정하는 다양한 방법

 

- 기술통계와 추론통계의 차이점 : 기술통계는 데이터를 요약하고 정리하는 데 쓰이고 추론통계는 표본을 통해 모집단에 대해 결론을 내리거나 예측하는 과정에 쓰인다.