Ori's IT 공부일지

[위클리 페이퍼 #2] 데이터 전처리(결측치, 이상치) / t-test 본문

코드잇 스프린트/위클리 페이퍼

[위클리 페이퍼 #2] 데이터 전처리(결측치, 이상치) / t-test

daminjeong 2024. 12. 13. 19:06

* 두 번째 위클리 페이퍼 주제 *

1. 데이터 전처리 방법들(ex.결측값 처리 등)에 대해 설명해주세요.

2. T-test에 대해 설명해주세요.


1. 데이터 전처리 방법들(ex. 결측값 처리 등)에 대해 설명해 주세요.

데이터 전처리란?

 

raw data를 데이터 분석에 적합한 형식으로 변환하는 과정으로, 데이터를 일관성있고 분석 가능한 형태로 만드는 단계. 분석에 사용하는 도구나 기법이 좋아도 데이터의 품질이 낮다면 좋은 분석 결과를 얻기 어렵기 때문에 데이터 분석에서 중요한 단계이다.

 

데이터 전처리 종류

 

  1.결측치 처리 : 누락되거나 존재하지 않는 데이터

    - 삭제 : 결측치가 있는 행 또는 열 삭제. 상대적으로 적은 수의 결측치일 때 사

    - 대체 : 평균, 중앙값, 최빈값 등 대표값으로 대체

    - 추정 : 시계열 등 연속적인 데이터의 경우 값 추정을 통해 대체

  2. 이상치 처리 : 다른 데이터와 극단적으로 차이나는 데이터

    - 삭제 : 해당 데이터 제거. 실제로 중요한 정보를 담고 있을수도 있으므로 신중해야함

    - 대체 : 평균, 중앙값, 최빈값 등 대표값으로 대체

    - 변환 : 로그 변환, 제곱근 변환 등 사용하여 데이터 분포 평활화 or 이상치 줄이기

  3. 정규화 / 표준화 : 각 컬럼의 값들이 다른 범위나 단위를 가질 수 있기 때문에 동일한 환경으로 조정

    - 정규화 : 값을 0과 1사이로 조정

    - 표준화 : 평균 0, 표준편차 1 되도록 조정

  4. 범주형 데이터 처리 : 범주형 데이터를 숫자로 변환. 원-핫 인코딩 등 사용

  5. 항목 선택 : 분석에 불필요하거나 관련 없는 항목은 제거

  6. 데이터 샘플링 : 데이터가 너무 많거나 불균형할 경우, 샘플링하여 진행

 

2. T-test에 대해 설명해주세요

T-test란?

 

t분포라는 확률분포를 사용하는 검정 방식으로 표본 크기가 작거나 모집단의 분산을 모를 때 사용하며, 주로 두 집단 간 데이터의 평균에 차이가 있는지를 검정하고자 할 때 쓰는 기법이다.

 

T-test의 종류

 

 1. 일표본(one sample) T검정 : 모집단 평균과 한 집단 평균 비교

  • 귀무가설 : A대학교 학생 평균 키가 전국 대학생 평균 키와 같다.
  • 대립가설 : A대학교 학생 평균 키가 전국 대학생 평균 키와 다르다.

 2. 독립표본(independent) T검정 : 독립적인 두 집단의 평균 비교

  • 귀무가설 : 날씨에 따른 자전거 평균 대여건수는 차이가 없다.
  • 대립가설 : 날씨에 따른 자전거 평균 대여건수는 차이가 있다.

 3. 대응표본(paired) T검정 : 같은 집단에 대한 전후 비교

  • 귀무가설 : 신제품 광고 전 후 매출액 차이가 없다.
  • 대립가설 : 신제품 광고 전 후 매출액 차이가 있다.