Ori's IT 공부일지

[위클리 페이퍼 #9] 편향, 분산 , k-fold 교차 검증 본문

코드잇 스프린트/위클리 페이퍼

[위클리 페이퍼 #9] 편향, 분산 , k-fold 교차 검증

daminjeong 2025. 4. 13. 12:35

1. 모델 학습 시 발생할 수 있는 편향과 분산에 대해 설명하고, 두 개념의 관계에 대해 설명해 주세요.

 

 

1) 편향(Bias)

  • 추정 결과가 한 쪽으로 치우치는 경향을 보임으로써 발생하는 오차
  • 머신러닝 모델에서는 예측한 결과가 정답과 일정하게 차이나는 정도 의미
  • 편향이 높은 경우 문제
    • 데이터의 패턴을 충분히 학습하지 못함
    • 일정한 방향으로 치우쳐진 예측
    • 일반적으로 너무 모델이 단순함
    • 과소적합(underfitting) 가능성 상승

2) 분산(Variance)

  • 변량(데이터)들이 퍼져있는 정도
  • 머신러닝 모델에서는 주어진 데이터 포인트에 대한 모델 에측의 가변성 의미
  • 분산이 높은 경우 문제
    • 훈련 데이터에는 잘 맞지만, 새로운 데이터에서는 낮은 성능
    • 훈련 데이터에 과도하게 최적화(노이즈까지 학습함)
    • 일반적으로 모델이 너무 복잡함
    • 과대적합(overfitting) 가능성 상승

 

 

 

3) 편향과 분산 트레이드 오프

  • 편향과 분산은 서로 반비례 관계
  • 단순한 모델 → 편향 증가, 분산 감소 (과소적합 위험)
  • 복잡한 모델 → 편향 감소, 분산 증가 (과대적합 위험)

4) 편향과 분산 조절 방법

  • 편향 줄이기
    • 더 복잡한 모델 사용
    • 더 많은 피처(feature)추가
    • 정교한 학습 알고리즘 사용
  • 분산 줄이기
    • 규제 적용 (L1, L2 정규화 등)
    • 더 많은 데이터 수집 → 훈련 데이터 크기 증가
    • 차원 축소 기법 (PCA 등)

 

2. K-폴드 교차 검증에서 K의 값을 선택할 때 고려해야 할 점은 무엇인가요?

 

1) K-폴드 교차 검증?

  • K개의 데이터 폴드 세트를 만들어서 K번 만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행하는 가장 보편적인 교차 검증 기법
    • 테스트 데이터 제외한 데이터를 무작위로 중복되지 않는 K개로 분할
    • K-1개를 학습 데이터, 나머지 1개 검증 데이터
      (검증 데이터를 바꾸며 K번 반복, 분할된 데이터가 한 번씩 검증 데이터로 사용됨)
    • K개의 결과의 평균을 최종 성능으로 사용

2) K값 선택 시 고려 사항

  • 편향 - 분산 트레이드 오프
    • 훈련 데이터 크기가 작을 수록 과소적합 위험 증가 → 검증 데이터 크기가 커짐
      → 모델 평가 결과가 더 변동성이 큼
    • 훈련 데이터 크기가 클수록 과대적합 위험 증가 → 검증 데이터 크기가 작아짐
      → 평가 변동성 감소 but 데이터 불충분하여 모델 평가 불안정
  • 데이터셋 크기
  • 계산 비용
  • 일반적으로 K= 5 or 10을 사용함