[위클리 페이퍼 #9] 편향, 분산 , k-fold 교차 검증

본문 바로가기

Notice

Recent Posts

Recent Comments

Link

Tags more

Archives

Today

Total

관리 메뉴

Ori's IT 공부일지

[위클리 페이퍼 #9] 편향, 분산 , k-fold 교차 검증 본문

코드잇 스프린트/위클리 페이퍼

[위클리 페이퍼 #9] 편향, 분산 , k-fold 교차 검증

daminjeong 2025. 4. 13. 12:35

1. 모델 학습 시 발생할 수 있는 편향과 분산에 대해 설명하고, 두 개념의 관계에 대해 설명해 주세요.

1) 편향(Bias)

추정 결과가 한 쪽으로 치우치는 경향을 보임으로써 발생하는 오차
머신러닝 모델에서는 예측한 결과가 정답과 일정하게 차이나는 정도 의미
편향이 높은 경우 문제
- 데이터의 패턴을 충분히 학습하지 못함
- 일정한 방향으로 치우쳐진 예측
- 일반적으로 너무 모델이 단순함
- 과소적합(underfitting) 가능성 상승

2) 분산(Variance)

변량(데이터)들이 퍼져있는 정도
머신러닝 모델에서는 주어진 데이터 포인트에 대한 모델 에측의 가변성 의미
분산이 높은 경우 문제
- 훈련 데이터에는 잘 맞지만, 새로운 데이터에서는 낮은 성능
- 훈련 데이터에 과도하게 최적화(노이즈까지 학습함)
- 일반적으로 모델이 너무 복잡함
- 과대적합(overfitting) 가능성 상승

3) 편향과 분산 트레이드 오프

편향과 분산은 서로 반비례 관계
단순한 모델 → 편향 증가, 분산 감소 (과소적합 위험)
복잡한 모델 → 편향 감소, 분산 증가 (과대적합 위험)

4) 편향과 분산 조절 방법

편향 줄이기
- 더 복잡한 모델 사용
- 더 많은 피처(feature)추가
- 정교한 학습 알고리즘 사용
분산 줄이기
- 규제 적용 (L1, L2 정규화 등)
- 더 많은 데이터 수집 → 훈련 데이터 크기 증가
- 차원 축소 기법 (PCA 등)

2. K-폴드 교차 검증에서 K의 값을 선택할 때 고려해야 할 점은 무엇인가요?

1) K-폴드 교차 검증?

K개의 데이터 폴드 세트를 만들어서 K번 만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행하는 가장 보편적인 교차 검증 기법
- 테스트 데이터 제외한 데이터를 무작위로 중복되지 않는 K개로 분할
- K-1개를 학습 데이터, 나머지 1개 검증 데이터
  (검증 데이터를 바꾸며 K번 반복, 분할된 데이터가 한 번씩 검증 데이터로 사용됨)
- K개의 결과의 평균을 최종 성능으로 사용

2) K값 선택 시 고려 사항

편향 - 분산 트레이드 오프
- 훈련 데이터 크기가 작을 수록 과소적합 위험 증가 → 검증 데이터 크기가 커짐
  → 모델 평가 결과가 더 변동성이 큼
- 훈련 데이터 크기가 클수록 과대적합 위험 증가 → 검증 데이터 크기가 작아짐
  → 평가 변동성 감소 but 데이터 불충분하여 모델 평가 불안정
데이터셋 크기
계산 비용
일반적으로 K= 5 or 10을 사용함

'코드잇 스프린트 > 위클리 페이퍼' 카테고리의 다른 글

[위클리 페이퍼 #11] 차원 축소, 고유값과 고유벡터, 히스토그램 (0)	2025.04.13
[위클리 페이퍼 #10] 결정트리, 부스팅 (0)	2025.04.13
[위클리 페이퍼 #8] 지도 학습 vs 비지도 학습, 손실함수 (0)	2025.04.13
[위클리 페이퍼 #7] A/B 테스트, 이벤트 로그 설계 (0)	2025.04.13
[위클리 페이퍼 #6] AARRR, 코호트 분석, RFM 분석 (0)	2025.04.13

'코드잇 스프린트/위클리 페이퍼' Related Articles

more

티스토리툴바