Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 |
Tags
- 코드잇스프린트
- 1종오류
- 코드잇da
- 단일표본t검정
- 스프린트
- 통계적가설검정
- 코드잇스프린트프리코스
- 코드잇
- 결측치
- 데이터분석
- 코드잇데이터분석
- 코드잇스프린트da
- T검정
- 선발후기
- 수료후기
- 데이터분석가
- 이상치
- 취업까지달린다
- 독립표본T검정
- 코드잇스프린트후기
- codeitconference2025
- 코드잇스프린트수료후기
- 데이터전처리
- 대응표본T검정
- 2종오류
- 지원후기
- t-test
- 스프린터의봄
- p값
- 대립가설
Archives
- Today
- Total
Ori's IT 공부일지
[위클리 페이퍼 #9] 편향, 분산 , k-fold 교차 검증 본문
1. 모델 학습 시 발생할 수 있는 편향과 분산에 대해 설명하고, 두 개념의 관계에 대해 설명해 주세요.

1) 편향(Bias)
- 추정 결과가 한 쪽으로 치우치는 경향을 보임으로써 발생하는 오차
- 머신러닝 모델에서는 예측한 결과가 정답과 일정하게 차이나는 정도 의미
- 편향이 높은 경우 문제
- 데이터의 패턴을 충분히 학습하지 못함
- 일정한 방향으로 치우쳐진 예측
- 일반적으로 너무 모델이 단순함
- 과소적합(underfitting) 가능성 상승
2) 분산(Variance)
- 변량(데이터)들이 퍼져있는 정도
- 머신러닝 모델에서는 주어진 데이터 포인트에 대한 모델 에측의 가변성 의미
- 분산이 높은 경우 문제
- 훈련 데이터에는 잘 맞지만, 새로운 데이터에서는 낮은 성능
- 훈련 데이터에 과도하게 최적화(노이즈까지 학습함)
- 일반적으로 모델이 너무 복잡함
- 과대적합(overfitting) 가능성 상승

3) 편향과 분산 트레이드 오프
- 편향과 분산은 서로 반비례 관계
- 단순한 모델 → 편향 증가, 분산 감소 (과소적합 위험)
- 복잡한 모델 → 편향 감소, 분산 증가 (과대적합 위험)
4) 편향과 분산 조절 방법
- 편향 줄이기
- 더 복잡한 모델 사용
- 더 많은 피처(feature)추가
- 정교한 학습 알고리즘 사용
- 분산 줄이기
- 규제 적용 (L1, L2 정규화 등)
- 더 많은 데이터 수집 → 훈련 데이터 크기 증가
- 차원 축소 기법 (PCA 등)
2. K-폴드 교차 검증에서 K의 값을 선택할 때 고려해야 할 점은 무엇인가요?
1) K-폴드 교차 검증?
- K개의 데이터 폴드 세트를 만들어서 K번 만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행하는 가장 보편적인 교차 검증 기법
- 테스트 데이터 제외한 데이터를 무작위로 중복되지 않는 K개로 분할
- K-1개를 학습 데이터, 나머지 1개 검증 데이터
(검증 데이터를 바꾸며 K번 반복, 분할된 데이터가 한 번씩 검증 데이터로 사용됨) - K개의 결과의 평균을 최종 성능으로 사용
2) K값 선택 시 고려 사항
- 편향 - 분산 트레이드 오프
- 훈련 데이터 크기가 작을 수록 과소적합 위험 증가 → 검증 데이터 크기가 커짐
→ 모델 평가 결과가 더 변동성이 큼 - 훈련 데이터 크기가 클수록 과대적합 위험 증가 → 검증 데이터 크기가 작아짐
→ 평가 변동성 감소 but 데이터 불충분하여 모델 평가 불안정
- 훈련 데이터 크기가 작을 수록 과소적합 위험 증가 → 검증 데이터 크기가 커짐
- 데이터셋 크기
- 계산 비용
- 일반적으로 K= 5 or 10을 사용함
'코드잇 스프린트 > 위클리 페이퍼' 카테고리의 다른 글
| [위클리 페이퍼 #11] 차원 축소, 고유값과 고유벡터, 히스토그램 (0) | 2025.04.13 |
|---|---|
| [위클리 페이퍼 #10] 결정트리, 부스팅 (0) | 2025.04.13 |
| [위클리 페이퍼 #8] 지도 학습 vs 비지도 학습, 손실함수 (0) | 2025.04.13 |
| [위클리 페이퍼 #7] A/B 테스트, 이벤트 로그 설계 (0) | 2025.04.13 |
| [위클리 페이퍼 #6] AARRR, 코호트 분석, RFM 분석 (0) | 2025.04.13 |