Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 |
Tags
- 이상치
- 수료후기
- 코드잇스프린트프리코스
- 코드잇스프린트후기
- 통계적가설검정
- 취업까지달린다
- 대응표본T검정
- 코드잇
- 단일표본t검정
- 코드잇데이터분석
- 코드잇스프린트수료후기
- 코드잇da
- 독립표본T검정
- 대립가설
- 선발후기
- T검정
- 코드잇스프린트da
- 결측치
- 2종오류
- t-test
- codeitconference2025
- 스프린트
- 데이터분석가
- 1종오류
- 스프린터의봄
- 지원후기
- 데이터분석
- p값
- 코드잇스프린트
- 데이터전처리
Archives
- Today
- Total
Ori's IT 공부일지
[위클리 페이퍼 #10] 결정트리, 부스팅 본문
1. 결정 트리의 장점과 단점은 무엇인가요?

1) 의사 결정 나무?
- 예 or 아니오로 답할 수 있는 어떤 질문들이 있고, 그 질문들의 답을 따라가면서 데이터를 분류하는 알고리즘; 입력 데이터를 분류하기 위해 분류 규칙을 나무 구조로 표현하여 ‘의사 결정 나무’
- 분류, 회귀 문제에 모두 적용 가능
2) 장점
- 분석 결과 해석 용이성
- 쉬운 사용자 이해
- 새로운 데이터 모형에 적용 쉬움
- 변수 간 상호작용과 비선형성을 반영하여 정확한 예측 가능
- 비모수적 모형이라서 이상치에 민감하지 않음
- 유연성, 정확도 높음
- 대용량 데이터에서도 빠르게 생성
- 수치형, 범주형 변수 모두 가능
- 중요한 변수 자동 선택 기능 존재
3) 단점
- 비안정성
- 과적합 문제 발생 가능성 존재 → 적절한 가지치기와 샘플링 필요
- 선형성 결여
- 각 변수의 고유한 영향력 해석의 어려움 존재
- 비연속성
- 연속형 변수를 비연속적 값으로 취급 → 예측 오류 커질 가능성
- 데이터 분포가 일정하지 않거나, 노이즈가 포함된 경우 정확한 예측의 어려움 존재
2. 부스팅은 어떤 특징을 가진 앙상블 기법인가요? 토픽에서 배운 AdaBoost 이외의 부스팅 모델에는 무엇이 있는지에 대해 구글 등을 활용하여 직접 리서치해보고, 각 부스팅 모델의 특징, 장단점에 대해 말해주세요.
1) 앙상블 기법?
- 여러 개의 개별 모델을 결합하여 하나의 강력한 모델을 구성하는 기법
- 부스팅
- 예측력 약한 모형을 순차적으로 학습하며 오답에 가중치를 보유해서 개선해나가며 강한 예측력을 가진 모형 구성하는 기법
2) 부스팅 모델의 종류
2-1) AdaBoost
- 약한 모형(ex: 의사결정나무 stump) 순차적 학습
- 장점
- 과적합 위험이 비교적 낮음
- 이진 분류 문제에서 좋은 성능
- 간단하고 빠른 구현 가능
- 단점
- 이상치에 민감함(오답에 높은 가중치를 두기 때문!)
- 복잡한 문제에서는 성능 떨어짐
- 병렬 처리의 어려움(순차적 학습 방식)
2-2) GBM
- AdaBoost와 유사 + 가중치 조정 시 ‘경사하강법’이용
- Level-wise 방식
- 장점
- 손실 함수 직접 정의 가능 → 커스터마이징(회귀, 분류 등)
- 높은 예측 성능
- 다양한 문제(회귀, 분류 등)에 적용 가능
- 단점
- 병렬 처리 어려움 / 순차적 학습 → 느린 학습 속도
- 하이퍼파라미터 튜닝 어려움
- 과적합 가능성 존재 → 정규화, 조기 중단 필요
- 대용량 데이터에는 비효율적
2-3) XGBoost
- GBM 단점(느린 수행 시간, 과적합 규제 부재 등) 보완
- Level-wise 방식
- 장점
- 뛰어난 예측 성능
- GBM보다 빠른 수행 시간(병렬 처리 가능)
- 정규화 지원(L1, L2) → 과적합 방지
- 결측값 자동 처리 가능
- 조기 중단(early stopping) 가능
- 단점
- 복잡한 트리 구조 → 메모리 사용량 큼
- 하이퍼파라미터 튜닝 어려움
- 적은 데이터에서는 성능 향상 두드러지지 않을 수 있음
2-4) LightGBM
- Leaf-wise 방식
- 장점
- XGBoost보다 더 빠른 학습과 예측 수행 시간
- 더 작은 메모리 사용
- 대용량 데이터에 적합(수천만 개 이상도 가능!)
- 범주형 변수 자동 처리 가능(원-핫 인코딩 별도 처리 안해도 ok!)
- GPU 지원 → 훈련 속도 향상
- 단점
- Leaf-wise 트리구조 → 과적합 발생 가능성
- 적은 데이터, 희소한 데이터에서는 성능 저하 가능성 존재
- 복잡한 트리 구조 → 직관적이지 않은 예측 결과
'코드잇 스프린트 > 위클리 페이퍼' 카테고리의 다른 글
| [위클리 페이퍼 #11] 차원 축소, 고유값과 고유벡터, 히스토그램 (0) | 2025.04.13 |
|---|---|
| [위클리 페이퍼 #9] 편향, 분산 , k-fold 교차 검증 (0) | 2025.04.13 |
| [위클리 페이퍼 #8] 지도 학습 vs 비지도 학습, 손실함수 (0) | 2025.04.13 |
| [위클리 페이퍼 #7] A/B 테스트, 이벤트 로그 설계 (0) | 2025.04.13 |
| [위클리 페이퍼 #6] AARRR, 코호트 분석, RFM 분석 (0) | 2025.04.13 |