[머신러닝중급]Cross-Validation + XGBoost
https://www.kaggle.com/code/alexisbcook/cross-validation
Cross-Validation
Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources
www.kaggle.com
https://www.kaggle.com/code/alexisbcook/xgboost/tutorial
XGBoost
Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources
www.kaggle.com
여태까지 배운 내용으로는 벅찬 내용이기 때문에 간략히 취지만 설명하고 넘어감.
1) Cross-Validation 교차검증법
모델을 피팅하는것 만큼 중요한 것이 모델을 잘 검증하는 것.
당연히 좋은 모델을 뽑으려면 잘 검증해야겠지.
언더피팅과 오버피팅에 대해 설명했던 부분 잘 상기해라.
모형평가 방식으로 홀드아웃(Hold-out), 교차검증(Cross-Validation), 붓스트랩(Boot-strap)이 많이 언급되는데
Hold-out은 아예 데이터를 일정 비율로 랜덤하게 분리해버린다.
교차검증은 데이터를 분할한뒤 일부는 검증용 나머지는 트레이닝용으로 활용하되 그 선택을 계속 바꿔가면서 결과를 평가하고 그 결과들의 평균을 가져가는 방식으로 검증한다.
붓스트랩은 복원추출법에 따라는 검증 방식이다.
2) XGBoost
자. 갑자기 튀어나와버렸지만,,,
하나의 모형이 아닌 여러 모형을 결합하여 분류 정확도를 향상하고 과적합(오버피팅)을 최소화하려는 모델링 방식이 "앙상블 모형" 이다.
앙상블 모형의 대표적인 것들중
1. Voting
2. Bagging
3. Boosting
4. Random Forest
가 있고,
3번 부스팅 방식은 또 크게 AdaBoost, GradientBoost(XGBoost, Light GBM )
즉 XGBoost라는 건 GradientBoost 의 일종이다....
여기까지만 해도 복잡하다
즉 실제로 머신러닝의 모델링에는 다양한 방식이 존재하고 각각의 특성을 알고 어떻게 적용할지 연구해 나가는 것이 필요하다는 말이 된다.
여기서는 위의 캐글 내용을 실습해보는 정도로 마무리하는 것을 추천한다.