Private 1위 코드
[Private 1위 0.6581] | 소회의실 | Catboost
이 분이 분석하면서 생각한 핵심포인트
- train[family_size] > 7 인 이상치 제거(왜?)
- 중복 데이터 처리를 위해 개인정보를 모두 합쳐 ID 변수 생성 (단, 같은 사용자가 여러번 카드를 발급할 수 있다는 가정 하에 begin_month는 개인정보에서 제외함)
- 개인의 특성이 될 만한 파생변수 추가
- Catboost 모델 사용
내가 분석할 때 사용한 것
- 전처리 - NULL값 처리, object값을 labelencoding 후 전체 standardscaler,
- 랜덤포레스트와 XGBoost 사용
우수코드 분석
데이터 전처리
1. 결측치 처리