데이터셋 선택과정
이번 프로젝트에서는 네 가지 데이터셋이 추천 데이터로 주어졌다.(원하면 다른 외부 데이터를 사용해도 됨)
- 샌프란시스코 범죄 데이터
- 주택 가격 데이터
- Olist 이커머스 데이터
- 축구 리그 데이터
그리고 이번 발표에서 강사님의 요구사항은
클라이언트에게 발표하듯이 발표해달라
라는 거라, 그에 적합한 데이터 셋을 골라야 했다.
데이터 고민
- 샌프란시스코 범죄 데이터 - 새로운 방향으로 고민해보기에 좋아보이는 데이터. 어쩌면 로그데이터 분석처럼 할 수 있을지도?
- 주택 가격 데이터 - 예측할 대상이 뻔히 보였고, 지난번 Instacart 분석 때와 비슷한 접근이 될 것 같아 매력이 떨어짐
- Olist 이커머스 데이터 - 데이터가 가장 풍부해서, 다양한 분석이 가능했던 데이터. 다만, 이미 이커머스 데이터(Instacart)를 활용한 경험이 있어 포트폴리오가 한쪽으로 치우치는 위험부담이 있음
- 축구 리그 데이터 - 개인적으로 관심이 없는 분야라 인사이트를 뽑아내기가 어렵다고 판단해 제외
결론적으로,
샌프란시스코 범죄 데이터를 선택해서 진행하게 되었다.🎉
'Project' 카테고리의 다른 글
| 부트캠프/ sql프로젝트: #3. 프로젝트 흐름 및 기여도 정리 (0) | 2025.09.14 |
|---|---|
| 부트캠프/ sql프로젝트: #2. 주제 정하기와 EDA와 주제 정하기 (0) | 2025.09.14 |
| 부트캠프 / 개인 파이썬 프로젝트: #5. 인사이트 제시 및 결론(+최종 파일) (0) | 2025.09.08 |
| 부트캠프 / 개인 파이썬 프로젝트: #4. 머신러닝 모델 선택, 분석, 성능 비교 (0) | 2025.09.08 |
| 부트캠프 / 개인 파이썬 프로젝트: #3. EDA 및 문제 정의 (0) | 2025.09.08 |