본문 바로가기
Project

부트캠프/ sql프로젝트: #1. 데이터셋 정하기

by yj-data 2025. 9. 14.

데이터셋 선택과정

이번 프로젝트에서는 네 가지 데이터셋이 추천 데이터로 주어졌다.(원하면 다른 외부 데이터를 사용해도 됨)

  1. 샌프란시스코 범죄 데이터
  2. 주택 가격 데이터
  3. Olist 이커머스 데이터
  4. 축구 리그 데이터

그리고 이번 발표에서 강사님의 요구사항은

클라이언트에게 발표하듯이 발표해달라

 

라는 거라, 그에 적합한 데이터 셋을 골라야 했다.

 

데이터 고민

  1. 샌프란시스코 범죄 데이터 - 새로운 방향으로 고민해보기에 좋아보이는 데이터. 어쩌면 로그데이터 분석처럼 할 수 있을지도?
  2. 주택 가격 데이터 - 예측할 대상이 뻔히 보였고, 지난번 Instacart 분석 때와 비슷한 접근이 될 것 같아 매력이 떨어짐
  3. Olist 이커머스 데이터 - 데이터가 가장 풍부해서, 다양한 분석이 가능했던 데이터. 다만, 이미 이커머스 데이터(Instacart)를 활용한 경험이 있어 포트폴리오가 한쪽으로 치우치는 위험부담이 있음
  4. 축구 리그 데이터 - 개인적으로 관심이 없는 분야라 인사이트를 뽑아내기가 어렵다고 판단해 제외

결론적으로,

샌프란시스코 범죄 데이터를 선택해서 진행하게 되었다.🎉