이전 글:
2025.08.05 - [Project] - 부트캠프 / 개인프로젝트: #1. 당황스러운 서막 (공식 '머신러닝 스터디'의 시작)
부트캠프 / 개인프로젝트: #1. 당황스러운 서막 (공식 '머신러닝 스터디'의 시작)
아오 진짜 ㅋㅋㅋㅋㅋ 패캠에서 공지를 또 대충해줘서.. 당일까지 대체 스터디에서는 무슨일이 일어나는지 전혀 알지 못한채, 팀만 배정받고 스터디에 들어갔다. 스터디 시작 직전에 받은 가이
yj-data.tistory.com
이렇게 파이썬 개인 프로젝트를 시작하게 되었다. 제출 데드라인은 8월 21일!(22일 부터 SQL 프로젝트 시작이라)
그렇게 내가 처음 해야할 것은 <<데이터 셋 정하기!>>
무슨 데이터를 할까.. 하다가 계속 하고 싶었던 '게임 분야 데이터'를 하자는 결론에 도달했다. 그렇게 GPT에게 데이터셋을 찾아달라고 하니, 최종적으로 쓸만한 데이터는 두가지 있었다.
- Predict Online Gaming Behavior Dataset
- PUBG Finish Placement Prediction (Kernels Only)
두 가지의 차이는 다음과 같았다
| Predict Online Gaming Behavior Dataset | PUBG Finish Placement Prediction (Kernels Only) | |
| 개요 | 게임 퍼블리싱 플랫폼의 사용자 데이터(fake data) | 게임 내 사용자의 행동 결과 데이터(킬 수 등) |
| 목적 | 사용자의 '참여율' '예측' | 승리하는 사용자의 전략 파악하기(숨어있기, 나가서싸우기 등) |
| 복잡도 | 비교적 단순한 데이터 셋, 양도 크기도 적음 | 왼쪽보다는 복잡함, 양도 크기도 많음 |
| 예측 | 예측해야하는 결과까지 다 들어있는 파일이라, 알아서 train/test 나눠서 진행해야함 | train, test 나눠져 있음 |
왼쪽 데이터로 선택!
이유는
- PUBG 데이터가 게임 내 진짜 데이터지만, 배틀로얄 게임에는 흥미가 적어서(똥손임 ㅠㅠ) 구미가 덜 당겼음
- 시간이 제한되어 있어서, 프로젝트 꾸미기에, 그리고 프로젝트 완료하기에 왼쪽 데이터가 훨씬 가벼울 것이라 생각
그렇게 왼쪽 데이터로 진행하게 되었다.
데이터 셋을 정했으니 이제는
<<문제 정의>> 시간! 사실 문제는 eda좀 해보고 나야 세부적으로 정할 수 있을 것 같았다.
참여율 예측을 위한 데이터니까, 참여율 예측과 관련되어서 문제를 정해야하긴 할텐데..
일단 '참여율 예측 기반 무엇무엇' 으로 두고 진행했다.
다음 스텝으로 가보자!
'Project' 카테고리의 다른 글
| 부트캠프 / 개인 파이썬 프로젝트: #4. 머신러닝 모델 선택, 분석, 성능 비교 (0) | 2025.09.08 |
|---|---|
| 부트캠프 / 개인 파이썬 프로젝트: #3. EDA 및 문제 정의 (0) | 2025.09.08 |
| 부트캠프 / 개인프로젝트: #1. 당황스러운 서막 (공식 '머신러닝 스터디'의 시작) (3) | 2025.08.05 |
| 부트캠프/ 파이썬 프로젝트(Instacart): Step2. 프로젝트 진행 및 완료 (4) | 2025.08.05 |
| 부트캠프/파이썬 프로젝트(Instacart): Step1. 프로젝트 리딩 (4) | 2025.08.04 |