머신러닝을 여러분류로 나누면 어떻게 되는가? (chatgpt 활용)
🔁 머신러닝의 다양한 분류 체계들
① 학습 방법에 따른 분류 (가장 일반적인 분류)
목적 기반 – 포트폴리오 구성에 가장 널리 사용됨
→ 앞에서 설명드린 구조
- 지도학습 (Supervised) / 비지도학습 (Unsupervised) / 강화학습 (Reinforcement) / 자기지도학습, 표현학습 (Self-Supervised) / 생성학습 (Generative)
② 문제 유형(Task Type)에 따른 분류
실제 현업에서 가장 많이 쓰이는 구조 — 문제 정의 중심
| 분류 (Classification) | 범주 예측 | 고객 이탈 예측, 스팸 필터링 |
| 회귀 (Regression) | 수치 예측 | 매출 예측, 체류 시간 예측 |
| 군집화 (Clustering) | 그룹 나누기 | 고객 세분화, 행동 유형 구분 |
| 추천 (Recommendation) | 선호도 예측 | 게임 아이템 추천, 친구 추천 |
| 시계열 예측 (Time Series) | 시간 기반 추세 예측 | DAU/MAU, 서버 부하 예측 |
| 이상탐지 (Anomaly Detection) | 비정상 탐지 | 핵 사용 탐지, 금융 이상거래 |
| 강화 전략 (Policy Optimization) | 최적의 행동 학습 | NPC 행동 전략, 광고 노출 최적화 |
→ 이 기준은 포트폴리오 발표 시에 **"나는 다양한 문제 유형을 다뤄봤다"**는 걸 강조하기 좋아요.
③ 데이터 유형(Data Type)에 따른 분류
데이터의 형태에 따라 모델 선택과 전처리 전략이 달라짐
| 정형 데이터 (Structured) | 표 형태의 수치/범주형 | Kaggle 탭 데이터, 로그 |
| 비정형 데이터 (Unstructured) | 이미지, 텍스트, 오디오 | 챗 로그, 게임 이미지 |
| 시계열 데이터 (Time Series) | 시간 순서 존재 | 서버 트래픽, 구매 이력 |
| 그래프 데이터 (Graph) | 관계 기반 구조 | 유저-유저 그래프, 게임 퀘스트 맵 |
→ 이 기준은 모달리티 다양성 강조에 유리해요. 예: "텍스트도, 시계열도, 이미지도 다뤄봄"
④ 모델 구조/계열에 따른 분류
알고리즘 계열 중심, 연구자나 기술 중심 포트폴리오에 적합
| 선형모델 계열 | Linear Regression, Logistic | 빠르고 해석 가능 |
| 트리 계열 | Decision Tree, XGBoost | 성능 우수, 구조 해석 가능 |
| 앙상블 계열 | RF, GBM, CatBoost | 안정성, 정확도 ↑ |
| 커널 계열 | SVM, RBF | 복잡한 경계 모델링 |
| 딥러닝 계열 | CNN, RNN, Transformer | 대규모 데이터 학습 가능 |
→ 기술스택을 부각하려는 포트폴리오에 좋습니다.
⑤ 비즈니스 도메인 중심 분류
포트폴리오를 기업 맞춤형으로 구성할 때 강력함 (ex. 넥슨, 이커머스, 금융)
| 게임 | 이탈 예측, NPC 전략, 추천 시스템 |
| 이커머스 | CLTV 예측, 유저 분류, 리텐션 분석 |
| 헬스케어 | 질병 분류, 의료영상 분석 |
| 금융 | 신용평가, 이상거래 탐지 |
| 제조/IoT | 설비 고장 예측, 품질 검사 |
🧩 결론: 포트폴리오 설계 팁
| 기초 역량 강조 | 학습 방법 / 알고리즘 계열 |
| 문제 해결력 강조 | 문제 유형 / 데이터 유형 |
| 넥슨 맞춤형 구성 | 게임 도메인 중심 + 시계열/강화학습 활용 |
| LLM·생성AI 활용 어필 | 자기지도학습 / 생성모델 기반 프로젝트 |
1. 비지도학습 지도학습 같은 방식은 아무 쓸모없는 것 같고,
2. 문제유형으로 하면 갠춘한듯. 분류/ 회귀/ 군집화 /추천 /시계열 예측 /이상탐지 /강화전략.
지도학습
| 분류 | 정해진 카테고리 예측 | 로지스틱 회귀, 랜덤포레스트, XGBoost, SVM | 🎮 게임 유저 이탈 예측 (Churn) |
| 회귀 | 연속형 수치 예측 | 선형회귀, Lasso, LightGBM, SVR | 🛒 유저별 월 구매금액 예측 |
비지도학습
| 군집화 | 유사한 그룹 나누기 | KMeans, DBSCAN, 계층적 군집 | 🧠 게임 유저 행동 유형 세분화 |
| 차원축소 | 시각화 또는 속성 축소 | PCA, t-SNE, UMAP | 🎨 게임 캐릭터 속성 시각화 |
| 이상탐지 | 비정상 행동 탐지 | Isolation Forest, LOF | 🕵️ 핵 사용 의심 유저 탐지 |
추천은 지도,비지도 혼합. 협업필터링은 비지도(행동 기반 유사도). 예측기반추천은 지도(평점예측, 클릭여부분류 등).
시계열 예측은 회귀와 유사한 예측문제(지도). 가끔 이상탐지/군집화/특징추출 은 비지도학습으로 다룸. 일반 ml보다는 조금 복잡하며, random forest나 xgboost 도 사용할수있지만, rnn, lstm, transformer 등 시계열 특화 모델이 자주 쓰임.
강화전략은 강화학습 관련. 아예 별도의 체계.
시계열 예측 관련한 포폴 주제 예시
| 주제 | 설명 | 사용모델 |
| 게임 DAU 예측 | 게임 출시 후 유저 수 추이 예측 | LSTM, XGBoost |
| 넥슨 서버 트래픽 예측 | 이벤트 직후 서버 부하 예측 | Prophet, LightGBM |
| 유저 접속시간 예측 | 특정 유저의 접속 주기 예측 | ARIMA, Temporal Fusion Transformer |
3. 데이터 유형: 정형/비정형/시계열/그래프. 정형 굿, 비정형 관심없음, 시계열 관심있음, 그래프 데이터도 재미있을거 같은데?
4. 모델구조/계열 : 선형모델, 트리계열, 앙상블계열, 커널계열, 딥러닝 계열. 이거는 참고만 하자.
5. 비지니스 도메인 구조: 게임, 이커머스, 헬스케어, 금융, 제조/iot도 참고만 하자.
+) 로그데이터 분석 관심있음!!
그럼 포트폴리오에 넣을 프로젝트는 어떤걸 어떻게 진행할까?!
1. instacart 데이터:
회귀: 구매주기 예측 (지도)
분류: 재구매예측(random forest classfier) (지도)
추천: svd(surprise 라이브러리) (지도)
(예정) 협업필터링 (비지도)
(예정) 클러스터링 (비지도)
(예정) 장바구니 이탈분석 - 이거는 데이터가 많지않아서 다른 데이터로 하는게 나을지도
(예정) 모델 평가
2. (예정) 타이타닉 데이터:
분류 (지도학습) - 로지스틱 회귀, 랜덤 포레스트,XGboost 많이 쓰나봄 (추후 확인 필요)
모델 평가
3. (예정) 게임데이터(개인포폴):
1) Predict Online Gaming Behavior => 부트캠프 머신러닝 스터디 개인 플젝으로 진행! SQL 플젝 전까지 시간이 많지 않기도 하고, 처음 분류해보는거라 일단 가벼운 데이터셋으로 시작하기로 결정.
- 클러스터링, 지도학습 - 분류 둘다 사용 해서 모델 평가할 예정 (유사 이탈 분석, 고객만족도에 연관되는 요소 확인)
2) PUBG data => 이건 할지말지 고민중이나, 진짜 게임 데이터를 한번 사용해볼 수 있다는 점이 끌린다.
일단 일정은:
파이썬 프로젝트 끝났고 > 게임데이터 1)번 8월 20일까지 마무리 > sql 프로젝트 > 포트폴리오 만들기 (노션도) > 인스타카트 추가 데이터분석 진행 > kaggle 머신러닝 intermediate 코스 듣기 > 타이타닉 데이터 공부 > 공모전 OR 개인플젝 진행 (제대로 된 장바구니 이탈분석이나 사용자 퍼널 분석 하면 될듯)
이제 개인플젝하러 ㄱㄱ!
'포트폴리오 Portfolio' 카테고리의 다른 글
| 클라우드 기반 데이터 시각화 하기(feat. 넥슨 Open API, GCP, Power BI) (0) | 2025.11.20 |
|---|---|
| 노유정_데이터분석가 포트폴리오 전체 보기 (0) | 2025.11.17 |
| 2025년 프로젝트 관련 글 - 한 번에 몰아보기 (0) | 2025.09.16 |