본문 바로가기
포트폴리오 Portfolio

포트폴리오 구성하는 기준 잡기 + 무슨 프로젝트를 어떻게 할까

by yj-data 2025. 8. 6.

머신러닝을 여러분류로 나누면 어떻게 되는가? (chatgpt 활용)

🔁 머신러닝의 다양한 분류 체계들

학습 방법에 따른 분류 (가장 일반적인 분류)

목적 기반 – 포트폴리오 구성에 가장 널리 사용됨
→ 앞에서 설명드린 구조

  • 지도학습 (Supervised) / 비지도학습 (Unsupervised) / 강화학습 (Reinforcement) /  자기지도학습, 표현학습 (Self-Supervised) / 생성학습 (Generative)

문제 유형(Task Type)에 따른 분류

실제 현업에서 가장 많이 쓰이는 구조 — 문제 정의 중심

유형설명예시
분류 (Classification) 범주 예측 고객 이탈 예측, 스팸 필터링
회귀 (Regression) 수치 예측 매출 예측, 체류 시간 예측
군집화 (Clustering) 그룹 나누기 고객 세분화, 행동 유형 구분
추천 (Recommendation) 선호도 예측 게임 아이템 추천, 친구 추천
시계열 예측 (Time Series) 시간 기반 추세 예측 DAU/MAU, 서버 부하 예측
이상탐지 (Anomaly Detection) 비정상 탐지 핵 사용 탐지, 금융 이상거래
강화 전략 (Policy Optimization) 최적의 행동 학습 NPC 행동 전략, 광고 노출 최적화
 

→ 이 기준은 포트폴리오 발표 시에 **"나는 다양한 문제 유형을 다뤄봤다"**는 걸 강조하기 좋아요.


데이터 유형(Data Type)에 따른 분류

데이터의 형태에 따라 모델 선택과 전처리 전략이 달라짐

유형설명예시
정형 데이터 (Structured) 표 형태의 수치/범주형 Kaggle 탭 데이터, 로그
비정형 데이터 (Unstructured) 이미지, 텍스트, 오디오 챗 로그, 게임 이미지
시계열 데이터 (Time Series) 시간 순서 존재 서버 트래픽, 구매 이력
그래프 데이터 (Graph) 관계 기반 구조 유저-유저 그래프, 게임 퀘스트 맵
 

→ 이 기준은 모달리티 다양성 강조에 유리해요. 예: "텍스트도, 시계열도, 이미지도 다뤄봄"


모델 구조/계열에 따른 분류

알고리즘 계열 중심, 연구자나 기술 중심 포트폴리오에 적합

계열예시 모델특징
선형모델 계열 Linear Regression, Logistic 빠르고 해석 가능
트리 계열 Decision Tree, XGBoost 성능 우수, 구조 해석 가능
앙상블 계열 RF, GBM, CatBoost 안정성, 정확도 ↑
커널 계열 SVM, RBF 복잡한 경계 모델링
딥러닝 계열 CNN, RNN, Transformer 대규모 데이터 학습 가능
 

→ 기술스택을 부각하려는 포트폴리오에 좋습니다.


비즈니스 도메인 중심 분류

포트폴리오를 기업 맞춤형으로 구성할 때 강력함 (ex. 넥슨, 이커머스, 금융)

도메인예시 문제
게임 이탈 예측, NPC 전략, 추천 시스템
이커머스 CLTV 예측, 유저 분류, 리텐션 분석
헬스케어 질병 분류, 의료영상 분석
금융 신용평가, 이상거래 탐지
제조/IoT 설비 고장 예측, 품질 검사
 

🧩 결론: 포트폴리오 설계 팁

설계 방향분류 기준 추천
기초 역량 강조 학습 방법 / 알고리즘 계열
문제 해결력 강조 문제 유형 / 데이터 유형
넥슨 맞춤형 구성 게임 도메인 중심 + 시계열/강화학습 활용
LLM·생성AI 활용 어필 자기지도학습 / 생성모델 기반 프로젝트

1. 비지도학습 지도학습 같은 방식은 아무 쓸모없는 것 같고, 

2. 문제유형으로 하면 갠춘한듯. 분류/ 회귀/ 군집화 /추천 /시계열 예측 /이상탐지 /강화전략. 

지도학습

분류 정해진 카테고리 예측 로지스틱 회귀, 랜덤포레스트, XGBoost, SVM 🎮 게임 유저 이탈 예측 (Churn)
회귀 연속형 수치 예측 선형회귀, Lasso, LightGBM, SVR 🛒 유저별 월 구매금액 예측

 

비지도학습

군집화 유사한 그룹 나누기 KMeans, DBSCAN, 계층적 군집 🧠 게임 유저 행동 유형 세분화
차원축소 시각화 또는 속성 축소 PCA, t-SNE, UMAP 🎨 게임 캐릭터 속성 시각화
이상탐지 비정상 행동 탐지 Isolation Forest, LOF 🕵️ 핵 사용 의심 유저 탐지

 

추천은 지도,비지도 혼합. 협업필터링은 비지도(행동 기반 유사도). 예측기반추천은 지도(평점예측, 클릭여부분류 등).

시계열 예측은 회귀와 유사한 예측문제(지도). 가끔 이상탐지/군집화/특징추출 은 비지도학습으로 다룸. 일반 ml보다는 조금 복잡하며, random forest나 xgboost 도 사용할수있지만, rnn, lstm, transformer 등 시계열 특화 모델이 자주 쓰임. 

강화전략은 강화학습 관련. 아예 별도의 체계.

 

시계열 예측 관련한 포폴 주제 예시

주제 설명 사용모델
게임 DAU 예측 게임 출시 후 유저 수 추이 예측 LSTM, XGBoost
넥슨 서버 트래픽 예측 이벤트 직후 서버 부하 예측 Prophet, LightGBM
유저 접속시간 예측 특정 유저의 접속 주기 예측 ARIMA, Temporal Fusion Transformer

 

3. 데이터 유형: 정형/비정형/시계열/그래프. 정형 굿, 비정형 관심없음, 시계열 관심있음, 그래프 데이터도 재미있을거 같은데?

4. 모델구조/계열 : 선형모델, 트리계열, 앙상블계열, 커널계열, 딥러닝 계열. 이거는 참고만 하자.

5. 비지니스 도메인 구조: 게임, 이커머스, 헬스케어, 금융, 제조/iot도 참고만 하자.

+) 로그데이터 분석 관심있음!!

 


그럼 포트폴리오에 넣을 프로젝트는 어떤걸 어떻게 진행할까?!

1. instacart 데이터:

회귀: 구매주기 예측  (지도)

분류: 재구매예측(random forest classfier)  (지도)

추천: svd(surprise 라이브러리) (지도)

(예정) 협업필터링 (비지도)

(예정) 클러스터링 (비지도)

(예정) 장바구니 이탈분석 - 이거는 데이터가 많지않아서 다른 데이터로 하는게 나을지도

(예정) 모델 평가

 

2. (예정) 타이타닉 데이터:

분류 (지도학습) - 로지스틱 회귀, 랜덤 포레스트,XGboost 많이 쓰나봄 (추후 확인 필요) 

모델 평가

 

3. (예정) 게임데이터(개인포폴):

1) Predict Online Gaming Behavior   => 부트캠프 머신러닝 스터디 개인 플젝으로 진행! SQL 플젝 전까지 시간이 많지 않기도 하고, 처음 분류해보는거라 일단 가벼운 데이터셋으로 시작하기로 결정. 

  - 클러스터링, 지도학습 - 분류 둘다 사용 해서 모델 평가할 예정 (유사 이탈 분석, 고객만족도에 연관되는 요소 확인)

확장반_스터디 계획서_yj.pdf
0.11MB

 

 

2) PUBG data  => 이건 할지말지 고민중이나, 진짜 게임 데이터를 한번 사용해볼 수 있다는 점이 끌린다.

 

일단 일정은:

파이썬 프로젝트 끝났고 > 게임데이터 1)번 8월 20일까지 마무리 > sql 프로젝트 > 포트폴리오 만들기 (노션도) > 인스타카트 추가 데이터분석 진행 > kaggle 머신러닝 intermediate 코스 듣기 > 타이타닉 데이터 공부 > 공모전 OR 개인플젝 진행 (제대로 된 장바구니 이탈분석이나 사용자 퍼널 분석 하면 될듯)

 

이제 개인플젝하러 ㄱㄱ!