본문 바로가기
데이터분석가로 취직하기

데이터 분석 도메인 탐색하기 - 데이터가 있는 웹사이트 찾기

by yj-data 2025. 6. 24.

데이터 분석가로서 앞으로 어떤 공부를 해야 되는지, 어떤 프로젝트를 해야 되는지 정할 때 도메인을 좀 정해야겠다고 생각을 했다. 내가 대학생도 아니고 정해진 시간 안에 취직을 하려다 보니, 내가 목표하는 도메인, 그러니까 내가 다루고 싶은 데이터의 유형은 무엇이고 특징은 무엇인지 알아야겠다는 생각을 했다. 

 

그렇게 데이터를 다양하게 다뤄볼 수 있는 웹사이트를 찾아보았다. (ChatGPT에서 Real World Fake Data 웹사이트와 유사하면서, 다양한 데이터 셋을 다뤄볼 수 있는 웹사이트를 추천받았다)

 

  1. Real World Fake Data https://sonsofhierarchies.com/real-world-fake-data/
  2. Kaggle Datasets
  3. Mockaroo
  4. Mode Data Playground

추가

Google BigQuery Public Datasets
장점: High-quality, massive datasets — including real data like NYC taxi trips or Stack Overflow posts.
단점 : Harder to browse by field or theme. Requires some setup in Google Cloud Console, which can be intimidating if you're just exploring. Datasets often lack storytelling or business context.

OpenML.org
장점: Benchmark datasets for machine learning.
단점: Focused mostly on ML research and classification tasks.

 

 

 

일단 내가 원했던 것은 다양한 데이터 셋을 다뤄볼 수 있고 분야별 데이터 셋의 특성을 좀 볼 수 있는 웹사이트를 원했기 때문에 위의 네개 웹사이트를 먼저 확인해 볼 예정이다. 이후에 내가 조금 더 관심이 있는 부분이 생기면 추가 부분에 작성된 웹사이트들도 좀 더 보면 좋을 것 같다. 

 


Update

2025.06.29.

 

위 사이트를 둘러보았으나,

real world fake data 사이트에 붙어있던 데이터 사이트가 사라진 상태였다. 그래서 data.world라는 사이트를 들어갔더니(내용 보려면 로그인 해야함)

데이터는 좀 있는데, 여기서 내가 질문을 뽑아내서 프로젝트를 하는 것이 과연 의미가 있는 것일까 싶어서, 그만하기로 했다. 

 

글 상단에 적어두었던 mockaroo, mode data playground도 큰 의미없는 사이트더라.

 

그래서 직접 chatGPT로 하기로 했다. 과정은 다른 글로 풀어 낼 예정이다.

chatGPT로 도메인 별로 미니 프로젝트에 맞는 질문과 데이터셋을 얻어내서, 미니 프로젝트를 해보며 도메인을 탐색해보고자 한다.