지금껏 프로젝트는 SQL을 사용하려고 해도 결국 다 파이썬으로 처리하게 되는 프로젝트가 대부분이었다.
그래서 지금 하고있는 프로젝트부터는! SQL의 사용량을 대폭 늘려보기로 했다. 이를 위해, 어떻게 프로젝트에서 파이썬 대신 SQL을 사용할 수 있는지 알아봤다.
지금까지는
수집(파이썬) => EDA (파이썬) => 모델링(파이썬) => 시각화(파이썬/BI툴)
였지만,
앞으로는
수집(파이썬) => EDA (SQL) => 모델링(파이썬) => 시각화(SQL/BI툴)
이렇게 해보려고 한다.
어떻게 이렇게 할 수 있을까?
1. 전처리/EDA를 파이썬 대신 SQL로 하자
1) 먼저, 적재를 dbms(이하 MySQL)로 하자.
<1> 직접 데이터 수집한 경우: 파이썬으로 크롤링 한 정보는 df.to_sql 로 MySQL에 적재한다.
<2> csv있는 경우: 웬만하면 df.to_sql 로 MySQL에 적재한다. 바로 mysql에서 열면 테이블을 미리 생성해준 다음에 파일을 불러와야 하는 슬픈 상황이므로 파이썬 쓰자.
2) 전처리는 SQL로 어떻게 하는가?
<1> 파이썬에서 만들던 변수는: CREATE TABLE 활용, CREATE VIEW 활용하여 '변수화' 할 수 있다. 다시 조회가 가능함.
<2> 데이터 수정은? ALTER TABLE, ALTER VIEW, UPDATE
<3> 사용자 정의 함수: CREATE FUNCTION 가능 => 아직 안해봐서.. 한번 확인이 필요
<4> SQL로 하기에 너무 복잡해요! : SQL로 해보다가 안되면 파이썬으로 하자.
2. 시각화는 절대 못하잖아!
<1> BI툴 연결로 해결할 수 있음: 태블로, Power BI, Looker Studio 중에, 태블로 퍼블릭은 무조건 공개 게시로만 가능하며, Power BI는 기능이 가장 많고, 루커스튜디오는 데이터분석 보다는 리포팅 툴임. 따라서 Power BI 써보자. (아직 Power BI는 써본적이 없어서 기대된다, 이번 기회에 써봐야지)
+) Power BI에서 모델링도 된다는 얘기가 있는데 이건 확인해봐야겠다. 되면 매우 편하겠다.
'Project' 카테고리의 다른 글
| [블로그 프로젝트#1] 계획을 짜려는데 블로그가 황무지 그 잡채 (feat. 티스토리 통계 대시보드 이해하기) (0) | 2026.02.26 |
|---|---|
| 분석가 취뽀 Part3. 프로덕트 분석가 프로젝트 주제/방향 정하기 (0) | 2026.02.25 |
| 부트캠프/ 태블로 플젝(항공데이터): Step4. 발표날, 최종데이터 (0) | 2025.09.26 |
| 부트캠프/ 태블로 플젝(항공데이터): Step3. 멘토링과 수정하기 (0) | 2025.09.26 |
| 부트캠프/ 태블로 플젝(항공데이터): Step2. 대시보드 구성해보고 넣을 항목 정하기 (0) | 2025.09.23 |