본문 바로가기
프로덕트 분석

[독서] 빅데이터 시대, 성과를 이끌어내는 데이터 문해력

by yj-data 2025. 5. 13.

온라인에서 책 추천을 한다는 글을 읽고서 시도해보게 되었다.

읽은 후 평가
셀프 데이터 분석 프로젝트에 들어가기 전, 기억해야할 포인트를 배울 수 있어서 아주 유익했음. 또한 다양한 예시를 들어 설명하고 있어서 이해하기 쉬운 책이었음. 데이터 분석을 커리어로 삼고 싶어하는 사람, 현재 삼고있는 사람 모두 한번쯤 보면 좋을 책.

목차
1장: 앞으로 필요한 건 데이터 문해력
2장: (목적사고력) 올바른 데이터로 올바른 문제를 풀고 있는가?
3장: (현상파악 및 평가력) '이것이 문제다' 데이터로 말하는 방법
4장: (원인 파악 능력) 결과가 나왔다고 끝난 것은 아니다
5장: (전체 구성력) 기법에 집착하지 마라
6장: (정보 집약력) '결론은 이것이다' 정보를 요약하라
7장: (시야확대력) '데이터로 문제를 해결할 수 있다'는 착각
8장: (실행력) 개인과 조직의 데이터 활용 능력을 높이는 방법

책의 특징

  • 성과에 직결되는, 보다 본질적이고 가치있는 '데이터 활용방식'에 대한 책

목표

  • 분석과 통계의 정확도 높이기 X
  • 실무에서 유의미한 성과를 내기위해 필요한 일을 알아 내는 것
  • 관계자가 정확히 이해하고 구체적인 행동이나 판단으로 옮길 수 있는 결론을 도출하는것.

이제 내용으로 들어가보자.

1장: 앞으로 필요한 건 데이터 문해력

진짜 중요한 것

  • 지식적으로 다음이 필요할 수 있음: 통계학 지식, 분석 이론 및 방법, 데이터 가공 및 분석 작업 방식(도구 사용법 등)
  • BUT 데이터 문해력에 기반한 데이터 활용방식은 다음의 step을 따라야함:
      1. (생각) 분석전에 문제 및 목적을 정의하고 가설을 구축
      1. (분석) 분석을 위한 기술과 지식
      1. (생각) 분석 결과에 대한 해석 및 스토리 구축
  • 1.3.을 '데이터 문해력(data literacy)'이라 정의

관점을 돌리자

  • 어떤 그래프를 보고
  • 무슨 생각이 드는가?
    • 1) 그래프를 통해 무엇을 말할 수 있을까요?
    • 2) 이 그래프를 작성한 사람은 작성 전에 무엇을 말하고 싶었을까요?
  • 데이터 분석은 그래프 중심 분석, 데이터 중심 분석을 진행하는게 아니라 목적 중심으로 시작하여, 자신이 알고싶은것에 따라 데이터를 수집하고 분석해서, 그 결과를 검증하고 결론으로 연결하는 것.

<<데이터 활용 프로세스>>

1) 겉으로 드러난 현상
2) 목적과 문제를 정의(2장)
3) 지표를 결정(2장)
4) 현재 상태를 파악(3장)
5) 평가(3장)
6) 원인을 분석(4장)
7) 해결방안을 모색(5~7장)

 

하나씩 뒷장에서 방법을 알려줄 예정이다.

2장: (목적사고력) 올바른 데이터로 올바른 문제를 풀고 있는가?

데이터 활용에 문제가 생기는 대표적인 2가지 원인

  • 풀고자 하는 문제가 평확하지 않다. Are you solving the right problem?
  • 정의한 문제와 사용하는 데이터가 일치하지 않는다. Are you using the right data?

문제 정의 시 고려할 점

  1. 사용된 언어가 구체적이고 명확한가?
  2. 문제, 원인, 해결방안을 구분하고 있는가?
  3. 예, 인구 문제에 관련해서 다음을 문제로 정의했다.
    (1) 인구감소 문제를 해결하거나 완화하고자 한다.
    (2) 인구유출을 막고 유입을 촉진하고자 한다
    (3) 서비스 업종에서의 인력부족을 해결하고자 한다.
    - (3)이 문제인 경우 (1)은 원인이며, (1)이 문제인 경우 (2)가 원인이다.
    - 분석 시작 전, 말하고 싶은 것, 해결하고자 하는 것(문제, 목적) 을 명확히 하는 것이 중요

문제 구체화 해보기
예1) "인재 부족때문에 효율적이고 효과적인 영업활동을 못하고 있다."

  • 인재 부족 때문에 -> 효율적이고 효과적인 영업활동을 못함. 결국 원하는 것은 '효율적이고 효과적인 영업 활동'
  • 1) 인재부족을 원인이라고 지적하지만 정말 이것이 원인인지 파악이 필요함. 인재 부족이 원인이라는 가설을 세워보는 것은 괜찮음
  • 2) 효율적이고 효과적인 영업활동은 대체 무엇인가? 어떤 문제가 생긴것인가? 예를 들어 사업 수주 수가 급감했다, 등을 문제로 삼아볼 수 있음. 그렇다면 그 원인은 '고객 대응 부실' 등 여러 원인이 있을 수 있음

예2) "반년전부터 시설전체의 이용자 수가 급감하고 있습니다. 인터넷에서 이용을 촉진하기 위한 프로모션을 하고 있지만 효과가 없어 보입니다. 그리고 우리 지역인 북부 시설이 남부 시설보다도 상황이 좋지 않습니다. 이용자가 줄어서, 수입도 감소하고 있습니다.

  • 해석(책 내용도 포함되지만, 블로그 작성자 자의적인 해석임)
    • 현상: 반년전부터 이용자수가 급감하고있음, 북부 시설이 남부시설보다 상황이 좋지 않음. 이용자가 줄어서 수입도 감소함. 이를 해결하기 위해 프로모션을 하고 있지만 효과가 없는 듯 함
    • 문제: 이용자수의 급감, 이에 따른 수입 감소. 이를 해결해야함
    • 이를 해결하기 위해 프로모션을 했지만 쓸모없었음, 어쩌면 시설문제일지도모른다는 고민도 있음
    • (내가 놓친 것) => 이용자 수 급감이라는 원인 조차 수입 감소의 진짜 원인일지 파악부터 필요함.

지표 결정
결론과 지표를 통해 제대로 작성한 것인지 평가해보자.
예1) 결론: 고객 불편사항에 대한 개선이 이루어지지 않고 있다. / 지표: 클레임 수

  • 결론 내용은 '문제'로 삼아도 문제는 없어보인다.다만 단순 클레임 숫자로는 결론을 확인할 수 없다.
  • (책내용X, 개인의견) 가능할만한 지표는 다음과 같다:
    • 클레임 고객 분석: 지난 클레임과 이번 클레임의 유사도. 반복 클레임 거는 사람이 있는지, 내용은 같은지 => 내용이 다양하고 비난이 주 내용인 경우 고위험군(?)으로 분류 필요,
    • 클레임 개선 지표 - 주요 클레임 분류 및 클레임 별 개수, 해결 된 클레임 개수, 해결되는데 걸린 시간의 평균, 해결 시 필요한 단계 분석 및 단계 별 업무 소요 시간(들어가는 맨파워 포함) 및 해결 속도 확인 등

예2) 결론: 고객만족도(cs)향상 / 지표: cs 설문조사 점수

  • 설문조사 점수로 고객만족도가 향상되었다고는 볼 수 있겠지만, 무엇을 위해 고객만족도 향상을 수단 삼아 실현하고자 하는지에 대한 파악이 필요함

 

  • 즉, 결론과 지표에서, 결론이 문제로 정의할 내용이 맞는지 확인이 필요하고, 확정된 경우, 이를 뒷받침 하는 다양한 데이터를 활용해 분석을 진행해야함.
  • 나는 올바른 데이터(지표)를 활용하고 있는가? 에 대한 대답은,
    오늘 처음 만난 외부인이나 제 3자에게 데이터를 보여주면서, '제 고민은 이것입니다' '이것이 문제입니다' '이것을 이해해주시면 좋겠습니다' 라고 말할 때, 어떤 데이터를 활용하겠습니까? 를 생각해보면 나온다.

<<보여주기: 분석 vs 프레젠테이션>>
분석시,

  1. 평가지표 및 기준을 결정
  2. 적합한 데이터 및 그래프 선택
  3. 결론(결국 하고싶은말)

프레젠테이션 시,

  • 3 -> 1 -> 2 순서로 진행

3장: (현상파악 및 평가력) '이것이 문제다' 데이터로 말하는 방법

평가와 판단을 위해 고려할만한 요소

  • 어느쪽이 더
    • 효율적인가
    • 효과적인가
    • 중요한가
    • 긴급한가
  • 사실/결과 표시와 평가는 다른 것!
    • 사실과 결과의 데이터를 그래프/표/지표 등으로 표시
      vs
    • 내용을 평가해서 구체적인 행동과 판단으로 연결하는 것
    • 후자에 필요한 평가를 준비하는 것이 데이터 활용의 중요한 단계임
  • 평가 시 필요한 관점
    • 비교
      • 결론으로 이어지는 결과가 나올 것인가(결론으로 부합하는 결과가 나오는 것과는 상관X)?
      • 비교를 통해 '차이'를 찾을 수 있는가?
      • 데이터를 활용한다,란 결과(XX와 YY는 차이가 있습니다)가 아니라 결론(XX와 YY의 차이가 존재한다는 것은 ZZ를 의미합니다)을 도출하는 것!!
  • 평가에 효과적인 기술
    • 평가기준
      • 값의 크기 - 평균, 합계 등
      • 추이를 확인 - 선형그래프, 막대그래프, 변화율 등
      • 등락폭 - (표준) 편차, 도수분포도 등
      • 비율 - 분수, 퍼센트 등
      • 기타 - 산포도 등
  • 비교를 통한 평가를 시행하고자 할때, 명심할 것
    • "당신이 직면하고 있는 문제와 그 배경에 대해 전혀 모르는 제 3자가 바로 앞에 있다고 상상하세요. 그 사람에게 당신이 다루는 문제를 데이터로 설명하려면 무슨 데이터를 어떻게 보여주면 좋을까요? - 그리고 상대방이 그 데이터를 보고나서, '그렇군요, 확실히 문제가 있네요!' 라고 말한다면 성공한 것입니다."
    • 모든 것은 상황과 문제를 객관적으로 보여주고 이해시키는 것에서 시작함. 단순하게 생각하고 나름의 답을 구해보자!

4장: (원인 파악 능력) 결과가 나왔다고 끝난 것은 아니다

  • 매출이 전년대비 10% 하락했음, 에서 끝내지 않고, 이 원인을 파악해보자. 그런 다음 해결하기 위한 방안과 행동을 제안하자.
  • 3장 내용에서, 현황 파악을 완료했고, 분석과 비교를 통해 문제점을 도출 했다면, 이러한 문제가 생기게 된 원인을 파악하는 단계.
  • 중요한 것은 '원인과 결과의 연결성'
  • 원인을 데이터로 분석하기 위한 순서
    • 원인 후보를 열거한다 -> 지표를 결정한다 -> 관련성을 확인한다
  • 원인 추측 후, 뒷받침할 데이터를 얻기 어려운 경우에는
    • 유사한 데이터를 구해본다(데이터가 없는 것 보다 나을 수 있음)
    • 바로 수집을 시작한다(시간적 여유가 있고, 본질적인 데이터가 필요한 경우)
    • 정성적인 정보를 활용한다(설문조사 응답, 청취 자료 등)
    • 포기한다(해당 부분은 본인의 가정을 통해 보완)
  • 지표가 확인 되었다면, 관련성을 확인한다
    • 시각적으로 관련성을 확인. 원인 후보 지표와 결과를 나타내는 지표 간 관련성을 확인.
    • 하나를 x축, 나머지 하나를 y 축 으로 두고 산포도를 그려본다
    • 산포도에서 1) 전체적인 경향 확인 2)그룹화해본다 3)벗어나있는 값에 주목한다 4)변화점을 찾는다(분기점) 등의 방법을 통해 다양하게 분석해본다
    • 주의할점) 실적과 결과 표시만 하고 분석을 끝내지 않기, 결과를 통해 구체적인 판단이나 행동으로 연결되는지 확인하기, 문제와 결과에 대한 원인을 충분히 고려했는지 확인하기.
  • 관련성 탐색 시 주의할 점
    • 직접적인 관계인지, 간접적인 관계인지(a-b가 선형관계로 그려진다고 해서 관계가 있다는 뜻은 아니다. c라는 요소가 사이에 끼어들고, a-b간 관계는 우연에 기인한 것일 수 있음)
    • 원인은 한가지가 아니라, 여러가지 이거나 복잡할 수 있음
    • 선형이 아닌 관계성도 있다
    • 상관관계 $\neq$ 인과관계

5장: (전체 구성력) 기법에 집착하지 마라

  • '방법맨'이 되는 것을 경계하자. 무턱대로 해결방안으로 뛰어드는 것을 경계하자.
  • 예, 우리 도시의 인구 감소 문제 > 인구가 감소하고 있다 > 인구감소를 완화할 수 있는 대응 방안을 강구하자 > 행사 건수를 늘리고 규모를 키워서 다른 지역에도 홍보하자
    • 이런식으로 사고가 이어질때, 현재 상태 파악 후 평가나 원인분석을 하지 않고 바로 해결방안으로 간 것임
    • 참신한 아이디어가 필요한 것이 아니라, 실질적인 원인을 파악하고 해결책을 찾는 것에 집중해야함
    • 아이디어 경쟁 보다는, 진정한 목적 및 문제를 찾고, 정확한 원인을 파악하고 해결방안까지 고민해야 함.
  • 원인을 파악하기 위해 '왜'를 계속 물어보자
    • 몇번이고 왜?를 물어보며 진정한 원인을 찾아 들어가보자

6장: (정보 집약력) '결론은 이것이다' 정보를 요약하라

  • 결과 vs 결론
    • 결과는 계산과 분석의 결과물, 결론은 결과가 목적에 대해 어떤 의미가 있는지 설명하는 것
  • 정답은 없음! 스스로 정답을 만들어내고 이에 대해 논의한다,는 자세를 흔들림 없이 유지하는 것 또한 데이터 문해력의 요소

7장: (시야확대력) '데이터로 문제를 해결할 수 있다'는 착각

  • 눈앞에 있는 데이터에 의존하지 않고, 스스로 목적과 문제를 정의해 필요한 데이터나 분석 범위를 얼마나 넓은 시야로 디자인 할 수 있는가가 중요
  • 데이터에 기반하여 가설을 세우는 것이 아니라, 가설을 세운 후 데이터를 확인
  • 구조화에 기반한 논리적 사고 방식 익히기
    1) 짝짓기:  생각한 아이디어와 수집한 데이터를 늘어놓고, 이에 대응되거나 반대되는 아이디어 생각해보기
    2) 자기부정:   자신이 떠올린 아이디어를 부정해보기. 만약 000이 아니라면?
  • 정답은 없다! 는 정신으로 데이터에 달려들기

8장: (실행력) 개인과 조직의 데이터 활용 능력을 높이는 방법

  • 데이터 문화가 확립되는 개인/조직은 무엇이 다른가
    • 리더십 위치에 있는 직원의 책무에 데이터를 도입(제도나 평가에 데이터 활용을 도입하고 업무 시스템에 도입해 데이터 활용을 '반드시 해야할 일'으로 정의
    • 데이터 사용 목적이 명확함
    • 생각과 작업의 차이와 가치를 이해함
    • 결과물을 적절하게 평가할 수 있는 사람이 있음