데이터 분석

데이터 분석을 통한 세상 엿보기

BOOK(IT, 데이터분석)

데이터 문해력(Part5,6)

nova-unum 2022. 7. 21. 10:59

데이터 문해력(Part5,6) 카시와기 요시키 지음, 강모희 옮김

 

5 기법에 집착하지 마라

전체 구성력 :  스토리(논리)를 만드는 힘

 

데이터를 활용하려면 본질적으로 논리적인 사고가 반드시 기반이 되어야 한다는 것을 이해했으리라 생각합니다.  여기서 말하는 논리적 사고란, 개별 데이터와 분석에 대한 것이 아니라, 전체적인 스토리를 탄탄히 구성하고 결론의 설득력을 높이기 위한 사고력과 구성력을 말합니다. 이를 제대로 갖추지 않으면 아무리 고품질의 데이터를 대량으로 수집하고 완벽한 방법론으로 분석했다 해도, 상대방을 설득하기는 어려울 것입니다. 설득이 어려운 이유는 전체적으로 흐름과 논리성에 맞지 않기 때문입니다.

문제 해결 프로세스 재확인

목적과 문제를 정의할 때 주의해야 할 세 가지 요소

문제 → 원인 → 해결 방안

문제 목적/문제정의 A 겉으로 드러난 현상
B 목적 및 문제를 정의
C 지표를 결정
현상파악/평가 D 현재 상태를 파악
E 평가
원인 원인 F 원인을 분석
방법 방법 G 해결 방안을 모색


 문제 해결 프로세스에서 누구나 하는 실수

곧바로  '해결 방안'에 무턱대고 달려드는 것

예를 들어, '우리 도시의 인구 문제'라는 주제를 다룬다고 가정하겠습니다. 지금부터 이 문제를 분석해보자 하면, 대부분은 정보(데이터)를 수집하고 현재 상태를 파악하는 것부터 시작합니다. 인구 데이터를 남녀별, 지역별 등으로 정리해서 과거부터 추이를 알아보고 앞으로 어떻게 될지 예측해서 그래프를 그리는 것이 일반적입니다.

그리고 그렇게 작성한 그래프를 보면, 분명 '인구가 감소하고 있다'라는 위기 상황을 일목요연하게 보여줄 수 있을 것입니다. 그런데 그 다음에는 무엇을 할까요? 예를 들어, 다음과 같은 행동을 하고 있지 않을 까요?

■ 인구 감소를 완화할 수 있는 대응 방안을 강구한다.

■ 다른 지역에서는 어떻게 하고 있는지 정보를 수집한다.

그 결과 구체적으로 다음과 같은 아이디어가 나올 것입니다.

■ 행사 건수를 늘리고 규모를 크게 해서 다른 지역에도 적극적으로 홍보한다.

■ 지방 특산품을 활용한 요리를 즐기거나 관광 명소를 일주하는 여행 프로그램을 기획해서 다른 지역 사람에게 참가를 홍보한다.

■ 결혼 투어 프로그램을 기획해 주말에 젊은 커프들이 참가할 수 있도록 한다.

아디이어 자체는 전부 나쁘지 않습니다. 필자로서도 발상과 내용에 대해서는 찬성입니다. 다만 문제는 그 프로세스에 있습니다. 데이터를 활용해서 현황을 파악하는 것은 좋지만, 느닷없이 '해결 방안'으로 뛰어드는 것입니다.

아이디어를 제안한 사람들에게 ' 그 제안은 데이터에 기반하고 있습니까?라고 물어보면 분명 YES라고 할 것입니다. 왜냐하면 '데이터를 활용해서' 문제점을 그래프로 시각화하고 그로부터 제안을 도출했다고 생각하기 때문입니다.

정말 '데이터 기반'이라고 할 수 있을까요?

데이터를 통해 확인한 내용이 정말로 직접적으로 제안 내용과 관계가 있습니까?

즉, '인구가 감소했다' 라는 데이터에서 확인한 내용이 과연 '이벤트와 투어를 많이 실시하면 인구 감소를 완화할 수 있다'라는 결론을 입증하는 정보라고 할 수 있습니까?

이 질문에 대한 답은 말할 것도 없이 'NO'입니다.

만약, 맞든 안 맞든 상관없으니 참신한 아이디어만 내면 된다는 생각이라면, 애당초 데이터는 필요 없습니다.

필자는 이런 상황의 작업자를 '방법맨'이라고 부르고 있습니다. 세상 이곡저곳에는 방법맨투성이란 이야기를 하면 많은 분이 공감하십니다. 그만큼 폭넓게 만연하고 있다는 이야기입니다.

결과와 유효성에 차이가 생기는 '원인' 파악 유무

그럼 '해결 방안'으로 바로 뛰어들기 전에 취해야 할 행동은 무엇이 있을까요?

그것은 바로 '원인'을 분석하는 것입니다. 하지만 지금까지 계속 강조한 것처럼, 그 전제로서 '문제'가 적절히 정의되어야 합니다.

'해결 방안'은 '문제'에 직접적으로 적용하는 것이 아니라, '문제'를 일으키고 있는 '원인'에 적용하는 것입니다. 이는 마치 불이 났는데 그 원인을 찾아 소화 활동을 벌이지 않고 무작정 눈앞의 불에만 물을 쏟아붓는 것과 같습니다. 

'원인'을 충분히 고려했는지에 따라 '해결 방안'의 내용과 효과에도 큰 차이가 있다는 것을 기억하기 바랍니다.

 

'시간 외 근무가 많다'라는 '문제'의  '해결 방안 사례'

'시간 외 근무가 많다' 는 문제를 해결하기 위한 프로세스

문제 정의 문제 : 시간 외 근무가 많기 때문에 해결하고자 한다
현황 파악
및 평가
수요일이 유독 시간 외 근무가 많다
    H 부서가 유독 다른 부서에 비해 시간 외 근무가 많다
원인 분석     (효율성의 문제) (업무량의 문제)
      역량부족 사기문제 부적절한
업무분담
돌발업무
해결 방안 검토 수요일을 정시 퇴근일로 지정 수요일을 정시 퇴근일로 지정하고, H부서 부장에게 보고 업무교육 평가기준 변경 업무 계획 수립 프로세스 재고

 

어떤 방법이 적절할지, 우선순위는 어떻게 정할지 등에 대해서는 실제 '원인'에 대한 데이터와 정보를 수집한 다음 검증해보면 좋을 것입니다.  여기서는 지면 사정상 4가지 '원인'을 들고 있지만, 실제로는 훨씬 더 많은 '원인'을 들 수도 있을 것입니다. 

'원인'을 깊게 분석하고 폭넓게 고찰하여 여러 가능성을 생각하는 것과 원인 분석을 건너뛰거나 소홀히 하는 것, 그 결과 도출한 '해결 방안'에는 엄청난 차이가 있습니다. 만약 여러분이 두 '해결 방안'을 본다면 어느 쪽이 정말 '효과적'이라는 생각이 들까요?

초기에 가까운 프로세스에서 도출한 '해결 방안'은 그 내용도 겉핡기 수준이며 효과적이지 못할 것입니다. 현실에서도 그런 겉핡기 수준의 해결 방안에 많은 자원(비용, 시간, 인력 등)이 투입되었지만, 아무 성과도 얻지 못하는 경우가 많습니다.

다시 말하지만, 이처럼 아쉬운 결과가 나오는 것은 데이터 활용이나 분석 내용에 문제가 있어서가 아니라, 적절한 사고 과정을 밟지 않았기 때문입니다.

'공부 시간이 부족하다'는 문제에 대한 '해결 방안' 사례

문제 정의 문제 : 늘 시험공부 시간이 부족하다
현황 파악 및 평가 공부 시간이 부족하면 그만큼 성적이 좋지 않다




공부 시간 확보를 위해 힘쓴다
클럽 활동을 하는 날은 공부 시간이 적다
원인 분석

클럽 활동이 있는 날은 수면 시간을 줄인다
 
해결 방안 검토

 

문제 정의 문제 : 늘 시험공부 시간이 부족하다
현황 파악
및 평가
공부 시간이 부족하면 그만큼 성적이 좋지 않다
    클럽 활동을 하는 날은 공부 시간이 적다
원인 분석     (효율성의 문제) (공부량의 문제)
      계획부족 피곤하다 귀가길에
눌러감
공부시간
자체부족
해결 방안 검토 공부 시간 확보를 위해 힘쓴다 클럽 활동이 잇는 날은 수면 시간을 줄인다 업무교육 평가기준변경 시험기간
바로귀가
쉬는 시간
에도 공부

당신도 '방법맨'이 되어 있지 않습니까?

여러분도 만약 현재 시행 중인 '해결 방안'이 좀처럼 성과를 내지 못한다고 느껴질 때는, 그 방안에 이르기까지의 과정에서 '원인'을 간과한 결과가 아닌지 의심해봐야 할 것입니다.

자 그럼, 여기서 한 번쯤, 여러분 일상에서 맡은 업무나 진행해야 하는 행사, 활동 등에 대해서 다음과 같이 질문을 던져보시기 바랍니다. 

바로 답을 하실 수 있습니까?

■ 어째서( 다른 수단이 아니라)그것이 필요한지?

■ 그로 인해 어떤 것을 실현 또는 해결 가능한가? 그리고 효과적인 결과가 나올 것이라는 근거는 어디에 있는가?

앞선 두 질문에 대해 바로 답을 할 수 없는 경우, 또는 답을 했더라도 그 속에 자신의 상상이나 주관이 들어가 논리적 비약을 일으키고 있다면, 여러분도 '방법맨'이 되어 있을 가능성이 큽니다. 

 

방법맨이 돼버리는 구조

'생각한다'의 두 가지 의미

 

왜 이토록 쉽게 '방법맨'이 돼버리는 것일까요?

이를 위해서는 먼저, '머리를 써서 생각해봐'라는 발상과 지시에 대해 생각해봐야 합니다.

필자는 '머리를 써서 생각한다'는 말에는 두 가지 상반된 요소가 있다고 생각합니다. 

하나는 풍부한 창의성으로 혁신적인 아이디어를 생각해낸다는 의미이고 또 하나는 논리적으로 꾸준히 사물이나 현상의 원리를 추구한다는 의미에서의 '생각하다'입니다.

둘 중 어는 쪽이 좋거나 나쁘다는 이야기가 아니고, '생각의 종류가 다르다'는 것이 핵심입니다.

 

프로세스를 잊어버리기 쉽상

'무엇을 해결, 실현하고자 하는가('목적 및 문제)와

'무엇이 결정적 요인인가'(원인)

위 두가지를 확실히 한 다음에,

'무엇을 해야 하는가'(해결 방안) 

라는 순서로 사고를 진행해야 합니다. 

당신의 '생각한다'는 어느 쪽?

'참신한 아이디어'를 '생각한다'는 것이 결코 틀렸다거나 나쁘다는 것이 아닙니다. 

그런데, 두 가지 '생각한다'는 개념의 차이를 명확히 하지 않고, 전체 논리성을 '생각'하는 것이 얼마나 중요한지 인식하지 못하는 경우가 많습니다. '좋은 아이디어', '참신한 아이디어'가 좋다고 더 좋은 결과로 이어지지는 않습니다. 원래 둘 사이에는 직접적인 연관 관계가 없습니다. 

 

'왜(원인)' 그런지 끈질기게 생각하라

'방법맨이 되는 것을 피하려면 일단 '문제', '원인', '해결 방안'이라는 가장 단순한 프로세스를 항상 염두에 두고, 자신이 생각하고 있는 (실행하고 있는)것이 세가지 중 어느 쪽에 해당하는지 파악해야 합니다. 

'문제'를 어떻게 정의하는가에 따라, '문제'라고 생각했던 것이 더 상위 '문제'의 '원인'이 되기도 합니다. 정답이 하나만 있는 것은 아니라는 의미에서도, 자기 생각으르 논리정연하게 전달 할 수 있는 능력이 필요합니다. 

기본적으로 지금 자신이 생각하고 있는 것이, 

'문제'인지?

'원인'인지?

'해결 방안'인지?

어느 쪽에 해당하는지 파악해야 합니다.

'원인'의 구조는 단순하게만 볼 수 없다

원인 후보를 추출했다고 서둘러 다음 단계로 넘어가면 안 됩니다.

원인은 항상 단순한 구조가 아닙니다. 가급적 '어째서', '왜'를 반복해서 더욱 '본질적'인 원인까지 파고들어야 정확하고 밀도 있는 해결 방안을 도출할 수 있습니다.

'매출이 감소했다'라는 문제에 대한 원인 규명

문제 매출이 감소했다
원인 경쟁사 가격 인하 방문객 수 감소
  얼마나 깊이 파고들면 될까?
해결방안    

'방문객 수 감소'에 대해, '어째서 감소했을까' 라는 이유를 생각해보도록 하겠습니다.

예를 들자면, '매장 직원 수를 줄였기 때문에 고객 대응이 원활히 이루어지지 않았다'가 될 수도 있고, '홈페이지 업데이트가 자주 안 되어 접속자 수가 줄고 그만큼 방문객도 감소한 것이다'라고 할 수도 있습니다.

물론 다른 원인으로 추측할 수도 있지만, 어쨌든 이와 같이 깊이 파고들어 규명하는 사고방식이 필요합니다.

해결 방안을 수립하기 전에 '왜?'를 반복한다

문제 매출이 감소하였다
원인 왜?
경쟁사 가격 인사
왜?
방문객 수 감소
 
  왜?
홈페이지 접속자수가 감소
왜?
고객 대응이 원할하지 못함
  왜?
업데이트 빈도가 줄어듬
왜?
매장 직원 수를 줄임
해결방안   왜?

왜?

 

도전 문제

'무엇이 문제인지'를 적절하게 정의하고, 그 '문제'에 대한 '원인'을 폭넓게 열거해서,  각 '원인'에 대한 '해결 방안'을 도출하는 흐름을 만들어보는 연습

"처음에는 주 1일만 활동한다고 들었는데, 실제로는 주 3일도 넘게 활동하고 있어.
거짓말한 것도 너무 나쁘고, 고문 역할도 그만두는 것이 어떨까?"
풀어야 할 문제
업무가 많아 하루로 끝나지 않음 선생님이 거짓말을 했다는 심리적 스트레스
원인
업무 방식의 비효율성 (효율) 업무량 과다 (양) 오해가 있음 의도적 거짓말
개인의 업무
역량 부족
비효율적인
프로세스
  소통의 부족    
해결방안
업무분장 재고 프로세스 재고 업무내용 재고 외부위탁 검토 직접소통 선생님사과 선생님교체

대부분 이같이 정답이 없는 과제를 다룰 때 논리 전개 방식을 정리하고 그 순서대로 진행해서 해답(해결 방안)에 이르는 과정을 배울 기회가 없습니다. 필자는 이러한 점에 위기감을 느끼고 있습니다. 왜냐하면, 바로 이러한 부분이 데이터를 제대로 활용하지 못하는 원인이 되고 있기 때문입니다. 

이러한 사고방식은 비단 데이터 활용과 분석에만 필요한 것이 아닙니다. 토론을 진행하거나 기획하는 사람에게도 필요한 능력이며, 데이터를 쓰지 않아도 되는 문제를 다룰 때도 필요할 수 있습니다.

필자가 지식이나 방법론을 열심히 암기해봤자 데이터(분석)에는 소용없다고 말한 근본적인 원인이 바로 이것입니다. 

 

6 '결론은 이것이다' 정보를 요약하라

정보 집약력 : 정보를 수집하고 결론을 이끌어내는 힘

 

결과와 결론은 다르다

결과와 결론은 다르다라는 것입니다. 계산과 분석을 해서 나온 결과물은 어디까지나  '결과'이며, 그 결과가 목적에 대해 어떤 의미가 있는지 설명하는 것이 '결론'입니다.

'결과'와 '결론'의 차이 : 목적을 이해하지 못하는 사례

'결과'만 서술하는 데 머물고 있는 구체적인 사례를 살펴보겠습니다. 예를 들어, 여러분은 다음 결과를 어떻게 설명하겠습니까?

당신은 어느 가게의 홍보 업무를 맡았다고 합시다. 더 많은 고객이 방문하도록 메일링(웹진) 서비스 콘텐츠를 개발하려고 하는데, 그 전에 기존 콘텐츠가 효과적인지 아닌지 검증하고자 합니다. 그래서 지난 한 달 동안의 방문 횟수 평균 데이터를 성별, 메일링 리스트 등록 여부별로 구분해 수집하고, 그래프로 나타내 비교해보았습니다. 

■ 메일링 리스트 등록 여부를 통해 비교할 경우, 등록한 사람의 방문 횟수가 더 높은 것으로 보입니다.

■ 여성 고객의 경우, 등록한 사람이 그렇지 않은 사람보다 평균값이 높습니다.

■ 남성 고객의 경우, 메일 수신 여부와 관계없이 방문 횟수 평균값이 비슷합니다.

앞선 답변에 대해 어떻게 생각하십니까?

'틀린' 답변은 없습니다. 그래프를 보고 바르게 '결과를 설명하고 있다'고 할 수 있습니다. 

애당초에 여러분이 하고 싶었던 것과 알고 싶었던 것이 무엇입니까?

그리고 이에 대한 명확한 답변이 제시되어 있습니까?

앞선 세 가지 답변에는 어느 하나 이에 대한 답이 나와 있지 않습니다.

 

결론이란 결과에 기반해 도출해야 한다

'데이터를 활용한다'는 것은 판단과 행동으로 이어지는 결과물이 제시된 상태를 의미합니다. 앞선 사례를 들자면, 다음과 같은 답은 '결론'으로서 어떨까요?

■ 메일링 리스트 등록은 방문 횟수 증가에 효과적입니다.

■ 메일링 리스트 등록은 여성 고객에게 효과적이지만, 남성 고객에게는 그렇지 않습니다.

주목해야 할 부분은, 두 가지 답변이 그래프를 통해 메일링 서비스 효과를 확인하고자 하는 '목적'과 관련된 내용을 설명하고 있다는 것입니다. 그리고 결론에는 직접적인 계산 결과와 통계 용어는 포함되어 있지 않습니다. 그것이 포함되면 결과를 설명하는 것이 되기 때문입니다.

결과와 결론에 이르는 과정은 본질적으로 같습니다. 결론이란 결과를 기반으로 도출하는 것이기 때문입니다. 하지만 표현방식은 다릅니다. 그리고 그 작은 차이가 상대방에게 전달되는 방식이나 이해도에 큰 영향을 미칩니다. 이 차이를 이해하는 것 또한 데이터 문해력에 있어서 중요한 요소입니다.

데이터 문해력에서는 '결과적으로 데이터를 분석해 획득한 정보를 목적에 맞게 활용하는 능력'이 필수적입니다. 어느 정도의 센스나 발상능력이 필요합니다. 하지만 무엇보다 필요한 것은 원래 설정한 목적, 무엇을 말하고 싶은지, 말해야 하는지, 상대방이 알고 싶어 하는 것은 무엇인지 등을 명확히 하는 것이 중요합니다.

실천적인 훈련이 부족한 정답 위주 교육

'결과가 아니라 결론은',

'그로부터 알 수 있는 것은?'

상대방에게 자신의 의사를 전달하는 것이 프레젠테이션인데, 결과를 설명하고 있다는 것은 자신이 데이터를 활용하는 목적을 모른 채 작업했다는 뜻입니다. 

계산이나 분석을 통해 눈에 보이는 값이나 결과물을 도출하는 것이 목적이 되어버리면, 그러한 함정에 쉽게 빠지게 됩니다. 

유감스럽지만 여기서도 정답 위주 교육의 현실이 부각됩니다. 

'결과'와 '결론'의 차이 : 데이터를 너무 단순하게 이해한 사례

여러분은 어떤 지자체에서 전입자 촉진 사업을 담당하고 있습니다. 다음 주에 우리 지역으로 이사를 검토 중인 젊은 부부가 방문할 예정입니다. 그들의 주된 관심사는 주거 비용을 최대한 절약하는 것입니다. 그래서, 시내의 주요지역 두 군데(교외 지역, 도심 지역)의 비슷한 조건의 부동산 정보를 찾아서 월세 정보를 표시했습니다. 여러분은 이 부부에게 어떤 식으로 조언을 하시겠습니까?

이 질문에 대해 가장 바람직하지 못한 답변은,

■ 교외 지역의 평균 집세가 도심 지역의 평균 집세보다 낮습니다.

입니다.

분명 , 각각의 평균을 계산해보면 교외 지역은 70,176엔이고, 도심 지역은 95,824엔이므로 대답 자체는 틀리지 않습니다. 그런데 과연 그 정보가 다음 주 방문하는 부부에게 있어서 얼마나 가치가 있을까요?

앞선 답변에는 두 가지의 문제점이 있습니다. 먼저, '평균'이라는 통계 용어가 들어 있는 시점에서 결국은 단순히 계산 결과만 늘어놓은 것에 불과합니다. 그리고, 각각의 정보를 데이터 크기라는 기준으로만 분석했기 때문에 얻을 수 있는 결과가 제한적일 수 밖에 없습니다.

그러면 여기서 다면적인 정보에 대한 파악이라는 관점을 적용하여 생각해보도록 하겠습니다.

데이터를 통해 분석한 정보

  교외 도심
평균 70,176 95,824
표준편차 14,253 33,385
평균 - 표준편차 55,923 62,439
평균 + 표준편차 84,430 129,208

교외 지역

55,923 ↔84,430

            ↑ 70,176

도심 지역

62,439 ↔ 129,208

            ↑ 95,824

표준편차를 이용해 집세의 분산 상태를 나타내고 있습니다. 월세의 평균값±표준 편차 범위 내에 전체 데이터의 약 3분의 2가 모여 있다고(=표준 데이터 범위)할 수 있습니다. 

여러분은 어떤 '결론'을 도출하시겠습니까?

그리고 그때, 어떤 표현을 사용하여 설명하시겠습니까?

"분명 시세는 교외가 도심보다 싼 편이지만, 선택의 폭을 생각하면 도심 쪽이 압도적으로 넓다고 할 수 있습니다. 그리고 도심에서 좋은 부동산을 찾아낸다면 결과적으로 교외 시세보다 쌀지도 모릅니다. 일단 도심에서부터 찾아보는 것은 어떤신지요"

앞의 설명에서 평균값을 '시세'로, 표준편차와 분산을 '선택의 폭'이라는 표현으로 바꾼 것에 주목하시기 바랍니다.상대방은 평균값이나 표준편차, 분산상태 등에 관심에 없습니다. 그들은 자신들이 어떤 것을 기준으로 삼아 부동산을 찾으면 될지 알고 싶을 뿐입니다. 이에 대해 답변해주어야 좋은 결론이 될 수 있습니다.

그래프를 효과적으로 사용해 결론을 내린 사례

자사 초콜릿 제품 8개에 대한 최신 판매 실적을 지점별로 집계해서 나타냈습니다. 이 데이터를 통해 알 수 있는 범위 내에서, 향후 상품 전략 및 판매 전략 등으로 이어질 수 있는 제안을 결론으로 정리해 주세요.

이 과제도 물론 정답은 없습니다. 먼저 자신이 하고 싶은 말이 무엇인지를 '목적'으로 정의하고 , 이를 위해 필요한 데이터를 가공하고 비교평가를 수행합니다. 그리고 중요한 것은, 자기 나름의 '결론'으로 매듭짓는 것입니다. 

그래프를 활용한 결론의 예

그래프 그 자체로 결론을 설명할 수 있는 예

결론을 일목요연하게 알 수 있는 근거를 제시한다면 상대방의 이해도가 훨씬 올라가지 않을까요?

제품별 합계 판매 실적을 많은 것부터 순서대로 정렬한 것입니다.

제품별 판매 실적 크기를 결론으로 연결하여 ' 그 관점에서 결과를 보았더니 어떤 상품이 클로즈업되었는가'라는 메시지를 그래프에서 바로 읽어낼 수 있도록 하면 됩니다 

그래프를 보여주는 방식을 조금만 바꾸어도, 단순히 계산 결과만 보여주는 것이 아니라는 것을 상대방에게 전할 수 있습니다.

자신의 목적을 구체적으로 정의하고 이에 직결되는 결론을 낼 수 있을지, '말하자면'으로 시작해서 그다음 말을 이어나갈 수 있을지가 관건입니다. 

결론을 낼 때 주의해야 할 점

결과로부터 결론을 도출할 때는 자신의 정보 집약 능력에 더해 어느정도 상상력도 필요합니다. 

데이터로 설명 가능한 범위인가?

모든 지점을 통틀어 가장 많이 팔리고 있는 E 초콜릿이 도쿄에서만 유독 판매략잉 적은 것은, 이 지역에 경쟁사가 비슷한 제품을 투입했기 때문이다.

이와 같은 결론을 냈다고 할 때, 분명 더 조사해본다면 그런 배경이 있을지도 모릅니다. 하지만 경쟁사의 움직임을 나타내는 정보는 원래 데이터에 전혀 들어 있지 않습니다. 아마도 자신 또한 어디까지가 데이터를 통한 사실이고 어디까지가 자신의 상상인지 경계가 흐릿해진 것일수도 있습니다.  어쨌든, 데이터라는 객관적인 것을 활용했음에도 불구하고, 마지막 결론에서 스스로 그 품질을 떨어뜨린 셈이 됐습니다.

즉, 자신이 '그것은 어떤 데이터를 통해 알 수 있는지'를 의식하면서 자가점검을 하지 않는다면, 데이터로 설명 가능한 범위에서 벗어나기 쉽다는 것을 의미합니다.

간단한 사례를 들어보도록 하겠습니다. 데이터를 통해 다음 세 가지 정보를 알아냈다고 했을 대, 어떤 결론을 도출 할 수 있을까요?

(1) 한국 사람은 먹는 속도가 빠르다

(2) 한국 사람은 걸음이 빠르다.

(3) 한국 사람은 말하는 것이 빠르다.

이 문제를 내면, 다음과 같은 결론을 내는 분이 많습니다.

■ 한국 사람은 시간에 쫓기듯 살고 있다.

■ 한국 사람은 성미가 급하다.

이는 데이터에 기반한 결론이라고 말하기 어렵습니다. 왜냐하면 (1) ~(3)에는 '빠른 이유'도 없고 '한국 사람의 성질'에 대한 내용도 없습니다. 결국 '어떤 데이터를 통해 알 수 있습니까'라고 물어보면 대답할 수 없는 것입니다. (1) ~ (3) 의 정보에서 떠오른 이미지를 통해 이런 결론에 도달했다고 추측됩니다. 

하지만 여기서 묻고 있는 것은 '당신은 어떻게 생각하십니까?' 가 아니라, 

'데이터를 통해 알 수 있는 것은 무엇입니까?입니다.

그럼 다소 건조하게 들릴 수도 있지만, '한국 사람은 평소 동작이 빠르다'라는 식의 결론은 어떨까요? '먹다, 걷다, 말하다'를 '평소 동작'이 라고 자기 나름의 해석을 했지만, 해석 범위를 최소한으로 한정했습니다. 여러분이라면 어떤 결론을 내리시겠습니까?

인지 편향(선입견)

인간은 누구나 100% 객관적이고 합리적인 판단이 불가능하며, 여러 가지 편향적인 경향이 존재한다고 합니다. 이러한 것들이 '데이터로 설명 가능한 범위인가?'에서 소개한 실수의 근본적인 원인이라 할 수 있습니다.

의도와는 관계없이, 자신에게 더 유리한 정보에 치우쳐 분석하거나, 더 유리하게 해석하여 결론을 내른 경우가 많이 있습니다. 

몇 가지 사례와 데이터를 본 것만으로 이를 과도하게 일반화하여 다른 경우에도 적용 가능한 것처럼 해석하는 편향도 자주 일어납니다. 

예를 들어, 노인이 운전 중에 사고를 일으킨 사례를 자주 접하고 나서, '역시 노인이 운전하는 건 위험해'라며 모든 노인의 운전이 위험한 것처럼 해석할 때도 많습니다. 자신이 본 것은 어디가지나 몇 가지 사례 데이터임에도 그렇습니다. 심지어는 '노인은 성미가 급해서 운전도 난폭하니까'라며 자신이 혼자 상상한 이유를 무의식적으로 결론에 추가하는 등, 점점 사실에서 멀어지는 일도 벌어집니다. 

데이터는 직접 자신이 보거나 경험한 것 이외의 세상을 간접적으로 보여주는 편리한 도구지만, 데이터가 나타내는 것이 세상의 전부라 할 수는 없습니다. 

정답은 역시 한 가지가 아니다

이 문제를 어렵게 만드는 요인은 바로 정답이 하나만 있는 것은 아니라는 것, 그리고 그 정답이란 것은 아마도 영원히 알 수 없다는 점에 있습니다. 즉, 지금 자신에게 선입견이 작용하고 있다는 것을 인식하기란 매우 어렵고, 작용하고 있다고 인식하더라도 정답을 확인하는 것 자체가 어려운  경우가 많습니다. 

'데이터로 알 수 없는 내용을 결론에서 말하고 있다'는 것이라면 금방 확인할 수 있지만, 이런 경우는 어떨까요?

다음 4가지의 정보를 통해 어떤 결론을 도출하시겠습니까?

(1) 서울의 물가는 비싸다.

(2) 도쿄의 물가는 비싸다.

(3) 방콕의 물가는 비싸다.

(4) 베이징의 물가는 비싸다.

앞선 사례의 경우, 정보에 근거해 생각해본다면 아마도 결론이 몇 가지는 나올 것입니다.

예를 들어, '아시아 국가의 수도는 물가가 비싸다'라는 결론도 가능하고, '수도의 물가는 비싸다'라고 해도 틀리지는 않습니다. 또한, '아시아의 도심부 물가는 비싸다'라거나  '아시아는 물가가 비싸다'라는 결론도 성립합니다. 

'무엇이 정답입니까?'라고 물으면 안 됩니다. 이 세상에서 정답이 한가지뿐인 것은 학교에서 출제하는 시험 문제뿐입니다. 

여러분은, 어떤 결론이 적절하다고 생각하십니까?

'스스로 정답을 만들어내고 이를 논한다'라는 자세를 흔들림 없이 유지하는 것 또한 데이터 문해력의 중요한 요소입니다. 

 

 

 

 

 

 

'BOOK(IT, 데이터분석)' 카테고리의 다른 글

데이터 문해력(Part7,8)  (0) 2022.07.21
데이터 문해력(Part3,4)  (0) 2022.07.19
데이터 문해력 (part 1,2)  (0) 2022.07.14