BOOK(IT, 데이터분석)

데이터 문해력(Part3,4)

nova-unum 2022. 7. 19. 12:08

데이터 문해력 카시와기 요시키 지음, 강모희 옮김

3. '이것이 문제다' 데이터로 말하는 방법

현상 파악 및 평가력 : 문제를 표현하는 힘

 

결과와 평가는 다르다.

 

'현황 파악'을 위해서는 다음 두 가지 차이를 확실히 인식할 필요가 있습니다.

(A) 성과 및 사실, 결과를 확인할 것

(B) 그 결과에 대해 평가를 진행할 것

 

데이터 활용 프로세스 - 현황을 파악하고 평가한다

목적/문제정의 

㉮ (겉으로 드러난 현상)

㉯ 목적 및 문제를 정의

㉰ 지표를 결정

▶ 현상파악/평가

㉱ 현재 상태를 파악

㉲ 평가

원인

㉳ 원인을 분석

방법

㉴ 해결 방안을 모색

 

가치 있는 정보란 무엇인가?

'이번 달 매출 실적은 3,000만 원이었다'

→ ㉱ 이것은 이번 달의 실적(결과)를 나타냅니다.

→ ㉲ 이 3,000만 원이라는 실적이 좋은 것인지 나쁜 것인지에 대한 '평가'는 이 정보만으로는 알 수 없다.

 

실무에서 필요하면서 가치 있는 정보는 D와 E 중 어는 쪽일까요?

실무에서 '가치 있다'고 생각하는 정보는 다음 중 한가지와 연결되어야 한다.

. 구체적인 행동을 특정 할 수 있다(누가 언제 무엇을 했는지)

. 구체적인 판단을 내릴 재료가 된다. 

3,000만 원이라는 실적의 좋고 나쁨조차 판단할 수 없는 상태인데, 다음 달에 어떤 행동(조치)을 취해야 좋을지는 당연히 알 수 없습니다. 

'데이터를 다루고 있다', '통계 데이터를 살펴본다'라고 하면, 여러 지표를 통해 실적 추이나 결과를 그래프 등으로 알기 쉽게 보여주는 모습을 상상하는 사람이 많습니다. 일단 그 단계를 넘어서서, 다음 단계로 진행해야 '데이터를 활용한다'라는 사실을 실감할 수 있습니다. 

 

평가와 우선순위의 관계

평가와 판단을 하기 위해서는 다음과 같은 것이 필요하다.

. 어느 쪽이 더 효율적인가

. 어느 쪽이 더 효과적인가

. 어느 쪽이 더 중요한가

. 어느 쪽이 더 긴급한가

 

인재와 재원 확보가 점점 어려워지고 있기 때문에 , 지자체에서도 '누구에게나 평등하게 서비스를 제공한다'는 것이 사실상 불가능하게 되었습니다. 그래서 중요해진 것은 '어느 쪽에 우선순위를 두어야 하는가'입니다. 당연히 민간 기업도 마찬가지입니다. 

'우선순위'를 정하려면 선택지를 어떤 척도와 기준으로 '평가'할지가 관건입니다. 데이터를 활용하겠다고 실적치와 그래프만 보고 있으면, 납득할 만한 결론이 나올 리 없습니다.

우선순위를 정하고 중요한 문제를 해결하기 위해  '본래 필요하면서 가치 있는 정보'를 얻고자 한다면,  '평가'가 필요한 것입니다. 

 사실 및 결과 표시 VS 평가

데이터를 제대로 활용해서 가치 있는 정보를 획득하려면 먼저 다음둘을 명확히 구별해야 합니다.

사실과 결과의 데이터를 그래프나 표, 지표 등으로 표시하는 것과

내용을 평가해서 구체적인 행동과 판단으로 연결하는 것

이 둘을 구분한 후 , 후자에 필요한 평가를 준비하는 것이 바로 데이터 활용의 중요한 단계입니다. 

 

비교할 때는 관점이 중요하다

 

'평가'를 하기 위해 필요한 것은 바로 '비교'입니다.

데이터란 숫자의 크고 작음을 나타내는 것이지 그  값에 대한 평가를 단독으로 내릴 수는 없습니다. 비교 대상이 있어야 비로소 값에 대한 평가가 가능해집니다. 

평가를 객관적으로 만드는 것은 바로  ' 다른 것과의 비교'입니다.

결론이 데이터와 일치하는가?

데이터를 활용해서 결과물을 만들 때, 자기 생각과 주관을 전하면 안 됩니다. 더욱 엄밀하고 객관적으로, 논리적인 주장을 전달해서 상대방이 이해할 수 있도록 해야 합니다. 

데이터를  수집하기 전에 해야 할 일

어떤 것과 비교하면 결론이 더 설득력 있을까요?

물론 정답은 없습니다. 자신이 생각한 스토리 안에서 선택하는 것입니다.

"같은 지역 내 다른 산업과 비교해서 '전통 공예 산업'의 감소 폭이 더 큰지 아닌지 확인하는 것이 어떨까요"

"자의적으로 다른 산업을 선택할 경우 객관성이 떨어지므로, 모든 산업의 평균치라거나, 제조업 전체 등으로 범위를 좁히는 것이 비교 대상으로 더욱더 객관적이라고 생각합니다. 

"다른 산업과 비교할 때, 각 산업의 매출 규모 등이 매우 다르므로 종사자 순으로 비교하는 것이 아니라, 매출 대비 종사자 수 비교 등을 하면 효과적이 않을까요"

전부 훌륭한 관점이라고 생각합니다.  여러 데이터와 그래프를 보고 내린 결과로 앞선 아이디어가 나온 거이 아니라, 데이터 수집과 분석 전에 어떤 것을 어떻게 말할지 숙고해서 나온 것이기 때문입니다. 

이는 전부 목적 중심 사고로서, 데이터에 사로잡히지 않고 객관적으로 생각해낸 것입니다. 제가 생각하는 '데이터 문해력'의 본질 중 하나입니다. 

사실 직장인 중에도 목적 중심의 사고를 생략(생각을 멈춤)한 채 데이터를 그대로 사용한 결과, 결론과 데이터 사이에 논리적인 괴리가 생기는 경우가 많습니다. 

당연한 말이지만, 결론을 심정적으로 정해놓고 데이터로 평가하려다 보면, 그 결론과 다른 결과가 나올 경우  결론 자체를 바꿔야 할  수도 있습니다. 만일 데이터를 결론에 억지로 짜 맞추게 되면 본말전도이기 때문에 더더욱 주의가 필요합니다. 

비교할 때 체크포인트

비교 대상을 어떻게 정할지, 그 숙고 여부에 따라 결론의 질이 크게 좌우됩니다. 이 경우 주요 포인트는 다음과 같습니다.

① 결론으로 이어지는 결과가 나올 것인가(반드시 결론으로 부합하는 결과가 나온다는 보증은 없습니다)?

② 비교를 통해 '차이'를 찾을 수 있는가?

 point1 결론으로 이어지는 결과를 얻을 수 있을까?

'무슨 말을 하고 싶은지, 어떤 것을 확인하고자 하는자, 이에 따라 XX라는 데이터를 XX라는 데이터와 비교했다'라는 과정이 데이터 활용에 있어서 필수입니다.  비교를 통해서 어떤 결론을 내릴 수 있을지, 또 그 결론을 자신이 확인하고자 하는 사항과 일치하는지 검토해보고 나서 비교 작업을 해야 할 것입니다.  검토 없이 비교 작업을 해봐야 단순히 그래프 두 개를 제시하는 데 그칠 뿐입니다. 

이러한 사고 과정이 잘 이루어졌는지, 이에 따른 결과물이 나왔는지를 직접 확인할 방법을 소개하도록 하겠습니다.  그것은 바로 최종적으로 '결과'가 아니라 '결론'이 서술되어 있는지에 대한 여부입니다. 데이터 중심으로 접근하는 사람의 결과물은 대체로 '결과'로 끝납니다. 하지만 그렇지 않고 '목적 중심'으로 접근하는 사람은 '결론'까지 말합니다. 

결과  :  XXX와 YYY는 차이가 있습니다.

결론 :  XXX와 YYY의 차이가 존재한다는 것은,  ZZZZZ라는 의미입니다.

            ↓

'데이터를 활용한다'란, 결과 가 아니라 결론 을 도출하는 것입니다.

결과와 결론은 다르다.

결과 : 전통 공예 산업 종사자 수와 전 제조업 평균 종사자 수의 감소 폭은 차이가 있습니다.

결론: 전통 공예 산업 종사자 수는 같은 제조업  중에서도 그 감소 폭이 현저하게 크며, 심각한 상황이 지속되고 있습니다. 

'결과'란 그래프를 보고 이를 단어로 바꿔 표현한 것뿐입니다. '결론'은 그 차이가 결국 어떤 내용인지를 설명하고 있습니다. 이를 설명하려면 전제로서 '내가 무엇을 말하고 싶은지, 어떤 것을 문제로 인식하고 있는지'가 명확해야 합니다. 

데이터 중심 사고로 작업하는 것을 피할 수 있는 방법은 하나의 그래프나 표를 만들 때 각각의 결과물에 대한 구체적인 결론을 먼저 문장으로 써보는 것입니다. 

point2 비교를 통해 '차이'를 찾을 수 있는가?

비교했지만, 그 결과가 별 차이가 없다면 평가할 수 없습니다. 그렇다고 그것이 틀렸다거나 문제가 있다는 의미는 아닙니다. 데이터나 결과가 아니라, '차이가 있을 것이다'라는 초기 가설이 틀렸다고 생각하는 것이 타당합니다. 혹은 ' 차이가 없었다'라는 것을 결론으로 삼을 수도 있습니다. 

어쨌든 '양쪽에 차이가 있다'라는 결과를 근거로 평가하려면  '차이를 발견한다'라는 것이 하나의 포인트가 됩니다. 예를 들어, 어떤 상품의 매출 실적을 평가하려면 자사의 타제품과 비교하거나 타사의 경쟁 제품과 비교해서 어느 쪽의 '차이'가 더 크게 나타날지 생각해야 할 것입니다. 그 다음 단계가 직접적인 비교와 확인입니다.

이 과정에서도 절대적인 정답은 없으며 비교 대상을 반드시 하나로 정해야 할 필요도 없습니다. 실제로는 여러 비교 대상 후보를 정하고 각각 진행해서 결과와 결론의 일관성을 확인하고, 경우에 따라 다시 한번 비교 대상을 늘리거나 조정해서 '가설' → '검증'을 반복하는 것이 현실적입니다.

내부 비교 및 외부 비교

비교라고 했을 때 그 비교 대상은 외부에만 있는 것이 아닙니다. 자사 제품을 타사와 비교하는 것은 외부 비교입니다. 한편 자사 제품의 총 매출을 지역별 매출로 구분해서 양쪽을 비교하는 것은 내부 비교라 합니다. 목적에 따라 어느 쪽이 적절한지, 아니면 모두를 시도할 가치가 있는지 등을 상황에 따라 판단하는 것이 좋습니다.

비교의 기술

평균을 사용한 흔한 분석 패턴

평균값이라는 기준만으로 과연 매출의 좋고 나쁨을 평가해도 될까요?

세 상품의 연간 실적을 평가하는 기준으로 월 '평균' 이외에 어떤 것을 들 수 있을까요?

'연간 총합계'가 가장 알기 쉽겠지만 값의 크기를 기준으로 한다는 점에서 본질적으로는 평균과 같으며, 결과도 다르지 않을 것입니다.

추이와 변화를 본다

예를 들어 연간 추이와 변화에 주목해서 기준을 세우면 어떨까요?

이를 통해 어떤 평가를 할 수 있을까요?

 

편차를 고려한다

편차를 기준으로 평가할때 도수 분포도로 시각적으로 나타내는 것이 일반적입니다. 도수 분포도에서는 가로축이 데이터값에 해당하는 범위(구간)이며, 세로축이 각 범위에 해당하는 데이터의 빈도(도수)를 나타내며, 데이터 전체의 분포와 편차를 한눈에 볼 수 있습니다. 

하지만 데이터의 수가 매우 많거나 복잡한 변동을 보이는 경우에는 선형 그래프나 도수분포도나 산포도의 시각적 정보만으로는 정량적인 추이 형태를 전부 파악하기 어려울 수 있습니다. 그럴 때에는 편차를 나타내는 표준편차라는 지표를 함께 활용합니다. 

편차 폭이란, 전체 범위를 통해 봤을 때 데이터의 간격(폭)이 어떠한가를 나타냅니다. '편차'를 볼 때는 표준편차에만 의존하지 말고 이와 더불어 그래프 등을 통해 그 변동 양상을 함께 관찰하는 것이 좋습니다.  편차는 어떻게 변하고 있는지에 대한 것이 아니라, 개별 데이터값의 크기가 어떻게 분포되어 있는지를 의미합니다.  '편차가 크다(=표준편차가 크다)', '편차가 작다(=표준편차가 작다)'고 할 수 있습니다. 표준편차의 크기는 데이터의 최소값에서 최댓값의 차이가 아니라 데이터 대다수가 존재하는 범위의 폭을 의미한다. 최솟값과 최댓값 같은 극단적인 값에 전체 편차는 영향받지 않으며 대다수의 데이터가 분포된 범위를 나타낸다는 장점이 있습니다. 

엑셀에서는 STDEV 함수를 이용햇 간단히 표준편차를 구할 수 있습니다. 

서로 크기와 규모가 크게 다른 두 개의 편차를 표준편차값의 차이를 통해 비교할 때는 주의해야 합니다. 이 때는 표준편차를 평균으로 나누어서 기준을 비슷하게 맞추고서 비교해야 합니다. 

 

편차가 크다는 것은 어떤 의미인가?

이 또한 정답이 없는 질문 중 하나입니다. 예를 들어 , '편차가 크다는 것은 월별 매출 실적이 불안정하다는 뜻이다'라고 한다면, 가장 문제 있는 상품은 C일 것입니다. 반대로  '편차가 작으면 안정적으로 매출을 발생시키고 있다는 뜻이지만, 향후 매출을 크게 높일 가능성이 적다고 할 수 있다'라고 생각할 수도 있습니다. 

그러나 평가라고 해서 반드시 '좋고 나쁨'을 가려야 하는 것은 아닙니다. 이를 굳이 가려내지 않고, 다음과 같은 결론을 내릴 수 있기 때문입니다. 

내년에 판매 촉진 비용을 투입해야 할 대상은 상품C입니다. 왜냐하면 편차가 크기 때문에, 매출이 적은 달에 비용을 투자해서 저변을 널히면 연간 매출도 증가할 것입니다.

평가 기준의 정리

데이터의 특징을 포착하여 비교, 평가 할때 활용하는 기준(척도)를 정리

데이터 평가 기준 대표적인 지표
값의 크기 펑균값, 합계
추이 선형 그래프, 막대 그래프, 변화율
등락 폭 표준편차, 도수 분포도
비율 분수, 퍼센트

'뭐가 정답일까?' 라는 발상은 버리도록 하세요.

또한, 어느 한 기준으로만 좁혀야 하는 것도 아닙니다.  복수의 기준을 사용해서 이들을 조합하고 결론을 낼 수도 있으며, 이 경우 더욱더 입체적이고 심도 있는 결론에 도달할 가능성이 큽니다. 

'이 사례에서는 어떤 평가가 중요할까?  어떤 설명이나 결론이 가능할까?라는 관점에서 생각하고, 필요한 기준을 선정해 활용해주길 바랍니다. 이 또한 데이터 활용에서 중요한 점 중 하나입니다.

비교 사례 분석

① 평가를 하려면 비교 대상을 어떻게 정해야 하는가?

② 어떤 평가 기준을 활용해서 비교할 것인가?

대상을 보는 관점을 다양하게 취하면 그만큼 비교 평가의 다양성도 늘어나게 됩니다. 비교 대상은 반드시 외부에만 있는 것이 아니니까요.

추이, 비율, 증가율, 밀도, 주제분리(하위 둘로 크게 나누기).....

고객 만족도를 다룬 경우

(A) : 서비스 A : 평균 만족도 4.1 점(5점 만점 중)

(B) :서비스 B : 평균 만족도 3.5점(5점 만점 중)

정보가 이것뿐일 때는 누구나  '서비스 A 가 더 만족도가 높으니 (B보다) 더 좋은 서비스' 라는 결론을 내릴 것입니다.

평균이 아니라 데이터의 분포 상태를 통해 보는 고객 만족도 사례

서비스 A는 응답자들이 거의 전부 평균값에 가까운 평가를 했습니다. 한편 서비스 B를 보면, 응답자에 따라 매우 높은 평가와 그렇지 않은 평가로 나누어져 있습니다. 단, 매우 높은 평가를 하는 사람의 비율이 더 높습니다. 

만약 여러분이라면 이 결과를 통해 두 서비스의 만족도를 어떻게 평가할 것인가요? 물론 여기도 정답은 없습니다. 하지만 평균값만 보고 '서비스 A가 더 좋다'라고 생각하는 것은 섣부른 판단이라는 점에 동의 하리라 생각합니다.

선입견을 버리고 서비스 만족도를 측정한다

'FACTFULNESS 10가지 선입견을 버리고 데이터를 기반으로 바르게 보는 습관 이라는 책에서도 '간극 본능 ( The Gap Instinct)'에 의한 함정을 소개하고 있습니다. 

즉, 인간은 누구나 '좋다/나쁘다','높다/낮다', '크다/작다'등 2가지 이상으로 '편 가르기'를 하고  그 차이를 구분하려 합니다.  그리고 그 차이를 클로즈업하면 알기 쉬운 결론으로 이어지기 때문에 이 방법을 자주 사용하게 됩니다. 

하지만, 이는 어디까지나 작업자나 분석자 자산이 그어놓은 선으로 그룹을 구분했기에 나온 차이이며, 그 그룹의 특징을 단적으로 나타낸 평균 등의 지표가 꼭 그룹 전체를 대표한다고는 볼 수 없습니다. 그 지표에서 나타나지 않은 다른 부분들 또한 무시할 수 없는 것입니다. 

이러한 사례를 통해 한번 생각해보겠습니다. 먼저, 그룹 A와 B로 구분하는 것 자체가 분석자가 임의로 선을 그었다고 볼 수 있습니다. '두 그룹 간 평균에 차이가 있다'라는 말은 알기 쉽지만, 그 평균값 사이에 존재하는 부분은 무시해도 되는 것일까요? 예를 들어, 두 그룹 간 겹쳐 있는 부분에 대해서 '평균에 차이가 있다'라는 내용으로 설명할 수 있을까요?

서비스 만족도의 측정 방법

서비스 만족도를 측정할 경우, 응답자 전원에 대해 평균을 내는 식이 아니라 목적에 초점을 맞춘 값을 파악하는 것이 더 적절합니다. 그 예로 앞의 편차를 살펴보는 것도 이러한 사례에 해당합니다.

가장 큰 이유는, 만족도나 이해도 등의 값(데이터)은 애초부터 그 사람의 주관이나 기대에 기반하여 나온 상대적인 값에 불과하기 때문입니다. 어떤 사람에게는 완벽한 서비스라 할지라도, 다른 기대치가 있는 다른 사람에게서는 낮은 평가가 나올 수도 있습니다. 하지만 그것은 그 서비스 내용 자체가 나쁘다는 결론으로 직결되는 것이 아닙니다. 사용자 간의 전제가 다르다는 것을 무시하고, 단순 계산으로 나온 값에 어떤 의미가 있을까요? 

이처럼 평가를 하는 방식에도 여러 가지 선택지가 있습니다. 이들 모두 목적에 따라 선택해야 한다는 것이 대전제가 됩니다.

노동시간, 시간 외 근무 시간을 다룬 경우

시간 외 근무 시간 평균으로 볼 때

맨 처음 생각해야 할 점은 '무엇을 문제라고 생각할 것인가, 어떻게 평가하는 것이 이 문제에 있어서 중요할까'라는 것입니다. 그것은 데이터가 무조건 제시해주는 것이 아닙니다.

'시간 외 근무를 줄이고 싶다'라는 목적이 있다면, 어떤 식으로 '시간외 근무 현황을 파악해서 평가'해야 할까요? 아무 생각 없이 무작정 부서별 시간 외 근무 시간 평균을 계산해 봤자, 알 수 있는 것은 그 부서 '전체'에 대한 평균값에 불과합니다. 그러면 평균값을 낮추는 것이 진정한 목표일까요? 

만약 그렇다면, 장시간 노동으로 피해를 입은 사람들은 방치하고 다른 사람들을 매일 정시에 퇴근시키는 식으로 부서 전체의 시간 외 근무 시간 평균을 낮추는 극닥적인 방법도 가능합니다. 하지만 정말로 그렇게 하는 것이 적절한 방식일까요?

평균을 구하고 그 값을 비교하는 시점에서 이미 ' 극단적인 상황에 부닥친 개개인에 대해 조처를 하기보다 부서 전체 평균을 낮춘다'는 전제가 성립할 것입니다. 실제로도 그 전제조차 의식하지 못한 채, 수집한 데이터에서 평균을 구하고 막대 그래프로 크기만 비교하는 사례가 압도적으로 많습니다. 

목적에 이르는 적절한 접근법

목적을 더욱 구체화한다면, 다음과 같이 여러 가지 아이디어를 도출할 수 있습니다. 

① 같은 부서에서 시간 외 근무 시간의 직원별 분포 상태를 평준화하고자 한다(결과적으로 불공편하다는 불만이나 일부 직원에 대한 과다 부하 등을 줄이고 싶다).

② 부서 간 시간 외  근무 격차를 평준화하고자 한다(결과적으로 부서 간 인원 배치를 적정 수준으로 조절하고 싶다).

③ 부서 내에 일정 시간 이상 근무하는 직원이 없도록 하고 싶다(예를 들어 월 50시간 이상 근무자를 0명으로 한다 등).

어떤 목적으로 시간 외 근무 문제를 다룰지, 그 정의에 따라, 현황을 평가하거나 평가하는 방식이 달라집니다. 결과적으로, 데이터에 어떤 평가 기준을 적용하는 것이 효과적일지도 결정됩니다. 

① 을 목적(문제)으로 정의할 경우, 부서별 평균 시간외 근무에 대해 파악하는 것은 의미가 없게 됩니다. 그 대신, 부서 내 개인들의 '편차'를 나타내는 기준이 필요합니다. 단순히 부서에서 개인들의 시간 외 근무 시간의 차이가 큰 것이 문제라면, 각 부서별로 나타낸 문제가 가장 긴 곳(부서)을 그 원인으로 지목할 수 있을 것입니다. 또한 ③을 목적으로 고려한다면, 50시간 이상 시간 외 근무를 하고 있는 사람이 있는 사람이 있는 부서를 가려내면 됩니다.

다만, 앞의 그래프에서는 부서에서 시간 외 근무 시간 대상 인원이 몇 명인지까지는 알 수가 없습니다. (예:A 부서에서 40시간 시간 외  근무를 한 인원수). 그렇기 때문에 '부서 내 50% 이상의 인원이 XX시간 이상 시간 외 근무를 하고 있다'라는 것을 문제로 삼고자 한다면, 또 다른 관점을 취해야 할 것입니다. 

공영 시설 이용 현황을 다룬 경우

공영 시설의 운영 관리를 담당하는 공무원이 기존의 30개 시설의 2년에 걸친 이용자 수 실적 데이터를 이용해서 내년도 예산 분배와 대상 시설을 검토한다고 하겠습니다. 

산포도를 통해 살펴본다.

주로 많이 사용하는 방법은 2년간 이용 실적의 평균을 계산하고 그 크기를 비교해서 '자주 이용한다','그렇지 않다' 등으로 평가하는 것입니다. 하지만 그것만으로는 이용 실적에 대해서만 알 수 있을 뿐, 앞으로의 상황을 예측하는 것은 어렵습니다. 이때 활용할 수 있는 것이 산포도입니다. 그래프 세로축에 2년간에 이용 실적 평균을 통해 '많은 사람이 이용했는지 아닌지'를 표현하고, 가로축에 2년간 시설 이용자 수 추이를 증감 비율로  나타내어 ' 그 시설의 인기가 높아졌는지 떨어졌는지'를 표현했습니다.  

전체적으로 보면 의미를 파악하기 어려우므로, 각 모서리, 즉 가로축 세로축에서 극단적인 값을 나타낸 그룹을 묶어보았습니다. 30개 시설 전부 예산을 투입하는 것은 현실적으로 무리가 있으므로, 우선순위를 명확하게 한 다음 대상 시설을 좁혀나가는 것이 좋습니다. 

 

비교 총정리

■ 비교를 하는 목적(관점): 비교를 통해 평가한다.

■ 비교의 기술 : 목적에 따라 '값의 크기','추이','편차','비율' 등 4가지 평가 기준을 이용해 데이터의 특징을 포착한다.

어려운 분석이나 통계까지는 필요하지 않습니다. 그보다, 자신의 목적에 대해 생각해보고 이에 따라 가설을 세우는 것이 훨씬 중요하다는 것을 아셨을 겁니다. 

"당신이 현재 직면하고 있는 문제나 그 배경에 대해 전혀 모르는 제3자가 바로 앞에 있다고 상상하세요. 그 사람에게 당신이 다루는 문제를 데이터로 설명하려면 무슨 데이터를 어떻게 보여주면 좋을까요?"

상대방이 그 데이터를 보고 나서,"그렇군요! 확실히 문제가 있네요!" 라고 말한다면 성공한 것입니다. 

 

4 결과가 나왔다고 끝난 것은 아니다

원인 파악력 : 행동으로 이어지는 힘

 

최종 목표는  '행동과 판단'

 

'데이터 정리'로 끝내고 있지 않나요?

조직에서 데이터를 잘 활용하고 있다는 것은, 그 정보를 통해 문제 해결 방안을 수립하거나 구체적인 행동 계획을 세우거나 관계자들이 납득할 만한 합의 또는 판단을 내릴 수 있다는 이야기입니다. 즉, 결론으로 유도하지 못하는 정보는 가치가 별로 없으며, 목적에 이르지 못한 어중간한 상태입니다.

데이터를 통한 현황 파악과 평가가 최종 목표는 아니다.

현황 파악 및 평가

↕ 간극이 존재

행동 및 판단

 

예를 들어 데이터에서 다음과 같은 사실을 확인했다고 하겠습니다.

㉮ A상품의 매출은 B상품보다 적다.

㉯ 우리 도시의 인구는 5년간 10% 감소했다. 

㉰ 올해 8월은 전년 동기 대비 광고 선전비를 5%절감했다.

㉱ 이번 이벤트의 방문객은 이전 대비 10% 증가했다.

앞의 정보를 기초로 다음 질문에 답할 수 있을지 생각해보자.

㉮ A상품이 B상품보다 매출이 적은 이유는 무엇인가? A상품을 B상품만큼 팔리게 하려면 어떻게 해야 하는가?

㉯ 우리 도시의 인구가 감소한 이유는 무엇인가? 이 흐름을 완화하기 위한 가장 좋은 방법은 무엇인가?

㉰ 5% 절감이 가능했던 가장 큰 요인은 무엇인가? 내년에 이를 어떻게 할용할 수 있을까?

㉱ 이번 이벤트의 방문객이 10% 증가한 이유는 무엇인가? 다음 이벤트를 기획할 때 어떤 부분에서 더 신경을 써야 할 것인가?

만약 이러한 질문에 답변할 수 없고, 단순히 현황 파악에 그치고 있다면, 그것은 데이터 분석이 아니라  '데이터 정리'라고 볼 수밖에 없습니다.

 

해결 방안은 원인에 실행되어야 한다는 것을 알고 있나요?

다음으로 필요한 것이 '왜 그 결과에 이르렀는지'와 '왜 그 문제가 일어나고 있느지'를 파악하는 단계로, 달리 말하면 결과에 대한 원인 파악입니다. 

최종적으로 취할 행동, 즉 해결 방안은 문제가 아니라 그 문제를 일으키는 원인에 취해야 합니다. 그렇지만 원인 분석을 건너뛴 채 직감이나 즉흥적으로 해결 방안을 수립하는 경우가 많습니다. 

 


데이터 활용 프로세스 - 원인을 분석한다

목적/문제해결

㉮ (겉으로 드러난 현상)

㉯ 목적 및 문제를 정의

㉰ 지표를 결정

현상파악/평가

㉱ 현재 상태를 파악

㉲ 평가

원인

㉳ 원인을 분석

방법

㉴ 해결 방안을 모색


'최근 매출이 떨어졌다'는 '문제'가 있다고 가정해보겠습니다.

■  매달 이벤트를 하자!

■ 상품 포장 디자인을 개편하자.

■ 온라인에서 더 자주 정보를 게시하자.

이 중 어떤 것은 효과가 있을 수도 있습니다. 하지만 그것은 점쾌처럼 맞을 수도 있고 아닐 수도 있는 것처럼, '짐작으로 때려 맞히는 전력'에 불과합니다. 이런 방법을 데이터에 기초했다고 할 수는 없습니다. 

원래는 매출이 떨어진 원인을 분석하고 나서, 이를 해결하기 위한 방안과 행동을 제안해야 합니다. 

예를 들어, 최근 매출이 떨어진 '문제'의 주요 원인으로 타사의 유사품이 더 싼 가격으로 판매되고 있기 때문이라고 분석되었다면, 앞에 제시한 3가지 방법은 전부 헛수고로 그칠 것입니다. 이 경우에는 매출이 떨어진 원인인 타사의 저가 유사 제품에 대한 해결 방안을 강구해야 합니다. 

데이터를 통한 원인 분석에서 중요한 것은 원인과 결과의 '연결성'

현황 파악 완료, 

분석 및 비교를 통해 문제점도 도출

  다음에는 무엇을 해야 할까? 어떻게 '결론'과 '제안'으로 이어갈까?

그 결과에 이르게 된 근거 및 원인도 제시되었는가

↓ 

원인과 결과의 '연결성'에 주목하자!

'매출이 떨어졌다'라는 문제에 대해 적절한 조취를 취하고 그 실용성과 성공률을 높이기 위해서는 이 문제를 일으키는 원인을 반드시 파악해야 합니다. 이것이 핵심입니다.

한정된 자원과 시간 속에서 '아무것도 안 하는 것보다 낫다'는 수준으로 대책을 세운다면, 사실 안 하는 것이 더 낫습니다. 효과적일 것이라 예상되는 방법을 객관적으로 검토해보고, 이에 집중해서 비용 대비 효과를 극대화하는 것이 가장 중요합니다.

여기서 필자는 문제나 결과에 대한 '원인'이라고 표현하고 있지만, 만약 이를 자신이 하고 싶은 말, 즉 '목적(결론)' 에 대해 말한다면 원인은 그 '근거'라고도 할 수 있습니다. 결론만 말하는 것도, 문제나 결과만 제시하는 것도 충분하지 않습니다. 

목적(결론)   문제/결과

    ↑                  ↑

   근거           원인 

 

데이터에서 원인을 찾는 사고방식과 방법

어떤 문제에 대한 원인을 데이터로 어떻게 분석할 수 있을까요?

원인과 그 결과 사이에는 반드시 연관 관계가 있습니다. 그 관련성을 데이터로 확인할 수 있다면, 데이터에서 원인을 분석했다 할 수 있습니다. 

원인 후보를 이끌어 내는 방법과 지표를 특정하는 방식

원인 후보를 열거한다 → 지표를 결정한다 → 관련성을 확인한다

사례1 : 매출 문제

'어떤 상품의 매출이 감소했다'라는 문제에 대해, 그 원인이 될 수 있는 후보들을 검토해보겠습니다.

예를 들면 다음과 같은 관련성을 추츨할 수 있습니다.

문제 : 어떤 상품의 매출이 감소했다

원인(후보) : 경쟁사가 가격 인하 전략을 시작했기 때문이다.

대체로 '원인이 하니'인 경우는 매우 드물며, 일반적으로는 2개 이상의 원인을 고래해야 합니다. 하지만 여기서는 설명을 단순화하기 위해 1개만 가정하도록 하겠습니다.

지금 단계는 객관적인 데이터를 통해 확인하기 전이기 때문에 '이게 정말일까?'나 '당연히 이거지'라고 주관적으로 원인 후보를 판단하지 않도록 합니다.  이 단계에서 많은 사람들은 자신의 생각이 맞는지 틀리는지 진지하게 고민하게 됩니다. 아이디어의 정확도를 가리는 경쟁이 아니기 때문에, 보다 유연하고 가볍게, 넓은 시야를 가지고 생각해보세요.

다음으로, 그 원인이 어떤 내용인지 나타낼 수 있는 데이터와 지표에 대해 생각해봐야 합니다. 매출 감소 사례라면, 다음과 같은 것이 어떨까요?

원인(후보) : 경쟁사가 가격 인하 전략을 시작했기 때문이다.

지표 데이터 :  경쟁사의 가격 인하율 변화(지난 3개월 동안)

지표 데이터를 '경쟁사의 가격 인하 데이터'로 잡지 않는 것이 중요합니다. 왜냐하면 그렇게 설정할 경우 어떤 데이터를 수집해야 할지 알 수 없기 때문입니다. 예를 들어 어떤 시점에서의 '가격 인하 후 값'을 데이터로 제시한다 해도 그것이 매출 감소라는 현상과 관련 있는지 입증하기는 애매합니다.

가격 인하라는 '움직임'과 매출의 감소라는 '움직임' 사이의 관련성을 파악하려면 이들 현상이 발생한 시간대 전후의 움직임과 변화를 알아야만 합니다. 그리고 그 움직임과 변화를 나타내는 지표로 가격 인후의 가격을 할지, 아니면 앞의 사례에서 보듯이 '변화율'로 볼지, 여러 가지의 선택지가 있습니다.  자신의 알고 싶은 내용과 제시하고자 하는 현상에 따라 더욱 적합한 선택지를 생각해야 할 것입니다. 

원인(후보) : 경쟁업체가 가격 변동을 한 번이 아니라 몇 번씩 반복하고 있다.

지표 데이터 : 가격 변동의 움직임과 매출 변화 간의 관계성을 알고 싶으므로 가격 변동률 데이터를 활용한다.

그 이유는, 가격 자체보다 변동률을 제시하는 편이 '원래 가격에 대한 변화의 충격 = 고객이 심리적으로 느끼는 변화의 크기'를 더욱 직접적으로 나타낼 수 있기 때문입니다.

다만, 가격 그 자체를 데이터로 활용해도 결과가 크게 다르지 않을 수도 있습니다. 그럼에도, 내용에 따라서는 지표를 조금 다르게 바꾸는 것만으로도 결과의 정확도가 크게 달라지기 때문에 입수하기 편하다는 이유로 무작정 데이터를 활용하는 것은 피해야 합니다. 

사례 2: 인구 문제

다음의 원인을 여러분이라면 어떤 지표 데이터를 사용해서 나타내겠습니까?

문제 : 우리 도시의 인구가 감소하고 있다.

원인(후보) : 고등학교 졸업 후, 전출해서 돌아오지 않는 인구가 증가했기 때문이다.

고등학교를 졸업하고 고향에 남지 않은 사람 수를 매년 집계하고 있습니까?

아니면 고등학교 졸업생 전체 대비 고향에 남지 않는 사람의 비율을 매년 집계합니까?

전자의 경우, 고향에 남지 않은 사람이 몇 명인지 정도는 사실 확인이 가능할지도 모릅니다. 하지만 만약 고등학생 전체 인구수가 저출산등으로 인해 감소 추세라면 '고향을 떠난다'는 것의 영향이 어느 정도인지 나타내기 어렵습니다. 

실제로, 여려 가지 선택지 중에 어떤 데이터를 활용해야 할지 고민하게 될 것입니다. 목적과 사례에 맞추어 생각하는 것이 원칙이지만, 현시점에서 콕 집어 선택하기 어려운 경우에는 몇 가지 지표 데이터를 활용해서 각각 분석을 수행해보는 것이 현실적입니다. 

데이터 수집이 어려운 경우

문제에 대한 원인을  몇 가지 추측했지만, 이들을 직접적으로 나타낼 수 있는 데이터가 없거나 수집하기 어려운 경우가 많습니다. 그럴 때는 다음과 같은 순서를 적용해보길 바랍니다.

① 유사한 데이터에는 어떤 것이 있을지 생각해본다(정확도는 약간 떨어지더라도, 데이터가 없는 것보다는 낫습니다)

② 지금 바로 수집을 시작한다(시간적인 여유가 있는 상태이고, 본질적인 데이터가 필요한다면)

③ 정량적인 아닌, 정성적인 정보로 대응한다(설문조사 응답 및 청취 자료 등)

④ 포기한다(해당 부분은 본인의 가정을 통해 보완)

데이터를 제시하는 것이 가장 이상적이긴 하지만, 항상 데이터가 있는 것은 아닙니다. 중요한 것은 '원인'에 대해 생각해보는 단계를 거쳤는지 여부입니다. 

문제와 원인, 그 관련성 유무를 확인하는 방법

지표를 결졍했다면, 그다음은 원인 후보와 문제가 정말 관련성이 있는지 확인해야 합니다. 여기서는 확인 과정2단계를 소개하겠습니다. 

1단계 : 시각적으로 관련성을 확인한다.

'두 가지 지표' 사이의 관련성을 시각화합니다. 두 가지 지표란 문제와 결과를 나타내는 데이터와 원인을 나타내는 데이터를 말합니다. 물론, 문제와 결과를 나타낼 지표가 정해져 있고 데이터 또한 수집 완료된 상태를 전제로 합니다. 

'문제와 결과를 나타내는 지표'가 세로축, 가설로 수립한 '원인 후보지표'를 가로축으로 하여 '산포도'를 작성합니다. 그러면, 세로축과 가로축의 관련성을 시각적으로 포착할 수 있습니다. 

문제/
결과
지표
산포도
  원인
지표

산포도로 표현된 내용 중 어떤 부분에 초점을 두어야 할지는 목적과 배경에 따라 천차만별입니다. 

(1) 전체적인 경향을 파악한다

가로축이 증가하면 세로축도 증가하는 관계인 것입니다.

(2) 그룹화를 한다

몇 개의 데이터 그룹을 도출해서 분석할 수 있는 사례입니다. 

(3) 벗어나 있는 값에 주목한다

전체 데이터 집합에서 크게 떨어져 있거나 벗어난 데이터의 존재가 보입니다. 이런 데이터를 '벗어난 값'이라고 표현하겠습니다. 벗어난 값이 있는 것 자체가 문제라고 생각하는 사람이 많지만, 꼭 그런 것이 아닙니다. 벗어난 값이 존재하는 이유는 그때그때 다릅니다. 데이터 입력 실수일 수도 있고, 다른 데이터와 수집 시간와 전제가 다를 수도 있습니다. 만약 벗어난 값이 나타난 이유를 찾아낼 수 있다면, 결과의 차이를 만들어낸 원인을 규명할 수 있을 것입니다.

(4) 변환점을 찾는다

데이터 전체를 보지 말고, 분기점에 주목해야 하는 경우입니다. 데이터를 그룹으로 묶다 보면 전체에만 눈이 가기에 십상입니다. 즉, '이 그래프(전체)에서 무엇을 읽어낼 수 있을까'라고 생각하게 되는 것입니다. 하지만 그래프를 반드시 전체적으로 봐야 한다는 규칙은 딱히 없습니다. 중간에 경향이 바뀌는 분기점이 있는 것을 알아차리고 ' 이 분긱점 전후에 어떤 차이가 있는지'에 초점을 맞춘다면, 문제 및 결과, 그리고 문제에 대한 원인을 파악할 수 있는 실마리가 될 수도 있습니다.

 하지만 어디를 분기점으로 볼지는 전적으로 작업자 자신의 주관이기 때문에 한계점 또한 있습니다.

 

모든 사례의 관련성을 명확히 밝혀낼 수는 없습니다. 오히려 실무에서는 명확한 관련성이 잘 안 보이는 경우가 압도적으로 많습니다. 다만, 어떠한 관련성도 찾을 수 없다는 것 또한 하나의 결론이 될 수 있다는 점을 기억해두시기 바랍니다.  관련성이 없다는 것은, 바꾸어 말하자면 데이터 분석을 통해 여러분이 추측한 것이 문제와 결과의 원인이 아니라는 것을 밝혀냈다는 이야기입니다. 

 

2단계 : 통계 지표를 확인한다 ~ 상관계수 ~

산포도를 통한 시각화로 분석 가능한 사례는 매우 많습니다. 가로축 세로축이 선형 관계를 보일 경우, 그 관련 정도를 나타내는 통계 방식이 있는데 이를 '상관분석'이라고 합니다. 또한, 가로축과 세로축의 관련도(얼마나 직선에 가까운 형태인지)를 나타내는 상관계수를 이용합니다. 

가로축과 세로축에 의한 지표 데이터 조합이 많을 때, 그 모든 조합으로 산포도를 만들게 되면 비효율적입니다. 지표 데이터 조합이 많을 때는 일단 상관계수를 활용하여 분석을 수행하고 관련성이 있는 것처럼 보이는 조합을 먼저 들여다보는 것이 좋습니다.

상관분석과 상관계수는 널리 알려진 용어지만 상대방도 잘 알고 있다고 단정할 수는 없습니다. 산포도를 통해 시각적으로 보여주는 것이 한층 더 상대방의 이해를 높이는 방법입니다. 

데이터를 다룰 때는 반드시 다음과 같은 질문을 자신에게 던지기 바랍니다.

■ 실적과 결과 표시만 하고 끝낸 것은 아닌지

■ 이 결과를 통해 구체적인 판단이나 행동으로 연결될 것인지

■ 문제와 결과에 대한 원인을 충분히 고려했는지

 

산포도와 상관계수를 활용한 분석 사례

사례 1 : 노동력 부족이 실적에 영향을 미치는가?

"지역 경제 활성화를 위해 경제에 영향을 끼치는 원인을 분석하고, 그 원인에 초점을 맞추어 대응 방안을 수립해야 한다. 이를 위해 그 원인 무엇인지 데이터를 통해 객관적으로 밝혀내고자 한다."

위와 같은 목적을 가지고 분석을 시작했습니다. 처음에 들었던 생각은 지역 내 기업들의 실적이 안 좋은 곳이 '노동력 부족' 때문이 아닐까 하는 것이었습니다. 만약 그렇다면 노동력 부족 해소를 위한 대책을 수립하여 추진하는 것으로 지역 경제 활성화에 공헌할 수 있을 것입니다.

데이터는 업종별 통계를 활용하며, 업종별 실적을 나타내는 지표로 BSI(Business Survey Indes: 기업경기실사지수)를 이용했습니다. 또한 노동력 부족을 느끼는 기업 비율에 관한 데이터를 기존에 입수해두었기 때문에, 또 하나의 축으로 삼아 분석을 시도했습니다. 

처음에는 '노동력 부족 현상이 일어나고 있는 기업은 실적에도 문제가 있을 것이다'라는 가설을 세웠습니다.  실제로 데이터를 모아 산포도로 그려보니 가로축과 세로축 사이에 관련성이 없다는 것은 확실합니다. 실제로 상관계수를 계산해보니 -0.12로 '상관관계 없음'을 나타내고 있습니다. 

분석팀은 이 시점에서 두 지표 사이에 관련성이 없다는 결론을 내고, 작업을 일단 중지했습니다. 관련성이 없다는 것은 증명했지만, 다음에 무엇을 해야 하는지 벽에 부딪혀버린 것입니다.

그때 필자는 '상관관계가 전부가 아닙니다' , '관계성에 대해 다른 시점에서 살펴보고 공통점을 찾아내는 것이 어떨까요?' 라는 조언을 했습니다.  그래서 산포도를 작성했습니다. 일단 전체를 선형 관계 여부로 판단하는 상관관계라는 것에 대해서는 잠시 제쳐놓고, 전체를 네 부분(사분면)으로 나누어 각각의 특징을 찾아보았습니다. 결과적으로 전체를 다음 네 그룹으로 분류했습니다.

■ 그룹 A에 속하는 업종은 노동력 부족을 느끼지 않고 실적은 좋은 편이다.

■ 그룹B에 속하는 업종은 노동력 부족을 느끼지 않지만, 실적이 좋지 않다.

■ 그룹C에 속하는 업종은 노동력 부족은 느끼지만, 실적이 좋은 편이다.

■ 그룹D에 속하는 업종은 노동력 부족을 느끼며 실적도 좋지 않다.

이러부터 다음과 같은 결론을 내보았습니다. 

"그룹 C의 공통점을 찾아서 이로부터 이끌어 낼 수 있는 성공 요인을  그룹 D에 활용할 수 있지 않을까?"

"그룹 B에 공통된 문제점이 무엇일까?"

"어떤 업종에 대해서 어디에 초점을 맞추어 대책을 수립해야 할까?"

"더 깊이 파고들기 위해서 필요한 것은 무엇인가?"

상관관계의 유무는 어디까지나 중간 과정이며 수단에 불과합니다. 수단에 너무 사로잡히지 말고, 의미 있는 결론으로 이어질 때까지 끈기 있게 가로축과 세로축의 관련성을 찾아야 할 것입니다.

사례2:  소비자 피해 센터의 활용도를 높이기 위해서는

소비자 피해에 대해 상담 받는 센터를 시민들이 더 이용하도록 하고, 실질적인 도움을 주고 싶다면 목적으로 작업을 시작했습니다. 하지만 어떻게 센터 활용도를 높일지에 대해서는 객관적으로 생각하지 않았습니다. 

그래서 일반 시민이 센터에 오기까지의 동선에 주목해서 어떤 프로세스에서 병목 현상이 발생하고 있는지 상관분석을 시도했습니다. 가설과 데이터 검증을 수차례 걸친 결과, 다음 두 가지 포인트를 발견했습니다. 

전체적인 프로세스

                          포인트 ①                      포인트 ②

담당자의 홍보활동     →        센터를 인지    →     상담 

지역에 있는 담당자들이 시민 전체를 대상으로 소비자 상담을 홍보하고, 그 덕분에 일반 시민이 센터를 인지하게 되면, 그 결과로 실제 상담으로 이어지는 것입니다. 

세 가지 프로세스 각각에서 병목 현상(포인트 1, 2)이 발생한 결과, 마지막 단계인 상담까지 이르지 못하고 센터의 기능을 제대로 발휘하지 못하고 있는 것으로 보입니다.  

그래서 다음과 같은 데이터를 지표로 하여 지역별로 수집해보았습니다. 

㉮ 담당자 수

㉯ 인지도에 관한 설문조사('장소와 역할을 하고 있다' + '이름과 역할은 알고 있지만 장소는 모른다'라고 대답한 사람 수)

㉰ 상담 건수(인구 1000명 대비 건수)

이들 데이터를 활용하여 각각 데이터 간 상관관계를 분석해보니 다음과 같은 결과가 나왔습니다.

■ ㉮  - ㉯ 사이의 상관계수 : 0.8( 포인트 1)

■ ㉯ - ㉰ 사이의 상관게수 : -0.1(포인트 2)

㉮와 ㉯ 사이에 강한 상관관계가 나타나고 있으므로, 다음과 같은 결론을 도출했습니다.

■ 담당자가 더 가까운 곳에 있을 수록(수가 많을수록) 센터의 인지도가 증가한다.

그리고 인지도에 관한 설문조사 결과를 조금 바꾸어 보도록 하겠습니다. '장소와 역할을 하고 있다', '이름과 역할은 알고 있지만 장소는 모른다' 라고 대답한 사람의 비율이 아니라, '장소와 역할을 알고 있다'라고 대답한 사람만 대상으로 분석을 시도한 결과

■ ㉯ 인지도에 관한 설문조사 결과 ('장소와 역할을 알고 있다'라고 대답한 사람)

처음에는 상관계수가 -0.1이었지만, 설문조사 결과의 응답자 범위를 좁혔더니 0.8로 크게 바뀌었습니다. 

다음과 같은 결론을 도출했습니다.

처음에는 ㉯ 와 ㉰는 상관관계가 없다는 것이 밝혀졌으므로 센터의 이름과 역할을 안다고 해서 상담으로 이어지지는 않지만, 응답자 범위를 좁혔더니 ㉯ 와 ㉰는 상관관계가 있다는 것을 통해 센터 장소까지 알고 있다면 상담으로 이어지기 쉽다

 

이러한 결과를 통해 다음과 같은 대응 방안을 수립해 보았습니다. 

■ 센터의 인지도를 더 높이려면 담당자 수를 더 늘려야 한다.

■ 센터의 존재를 알리는 것이 아니라, 센터의 장소가 확실히 인지될 수 있도록 홍보 전략을 수립한다. 

프로세스 내의 병목 현상에 주안점을 두고, 데이터의 전제를 바꾸고 분석한 결과의 차이에 주목하는 것처럼 어떤 문제에 대한 유연한 발상과 착안은 행정 업무에만 해당하는 것이 아닙니다. 상관관계를 응용한 사고방식은 민간기업을 포함한 모든 프로세스에 적용 가능합니다. 핵심은,

00과 00의 관계성을 통해(또는 파악해서) 어떤 결론을 내릴 수 있을까?

이에 대해 지속적으로 생각하는 것입니다. 

즉, 앞선 내용을 목적이나 가설로서 명확히 하고, 넓은 시야로 여러각도에서 가능성을 찾아내는 것이 바로 원인을 분석하는 데이터 문해력입니다. 이를 위해(데이터 중심이 아닌, 목적 중심 사고를 통해)시행착오를 반복하며 경험을 쌓아 점차적으로 기량을 향상시켜야 합니다.

 

알아두어야 할 주의 사항

상관분석을 비롯해 '관련성'을 탐색할 때 몇 가지 주의사항이 있습니다. 

직접적인 관계인지, 간접적인 관계인지?

데이터상 관련성이 있는 것처럼 보여도 실제로는 두 데이터 사이에 직접적인 관련성이 없는 경우가 은근히 많습니다. 

예를 들어, 여러분이 운영하는 점포의 홈페이지 업데이트 빈도와 방문객 수의 상관관계를 살펴보았을 때, 높은 상관관게가 나타났다고 하겠습니다. 당연히 산포도를 통해서 시각화해도, 그 관련성이 확인될 것입니다.

그런데 만약 홈페이지 업데이트 빈도를 높인 시점에 마침 여러분의 가게 근처에 사는 유명 블로거가 홈페이지를 방문해서 관련 블로그를 작성하고 그 기사가 널리 퍼졌다고 한다면 어떨까요? 홈페이지 업데이트 빈도와 관계없이, 간접적으로 방문자 수 증가라는 결과에 영향을 줄 수 있을 것입니다. 

하지만 그 유명 블로거의 존재를 무시하고 분석 결과만으로 결론을 내린 다음 홈페이지 업데이트 빈도를 올린다면, 성과가 과연 나올 수 있을까요? 다시 그 블로거가 블로그를 게재해주지 않는다면 예상한 결과를 얻기 어려울지도 모릅니다.

문제는 블로거가 블로그를 썼다는 사실은 이 데이터에서 알아낼 수 가 없다는 점입니다.

'데이터를 뒤져보면 그 안에 반드시 답이 잇을 것이다. 그것을 찾아내자'라는 식의 발상은 일단 리셋하고, 데이터를 보기 전에 가능성이 있는지를 먼저 생각해봐야 합니다. 물론 그렇게 해도 모든 사실을 알수 있는 것은 아니지만, '데이터 중심 사고'에 비하면 그 차이는 매우 큽니다.

원인은 한 가지가 아니라, 여럿이거나 복잡할 수도 있다

현상 중 대부분은 결론과 원인의 1대 1 관련성만으로 설명할 수 없습니다. 방문객 수라는 결과에 대해 생각해보더라도, 홈페이지 업데이트 빈도만이 증감의 원인이라고 단정할 수는 없을 것입니다. 어지간히 단순한 관련성을 가지지 않는 한, 한 가지 원인만으로 모든 것을 설명하기에는 상당한 위험이 있다고 생각하는 것이 무난합니다. 위험을 회피하기 위해서는 모든 가능성을 염두해 두고 사고를 확장해 원인을 고려하는 것이 데이터 문해력의 기본입니다. 

선형이 아닌 관계성도 존재한다

상관관계가 있다(높다)는 것은 두 데이터 사이의 관계가 '선형'이라는 말과 같습니다. 이러한 사고방식은 단순하고 알기 쉽다는 장점도 있지만 모든 관계성이 전부 선형 관계인 것은 아닙니다. 

 

세 가지 형태 모두 가로축과 세로축 사이에 어떤한 관계성이 있는 것으로 보입니다만, '선형'관계는 아닙니다. 이 경우, 상관관계의 계수(절대값)는 크지 않으며, 분석 결과 또한 '상관관계 없음'이 됩니다. 하지만 그것이 양자 간 '관련성이 없다'라는 의미는 아닙니다. 

앞선 사례가 있기 때문에, 단순히 상관계수만 도출하기보다는 산포도로 시각화하는 것을 추천합니다. 또한 상관관계가 복잡해 보일 때는 전체를 부분으로 나누고 그 범위에서 상관관계 유무를 확인하는 형태로 분석을 진행하는 방법도 있습니다. 

어떻게든 결과를 값으로 나타내려고 지나치게 신경 쓰다 보면 수단과 목적이 뒤바뀌어 버릴 수 있습니다. 그렇게 되면 보고하는 상대방에게 자신이 무엇을 했는지, 하고 싶은 것은 무엇인지가 제대로 전달되지 않고 이해에 어려움을 겪을 수가 있습니다. 

알기 쉽게 전달하는 것을 중시할지, 아니면 계산상 정확도가 더 높은 결과를 원하는지, 미리 생각해두는 것 또한 데이터 문해력에 필요한 기술 중 하나입니다.

상관관계는 인과관계를 나타내는 거이 아니다.

상관분석 결과는 '인과관계'를 나타내는 것이 아닙니다. 선형 관계성 여부만 파악하는 것은 주의해야 합니다. '상관관계가 있다'라는 결과가 분석을 통해 도출되지만, 양자 간 '안과관계'가 있는지 어떤지, 그리고 어느 쪽이 결과이고 어느 쪽이 원인인지는 분석자의 '해석'이락는 것을 염두에 두어야 합니다.