통계적 가설 검정과 입증의 책임

2016년 11월 06일 17:00

김재광 한국과학기술원 수리과학부(통계학 전공) 교수

 

예를 들어 가위ㆍ바위ㆍ보 게임을 생각해 보기로 합시다. 보통의 평범한 사람들은 이 가위ㆍ바위ㆍ보 게임에서 이길 확률이 50%, 질 확률이 50% 입니다(비기는 경우에는 다시 하여 이기는 경우가 나올 때까지 합니다). 

 

그런데 어느 홍길동이라는 사람이 자기는 가위ㆍ바위ㆍ보 게임을 잘 한다고 주장한다고 합시다. 그 주장을 입증하기 위해서 실험을 하였고 그 결과  두 번 해서 두 번 다 이겼다고 합시다.  그렇다면 이 사람은 정말 가위ㆍ바위ㆍ보 게임을 잘 하는 사람이라고 결론지을 수 있을까요? 만약 열 번 해서 열 번 다 이겼다면 그 결론은 바뀌게 됩니까?

 

김명호 작가 제공

통계적 가설 검정
 

이러한 문제를 통계학에서는 가설검정(hypothesis testing)이라는 방법으로 접근합니다. 먼저 귀무가설(null hypothesis)와 대립가설(alternative hypothesis)를 세웁니다. 귀무가설은 데이터를 보기 전에 상식적으로 여겨지는 가설이고 대립가설은 데이터를 통하여 입증하고자 하는 가설입니다. 여기서 p를 홍길동 씨의 가위바위보 게임의 승률로 정의하면 귀무가설은 p=0.5로 놓을 수 있고 대립가설은 p>0.5로 놓을 수 있을 것입니다.
 

다음으로는 관측된 데이터가 과연 귀무가설로 부터 나온 것인가 아닌가를 판단해야 합니다. 두 번 중 두 번을 이긴 것이랑 열 번 중 열 번을 이긴 것이라 둘 다 승률은 1 이지만 그 의미는 다릅니다. 우연히 두 번을 다 이길 수는 있지만 우연히 열 번 다 이기기는 매우 힘들 것이기 때문입니다.

 

즉, 우연히 두 번 이길 확률은 0.25 이지만 우연히 열 번 이길 확률은 1/1024, 약 0.1%입니다. 어느 사건이 일어날 확률이 0.1%라는 것은 상당히 일어나기 힘든 사건이므로 우리는 이 사건이 우연히 일어난 사건이 아닐 것이라고 결론지을 것입니다. 즉, 두 번의 실험에서는 귀무가설을 기각(reject)하지 못하지만 n=10의 실험에서는 귀무가설을 기각하고 대립가설을 채택하게 되는 것이지요.
 

위의 결정 과정을 자세히 살펴보면 두 가지 개념이 나오게 되는데, 일단 우연히 이 데이터를 얻을 확률을 계산하는 것입니다. 즉, 귀무가설 하에서 나타나게 될 데이터의 확률 분포 상에서 이 사건이 얼마나 극단적인 것인가를 판단하는 척도로써 그 사건이 일어날 확률을 계산하는 것입니다. 이 확률을 p-value 라고 부릅니다. 그 후에는 그 확률이 얼마나 작은가를 판단해야 합니다.

 

그러한 경우에는 그 비교의 기준이 되는 기준 확률값이 있어야 할 것입니다. 종종 5% 가 기준이 되긴 하는데 경우에 따라 1%나 10%가 되기도 합니다. 이를 유의 수준(significance level)이라고 합니다. 이 유의수준은 자료값과는 상관없이 미리 기준값으로 결정되는 것입니다. 따라서 p-value가 유의수준보다 작으면 관측값이 유의(significant)한 것이 되고 이 경우 귀무가설을 기각하게 되는 것입니다.
 

여기서 n=10 의 실험에서도 우연히 모두 이겼을 수도 있습니다. 즉, 우리는 홍길동의 진짜 실력에 대해서는 알 수 없고 유한번의 실험을 통해서 얻어진 데이터만을 통해서 판단하기 때문에 오류의 가능성이 존재합니다.

 

만약 홍길동의 진짜 실력은 평범한데 열 번 다 우연히 이긴 것이라면 위의 결정은 귀무가설을 기각한 것이므로 오류를 저지른 것입니다. 이것을 제 1종 오류(type 1 error)라고 합니다. 제 1종 오류는 귀무가설이 참임에도 불구하고 그것을  기각하는 오류로써 귀무가설 하에서도 극단적인 것처럼 보이는 값을 우연히 얻을 수 있게 되기 때문에 생깁니다.  

 

제 1종 오류를 낮추기 위해서는 유의수준을 낮추면 됩니다. 극단적인 경우 유의수준을 0으로 놓는 경우에는 어떠한 경우에도 귀무가설을 기각하지 않을 것이므로 이 경우에는 제 1종 오류가  없습니다. (유의수준이란 제 1종 오류가 일어날 확률입니다.)

 

하지만 이 경우에는 제 2종 오류(type 2 error)가 커집니다. 제 2종 오류라는 것은 대립가설이 참인데 귀무가설을 채택하는 오류로써 실제 분포가 대립가설을 따르고 따라서 마땅히 귀무가설을 기각해야 하는데 그렇지 않게 되는 경우를 의미합니다.

 

즉, 실제는 홍길동이 실력으로 이긴 것인데 그렇지 않고 우연히 이긴 것으로 판단하는 경우이지요. 유의수준이 커지면 기각을 결정하는 기준 확률이 커지므로 더 자주 기각하게 될 것입니다. 그러면 그 경우 제 1종 오류는 커지지만 제 2종 오류는 작아집니다. 보수적인 판단을 위해서는 제 1종 오류를 작게 하는 것이 좋습니다.

 
왜 이러한 오류가 발생하는 것일까요 ? 이러한 오류가 발생하는 근본적인 이유는 자료의 태생적 한계, 샘플링 오차, 때문입니다. 즉, 귀무가설 하에서의 모집단에서도 대립가설에서 나온 것처럼 보이는 자료가 (샘플링 에러 때문에) 생성될 수 있고 대립가설 하에서의 모집단에서도 귀무가설에서 나온 것처럼 보이는 자료가 (샘플링 에러 때문에) 생성될 수 있습니다. (전자가 1종오류, 후자가 2종 오류인 것입니다.) 동일 표본수에서 두 오류를 동시에 줄일수는 없고 하나가 커지면 다른 하나는 작아집니다. 이 오류를 동시에 줄이는 방법은 표본수(n)을 늘리는 것입니다.

GIB 제공
GIB 제공

입증의 책임은 누구에게 있는가?


이러한 교과서적인 가설 검정 문제를 현실에 적용하고자 할 때는 더 세심한 주의를 요구합니다. 예를 들어 예전에 송전탑의 인체 유해성과 관련된 논란에 있어서 논란의 핵심은 “송전탑과 가까운 곳에 오래 사는 것이 위험하다는 증거가 없다”는 과학적 결론을 어떻게 이해하고 적용할 것이냐에 관한 것입니다.

 

즉, 귀무가설을 “송전탑과 가까운 곳에 오래 사는 것과 암발생율과는 상관관계가 없다”라고 놓았을 때 여러 가지 역학 조사 결과 이 귀무가설을 기각할 만한 통계학적 증거가 없다는 것입니다.

 

이와 관련하여 저는 두 가지를 생각해 보아야 한다고 봅니다. 하나는 “증거의 부재가 부재의 증거가 아니다”라는 나심 니콜라스 탈레브(Nassim Nicholas Taleb, 1960~)의 통찰을 여기에서도 상기해야 한다는 것이고, 다른 하나는 입증의 책임이 누구에게 있느냐에 따라서 귀무가설이 바뀌어야 한다는 것입니다.


입증의 책임이 누구에게 있느냐 하는 것은 법정 싸움에서 매우 중요한 문제입니다. 일반적으로 이러한 입증의 책임은 법정에서 기소자에게 있는 것입니다. 기소를 한 주체가 피고에 대한 유죄의 증거를 수집해서 입증할 책임이 있는 것입니다.

 

즉, 이러한 싸움에서 이득을 보는 주체에게 입증의 책임이 있는 것입니다. 이러한 입증의 책임은 논리적으로 귀무가설의 결정과도 직결되는 문제입니다. 위의 예에서 송전탑의 인체 유해성을 귀무가설로 놓을 것이냐 아니면 송전탑의 인체 무해성을 귀무가설로 놓을 것이냐는 그것을 통해서 이익을 얻고자 하는 주체가 누구냐에 따라 달라지는 것입니다.

 

어떤 지역에 송전탑을 새로 건설할 경우 이익을 보는 주체는 그곳에 예전부터 사는 주민이 아니라 새로 송전탑을 건설하고자 하는 정부이므로 정부에게 입증의 책임이 있는 것입니다. 즉, 정부는 안정성을 증명할 법적 책임을 지는 것이므로 귀무가설을 (송전탑이) 유해하다고 놓고 이를 기각할 만큼 증거가 충분히 있다는 것을 입증해야 하는 책임이 있는 것입니다. 사드 관련 논란도 마찬가지로 이해될 수 있을 것입니다.


급속한 사회발전으로 위험요인이나 복잡성이 높아지면서 경험이나 직관이 아닌 증거에 기반한 의사결정(evidence-based decision making)의 중요성이 대두되고 있습니다. 과학을 통해 이 사회를 변화시키고자 할 때 반드시 필요한 것은 목적에 맞는 양질의 데이터를 얻는 것과 그 데이터에 대한 올바른 해석과 분석이라 할 수 있습니다.

 

제대로 된 측정과 이에 대한 올바른 분석을 통해 새로운 지식을 얻어내는 것은 자연과학에서 시작된 접근법이지만 이제는 많은 사회과학과 공공 정책 분야에서도 도입되어 일부 성공 사례가 보고되고 있습니다. 사람을 대상으로 해서 얻어지는 관찰 데이터의 특성상 엄격한 의미에서의 통제된 실험은 불가능하므로 어떠한 정책으로 인해 인과관계를 입증하기는 어려운 것도 사실입니다.

 

그러나 이러한 어려움을 극복하기 위한 새로운 방법론이 최근 많이 연구 개발되는 실정이니 이에 대한 많은 분들의 관심과 함께 관련 연구나 응용 사례를 공유할 수 있는 공간이 생겨나게 되기를 희망해 봅니다.

 

 

※편집자주

한국 사회가 ‘합리적’으로 돌아갈 수는 없을까요? 과학기술이 각종 논란의 중심이 되는 일이 점점 많아집니다. 그런데 대안을 내는 과정에 과학기술이 보이지 않는 경우가 많습니다. 과학기술자들의 의견을 듣는다고는 하지만 다양한 의견이 아닌, 어떻게 결정됐는지 모호한  ‘일치된 의견’이 성명서로 발표되곤 합니다.  

 

이런 상황을 극복하기 위해 현장에서 활발히 활동하는 과학기술자들이 ‘변화를 꿈꾸는 과학기술인 네트워크(Engineers & Scientists for ChangeㆍESC)’를 만들었습니다. 동아사이언스는 과학기술계의 원활한 소통을 위해 ESC의 목소리를 전합니다. 주로 △나의 연구, 나의 실험 △내가 보는 과학과 사회 △연구윤리/과학기술자의 사회적 책임 △확실한 과학, 논쟁적인 과학 등 4가지 분야의 글이 소개됩니다. 동아사이언스를 통해 과학기술계의 다양한 의견이 오가고, 합리적이고 건강한 토론이 이뤄지기를 바랍니다.

 

☞[ESC 창립 기사]과학기술인들이 모여 ‘ESC’를 만들었다... ESC의 정체는?

[변화를 꿈꾸는 과학기술인 네트워크(ESC)의 목소리(1)] 연구윤리와 연구자공동체, 그리고 사회적 책임 
☞[변화를 꿈꾸는 과학기술인 네트워크(ESC)의 목소리 (2)] 과학이 삶에 봉사하는 방식에 대해: ‘과학적 삶의 양식’에 대한 소고 ①

☞[변화를 꿈꾸는 과학기술인 네트워크(ESC)의 목소리 (3)] ‘과학적 사실과 사후검증‘의 관점에서 본 천안함 논쟁

☞[변화를 꿈꾸는 과학기술인 네트워크(ESC)의 목소리(4)] ‘어른이’들을 위한 과학, 여자들을 위한 과학

☞ [변화를 꿈꾸는 과학기술인 네트워크(ESC)의 목소리(5)] 지극히 개인적인, 과학적 합리성의 3가지 요소

 

※ESC에 대한 정보는 ESC 홈페이지(www.esckorea.org)를 참고하세요. 궁금한 사항은 office@esckorea.org로 문의하시기 바랍니다.

메일로 더 많은 기사를 받아보세요!

관련기사

인기기사

댓글

댓글쓰기

지금
이기사
관련 태그 뉴스