통계 P 값의 의미에 대해서

제약 업계에서 일하다보니 임상의 결과에 따라 회사의 희비가 갈리는 것을 여러번 목도하게 된다. 특히, 임상의 결과가 통계적으로 유의미한 결과를 보였느냐가 임상의 성패를 가르는 기준이 되기 때문에 Primary Endpoint에서 P값(P-value)는 매우 중요한 핵심 결과이다.

하지만, 막상 제약 마케팅을 오래한 마케터뿐만 아니라 메디컬팀원에게 “P값의 의미가 무엇인지 설명해 줄 수 있어요?”라는 질문을 했을 때, 제대로 설명한 사람은 아쉽게도 한 명도 없었다. “0.05넘으면 임상 실패이고 그 밑이면 성공이지 않나요?”가 가장 흔한 대답이었다. 솔직히 나도 그 개념을 개략적이나마 이해한 것도 통계에 관심을 갖게 되고 혼자 공부하게 된 제약업계 초년병때였다. 고등학교 때 ‘수학의 정석’에서도 공부했고, 대학교 때는 경영통계도 배웠고, MBA에서 통계학을 다시 배웠음에도 그 개념에 대해서는 정확히 알지 못했으니 할말이 없다.

그래서, 나도 초짜임에도 회사에서 마케터들을 대상으로 기초통계 강의를 개설해서 가르쳤던 때가 있다. (지금 생각해보니 참 무슨 열정이었는가 싶다) 그 때 자료가 아직 남아 있어서 남겨 본다.

먼저, P값의 개념을 이해하기 위해서는 법정을 떠올리는 것이 쉽다. (통계학과 법학은 ‘논리’라는 공통분모를 가지고 참 유사한 것이 많다.) 여러분들이 살인사건을 맡은 검사라고 해보자. 여러분이 증명하고 싶은 것은 “피의자가 살인을 저질렀다”라는 것이다. 통계학의 가설검정에서는 내가 증명하는 것을 대립가설(Alternative Hypothesis, Ha)로 세우고, 그 반대가 귀무가설(Null Hypothesis, H0) 이 된다.

  • 귀무가설 : 피의자는 살인을 저지르지 않았다.
  • 대립가설 : 피의자는 살인을 저질렀다.

증명하고자 하는 것을 대립가설로 세워놓고, 그것을 증명하지 못하면 “대립가설”을 기각하고, “귀무가설”을 채택하게 되는 것이다. 그리고 대립가설을 증명하기 전에 전제하는 것은 “귀무가설”이다. 법학과도 같다. 왜냐하면 우리는 피의자가 살인을 저질렀다는 것을 증명하기 전에는 “무죄추정의 원칙”을 가정하기 때문이다.

결국, 수집된 증거가 대립가설을 받아 들일만큼 “충분한가” , 즉 “살인을 증명할 만큼 증거가 충분한가”가 논점의 핵심이다. 현대 재판은 피의자의 결백(귀무가설)을 증명하는 시스템이 아니라 피의자의 범죄를 증명한다는 측면에서 같다.

그럼, 어떤 증거가 강한 증거인가? 가령 목졸려 사망한 피의자의 목에서 나온 지문이 피의자의 지문과 일치한다고 하자. 만약, 피의자가 실제로는 살인자가 아닌데 피해자의 목에서 피의자의 지문이 나올 확률이 높을 것인가? 아마도 그렇지 않을 것이다. 이것이 바로 Low P-value이다.

정리하면, 귀무가설이 사실이라고 가정할 때 (피의자가 실제로는 결백한데), 관찰된 증거(지문이 일치할 경우)가 나올 확률이 바로 P-value의 개념이다. 여기서는 실제로 살인자가 아닌데 피해작의 목에서 피의자의 지문이 나올 확률이다.

신약의 임상 시험으로 경우로 친다면, 신약이 실제로는 효과가 없는데 (귀무가설), 임상시험에서 위약대비해서 효과가 있는 것(대립가설)으로 “우연히” 차이를 보일 확율이 바로 P값인 것이다. 그리고, 많은 임상시험에서 그런 극단적인 확률을 5% 미만으로 Control 하겠다는 것이다.

벌써 6-7년전인 것 같은데 그 때 교육 슬라이드를 첨부해 본다. 초짜가 만든 자료이지만, 누구에게는 도움이 되기를 바라며…