[아전인수 해석 부르는 의료 AI] 게임·퀴즈대회에선 난공불락인데…

IBM 왓슨, 의사와 진단 일치율 들쑥날쑥
획기적인 치료법이 악수일 수도

실리콘밸리의 전설적인 벤처투자자 비노드 코슬라는 2012년 테크크런치에 기고한 글에서 10~20%의 의사를 제외하면 ‘닥터 알고리즘’이 의사를 대체할 수 있다고 주장했다. 닥터 알고리즘은 빅데이터와 막강한 연산능력으로 무장한 인공지능(AI)을 뜻한다. 당시 사람들이 AI 의사에 대해 가졌던 기대는 엄청났다. 고도화된 AI는 의사들이 수년에 거쳐 공부해야 할 내용을 불과 몇 시간 안에 숙지하고 최신의 연구자료를 모조리 흡수할 수 있다. 또 학습 범위에 제한이 없기 때문에 전공학과에 국한되지 않아 더 정확하고 적절한 진단과 처방을 내릴 수 있을 것으로 봤다. ‘휴먼 에러’도 없기 때문에 더욱 객관적이며 인간 의사보다 훨씬 더 빠르게 진단을 할 수 있어 경제적이기까지 할 것으로 기대를 모았다. IBM이 AI 프로그램 ‘왓슨’을 세계 최초의 AI 의사로 개발하며 코슬라의 예측은 곧 현실이 되는 듯했다.

하지만 현재 AI 의사가 80%의 의사를 대체할 것이란 기대는 점차 희미해지고 있다. 인간보다 훨씬 뛰어난 능력을 갖췄을 것으로 기대됐던 AI 의사의 한계가 속속 나타나고 있기 때문이다. 전문가들은 AI가 의사를 대체한다는 발상에 회의적인 시선을 가진다. 오히려 AI 의료의 발달이 의료계에 가져올 혼란이 더 커질 수 있을 것으로 내다본다.

게임과 의료는 다르다

“알파고의 어떤 수는 완전히 실수였다고 생각됐지만 다음에 보면 묘수였던 경우가 있다. 이를 의학에 접목하면, 의학전문가들이 봤을 때 (AI의 판단이) 오류라고 생각했는데 알고 보면 더 주요한 효과가 있는 상황일 수도 있다. 이것이 혼란을 초래하지는 않을까?” 2016년 3월 서울에서 벌어진 알파고와 이세돌의 역사적인 바둑 대결 제4국이 끝난 후 NHK 기자인 피터 빈트는 알파고를 만든 데미스 하사비스 구글 딥마인드 대표에게 이 같이 질문했다. 이에 대해 하사비스 대표는 “바둑은 게임이지만 AI를 의료·보건 분야에 적용하려면 아주 엄격한 시험 과정을 거쳐야 한다, 알파고를 의료 분야에 적용하기엔 아직 큰 격차가 있다”고 말했다.

바둑이나 체스 등 게임을 통해 인간을 뛰어넘었다는 것을 보여준 AI가 실제 의사를 대체하기는 쉽지 않다는 것을 시사한다. 첫 의료 AI 왓슨의 고전은 이런 어려움을 잘 보여준다. IBM의 AI 왓슨이 전 세계적으로 명성을 얻은 것은 2011년 미국 퀴즈방송 제퍼디에 출현해 퀴즈 챔피언들에게 승리를 거두는 모습이 방영되면서부터다. 인간 중 최고 수준의 능력을 갖춘 사람들을 쉽게 제압했다는 점에서 체스와 바둑에 도전한 알파고와 유사하다. 제퍼디 우승 이후 IBM은 왓슨을 의료 분야에서 활용하겠다는 계획을 밝혔고 2015년부터 종양학 관련 자료를 습득한 ‘왓슨 포 온콜로지(Watson for Oncology)’가 병원에 보급되기 시작했다. 암 환자의 진료 기록과 검사기록, 유전정보 등을 입력하면 이를 기반으로 치료법을 권유해준다. 왓슨은 이어 유전체학(Genomics)과 임상 시험 매칭(Clinical Trial Matching) 등의 서비스도 내놓으며 세계 의료시장에 큰 파장을 불러일으킬 것처럼 보였다.

하지만 왓슨의 성과는 기대에 미치지 못하고 있다. 월스트리트저널(WSJ)은 지난해 8월 수십개의 의료센터와 기업, 의사들과의 인터뷰를 통해 “암에 왓슨을 적용하는 것은 큰 영향을 미치지 못했다”며 “12개 이상의 기관이 왓슨의 암 치료 프로젝트를 중단하거나 축소했다”고 보도했다. IBM은 지난해 5월 왓슨 헬스사업 조직 인원을 줄이는 구조조정을 한 데 이어 최근에는 신약개발을 위한 인공지능 플랫폼의 개발·판매를 중단할 것이라고 밝히며 어려운 상황임을 간접적으로 드러냈다.

왓슨의 헬스케어 사업이 어려움을 겪는 것은 왓슨이 제시하는 치료법에 대한 신뢰도의 편차가 크기 때문이다. 왓슨을 비교적 이른 시점에 도입한 인도 마니팔 병원은 3년간 치료받은 4가지 암종의 환자 1000명에 대해 의사의 판단과 왓슨 포 온콜로지의 판단이 얼마나 일치했는지를 살폈다. 그 결과 다학제 진료팀의 추천이나 치료 방법과 왓슨 포 온콜로지의 추천이 일치한 경우는 78% 수준인 것으로 나타났다.

다만 문제는 암종 별로 차이가 컸다는 점이다. 직장암의 경우 85%가 일치했지만, 폐암의 경우 일치율이 17.8%에 불과했다. 유방암의 경우 세부 종유별로 비전이성 유방암은 80%가 일치했지만, 전이성 유방암은 45%가 일치하는 데 그쳤다. 가천대 길병원의 경우도 의사와 왓슨의 치료법 추천 일치 비율이 대장암은 73%, 위암은 49%로 상이하게 나타났다.

왓슨과 의사의 의견 일치율을 보는 것이 왓슨이 얼마나 정확한 치료법을 권고하는지에 대한 평가 기준이 되기는 어렵지만 현재로써는 왓슨의 정확도를 설명할 방법이 이것뿐이다.

의사와 왓슨의 일치율은 국가별로도 차이가 큰 것으로 알려졌다. 왓슨이 미국의 메모리얼슬로언케터링암센터(MSKCC)라는 특정 병원을 기준으로 개발된 시스템이기 때문에 아시아인의 특수성은 상대적으로 고려하지 못했다는 주장도 나오고 있다. 이 밖에 국가별 제도의 차이도 왓슨의 활용을 어렵게 만드는 요인이다. 길병원 의료진이 발표한 연구결과에 따르면 왓슨이 권유하는 항암제 중 일부는 한국에서는 국민건강보험 수가를 받지 못하기 때문에 택하기가 어렵다는 점을 언급하고 있다.

판단 근거조차 알 수 없는 ‘딥 러닝’ 방식

의료 분야에서 왓슨은 분명한 한계를 보이지만 일각에서는 더욱 발전된 방식의 AI가 도입되면 헬스케어 방식이 혁신적으로 변할 것이란 기대를 가지고 있다. 알파고와 같이 스스로 학습해 발전하는 ‘딥러닝’ 방식의 AI가 의료시장에 적용되면 규칙 기반 AI인 왓슨과 달리 의사가 바라보지 못한 치료법까지 제시할 수 있을 것이라는 기대다.

하지만 딥러닝 방식은 왓슨보다 더욱 치명적인 문제를 안고 있다. 현재 왓슨은 ‘왓슨 패스’를 통해 왓슨이 이같은 처방을 내놓은 알고리즘을 살펴볼 수 있다. 이를 분석해 문제가 없는지를 의사가 판단할 수 있다는 것이다. 이와 달리 딥러닝 방식은 연산 과정을 확인할 수 없는 이른바 ‘블랙박스’식 구조이기 때문에 특정한 치료방법을 선택한 이유를 알 수 없다. 이런 상황에서 의사의 판단과 AI의 판단이 갈린다면 혼란은 더욱 커질 수밖에 없다. 알파고의 수가 프로 바둑기사가 전혀 예상하지 못한 묘수일 때가 있었던 것처럼 의료 AI가 의사가 생각하지 못한 획기적인 치료법을 내놓을 수도 있지만 때로는 이것이 정말 ‘악수’일 수도 있기 때문이다.

[인공지능이 인간을 죽이는 날]의 저자 고바야시 마사카즈는 “퀴즈왕 시절의 왓슨은 복수의 검색 알고리즘으로 다수의 정답 후보를 찾아내고 신뢰도를 산출해 수치가 가장 높은 후보를 최종 정답으로 정했고, 이는 의료에서도 마찬가지로 절대적으로 올바른 진단이나 치료법이 아니라 가장 확률이 높은 후보를 알려줄 뿐”이라며 “AI는 성능이 아무리 향상되더라도 숙명적으로 틀린 답을 제시할 가능성을 안고 있고, 이는 게임이라면 괜찮지만 의료에선 치명적”이라고 주장했다.

- 최윤신 기자 choi.yoonshin@joongang.co.kr

ⓒ이코노미스트(https://economist.co.kr) '내일을 위한 경제뉴스 이코노미스트' 무단 전재 및 재배포 금지