“한국인은 어떤 질환 많이 생길까”…바이오 빅데이터서 엿본다

영국 바이오 빅데이터 구축해 연구 토양 마련
유전형 구조와 질환의 연관성 연구도 활발
“한국인 대상 바이오 빅데이터 구축해야”
인공지능 학습 기술론 ‘연합학습’ 주목돼

영국은 50만명의 바이오 빅데이터가 담긴 바이오뱅크를 구축해 국내외 여러 기업·기관이 활용할 수 있는 연구개발(R&D) 기반을 만들었다. [사진 게티이미지뱅크]

[이코노미스트 선모은 기자] 인공지능 기술로 신약 개발 과정에 투입되는 시간과 비용을 줄이려는 노력이 이어지는 가운데, 국내에도 인공지능 신약 개발 생태계를 조성하기 위한 방안을 모색하는 자리가 마련됐다.

19일 관련 업계에 따르면 이날 서울 중구 롯데호텔 서울에서 보건복지부와 한국보건산업진흥원이 공동으로 주최하는 ‘인공지능 주도 신약개발 제약 바이오 혁신의 새로운 시대’라는 주제의 포럼이 열렸다.

전문가들은 인공지능을 활용해 신약 개발에 속도를 내기 위해선 ‘바이오 빅데이터’의 구축이 필요하다고 입을 모았다. 북미와 유럽 등 제약·바이오 산업이 발전한 지역에서는 정부가 주도해 수십만명의 유전과 질환, 의료 정보가 담긴 바이오 빅데이터 플랫폼을 만들었다.

영국인 50만명의 생물·의학 데이터베이스가 담긴 바이오뱅크가 대표적이다. 영국 정부는 다양한 질병을 분석하기 위해 민간 기업과 20여 년 전 이 바이오뱅크를 구축하기 시작했다.

화이자와 브리스톨마이어스스큅(BMS), 아스트라제네카 등 글로벌 제약사는 물론 영국 외 기업들도 이 바이오뱅크를 활용하고 있으며, 표적 물질과 생체표지자(바이오마커) 발굴 등 3200건 이상의 연구가 진행 중이다.

이날 포럼에 연자로 참여한 김상구 숭실대 교수(의생명시스템학부)는 “영국의 바이오뱅크에는 영국인 수십만명의 투약 약물과 진료 기록, 질병 진단 등에 대한 데이터가 축적돼 어떤 유전자가 특정 질환과 연관돼 있는지 살펴볼 수 있는 수준”이라고 했다.

그러면서 “서양인을 대상으로 만들어진 데이터라 국내 신약 개발 기업이나 연구 기관이 그대로 도입하긴 어려우며 동양인의 유전형 구조가 반영된 바이오 빅데이터가 필요한 상황”이라고 지적했다.

김 교수는 “그러나 국내의 경우 바이오 빅데이터 구축 사업이 예비타당성조사(예타)조차 통과하지 못하고 있다”며 “해외의 바이오 빅데이터 구축 사업이나 연구개발 상황을 고려했을 때 100만명 규모의 바이오 빅데이터를 구축해야 하지만, 현재 추진 중인 바이오 빅데이터 구축 사업의 규모가 50만명으로 줄어든 점은 아쉽다”고 했다.

정부가 바이오 빅데이터 구축에 아예 손을 놨던 건 아니다. 국립보건연구원의 국립중앙인체자원은행은 다양한 유전 정보를 분양하는 사업을 추진하고 있으며, 규모도 상당하다.

그러나 이 기관의 정보는 실제 신약 개발 연구에 활용하기 어렵다고 김 교수는 설명했다. 그는 “연구를 추진하기에는 적절하지 않은 형태로 유전 정보가 구축돼 있다”며 “유전형-표현형(GWAS)과 유전형-발현형(eQTL) 등도 데이터베이스의 규모도 작은 편”이라고 했다.

‘연합학습’으로 데이터 유출 없이 공유

예종철 KAIST 김재철AI대학원 교수는 신약 개발에 쓰이는 인공지능 기술의 학습 방법으로 연합학습(Federated Learning)을 제안했다. 연합학습은 제약사가 보유한 데이터를 한곳으로 모으지 않고도 인공지능이 학습할 수 있는 기술이다.

예 교수는 “학생이 국어와 수학, 과학 등을 각기 다른 선생님에게 배우고 오는 모습과 비슷하다”고 설명했다.

인공지능 기술을 학습시키려면 제약사와 병원, 기관 등이 보유한 데이터를 활용해야 한다. 민감 정보인 의료정보는 이들이 데이터를 공유하고 활용하기 제약이 많다. 연합학습은 기업이 데이터를 유출하지 않고 다른 기업과 협력하기 유용한 기술이라는 설명이다.

구글과 엔비디아 등 글로벌 빅테크는 이미 적극적으로 연합학습을 활용해 인공지능을 학습시키고 있다. 엔비디아는 연합학습 기반의 인공지능 기술인 클라라(Clara)를 병의원 등에 서비스했고, 인텔도 종양 연구에 인공지능 기술을 적용하기 위해 미국 대학과 연합학습을 활용했다.

예 교수는 연합학습 기술을 적용한 인공지능 학습 방법에 블록체인 기술이 적용된 점에도 주목하고 있다. 그는 “병의원과 제약사가 보유한 데이터를 공유할 때 발생하는 보안 문제를 줄이기 위해 센트럴 러닝(Central Learning) 바이오 빅데이터 플랫폼이 운영되기도 했다”면서도 “어떤 기업이 데이터베이스에 접근하고 얼마나 자주 데이터를 활용했는지 등은 확인하기 어려웠고 이는 병의원이 이런 사업에 참여하기 꺼려하는 요인이 됐다”고 했다.

그러면서 “바이오 빅데이터에 블록체인 기술이 적용되면 어느 기관이 데이터베이스에 접근했는지 등을 확인할 수 있어 향후 수익화 모델을 구축하기도 수월할 것”이라며 “병의원을 비롯해 바이오 빅데이터를 구축하기 위한 자료를 제공할 기업들이 적극적으로 이 사업에 뛰어드는 기반이 될 것을 본다”고 했다.

연합학습이 바이오 빅데이터 구축의 해답은 아니다. 예 교수는 “기업들이 구축한 데이터는 상당수가 편향적”이라며 “이런 경우 기술적 방법을 통해 인공지능이 데이터의 편향성에 영향을 받지 않고 학습할 수 있도록 조치해야 한다”고 했다.

환자 정보를 보호하는 일도 중요하다. 예 교수는 “바이오 빅데이터는 개발 과정에서 환자 정보가 유출되지 않도록 해야 하며, 분산 학습이 방안이 될 수 있을 것”이라고 했다.

ⓒ이코노미스트(https://economist.co.kr) '내일을 위한 경제뉴스 이코노미스트' 무단 전재 및 재배포 금지