“데이터 90%는 쓰레기”…바이오 빅데이터 제대로 활용하려면 [이코노 인터뷰]
김화종 한국제약바이오협회 AI신약융합연구원장
유효물질 찾을 AI 기업 많아…문제는 다음 단계
연합학습으로 효율↑…신약개발 비용 절감 초점
[이코노미스트 선모은 기자] 마이크로소프트의 창업자 빌 게이츠는 지난해 3월 자신의 블로그인 게이츠 노츠(Gates Notes)에 한 글을 게재했다. 글의 제목은 “인공지능의 시대가 시작됐다.(The age of AI has begun)”다. 빌 게이츠는 이 글을 통해 “인공지능(AI)의 발전은 마이크로프로세서와 개인용 컴퓨터(PC), 인터넷, 휴대전화의 탄생만큼이나 근본적이다”라고 평가했다. 기존의 혁신 기술이 산업은 물론, 일상생활의 모습을 재편했듯, AI도 우리 삶의 곳곳을 바닥부터 변화시킬 것이란 뜻이다.
이런 변화에는 각국 정부와 기업 모두 반응하고 있다. 마이크로소프트와 엔비디아, 구글 등 정보기술(IT) 공룡으로 꼽히는 수많은 기업이 AI 산업에 모두 뛰어들면서다. 정부 차원의 AI 역량을 확보하려는 국가 단위의 사업도 활발하다. 한국도 마찬가지다. 정부는 부처, 지자체가 쌓은 데이터를 모아 빅데이터 형태로 구축하거나, 이를 패키지 형태로 묶어 민간에 공급하고 있다. IT 분야는 물론 제약·바이오 산업에서도 AI 기술 적용 시도가 이어지고 있다.
하지만 산업 현장에서는 정부가 그동안 추진한 사업을 두고 우려를 내놨다. 이들이 수많은 데이터 속에서 필요한 것을 찾아내 활용하기 어려워서다. 일부에서는 “쌓기만 한 데이터의 90%는 쓰레기”라는 비판도 나온다. 뚜렷한 사업 목적을 세운 뒤 적절한 데이터를 모아야 하는데, 기존의 사업은 방향 없이 데이터 쌓기에만 주력했다는 뜻이다. 개인정보보호법도 이들이 AI 사업을 추진하는 데 걸림돌이다.
김화종 한국제약바이오협회 AI신약융합연구원장은 이런 문제를 해결하기 위해 ‘연합학습’을 제안했다. 연합학습은 기업이 특정 AI 모델을 학습시킨 뒤, 이 모델만 공유해 성능을 높이는 AI 모델 학습 방법이다. 데이터를 직접 건네받지 않아 개인정보보호법에 해당하지 않고, 기업이 연합학습을 잘 활용한다면 AI 모델의 성능도 높일 수 있다.
기업이 데이터를 받았다면 이를 잘 관리해야 하는 문제도 떠안는데, 연합학습은 AI 모델만 공유하기 때문에 기업의 정보 관리 부담도 덜 수 있다. 효율은 높이고, 비용은 줄일 수 있단 뜻이다. 연합학습의 효율성은 이미 여러 연구 논문에 실려 ‘네이처’ 등 학술지에 게재됐고, 구글과 애플 등도 수년 전부터 연합학습을 연구하고 있다.
김 원장은 “데이터를 제대로 활용하려면 목적에 맞는 데이터를 확보해야 한다”면서도 “기존에는 규모 있는 AI 모델을 만들기 위해 일단 데이터부터 모으려고 했다”고 지적했다. 이어 “연합학습을 활용하면 데이터를 모으지 않아도 AI 모델을 주고받는 것으로 각자의 AI 모델 성능을 높일 수 있다”며 “쌓인 데이터에 가치를 부여하는 사업”이라고 설명했다.
연합학습을 거친 AI 모델을 의료 분야에 어떻게 활용할지에 대해서는 “특정 병원에서 환자가 뇌종양을 진단받은 사례가 100건밖에 없다면, 연합학습으로 다른 병원이 보유한 사례를 학습해 더 나은 AI 모델을 얻을 수 있다”고 했다. 두 병원이 각각 1000건, 2000건의 데이터를 확보했다면, 이를 각각 학습한 AI 모델을 공유·학습해 3000건의 데이터를 학습한 AI 모델의 성능을 구현할 수 있다는 뜻이다.
김 원장은 이를 실현하기 위해 정부가 추진하는 ‘연합학습 기반 신약 개발 가속화 프로젝트’를 이끌고 있다. 이 프로젝트는 연합학습으로 개별 기업의 신약 개발 기간과 비용을 줄이기 위해 진행되는 사업이다. 가장 먼저 구축할 AI 모델은 약동학(ADMET)* 예측 모델이다. 기업은 신약이 될 만한 물질을 찾은 뒤 우리 몸에서 잘 작동하는지 실험을 통해 확인한다. 약동학 예측 모델이 완성되면 기업이 실험하지 않아도 이런 특성을 살펴볼 수 있다. 김 원장은 “이번 사업의 목적은 좋은 신약 물질을 발굴하는 것이 아니다”라며 “기업이나 기관이 찾은 물질의 실험 비용을 줄이기가 목적이며, 이를 위해 약동학 예측 모델을 개발하기로 했다”고 설명했다.
김 원장이 약동학 예측 모델을 프로젝트의 첫 번째 사업으로 꼽은 이유는 AI가 변화시킨 신약 개발의 다음 단계가 ADMET과 관련돼 있어서다. 현재 AI 기술을 활용해 신약 개발을 추진하는 기업은 대다수가 후보물질의 이전 단계인 유효물질**을 찾는 데 집중하고 있다. 김 원장은 이들 기업이 여러 실험을 거쳐 유효물질을 후보물질로 만들어야 하는 만큼, 기업이 AI 모델로 시간과 비용을 줄이도록 돕겠다는 구상이다. 김 원장은 “생성형 AI 모델은 사람이 상상할 수 없는 그림을 그리고, 글을 쓰고 있다”며 “신약 개발 분야에서도 (생성형 AI 모델이)새로운 구조의 분자를 얼마든지 찾아낼 수 있을 것”이라고 꼬집었다.
이어 “다음의 문제는 이렇게 발굴한 약물이 실제 ‘약’이 될 수 있냐는 것”이라며 “유럽 등에서도 유사한 프로젝트가 진행됐는데, 이번 사업에선 임상 데이터를 추가해 기업이 AI 기술로 수고를 줄이도록 만들겠다”고 했다.
*ADMET: 약물의 흡수(absorption), 대사(metabolism), 분포(distribution), 소실(excretion), 독성(toxicity)
**유효물질: 후보물질의 전 단계
ⓒ이코노미스트(https://economist.co.kr) '내일을 위한 경제뉴스 이코노미스트' 무단 전재 및 재배포 금지
이런 변화에는 각국 정부와 기업 모두 반응하고 있다. 마이크로소프트와 엔비디아, 구글 등 정보기술(IT) 공룡으로 꼽히는 수많은 기업이 AI 산업에 모두 뛰어들면서다. 정부 차원의 AI 역량을 확보하려는 국가 단위의 사업도 활발하다. 한국도 마찬가지다. 정부는 부처, 지자체가 쌓은 데이터를 모아 빅데이터 형태로 구축하거나, 이를 패키지 형태로 묶어 민간에 공급하고 있다. IT 분야는 물론 제약·바이오 산업에서도 AI 기술 적용 시도가 이어지고 있다.
하지만 산업 현장에서는 정부가 그동안 추진한 사업을 두고 우려를 내놨다. 이들이 수많은 데이터 속에서 필요한 것을 찾아내 활용하기 어려워서다. 일부에서는 “쌓기만 한 데이터의 90%는 쓰레기”라는 비판도 나온다. 뚜렷한 사업 목적을 세운 뒤 적절한 데이터를 모아야 하는데, 기존의 사업은 방향 없이 데이터 쌓기에만 주력했다는 뜻이다. 개인정보보호법도 이들이 AI 사업을 추진하는 데 걸림돌이다.
김화종 한국제약바이오협회 AI신약융합연구원장은 이런 문제를 해결하기 위해 ‘연합학습’을 제안했다. 연합학습은 기업이 특정 AI 모델을 학습시킨 뒤, 이 모델만 공유해 성능을 높이는 AI 모델 학습 방법이다. 데이터를 직접 건네받지 않아 개인정보보호법에 해당하지 않고, 기업이 연합학습을 잘 활용한다면 AI 모델의 성능도 높일 수 있다.
기업이 데이터를 받았다면 이를 잘 관리해야 하는 문제도 떠안는데, 연합학습은 AI 모델만 공유하기 때문에 기업의 정보 관리 부담도 덜 수 있다. 효율은 높이고, 비용은 줄일 수 있단 뜻이다. 연합학습의 효율성은 이미 여러 연구 논문에 실려 ‘네이처’ 등 학술지에 게재됐고, 구글과 애플 등도 수년 전부터 연합학습을 연구하고 있다.
김 원장은 “데이터를 제대로 활용하려면 목적에 맞는 데이터를 확보해야 한다”면서도 “기존에는 규모 있는 AI 모델을 만들기 위해 일단 데이터부터 모으려고 했다”고 지적했다. 이어 “연합학습을 활용하면 데이터를 모으지 않아도 AI 모델을 주고받는 것으로 각자의 AI 모델 성능을 높일 수 있다”며 “쌓인 데이터에 가치를 부여하는 사업”이라고 설명했다.
연합학습을 거친 AI 모델을 의료 분야에 어떻게 활용할지에 대해서는 “특정 병원에서 환자가 뇌종양을 진단받은 사례가 100건밖에 없다면, 연합학습으로 다른 병원이 보유한 사례를 학습해 더 나은 AI 모델을 얻을 수 있다”고 했다. 두 병원이 각각 1000건, 2000건의 데이터를 확보했다면, 이를 각각 학습한 AI 모델을 공유·학습해 3000건의 데이터를 학습한 AI 모델의 성능을 구현할 수 있다는 뜻이다.
김 원장은 이를 실현하기 위해 정부가 추진하는 ‘연합학습 기반 신약 개발 가속화 프로젝트’를 이끌고 있다. 이 프로젝트는 연합학습으로 개별 기업의 신약 개발 기간과 비용을 줄이기 위해 진행되는 사업이다. 가장 먼저 구축할 AI 모델은 약동학(ADMET)* 예측 모델이다. 기업은 신약이 될 만한 물질을 찾은 뒤 우리 몸에서 잘 작동하는지 실험을 통해 확인한다. 약동학 예측 모델이 완성되면 기업이 실험하지 않아도 이런 특성을 살펴볼 수 있다. 김 원장은 “이번 사업의 목적은 좋은 신약 물질을 발굴하는 것이 아니다”라며 “기업이나 기관이 찾은 물질의 실험 비용을 줄이기가 목적이며, 이를 위해 약동학 예측 모델을 개발하기로 했다”고 설명했다.
김 원장이 약동학 예측 모델을 프로젝트의 첫 번째 사업으로 꼽은 이유는 AI가 변화시킨 신약 개발의 다음 단계가 ADMET과 관련돼 있어서다. 현재 AI 기술을 활용해 신약 개발을 추진하는 기업은 대다수가 후보물질의 이전 단계인 유효물질**을 찾는 데 집중하고 있다. 김 원장은 이들 기업이 여러 실험을 거쳐 유효물질을 후보물질로 만들어야 하는 만큼, 기업이 AI 모델로 시간과 비용을 줄이도록 돕겠다는 구상이다. 김 원장은 “생성형 AI 모델은 사람이 상상할 수 없는 그림을 그리고, 글을 쓰고 있다”며 “신약 개발 분야에서도 (생성형 AI 모델이)새로운 구조의 분자를 얼마든지 찾아낼 수 있을 것”이라고 꼬집었다.
이어 “다음의 문제는 이렇게 발굴한 약물이 실제 ‘약’이 될 수 있냐는 것”이라며 “유럽 등에서도 유사한 프로젝트가 진행됐는데, 이번 사업에선 임상 데이터를 추가해 기업이 AI 기술로 수고를 줄이도록 만들겠다”고 했다.
*ADMET: 약물의 흡수(absorption), 대사(metabolism), 분포(distribution), 소실(excretion), 독성(toxicity)
**유효물질: 후보물질의 전 단계
ⓒ이코노미스트(https://economist.co.kr) '내일을 위한 경제뉴스 이코노미스트' 무단 전재 및 재배포 금지
많이 본 뉴스
1국제 금값 3년 만에 최대 하락…트럼프 복귀에 골드랠리 끝?
2봉화군, 임대형 스마트팜 조성… "청년 농업인 유입 기대"
3영주시, 고향사랑기부 1+1 이벤트..."연말정산 혜택까지 잡으세요"
4영천시 "스마트팜으로 농업 패러다임 전환한다"
5달라진 20대 결혼·출산관…5명 중 2명 ‘비혼 출산 가능’
6김승연 회장 “미래 방위사업, AI·무인화 기술이 핵심”
7 “청정함이 곧 생명, 무진복 3겹 껴입어”…GC셀이 오염 막는 방법
8우리은행, 25억원 규모 금융사고 발생…외부인 고소 예정
9'2000조 구독경제' 시장...2.0시대 온다