print

페이스북 사용 단어로 질병 진단한다?

페이스북 사용 단어로 질병 진단한다?

종교적 용어 빈도 높으면 당뇨일 확률 높아… 일부 증상에선 인구통계적 데이터보다 더 정확한 예측 가능해페이스북 포스트에 사용된 단어만 분석해도 우울증부터 성병까지 다양한 증상을 확인할 수 있다고 과학자들이 밝혔다. 그들은 개인의 페이스북 프로필을 조사하는 것이 나이·성별·인종 같은 인구 통계적인 정보보다 질병 여부를 더 정확하게 예측하고 확인할 수 있는지 알아보기 위한 연구 결과를 학술지 플로스 원 최신호에 발표했다.

연구팀은 소화 장애, 부상, 임신, 피부 장애, 불안증, 비만, 약물·알코올 남용, 성병 등 전부 합해 21가지 질환과 증상을 가진 미국인 환자 999명의 동의를 받아 그들이 페이스북에 포스트한 94만9530건의 ‘상태 업데이트’에 들어 있는 단어 약 2000만 개를 조사했다. 모든 포스트는 최소한 500개 단어를 포함했다. 그들은 자체 개발한 모델로 단어 데이터들을 분류해 사용횟수와 빈도 등을 분석했다.

그 결과 모든 증상은 환자의 페이스북 데이터를 사용해 상당히 정확하게 예측할 수 있었다. 그러나 그중 18가지 증상은 인구 통계적 정보와 페이스북 데이터 둘 다를 사용했을 때 가장 정확하게 예측할 수 있었다. 반면 10가지 증상은 인구 통계적 데이터보다 페이스북의 단어를 사용했을 때 가장 정확하게 예측할 수 있었다.

예를 들어 ‘술(drink)’이나 ‘취했다(drunk)’ 또는 ‘병(bottle)’이라는 단어를 많이 사용한 사람은 실제 알코올 남용 가능성이 25% 높았다. ‘고통(pain)’이나 ‘울음(crying)’ ‘눈물(tears)’ 같은 단어를 자주 쓴 사람은 우울증 발생 확률이 높았다. 또 ‘배(stomach)’ ‘머리(head)’ ‘다쳤다(hurt)’ 같은 용어도 심리적 장애의 신체적 증상에 시달리는 것을 의미하는 것으로 우울증을 예측할 수 있었다. ‘멍청이(dumb)’ 등 상대에 대한 적대감을 표하거나 욕설(‘bullsh*t’ 또는 ‘b*tches’)을 자주 쓰는 사람은 약물 중독이나 조현병 발생 확률이 4.1배가량 높았다. ‘신(god)’ ‘기도(pray)’ ‘가족(family) 같은 단어를 쓰는 빈도가 상위 25%로 높은 사람은 하위 25% 사람보다 당뇨병에 걸릴 확률이 15배 이상 높은 것으로 나타났다.

연구팀은 참가자의 병력과 페이스북 페이지 사이의 패턴을 발견할 수 있을지 알아보기 위해 그들의 동의를 얻어 전자 의료기록도 살폈다. 그 방법은 불안증·우울증·정신질환 같은 정신건강 장애와 당뇨 같은 만성 질병을 확인하는 데 가장 큰 도움이 됐다. 연구팀은 개인의 유전자 구성과 특정 질병에 걸릴 위험을 알 수 있는 게놈(genome, 유전체)처럼 그들이 소셜미디어에서 사용하는 단어가 건강 상태를 파악하는 단서가 되는 ‘소셜미디옴(social mediome)’을 구성할 수 있다고 주장했다. 소셜미디어는 또 개인의 유전자 정보보다 더 쉽게 접근할 수 있으며 개인 맞춤형 의료에도 사용될 수 있다.

연구팀은 “소셜미디어 데이터는 일반적으로 파악하기 어려운 환자의 일상생활을 들여다볼 수 있는 ‘수량화 가능한 링크’다. 행동적·환경적 질병 위험 인자를 탐지하고 평가할 수 있는 길을 제공한다”고 설명했다. 이 논문의 주 저자로 펜실베이니아대학 디지털건강의학센터 소장인 라이나 머천트 박사는 뉴스위크에 “소셜미디어 포스트에서 단어가 반드시 건강에 관해 명시적으로 사용되지 않았을 때도 그것을 통해 사용자의 건강 상태를 상당히 정확히 알 수 있었다”며 “그처럼 정확도가 높으리라고는 기대하지 않았기 때문에 결과를 보고 놀랐다”고 말했다. “따라서 자주 쓰는 단어 패턴을 분석하는 인공지능을 개발하면 SNS를 통해 진단하는 일이 가능해질지 모른다.”

그러나 그녀는 이 연구에 참여한 환자들이 한 병원에서만 치료를 받았기 때문에 결과를 일반화하기 어렵다고 인정했다. “국가나 생활환경, 문화에 따라 자주 사용하는 단어가 다를 수 있으므로 더 많은 표본을 상대로 추가 연구가 필요하다.” 논문에서도 저자들은 단어가 특정 증상과의 상관관계를 시사할 뿐이어서 개인이 특정 질병에 걸린 이유를 설명할 수 없어 연구 방법에 한계가 있다고 밝혔다. “초기 연구이긴 하지만 이번 연구 결과는 데이터 마이닝을 활용할 기회와 질병의 조기 발견 가능성, 데이터 마이닝과 건강 예측의 잠재적인 해로움에 관한 추가 연구가 필요하다는 점을 시사한다.”

이 분야의 다른 전문가들은 이번 연구 결과가 디지털 역학이라는 새로운 분야에 추가될 수 있는 흥미로운 증거라며 연구팀이 환자의 동의를 받는 데 초점을 맞췄다는 점을 높이 샀다. 그러면서도 그들은 현실 세계의 시나리오에서도 개인정보가 잘 보호될 수 있는지에 의문을 가졌다.

스탠퍼드대학 정신의학·행동과학과의 임상 심리학자 애덤 마이너는 뉴스위크에 이렇게 논평했다. “해결되지 않은 중요한 의문은 소셜미디어에서 보이는 행동이 건강과 어떤 관련이 있느냐는 것이다. 이 관계가 더 이른 시점의 질병 탐지와 개입 방법을 탐구하는 문제에서 큰 도움이 될 수 있다. 특히 이번 연구는 환자의 동의를 받았다는 점이 중요하다. 그러나 환자가 자신의 소셜미디어 데이터를 의사와 공유할 때 실제로 어떤 일이 벌어질지 불확실하다. 예를 들어 보험회사나 정부도 그런 데이터에 접근할 수 있을까? 자신의 온라인 행동 때문에 경찰에 불려가는 일이 생길 수 있을까? 따라서 명확한 정책과 기대가 관련자 모두에게 매우 중요하다.”

피츠버그대학 미디어·기술·건강연구소의 제이슨 콜디츠 연구원은 뉴스위크에 페이스북 포스트가 나이·성별·인종 같은 인구 통계적 기본 데이터보다 질병 예측에 더 효과적인 것은 당연하다고 말했다. “하지만 이런 데이터가 학력이나 사회 경제적 지위, 거주지 등 좀 더 완벽한 인구 통계적 데이터보다 질병 예측에 더 유리한지는 아직 알 수 없다. 이런 추가적인 인구통계 데이터는 건강 조건을 상당히 정확하게 예측할 수 있다.”

콜디츠 연구원은 또 “이런 일을 페이스북 사용자들의 동의 없이 실시한다면 심각한 윤리적 우려를 제기할 수 있다”고 말했다. “특히 정신적·행동적 건강 상태나 성병 감염 같은 민감한 문제에서는 이런 데이터 활용이 문제가 될 수 있다. 이런 증상을 확인하는 것도 문제가 될 수 있지만 그 외에 증상이 없는 사람을 오판할 위험도 있다.”

콜디츠 연구원은 이 연구 결과를 보고 개인이 자신이나 다른 페이스북 사용자를 그런 식으로 진단하려 해서는 안 된다고 덧붙였다. “특정 건강 증상을 진단하는 문제는 전문적인 훈련을 받은 의사에게 맡겨야 한다. 또 페이스북 사용자는 자신이 공유하는 콘텐트나 사용하는 단어가 자신의 건강 증상을 확인하는 정보를 제공할 수 있다는 사실에 유의해야 한다. 그런 증상이 공개되는 것을 원하는 사람은 없을 것이다.”

※ [뉴스위크 한국판 2019년 7월 1일자에 실린 기사를 전재합니다.]

ⓒ이코노미스트(https://economist.co.kr) '내일을 위한 경제뉴스 이코노미스트' 무단 전재 및 재배포 금지

많이 본 뉴스

11분기 암호화폐 원화 거래, 달러 제치고 1위 차지

2중동 이슈에 출러이는 亞증시…달러·유가만 '고공행진'

3'2000명 증원' 물러선 정부 "내년 의대 신입생 자율모집 허용"

4중동서 전쟁 확산 우려에 국내 건설사들…이스라엘·이란서 직원 철수

5크로커다일 캐리어, 국내 최다 4종 캐리어 구성상품 런칭

6이스라엘-이란 전쟁 공포 확산에 환율 출렁…1380원대 마감

7노용갑 전 한미약품 사장, 한미사이언스 부회장으로

8KB금융, 홀트전국휠체어농구대회 지원…“장애인 인식 개선”

9SK하이닉스, 파운드리 세계 1위 ‘TSMC’와 협력…차세대 HBM 개발

실시간 뉴스

11분기 암호화폐 원화 거래, 달러 제치고 1위 차지

2중동 이슈에 출러이는 亞증시…달러·유가만 '고공행진'

3'2000명 증원' 물러선 정부 "내년 의대 신입생 자율모집 허용"

4중동서 전쟁 확산 우려에 국내 건설사들…이스라엘·이란서 직원 철수

5크로커다일 캐리어, 국내 최다 4종 캐리어 구성상품 런칭