print

우리는 네가 할 일을 안다

우리는 네가 할 일을 안다

지난해 브라질 국민은 정부가 FIFA 월드컵 개최를 위해 과도한 예산을 지출한 데 대해 항의시위를 벌였다. 엠버스 프로젝트는 그런 사태를 정확히 예측했다.
제2차 세계대전 후 태어난 대다수 미국인에게 버지니아주 알링턴이 어떤 특별한 의미를 지닐 가능성은 희박하다. 그러나 그 전쟁의 결과가 대체로 영화 ‘이미테이션 게임(Imitation Game)’ 스타일의 암호해독에 좌우됐다는 사실을 아는 사람들의 경우는 다르다(‘이미테이션 게임’은 같은 질문에 대해 컴퓨터의 응답이 인간의 응답과 구별하기 힘들수록 컴퓨터가 우수하다고 판정하는 게임을 가리킨다). 그들에게 알링턴은 미국 군대 암호해독법의 발생지로서 신비감을 지닌다.

1942년 미국 육군신호정보국(U.S. Army Signal Intelligence Service)이 알링턴홀 여자단기대학에 소리 없이 자리를 잡았다. 젊은 여성들에게 미술·음악·매너·복장예절·가사를 가르치던 사립학교였다. 그곳을 일본 암호시스템에 대한 공격을 전개하는 본부로 삼았다. 1952년에 설립된 미국 국가안보국(NSA)은 원래 알링턴홀에 본부가 있었다. 10년 뒤 국방부의 로버트 맥나마라 국방장관이 창설한 국방정보청(DIA)도 이곳의 2개 건물을 차지했다.

오늘날 알링턴에는 암호해독의 뿌리가 그대로 남아 있다. 그러나 지금은 다른 유형의 암호를 해독한다. 퀀텀 컴퓨팅(quantum computing, 양자 역학을 토대로 방대한 용량과 초병렬 계산이 동시에 가능한 컴퓨터 기술)의 영역으로 도약해 정부 후원 리서치 프로그램의 요람이 됐다. 일차적으로 워싱턴 정가 일을 담당하는 민·관 기관이 그런 프로그램을 주도한다.

엠버스는 시민 운동가들의 트위터 콘텐트를 분석해 전 세계에서 앞으로 일어날 사회적인 사건을 예측할 수 있다. 홍콩 민주화 시위 도중 휴대전화를 들여다보는 한 대학생.
그중 하나인 버지니아공대(VT)의 프로젝트는 이른바 빅데이터가 게임을 얼마나 바꿔놓았는지 엿보는 기회가 된다. 세계적인 규모로 인간의 행동을 대단히 정확하게 예측하도록 미국 정보계의 역량을 크게 높여 놓았다. 트위터·유튜브·위키피디아·텀블러·토르·페이스북 등의 소셜 사이트를 감시하는 방법이다. VT는 알고리즘과 각종 고급 도구를 이용해 밀집되고 복잡한 정보를 분류해 혼돈 속에서 패턴을 찾는다. 사건 발생 전에 곧잘 가능성을 예고하는 패턴이다. 예를 들면 시민봉기, 질병의 유행, 인도주의적 위기, 집단 이동, 항의시위, 폭동, 정치적 몰락, 심지어 폭력 사태도 포함된다.

“당신이 트윗을 띄우거나 페이스북에 글을 올릴 때마다 빅데이터 경제의 일부가 된다”고 VT 컴퓨터학과 내런 라마크리슈난 교수가 말했다. 그가 소장으로 있는 VT 발견분석센터는 “데이터 과학의 전 영역을 연구한다.” VT 발견분석센터는 지난해 활동 근거지를 버지니아주 블랙스버그의 VT 캠퍼스에서 알링턴(국방부의 본거지이기도 하다)으로 옮겼다. 엠버스(EMBERS) 프로젝트에 대한 보조금과 연구계약으로 1500만 달러 이상을 확보한 뒤였다. 라마크리슈난 교수가 이끄는 이 프로젝트는 빅데이터를 미국 정책입안자와 정보기관이 활용할 수 있는 예측으로 변환하는 일을 담당한다. 지금껏 이 ‘군비경쟁’에서 선두를 달리고 있다.

라마크리슈난 교수는 “향후 1년의 예측을 내놓을 수 있는 분석가는 많다. 하지만 우리의 예측은 날짜까지 특정한다”고 말했다.

2012년 4월 프로젝트 개시 이후 예측의 정확도가 평균 80~90%로 밝혀졌다. 예측하는 사건보다 평균적으로 7일 앞서 제시된다. 엠버스는 ‘대행자를 이용한 초기모델 기반 사건인식(EMBERS, Early Model Based Event Recognition using Surrogates)’의 줄임말이다. 데이터 전문가들이 말하는 이른바 ‘오픈소스 지표들(open-source indicators)’에서 정보를 추출한다. 소셜미디어, 위성 이미지, 그리고 외부에 공개된 20여만 개의 블로그 등이다. 초당 최대 2000건의 메시지를 분석하고, 트위터의 이른바 ‘파이어호스(firehose)’ 같은 오픈소스 데이터를 활용한다. 파이어호스는 하루 수억 건의 실시간 트윗이 오가는 대용량 데이터베이스에 접근하는 응용프로그램 인터페이스(API)다.

정부의 비밀 정찰사업, 특히 미국인을 정탐하는 사업에 관해서는 이미 많이 알려졌다. 하지만 엠버스 프로젝트는 해외의 인적 활동을 추적해 부정적인 내용이라도 그 결과를 공개하는 데 초점이 맞춰졌다. “비밀정보는 전혀 보지 않고 테러를 예측하지도 않는다. 그런 배후 채널에는 접근하지 못하기 때문”이라고 라마크리슈난 교수가 말했다. “누구나 입수할 수 있는 데이터가 분석대상이다.”

일주일 내내 하루 24시간씩, 매일 총 45~50건씩 경고 메시지를 쏟아내는 완전 자동 시스템이다. 예고된 사건의 날짜, 위치와 좌표, 누구 또는 어떤 단체가 관련됐는지, 소요의 이유, 그리고 예측의 신뢰도를 제시한다. 해외의 미국인뿐 아니라 우방국 보호와 관련된 움직임을 예고할 만한 신호를 포착하려는 목표다.

이 프로젝트가 처음 수행한 작업은 라틴 아메리카의 오픈소스 데이터 흐름을 분석하는 일이었다. 2012년 파라과이 대통령의 탄핵, 2013년 브라질 월드컵 항의시위, 2014년 베네수엘라 학생들의 폭력시위를 정확히 예측했다. 요즘엔 라틴 아메리카의 20개국을 모니터하며, 중동과 북아프리카로 대상을 넓혀 이라크·시리아·이집트·바레인·요르단·사우디아라비아·리비아를 감시하기 시작했다.

엠버스는 제이슨 매터니가 기획한 2012년 콘테스트의 산물이었다. 매터니는 미국 정부 산하 돌발사태예측국(Office for Anticipating Surprise, 실제 존재한다)의 부국장이자 국가정보국장실 ‘고급 프로젝트 연구행동 프로그램’의 프로그램 관리자다. 콘테스트 과제는 오픈소스 지표를 토대로 가능한 최선의 예측 모델을 구축하는 작업이었다. 버지니아 공대, 매사추세츠주 케임브리지에 있는 퀀텀 컴퓨팅 업체 레이시언 BBN 테크놀로지(이하 레이시언 BBN), ‘휴즈 리서치 래버러토리스’의 후신인 캘리포니아주 말리부 소재 HRL 등 3개 팀이 경연에 참가했다. 그중 엠버스가 가장 성공적이었다. 나중엔 레이시언 BBN 등 다른 팀 구성원을 여럿 끌어들였다. 레이시언 BBN은 현재 엠버스의 소셜미디어 모델 중 일부를 구축한다. 트위터 콘텐트를 분석해 민중폭동을 예측하려는 모델 등이다. 조사의 기본원칙 중 일부는 어이없을 정도로 간단하다고 스캇 밀러는 말한다. 그는 레이시언 BBN 산하 연설·언어그룹의 선임 기술 팀장이다.

“우리는 항의시위를 나타내는 대화, 특정한 단어를 찾는다”고 밀러 팀장은 말했다. “소요를 가리키는 용어(예컨대 스페인말 protesta)의 빈도수와 그 지역에서 발생하는 민중폭동 간에 상관관계가 있음을 밝혀냈다.”

하지만 다른 경우엔 유입되는 정보가 훨씬 더 복잡할 수 있다. 정보가 사진·단어 또는 차트(그뿐 아니라 갖가지 언어와 방언)의 형식을 취할 수 있기 때문이다. 따라서 엠버스는 케임브리지의 또 다른 회사 베이시스 테크놀로지(BT)와 제휴해 첨단 데이터 추출·번역 기법을 이용한다. BT는 데이터를 보강하고 문장분석 도구를 제공한다. 문장분석 도구는 외국어를 영어로 번역하지 않고 모어부터 직접 의미를 추출한다. 예컨대 소리 나는 대로 영어로 입력한 아랍어(트위터에서 흔한 현상)를 해석할 수 있다. 텀블러(마이크로 블로깅 서비스)의 그래픽 데이터는 즉석에서 판독하고, 항공 위성 사진은 자동 이미지 분석 도구를 통해 처리된다.

고도의 기술임에도 불구하고 예측모델의 알고리즘은 아직도 수많은 시행착오를 거쳐야 한다. 전문가 80명과 계약업자 13명으로 이뤄진 개발팀이 가능한 최상의 모델로 설계하고 개선해 나가는 작업에 매달린다. 팀은 사회학자, 컴퓨터학자, 역학자, 정치학자, 통계학자, 각국 지역 전문가 등으로 구성됐다. 라마크리슈난 교수는 컴퓨터 기능을 향상시켜 패턴을 인식하도록 하는 이 같은 작업을 가리켜 이메일 응용프로그램을 발전시켜 스팸을 인식하도록 하는 작업에 비유한다. 시간이 지나면 “어떤 모델이 최상인지 알아내는 슈퍼모델이 있다. 하지만 이 같은 나라의 상황은 시간이 지나면 변하기 때문에 학습을 멈추지 않는다”고 라마크리슈난 교수가 말했다. 그 슈퍼모델은 매달 예측의 정확성을 평가하는 보고서를 받는다. 어떤 모델이 어떤 조합으로 성과를 올리고, 어떤 모델의 실적이 나쁜지 말해주는 성적표다. 그에 따라 조정작업을 한다.

엠버스 예측의 정확성을 평가하고 채점하는 독립적인 계약자는 버지니아주 바로 인근의 매클리언에 있는 MITRE라는 단체다. 정부지원을 받는 리서치센터가 모여 있는 비영리 연구시설이다. 10여 명으로 이뤄진 팀이 엠버스 경고 메시지를 뉴스 보도와 대조해 예측이 실현되는지를 판별한다. MITRE 산하 ‘국토안보시스템 공학·개발 연구소’의 정보시스템 엔지니어인 테리 리드가 팀장이다. 요즘엔 엠버스의 사건 예측이 거의 적중한다. 하지만 여전히 각 사건과 관련된 세부정보 예측의 정확성을 높이는 데 힘쓰고 있다고 매터니 부국장이 말했다.

엠버스가 전 세계 인구 차원의 사건을 예측하는 잠재력을 갖고 있다고 라마크리슈난 교수는 말한다. “이 같은 기술이 앞으로 효용성이 높아지면서 주류로 올라서는 날이 올 것”이라고 그가 말했다. “이런 사건을 예측하려는 시도는 새롭지 않다. 달라진 점이라면 소셜미디어 덕분에 정확성이 높아졌다.”

아직껏 정부 기관이 엠버스 프로젝트의 예측에 따라 공동 대책을 마련하지는 않고 있다. 그리고 정부가 이들 새로 부상하는 기술로 무슨 일을 할 계획인지 여전히 불확실하다. 어떤 정부기관이 엠버스 예측기술의 도입에 관심을 보이는지 매터니 부국장은 정확히 밝히지 않았다. 정보, 공중보건, 인도주의 문제, 그리고 국제 및 국가 보안기관이 주의 깊게 지켜보고 있다고 뉴스위크에 확인해 줬다. “우리는 정부 파트너들에게 조사 결과와 관련된 정보를 계속 공급한다”고 그가 말했다. “10여 개 기관이 이 조사의 진척상황에 관한 최신정보를 정기적으로 제공받는다.” 엠버스 경고 메시지를 사용하는 기관 중에 질병통제예방센터(CDC)도 있다고 라마크리슈난 교수가 말했다. VT는 정부기관에 정보를 제공하는 외에도 자신들의 소셜미디어 기술 서비스를 상업적으로 판매할 수 있지만 당장은 그럴 계획이 없다고 그는 덧붙인다.

라마크리슈난 교수는 “이런 작업을 수행하는 합법적인 이유는 많다”고 말했다. “분쟁지역에서 미국의 안보를 강화하거나, 더 정확한 여행안전 관련 정보를 제공하고, 미국인을 폭력으로부터 보호하고, 미국 대사관의 보안을 강화할 수 있게 된다.”

MITRE는 미국의 방위·보안·정보 조직과 인연이 깊다. 실제로 MITRE에 따르면 리드 팀장은 ‘국가안보시스템실무그룹’ 내의 한 위원회에서 국토안보부 정보보안책임자를 대표한다. 비밀정보 시스템과 관련된 정책 문제를 전담하는 실무그룹이다. 엠버스에서 리드 팀장이 담당하는 업무에 관해서는 MITRE에서 확인을 받았지만 본인은 뉴스위크의 인터뷰 요청에 응하지 않았다.

예측 목적으로 소셜미디어 대상의 분석 능력을 갈고닦는 정부 프로젝트는 엠버스뿐이 아닐지도 모른다. 지난 2월 수니파 무장단체 이슬람국가(IS)와 관련됐다고 주장하는 한 단체가 뉴스위크의 트위터 계정을 일시적으로 해킹했다. 당시 그들은 ‘지스트 밀 파일럿 프로젝트(The Gist Mill Pilot Project)’를 묘사하는 육군 문서로 보이는 서류를 공개했다. 문서는 오픈소스 지표와 ‘소셜미디어 분석’에 대한 ‘작전 구상(concept of operations)’을 언급했다. 미 국방부 대변인에 따르면 그 프로젝트는 2013년 중단됐지만 육군은 기존의 정보·감시·정찰 업무에 소셜미디어를 통합하고, 계속적으로 새 기능을 도입하는 과정에 있다고 한다.

오픈소스 데이터의 활용은 분명 사건 예측에 여러 가지 이점이 있다. 하지만 뉴욕에 있는 포담대학 국가안보연구소의 캐런 그린버그 소장은 주의할 점이 있다고 말한다. 소셜미디어와 기타 수단을 통해 대중의 동향을 면밀히 추적하는 방식은 영화 ‘이미테이션 게임(암호해독)’보다는 ‘마이너리티 리포트(사생활 통제)’에 훨씬 더 가깝게 들린다는 경고다.

“이 모든 프로젝트의 초기 단계에 실제로 일부 지침, 그리고 법적·윤리적 한계를 설정해야 한다”고 그린버그 소장이 말했다. “그렇게 하지 않으면 나중에 정부가 ‘이 프로그램이 우리에게 너무 중요해져서 이젠 해체할 수 없다’고 말하는 경우를 이미 우리는 경험했다. 이 같은 프로그램의 영향은 상상을 뛰어넘는다. 우리의 위험을 제로로 만들기 위해 개인의 프라이버시를 희생해 가며 이 같은 프로그램이 필요할 정도로 미국이란 나라가 안전하지 않다는 데 동의하는가?”

대중 정찰이라는 용어가 부적절한 명칭이라고 정보 당국자들은 종종 지적한다. 정부가 정찰을 하는 목적은 특정 개인이나 단체가 표적이지 대중은 아니라는 주장이다. 그러나 엠버스는 대중정찰 업무만 담당한다. “우리 프로젝트에선 개인의 움직임은 추적하지 않는다”고 라마크리슈난 교수가 말했다. “우리는 군중과 단체를 추적한다.” 프로그램이 공인과 핵심 지도자들의 트위터 콘텐트를 추적하기는 하지만 그들이 대중에 지대한 영향을 미치기 때문이며 일반 시민은 추적 대상이 아니라고 그는 말한다.

그런 도구들은 의심할 바 없이 유용하다. 하지만 정부가 안보 위협의 징후를 찾을 때 지나치게 기술에 의존하는 듯한 조짐도 보인다고 그린버그 소장은 덧붙인다. “어쨌든 우리는 아랍의 봄을 예견하지 못하고 IS의 부상을 놓쳤다”고 그녀가 말했다. “이들은 유용한 기술적 도구다. 하지만 현장을 직접 찾아가는 것만큼 정확한 정보는 없다. 클릭 두 번만으로 답을 구하려 해선 안 된다.”

확신이 서지 않을 때 현장의 정보만한 것은 없다는 데는 레이시언 BBN의 밀러 팀장도 동의한다. “현재 우리의 중동 예측은 소기의 수준에 이르지 못했다. 뭔가를 알아내려면 누군가에게 묻는 게 상책이다.”

- 번역 차진우

ⓒ이코노미스트(https://economist.co.kr) '내일을 위한 경제뉴스 이코노미스트' 무단 전재 및 재배포 금지

많이 본 뉴스

1한국축구 40년만에 올림픽 좌절…홍준표, 한국축협회에 또 ‘쓴 소리’

2민희진 ‘노예 계약’ 주장에 하이브 반박 “논의 촉발, 보상 규모다”

3‘빅5’ 병원 ‘주 1회 셧다운’ 예고…정부 “조속히 환자 곁으로”

4尹대통령-이재명 29일 첫 회담…“국정 현안 푸는 계기되길”

5이부진 표 K-미소…인천공항 온 외국 관광객에게 ‘활짝’

6목동14단지, 60층 초고층으로...5007가구 공급

7시프트업, ‘니케’ 역주행 이어 ‘스텔라 블레이드' 출시

8데브시스터즈 ‘쿠키런: 모험의 탑’, 6월 26일 출시 확정

9‘보안칩 팹리스’ ICTK, 코스닥 상장 도전…“전 세계 통신기기 안전 이끌 것”

실시간 뉴스

1한국축구 40년만에 올림픽 좌절…홍준표, 한국축협회에 또 ‘쓴 소리’

2민희진 ‘노예 계약’ 주장에 하이브 반박 “논의 촉발, 보상 규모다”

3‘빅5’ 병원 ‘주 1회 셧다운’ 예고…정부 “조속히 환자 곁으로”

4尹대통령-이재명 29일 첫 회담…“국정 현안 푸는 계기되길”

5이부진 표 K-미소…인천공항 온 외국 관광객에게 ‘활짝’