KT와 페이스북의 장애에서 배운 리스크 관리의 중요성 [김국현 IT 사회학] - 이코노미스트

Home > 칼럼 > 전문가 칼럼

print

KT와 페이스북의 장애에서 배운 리스크 관리의 중요성 [김국현 IT 사회학]

인터넷상 주소·경로 잃어버린 사고
라우터·BGP 관리 부실이 만들어내

KT통신장애로 인천시 남동구 한 패스트푸드점에서 키오스크가 먹통이 됐다. 키오스크에는 ″현재 인터넷 장애로 키오스크 결제가 불가능합니다. 카운터에서 주문 도와드리겠습니다″라는 안내문이 붙어 있다. [심석용 기자]

KT통신장애로 인천시 남동구 한 패스트푸드점에서 키오스크가 먹통이 됐다. 키오스크에는 ″현재 인터넷 장애로 키오스크 결제가 불가능합니다. 카운터에서 주문 도와드리겠습니다″라는 안내문이 붙어 있다. [심석용 기자]

 
10월은 기술과 10월의 합성어인 텍토버(Techtober)라는 말이 있을 정도로 다양한 신제품 발표가 이어지는 황금기다. 그런데 지난 10월은 우리의 일상이 얼마나 기술에 과의존하고 있는지 깨닫게 한 시기였다.
 
10월 말 1시간 반가량 KT가 먹통이 되면서 원격 근무에 의존 중인 많은 기업 업무가 마비된 것은 물론, 식당에서는 당장 결제조차 되지 않아 점심 장사를 망치기도 했다. 학교 수업도 중단되고, 112나 119 등마저 영향을 받았다.
 
10월 초에는 페이스북과 그 산하 서비스(인스타그램, 왓츠앱 등)가 무려 5시간 이상 다운된 적도 있었다. 한국 시각으로는 야밤에 벌어진 일이라서 잠잠했지만, 전 세계적으로는 얼마나 많은 일들을 페이스북에 의존하고 있었는지 깨닫는 계기가 되었다. 광고 마케팅에서 각종 로그온, 메신저까지 그리고 심지어 개발도상국에서는 페이스북은 무료 통신사의 역할도 했으니 혼돈은 꽤 컸다.
 
그런데 이 두 사건은 쌍둥이 사건이라고 봐도 불릴 만큼 비슷한 점이 있었다. 둘 다 ‘라우팅 경로’라는 것의 관리 실패로 벌어진 일이었다. 즉 내비게이션 지도가 갑자기 엉터리가 돼 길거리가 혼란의 도가니가 된 것 같은 일이 인터넷에서 벌어진 셈인데, 이 두 회사는 너무나도 많은 인터넷상의 도로망을 관리하고 있어서 사태가 커졌다.
 

라우팅 경로? 인터넷은 어떻게 움직이나

인터넷이라는 단어. 익숙해졌지만 인터넷도 신조어였던 시절이 있었다. 네트워크를 뜻하는 넷(net), 그리고 서로 다른 것들 사이를 뜻하는 접두사 인터(inter-)의 합성어다. 네트워크 사이를 서로 잇는 네트워크. 그러니까 네트워크들의 네트워크가 바로 인터넷이었고 그 정의는 지금도 변함없다.
 
인터넷 이전의 시대에도 네트워크는 있었지만, 대학마다 연구소마다 기업마다 따로따로 존재하고 있었을 뿐이었다. 그 기관들이 서로 이어지기 시작하면서 지금 우리가 너무나도 당연하게 생각하는 하나의 온라인 세상이 지구 위에 만들어질 수 있었다.
 
인터넷을 가능하게 하는 네트워크 기술의 주인공은 패킷, 즉 정보가 들어 있는 캡슐의 알갱이들이다. 우리가 주고받는 정보들은 이 작은 입자들이 모여서 구성된 것, 스트리밍조차 마치 폭포수 속 H2O의 분자들처럼 작은 입자로 그 흐름이 구성되어 있는 것이다. 이 알갱이들은 클라우드 위 서버와 우리들의 스마트폰 사이를 왔다 갔다 해야 한다. 앱을 띄워 영상을 고르는 명령도 알갱이고, 그 결과 쏟아져 내려오는 정보들도 패킷이다.
 
그런데 이 입자들은 어떻게 우리 집의 와이파이에서 저 지구 반대편에서 운영 중인 서비스까지 여행할 수 있을까? 길을 잃지는 않을까? 그 길(route)을 찾도록 도와주는 기기들이 바로 라우터(router, 루터라고 부르는 편이 맞는 일일 터이지만)다. 라우터는 여러분 집에도 있다. 통신사 설치 기사가 설치해 주고 간 공유기도 모두 라우터, 알갱이를 상류의 라우터까지 전달하는 역할을 한다. 그리고 이들 라우터는 길을 찾아 주기 위해 라우팅 정보를 교환한다. 어엿한 컴퓨터들이다.
 
그런데 우리의 패킷은 아주 먼 길을 가야 한다. 네트워크끼리 데이터 패킷을 전달하는 방법을 관리하며 효율적인 경로를 찾아 주는 얼개가 필요하다. 예컨대 여러분이 KT의 인터넷을 쓰고 있다면, 여러분의 디바이스들은 KT라는 네트워크의 구성원이 된다. 그리고 KT가 나누어주는 IP 어드레스를 할당받는다. 이제 그 주소에서 지구 반대편의 예컨대 페이스북의 IP 어드레스까지 찾아가야 한다.
 
여기에는 두 가지 기법이 필요하다. 하나는 facebook.com이라는 친숙한 주소를 숫자로 이루어진 IP 어드레스, 즉 기계에게 필요한 주소로 바꾸는 일이다. 이를 DNS(Domain Name System), 즉 도메인 네임을 해석하는 시스템이라 하는데, 주소는 종종 바뀌므로 최신 주소를 최종적으로 전달하는 건 주소를 할당하고 있는 그 영토의 책임이다. 그렇게 최종 목적지의 주소를 알아냈다면 이제 거기까지 어떻게 가야 하는지 각 땅의 지도를 이어 붙여 봐야 한다.
 
마크 저커버그가 페이스북 이름을 메타로 바꾼다고 발표하는 영상. [인터넷 캡쳐]

마크 저커버그가 페이스북 이름을 메타로 바꾼다고 발표하는 영상. [인터넷 캡쳐]

 
이 지도를 잇는 일에서 두 번째 기법이 필요한데 이번에 유명해 진 BGP(Border Gateway Protocol)가 그중 하나다. 그럴듯하게 번역해 보자면 ‘국경 관문 협정’. 기관마다 기업마다 그리고 통신사마다 덩어리져 있는 네트워크의 군집들을 다른 네트워크와 이어지기 위해서 하는 약속이다. 최신 상황을 평가하고 반영해 최선의 경로를 찾을 수 있도록 내 영토의 경로 정보를 교환한다. 각각의 영토 관할 하의 각 집집마다 어떻게 찾아가야 하는지 그 주소와 경로를 수시로 서로 업데이트하면서 최적화하는 것이 바로 인터넷의 비결이었다. 이를 ‘라우팅 경로를 갱신’한다고 말한다.
 
그렇게 최종 목적지의 주소와 그 경로를 계산해 낸 알갱이들은 이제 내달리게 된다. 지구를 1초에 7바퀴 반 도는 빛의 속도, 그리고 적어도 1초에 수백, 수천만 회의 계산을 수행하는 라우터 속 반도체 덕에 수증기처럼 쏟아지는 알갱이들도 눈 깜짝할 사이에 다 제 갈 길을 찾아간다.
 

안일한 리스크 대비가 만들어낸 재난  

그런데 만약 이 두 기능 중 하나가 망가진다면 (놀랍게도 대개의 인터넷 장애는 이 둘 중 하나가 고장 나서 벌어지는데) 주소를 찾을 수 없거나 국경 관문에서 엉뚱한 길을 안내받게 된다. (KT의 경우 외부 관문도 아니라 내부 관문에서인 듯하지만) KT도 페이스북도 모두 이 상황에 빠졌고, KT와 페이스북이라는 인터넷상의 거대한 영토가 주소와 경로를 잃고 인터넷의 내비 지도 위에서 사라져버리게 된 것이다.  
 
그런데 KT와 페이스북 장애의 진짜 공통점은 따로 있었다. 두 사건 모두 라우팅 정보가 잘못 갱신되고 또 이것이 파급되어 지도가 엉켜 버린 일이었지만, 그 갱신 작업이 초래할 리스크에 대해 안일했기 때문에 벌어진 일이었다.
 
KT는 협력업체의 실수 탓으로 돌렸다. 협력업체라는 말, 참 서글픈 단어다. 어째 우리 사회에서는 중차대하건만 귀찮고 위험한 일은 늘 하청이 다 하고 있을까. 페이스북은 이런 인간의 실태(失態)를 방지하기 위해 아예 소프트웨어로 자동화했었는데, 그 자동화 장치 안에 버그, 다시 인간의 실수가 있었다.
 
인프라 사고는 대개 현장에서 풀려 버린 나사 하나가 원인이다. 그러한 일은 대개 조직이 현장의 소중함을 잊거나 초심을 잃고 관심이 엉뚱한 데로 가 있을 때 벌어진다. 
 
※ 필자는 소프트웨어 엔지니어 겸 IT 평론가다. IBM, 마이크로소프트를 거쳐 IT 자문 기업 에디토이를 설립해 대표로 있다. 정치·경제·사회가 당면한 변화를 주로 해설한다. 저서로 [IT레볼루션], [오프라인의 귀환], [우리에게 IT란 무엇인가] 등이 있다.  
 
 

김국현 IT 평론가
Log in to Twitter or Facebook account to connect
with the Korea JoongAng Daily
help-image Social comment?
lock icon

To write comments, please log in to one of the accounts.

Standards Board Policy (0/250자)

많이 본 뉴스

실시간 뉴스