KT와 페이스북의 장애에서 배운 리스크 관리의 중요성 [김국현 IT 사회학]
인터넷상 주소·경로 잃어버린 사고
라우터·BGP 관리 부실이 만들어내
10월은 기술과 10월의 합성어인 텍토버(Techtober)라는 말이 있을 정도로 다양한 신제품 발표가 이어지는 황금기다. 그런데 지난 10월은 우리의 일상이 얼마나 기술에 과의존하고 있는지 깨닫게 한 시기였다.
10월 말 1시간 반가량 KT가 먹통이 되면서 원격 근무에 의존 중인 많은 기업 업무가 마비된 것은 물론, 식당에서는 당장 결제조차 되지 않아 점심 장사를 망치기도 했다. 학교 수업도 중단되고, 112나 119 등마저 영향을 받았다.
10월 초에는 페이스북과 그 산하 서비스(인스타그램, 왓츠앱 등)가 무려 5시간 이상 다운된 적도 있었다. 한국 시각으로는 야밤에 벌어진 일이라서 잠잠했지만, 전 세계적으로는 얼마나 많은 일들을 페이스북에 의존하고 있었는지 깨닫는 계기가 되었다. 광고 마케팅에서 각종 로그온, 메신저까지 그리고 심지어 개발도상국에서는 페이스북은 무료 통신사의 역할도 했으니 혼돈은 꽤 컸다.
그런데 이 두 사건은 쌍둥이 사건이라고 봐도 불릴 만큼 비슷한 점이 있었다. 둘 다 ‘라우팅 경로’라는 것의 관리 실패로 벌어진 일이었다. 즉 내비게이션 지도가 갑자기 엉터리가 돼 길거리가 혼란의 도가니가 된 것 같은 일이 인터넷에서 벌어진 셈인데, 이 두 회사는 너무나도 많은 인터넷상의 도로망을 관리하고 있어서 사태가 커졌다.
라우팅 경로? 인터넷은 어떻게 움직이나
인터넷 이전의 시대에도 네트워크는 있었지만, 대학마다 연구소마다 기업마다 따로따로 존재하고 있었을 뿐이었다. 그 기관들이 서로 이어지기 시작하면서 지금 우리가 너무나도 당연하게 생각하는 하나의 온라인 세상이 지구 위에 만들어질 수 있었다.
인터넷을 가능하게 하는 네트워크 기술의 주인공은 패킷, 즉 정보가 들어 있는 캡슐의 알갱이들이다. 우리가 주고받는 정보들은 이 작은 입자들이 모여서 구성된 것, 스트리밍조차 마치 폭포수 속 H2O의 분자들처럼 작은 입자로 그 흐름이 구성되어 있는 것이다. 이 알갱이들은 클라우드 위 서버와 우리들의 스마트폰 사이를 왔다 갔다 해야 한다. 앱을 띄워 영상을 고르는 명령도 알갱이고, 그 결과 쏟아져 내려오는 정보들도 패킷이다.
그런데 이 입자들은 어떻게 우리 집의 와이파이에서 저 지구 반대편에서 운영 중인 서비스까지 여행할 수 있을까? 길을 잃지는 않을까? 그 길(route)을 찾도록 도와주는 기기들이 바로 라우터(router, 루터라고 부르는 편이 맞는 일일 터이지만)다. 라우터는 여러분 집에도 있다. 통신사 설치 기사가 설치해 주고 간 공유기도 모두 라우터, 알갱이를 상류의 라우터까지 전달하는 역할을 한다. 그리고 이들 라우터는 길을 찾아 주기 위해 라우팅 정보를 교환한다. 어엿한 컴퓨터들이다.
그런데 우리의 패킷은 아주 먼 길을 가야 한다. 네트워크끼리 데이터 패킷을 전달하는 방법을 관리하며 효율적인 경로를 찾아 주는 얼개가 필요하다. 예컨대 여러분이 KT의 인터넷을 쓰고 있다면, 여러분의 디바이스들은 KT라는 네트워크의 구성원이 된다. 그리고 KT가 나누어주는 IP 어드레스를 할당받는다. 이제 그 주소에서 지구 반대편의 예컨대 페이스북의 IP 어드레스까지 찾아가야 한다.
여기에는 두 가지 기법이 필요하다. 하나는 facebook.com이라는 친숙한 주소를 숫자로 이루어진 IP 어드레스, 즉 기계에게 필요한 주소로 바꾸는 일이다. 이를 DNS(Domain Name System), 즉 도메인 네임을 해석하는 시스템이라 하는데, 주소는 종종 바뀌므로 최신 주소를 최종적으로 전달하는 건 주소를 할당하고 있는 그 영토의 책임이다. 그렇게 최종 목적지의 주소를 알아냈다면 이제 거기까지 어떻게 가야 하는지 각 땅의 지도를 이어 붙여 봐야 한다.
이 지도를 잇는 일에서 두 번째 기법이 필요한데 이번에 유명해 진 BGP(Border Gateway Protocol)가 그중 하나다. 그럴듯하게 번역해 보자면 ‘국경 관문 협정’. 기관마다 기업마다 그리고 통신사마다 덩어리져 있는 네트워크의 군집들을 다른 네트워크와 이어지기 위해서 하는 약속이다. 최신 상황을 평가하고 반영해 최선의 경로를 찾을 수 있도록 내 영토의 경로 정보를 교환한다. 각각의 영토 관할 하의 각 집집마다 어떻게 찾아가야 하는지 그 주소와 경로를 수시로 서로 업데이트하면서 최적화하는 것이 바로 인터넷의 비결이었다. 이를 ‘라우팅 경로를 갱신’한다고 말한다.
그렇게 최종 목적지의 주소와 그 경로를 계산해 낸 알갱이들은 이제 내달리게 된다. 지구를 1초에 7바퀴 반 도는 빛의 속도, 그리고 적어도 1초에 수백, 수천만 회의 계산을 수행하는 라우터 속 반도체 덕에 수증기처럼 쏟아지는 알갱이들도 눈 깜짝할 사이에 다 제 갈 길을 찾아간다.
안일한 리스크 대비가 만들어낸 재난
그런데 KT와 페이스북 장애의 진짜 공통점은 따로 있었다. 두 사건 모두 라우팅 정보가 잘못 갱신되고 또 이것이 파급되어 지도가 엉켜 버린 일이었지만, 그 갱신 작업이 초래할 리스크에 대해 안일했기 때문에 벌어진 일이었다.
KT는 협력업체의 실수 탓으로 돌렸다. 협력업체라는 말, 참 서글픈 단어다. 어째 우리 사회에서는 중차대하건만 귀찮고 위험한 일은 늘 하청이 다 하고 있을까. 페이스북은 이런 인간의 실태(失態)를 방지하기 위해 아예 소프트웨어로 자동화했었는데, 그 자동화 장치 안에 버그, 다시 인간의 실수가 있었다.
인프라 사고는 대개 현장에서 풀려 버린 나사 하나가 원인이다. 그러한 일은 대개 조직이 현장의 소중함을 잊거나 초심을 잃고 관심이 엉뚱한 데로 가 있을 때 벌어진다.
※ 필자는 소프트웨어 엔지니어 겸 IT 평론가다. IBM, 마이크로소프트를 거쳐 IT 자문 기업 에디토이를 설립해 대표로 있다. 정치·경제·사회가 당면한 변화를 주로 해설한다. 저서로 [IT레볼루션], [오프라인의 귀환], [우리에게 IT란 무엇인가] 등이 있다.
김국현 IT 평론가
ⓒ이코노미스트(https://economist.co.kr) '내일을 위한 경제뉴스 이코노미스트' 무단 전재 및 재배포 금지
많이 본 뉴스
1尹 조사 앞둔 공수처, 수사 준비 속도…성탄절 출석 응할까
2日 자녀없는 고령남성 2050년 2배 증가…고독사 우려 커져
3 남태령 경찰차벽 28시간여만에 철수…“트랙터 관저까지 행진”
4“강용석, 4년간 변호사 못한다”…도도맘 무고교사 유죄 확정
5‘크리스마스 이브’, 사람 가장 많이 모이는 곳 명동 아닌 ‘이곳’
6‘이재명은 안된다’ 선관위 현수막 불허에…국힘 “편파적 결정”
7금융자산 10억 이상 ’부자‘ 46만명…300억이상도 1만명 넘어
8비트코인, 나흘 만에 하락세 ‘멈춤’…9만7000달러대 거래
99980원 ‘초가성비’…3주 만에 1만5000개 팔린 케이크