print

‘10.15 먹통’ 잊었나…카카오톡 잦은 장애 원인 ‘관리 미흡’

5월에만 3차례 ‘먹통’…과기정통부, 사고 원인 조사해 시정 요구

지난 2022년 10월 15일 판교 데이터센터에서 발생한 화재 영향으로 카카오톡 서비스가 장애를 일으켰다. 당시 카카오가 운영하는 모든 서비스가 정상화되기까진 127시간 33분이 소요됐다.  [사진 연합뉴스]

[이코노미스트 정두용 기자] ‘국민 메신저’ 카카오톡이 5월에만 3차례 멈췄다. 카카오는 2022년 10월 15일 장시간·대규모 서비스 장애로 대국민 사과를 진행한 바 있다. 그런데도 다시금 잦은 ‘먹통’ 현상이 나타나 국민 대다수가 불편을 겪었다. 정부는 이에 카카오톡 장애 원인을 조사하고 회사에 시정을 요구했다.

과학기술정보통신부(과기정통부)는 최근 발생한 카카오톡의 연속된 서비스 장애를 점검하고, 미흡 사항에 대한 시정조치를 심의·의결했다고 31일 밝혔다. 카카오톡은 ▲13일 오후 1시 44분부터 1시 50분까지 6분간 ▲20일 오후 2시 52분부터 2시 58까지 6분간 ▲21일 오전 8시 30분부터 9시 24분까지 54분간 서비스 장애를 일으켰다.

과기정통부는 이에 지난 28일부터 30일까지 통신재난관리심의위원회를 진행했다. 이를 통해 이번 카카오톡 서비스 장애의 원인과 대응·복구 현황을 점검하고, 2024년 통신재난관리계획의 이행 여부도 살폈다. 이 과정에서 발견된 미흡 사항을 시정하라고 카카오에 요구했다. 통신재난관리계획은 ‘방송통신발전법’ 제36조에 따라 사업자가 통신 재난·장애에 대해 예방·대비·대응·복구를 위해 수립한 모든 주기적 계획을 말한다.

과기정통부는 이날 카카오 재난대응 총괄 책임자와 별도 면담을 통해 통신재난관리심의위원회의 심의·의결 결과에 따른 시정 요구사항을 전달했다. 과기정통부 측은 “카카오가 서비스를 안정적으로 제공하기 위한 책임 있는 대책을 마련하도록 엄정 촉구했다”고 전했다.  카카오는 이에 따라 1개월 이내 개선 조치계획을 수립하고, 3개월 이내에 시정 결과를 제출해야 한다.

이종호 과기정통부 장관은 “국민 생활에 큰 영향을 주는 디지털 서비스 장애가 다시는 반복되지 않아야 한다”며 “디지털서비스 장애는 국민 일상의 불편을 넘어 사회·경제 전반에 지대한 영향을 끼치는 만큼 재발방지를 위해 사업자의 관리 체계를 면밀하게 점검하겠다”고 말했다. 이어 “카카오도 국민의 관심으로 성장한 기업인 만큼 재난·장애 관리를 위한 조직문화 개선과 함께 이용자에게 편리하고 안정적인 서비스를 제공하도록 책임을 다할 필요가 있다”고 강조했다.

카카오톡 3차례 ‘먹통’…왜?

카카오톡의 최근 3차례 서비스 장애는 대다수 운영 미흡에 따라 발생한 것으로 조사됐다.

과기정통부는 13일 서비스 장애로 당시 카카오톡 이용자의 약 80%가 카카오톡 메시지 발신 지연과 실패로 불편을 겪었을 것으로 추정했다. 카카오톡 서비스가 운영되고 있는 데이터센터 서버의 파일을 업데이트하는 작업 중 기존 파일을 삭제하는 과정에서 오류가 발생해 나타난 서비스 장애다. 카카오는 장애 발생 직후 서비스 이중화와 여유 서버를 가동해 서비스를 복구했다. 과기정통부 측은 “카카오가 실제 작업을 진행하기 전 테스트를 진행하지 않아 발생할 수 있는 오류에 대비하지 못한 것”이라고 전했다.

20일 발생한 서비스 장애는 네트워크 부하 분산을 위한 내부 시스템 기능개선 작업 중 발생했다. 당시 카카오톡 이용자의 약 80%가 메시지 수발신 실패 현상을 겪은 것으로 추정됐다. 카카오는 해당 장애 발생 직후 13일 사고와 마찬가지로 서비스 이중화를 가동해 카카오톡을 정상화했다.

과기정통부 측은 “카카오가 실제 작업을 진행하기 전에 사전 테스트는 실시했지만, 개발 결과물의 테스트 환경이 실제 카카오톡 운영환경과 차이가 커 미리 장애 가능성을 식별하지 못한 것”이라고 지적했다.

21일 발생한 서비스 장애는 두 번째 장애를 일으킨 서버의 오류를 미해결한 상태에서 동일 데이터센터에 있는 다른 서버에 자바(Java) 프로그램 업데이트 진행이 원인으로 지목됐다. 당시 카카오톡 이용자의 약 8%에 영향을 미쳤을 것으로 추정됐다. PC용 카카오톡 로그인 실패 및 모바일용 카카오톡 메시지 수발신 지연이 있었다.

카카오는 장애 발생을 인식한 후 자동화 도구 등을 이용해 복구를 시도했다. 또 장애 원인 분석 및 조치 방안을 검토한 후 서비스 이중화를 가동했다. 추가적인 수동 복구 작업을 거쳐 서비스를 정상화했다.

과기정통부 측은 “카카오가 내부적으로 작업 통제를 하지 않아 전날 장애가 발생한 서버의 오류를 미해결한 상황에서 통제 없이 새로운 작업을 진행해 오류가 발생한 것”이라고 전했다.

과기정통부는 이에 카카오가 재발 방지를 위해 ▲주요 작업 전 사전테스트 체계 강화 ▲작업관리 통제 강화 ▲통신 재난 관련 매뉴얼 및 지침 보완 ▲모니터링 시스템 고도화를 통한 장애 탐지 강화 ▲장애 원인분석과 사후관리 체계화 ▲장애 사실 이용자 고지 개선 등을 진행할 필요가 있다고 봤다.

ⓒ이코노미스트(https://economist.co.kr) '내일을 위한 경제뉴스 이코노미스트' 무단 전재 및 재배포 금지

많이 본 뉴스

1‘3000억원대 횡령’ 경남은행 중징계….“기존 고객 피해 없어”

2수능 2개 틀려도 서울대 의대 어려워…만점자 10명 안팎 예상

3중부내륙철도 충주-문경 구간 개통..."문경서 수도권까지 90분 걸려"

4경북 서남권에 초대형 복합레저형 관광단지 들어서

5LIG넥스원, 경북 구미에 최첨단 소나 시험시설 준공

6“내 버스 언제오나” 폭설 퇴근대란에 서울 지하철·버스 증회 운행

7안정보다 변화…이환주 KB라이프 대표, 차기 국민은행장 후보로

8 KB국민은행장 후보에 이환주 KB라이프 대표

9한스미디어, ‘인공지능 마케팅’ 기술 담긴 ‘AI로 팔아라’ 출간

실시간 뉴스

1‘3000억원대 횡령’ 경남은행 중징계….“기존 고객 피해 없어”

2수능 2개 틀려도 서울대 의대 어려워…만점자 10명 안팎 예상

3중부내륙철도 충주-문경 구간 개통..."문경서 수도권까지 90분 걸려"

4경북 서남권에 초대형 복합레저형 관광단지 들어서

5LIG넥스원, 경북 구미에 최첨단 소나 시험시설 준공