25일 KT 전국망 장애, “작업시간·지침 어기고 대응시스템도 무용지물, 인재”

KT, 직원 관리 감독 소홀 “인정, 책임 통감한다” 과기정통부, “네트워크 안정성 확보방안 마련”

2021-10-30     최태우 기자
홍진배 과학기술정보통신부 정보보호네트워크정책관이 29일 정부서울청사 브리핑실에서 25일 발생한 KT 네트워크 장애 원인분석 결과를 발표하고 있다. [사진=연합뉴스]

이달 25일 KT 전국망에 장애가 발생한 사태의 전말이 나왔다. 직원의 실수와 안일한 대비로 인한 인재로 드러났다. 중요한 장비를 교체하는 과정에서 명령어 누락이 발견되지 않았고, 예정돼 있는 새벽 시간대가 아닌 평일 낮에 교체를 진행하면서 피해를 키웠다는 지적이다.

KT는 이번 사태에 “전적으로 통감한다”면서도 “이번 사태는 일탈이 이뤄진 예외적인 사례”라고 항변했다. 과기정통부는 새로운 형태의 장애 사고가 발생한 것을 계기로 기술·구조적 대책을 담은 네트워크 안정성 확보방안을 마련할 계획이다.

◆작업 예정시간·지침 어기고 이뤄진 전형적인 ‘인재’
과학기술정보통신부가 29일 발표한 KT 네트워크 장애 원인 분석결과에 따르면, 이번 사고는 25일 KT부산국사에서 기업망 라우터 장비를 교체하던 중 발생했다. 

협력업체 직원이 교체 장비의 네트워크 경로설정(라우팅)을 진행하면서 정보를 입력하는 과정에서 코드 한 줄을 누락한 것이다. 전체 명령글에 오류가 있는지를 확인하는 2회의 사전검증 단계에서도 오류를 발견하지 못해 화를 키웠다.

과기정통부는 “시스템에 지장을 주지 않고 오류를 미리 발견해 수정할 수 있는 가상의 테스트 베드가 없었고, 지역에서 발생한 오류가 전국으로 확산하는 것을 차단할 수 있는 시스템도 부재했다”고 지적했다.

더 큰 문제는 KT가 장비 교체작업을 KT 작업 관리자 없이 협력업체 직원들끼리만 수행하도록 한 것이다. 교체 작업 시간이 심야에서 낮으로 옮겨지면서 피해도 커졌다.

KT네트워크관제센터는 협력업체가 교체작업을 26일 오전 1시∼6시에 진행하도록 승인했으나 알 수 없는 이유로 낮에 진행되면서, 이날 오전 11시 16분부터 오후 12시 45분까지 약 89분간 서비스가 중단됐다.

KT 광화문 사옥

3년 전 KT아현국사 화재를 계기로 지난해 정부와 통신사가 마련한 재난로밍 서비스도 이번 사고에서는 무용지물이었다. 서비스 끝단(엣지 네트워크)을 활용하는 이 서비스는 ‘코드 한 줄’ 누락으로 인한 피해가 핵심 코어망까지 번지면서 먹통이 됐다.

KT가 사고 발생 후 원인으로 지목한 디도스(DDoS) 공격은 조사결과 이번 사고와 관련이 없는 것으로 나타났다.

◆‘예외적인 사례’라는 KT, 과기정통부 “기술·구조적 대책 마련안 찾을 것”
KT는 이번 장애에 대해 “전적으로 책임을 통감한다”면서도 장비교체 작업이 낮 시간대에 진행된 점에 대해서는 “일탈이 이뤄진 예외적인 사례”라고 했다.

KT는 29일 배포한 참고자료를 통해 “일반적으로 KT 네트워크 장비와 관련된 작업은 야간에 진행하는 것이 원칙이며 KT 직원 입회 하에 진행된다”고 설명했다.

이어 “야간작업으로 승인받았지만 이를 위반해 주간에 작업이 이뤄졌다. KT 직원도 관리 감독을 소홀히 했다”고 인정했다. 다만 “이번 행위는 일탈이 이뤄진 예외적인 사례”라며 재발방지를 위해 대책을 수립 중이라고 덧붙였다.

구현모 KT 대표가 28일 서울 종로구 KT혜화타워 앞에서 25일 발생한 KT 인터넷 장애와 관련해 사과하고 있다. [사진=연합뉴스]

과기정통부는 이번 사태를 계기로 향후 통신사가 라우팅 작업을 한 번에 하지 않도록 제한하는 등의 안정성을 확보하는 방안을 검토할 계획이다.

조경식 과기정통부 제2 차관은 29일 KT 네트워크 장애원인 분석결과를 발표하면서 “조사결과를 바탕으로 주요 통신사업자 네트워크의 생존성과 기술적, 구조적 대책이 담긴 네트워크 안정성 확보방안을 마련하겠다”고 설명했다.

주요 통신사가 라우팅 작업을 할 때는 한 번에 업데이트되는 경로 보의 수를 일정 수준 이하로 제한하는 방안을 검토하겠다고 덧붙였다. 이번 사태와 같이 한 줄의 코드 오류로 피해가 전국으로 확산하는 것을 막겠다는 뜻이다.

홍진배 정보보호네트워크정책관은 3년 전 KT아현국사 화재와 이번 장애의 차이에 대해 “당시에는 물리적·국지적 재난에 어떻게 대응할지 초점이 맞춰져 있었다면 이번에는 층위가 다른 시스템적 상황”이라며 “새로운 장애가 나타난 것이고, 그에 한발 한발 잘 대응하는 것이 중요하다”고 말했다.

KT에 대한 당국의 법적제재 여부에 대해서는 “이용자 고지의무, 보상이행 여부 등에 대해선 책임을 물을 수 있다”면서도 “다만 장애로 인해 피해를 일으켰을 때 그에 대해 제재를 가하는 것은 법령상 근거가 없다”고 설명했다.