[사진=게티이미지]
[사진=게티이미지]

증가하는 데이터를 효과적으로 관리하고 수집하기 위해 그 동안 기업들은 빅데이터 인프라 플랫폼을 구축했다. 그런데 빅데이터 플랫폼을 구축하고 보니 또 다른 문제가 발생했다. 분석에 활용되지 못한 채 방치되는 ‘다크 데이터(Dark Data)’가 많아진 것이다. 

이는 빅데이터 인프라 구축의 목적을 ‘데이터의 품질’이 아닌 ‘데이터의 수집’에만 두었기 때문이다. 

IDC는 2025년까지 전세계의 다크 데이터가 175제타바이트(ZB)에 달할 것으로 전망했다. 게다가 급증하는 다양한 형태의 데이터 중 비정형 데이터의 약 90%가 분석에 활용되지 않고 있으며, 이들 데이터의 90%가 불과 2년새 생성되었다는 점도 주목해야 한다.

다크 데이터가 급증하게 된 이유로 데이터 분석 도구의 부재, 지나치게 많은 데이터의 양, 분석이 어려운 불완전한 데이터의 증가 등을 꼽는다. 빅데이터 플랫폼 구축 이후 수년 동안 기술이 발전하며 데이터 처리와 관련된 문제는 어느 정도 해결됐다. 그러나 기업 곳곳에 존재하는 다크 데이터를 비즈니스 데이터로 전환하는 과제는 여전히 남아있다. 

◆다양하고 복잡해진 데이터 분석 요구
데이터 분석 및 관리 프로세스는 ▲데이터 수집 ▲데이터 전처리 ▲모델 학습 ▲추론 ▲스테이징 및 아카이빙의 과정을 거친다. 

정형 데이터만 수집하던 과거와 달리 현재는 데이터를 처리하는 다양한 알고리즘과 애플리케이션을 통해 데이터가 수집되고, 수집된 데이터는 데이터 정제라는 전처리 과정을 거친 후 모델 학습이 진행된다. 

전체 프로젝트의 약 70~80%가 데이터 정제 작업에 할애될 정도로 상당한 시간과 노력이 소요되며, 고성능 CPU, GPU 서버 등 고가 장비가 필요하기 때문에 비용도 만만치 않다. 

전처리 과정을 거쳐 생성된 모델은 현업 담당자가 쉽게 사용할 수 있도록 ‘추론 시스템’으로 전달된다. 현업 담당자는 실무 지식은 풍부하지만 데이터 분석 결과만으로는 내용을 직관적으로 파악하기 어렵기 때문에 이해를 돕는 시각화 도구가 함께 제공돼야 한다.  

다양하고 복잡한 데이터 분석 요구사항
다양하고 복잡한 데이터 분석 요구사항

물론, 추론 시스템 구축이 끝은 아니다. 데이터 수집부터 추론 시스템까지 모든 과정은 주기적으로 반복되는 재학습 과정이 필요하며, 지금처럼 데이터가 급증하는 상황에서는 기존보다 그 주기가 더 빨라져야 한다. 

아울러 생성된 모델 및 데이터를 관리할 저장소도 필요하고, 아카이빙과 스테이징이 가능한 장비와의 연계도 필요하다. 

데이터 분석 과정이 복잡해지고 데이터 형태가 다양해지면서 대량의 데이터를 빅데이터 시스템에서 분석할 수 있는 데이터 과학자가 필요해졌다.

데이터 과학자들은 상용 솔루션, R, 파이썬 등 자신에게 익숙한 툴을 이용해 분석을 진행한 후 ML옵스(MLOps) 환경에서 자동화된 분석 결과를 최종 제시한다. MLOps 환경은 대용량의 다양한 사용자를 연결할 수 있는 컨테이너 기반, 단일 플랫폼 등 현업 환경에 따라 다양하게 구현할 수 있다. 

이처럼 다양한 솔루션이 존재하기 때문에 분석 내용을 전체적으로 아우르고, 자동화와 스케줄링까지 해줄 수 있는 전문 플랫폼의 중요성이 커지고 있다. 

펜타호 기반의 데이터 활용 프로세스
펜타호 기반의 데이터 활용 프로세스

◆엔드-투-엔드 빅데이터 통합 플랫폼이 필요한 이유
급증하는 데이터, 곳곳에 산재돼 있어 활용하기 어려운 데이터는 성공적인 디지털전환(DT)의 걸림돌이다. 디지털전환의 속도를 높이기 위해 기업은 보유한 모든 데이터를 통합해 분석하고, 이를 비즈니스 확장을 위한 인사이트로 활용해야 한다. 

권동수 전문위원
권동수 전문위원

데이터 기반 의사결정을 강화하고 비즈니스 경쟁력을 높이기 위해서는 분석한 내용을 전체적으로 아우르고, 자동화와 스케줄링까지 해줄 수 있는 전문적이고 비용 효율적인 운영환경을 갖춰야 한다. 

효성인포메이션시스템이 제공하는 펜타호는 데이터의 ETL(추출/변환/적재), 고급 데이터 분석(R/파이썬), 비즈니스 인텔리전스(BI) 시각화가 가능한 엔드-투-엔드 빅데이터 통합 플랫폼이다.

펜타호는 정형 및 비정형 데이터에 대해 수집부터 변환, 적재, 분석, 그리고 시각화까지 일련의 과정을 모두 제공해 기업의 비즈니스 혁신을 가속화하는 데 기여하고 있다.

펜타호는 데이터가 수집돼 인사이트로 도출되기까지의 프로세스 환경을 지원하면서 금융, 공공, 제조, 게임 등 국내 다양한 사업 분야 고객사에 도입돼 데이터 경영을 위한 시작점이 되고 있다.

데이터 엔지니어가 데이터를 수집하면 현업 비즈니스에 익숙한 데이터 관리자가 정제 작업을 진행하고, 이 데이터를 이용해 데이터 애널리스트, 데이터 사이언티스트가 모델링을 수행한 후 비즈니스 분석가의 분석을 거치면 최종 사용자가 이용할 수 있는 시각화된 최종 결과물이 생성되는 것임을 명확히 인지해야 한다.

 

글: 권 동 수 / 데이터사업팀 전문위원 / 효성인포메이션시스템

관련기사

저작권자 © ITBizNews 무단전재 및 재배포 금지