문서에서 AI 데이터 추출 가능…한컴, ‘데이터 로더’ 글로벌 출시

PDF 파일에서 텍스트 등 AI 학습용 데이터 추출 도

2024-04-18     김소현 기자
판교 한글과컴퓨터 본사

한글과컴퓨터가 PDF 문서에서 인공지능(AI) 데이터를 추출하는 소프트웨어개발키트(SDK) ‘한컴 데이터 로더(Loader)’를 출시하고 본격적인 글로벌 B2B 시장 공략에 나선다고 18일 밝혔다.

현재 AI 업계에서는 대규모언어모델(LLM)에서 발생하는 환각(할루시네이션) 현상을 최소화하는 해결책으로 검색증강생성(RAG) 기술에 주목하고 있다.

RAG는 특정 데이터베이스(DB)나 문서 집합으로부터 관련 정보를 검색(Retrieval)한 뒤 그 정보를 LLM에 적용해 적절한 답변으로 텍스트를 생성하는 구조로 실시간 정보가 업데이트되며 정보의 정확도가 높은 것이 특징이다. 

다수의 글로벌 기업·기관이 RAG 도입을 고려하고 있으나 구조화되지 않은 문서에서는 데이터 추출이 어려운 상황으로 전처리 기술이 주요 이슈로 자리하고 있다.

한컴은 “35년간 축적한 문서 기술을 바탕으로 문서의 AI 데이터화를 위한 전처리 기술을 모듈화한 한컴 데이터 로더를 출시하게 됐다”고 설명했다. 

한컴 데이터 로더는 대표 전자문서 형식인 PDF에서 텍스트를 추출해 AI가 학습하기 쉬운 여러 포맷(JSON/CSV/TXT/XML 등)으로 변환해 주는 도구로, 오피스 문서에서도 텍스트 외 다양한 객체를 AI 학습용 데이터로 추출이 가능하다고 한컴은 설명했다. 국내 대기업을 대상으로 하는 테스트도 마무리한 상태다.

한컴은 내달부터 국내를 비롯해 최근 투자한 스페인 AI 보안 솔루션 기업 ‘페이스피’의 네트워크와 글로벌 고객사를 연계해 유럽시장을 우선 공략할 계획이다.

최근에는 해외 고객사를 대상으로 한컴 데이터 로더를 포함해 자사 AI·SDK 기술을 소개하는 해외향 다국어 사이트도 오픈하고 시장 공략 채비에 나서고 있다.

김연수 한컴 대표는 “올해를 글로벌 빅테크 기업으로 나아가는 원년으로 삼고 인수·투자·협력을 여러 방면으로 진행하며 AI 사업을 본격화하고 있다”며 “글로벌 AI 시장에 빠르게 침투해 AI 기업으로서 의미 있는 성과를 내겠다”고 말했다.