한컴, PDF 추출 핵심 기술 ‘깃허브’에 오픈소스로 공개
경쟁 오픈소스 대비 벤치마크 지표서 85% 수준 성능 개선
한글과컴퓨터가 PDF 추출 핵심 기술을 깃허브에 오픈소스로 공개했다. 이번에 공개된 오픈데이터로더 PDF(OpenDataLoader PDF)는 한컴이 축적한 문서 처리 기술을 토대로 개발한 PDF 데이터 추출 엔진이다.
최근 허깅페이스는 PDF 문서를 기반으로 한 약 4억7500만건 규모의 대규모 데이터셋(FinePDFs)을 공개한 바 있다.
PDF는 전세계적으로 AI 학습에 가장 널리 사용되는 문서 포맷이지만 내부 구조가 복잡해 학습용 데이터 추출이 쉽지 않다.
한컴은 “이번 오픈소스 프로젝트는 이 문제를 해결하기 위해 지난 7월 PDF 기술 전문기업인 듀얼랩과 체결한 업무협약의 첫 결실”이라고 설명했다.
양사는 오픈소스 기반 PDF 데이터로더를 공동 개발하며 AI 생태계 확장을 목표로 하고 있으며, 이번 기술 공개를 통해 본격적인 확산에 나섰다.
공동 개발한 오픈데이터로더PDF는 PDF 문서 내 텍스트·표·이미지·레이아웃 정보를 높은 정확도와 빠른 성능으로 추출해 AI 학습에 즉시 활용할 수 있는 정형화된 데이터(JSON/Markdown/HTML)로 변환해준다.
기존 경쟁 오픈소스 대비 성능도 우수하다. 한컴은 “벤치마크 테스트 결과 사람의 읽기 순서를 측정하는 지표인 NID(Normalized Indel Distance)에서 타 기술 대비 85%라는 높은 수치를 기록하는 등 다양한 테스트에서 탁월한 성능을 보였다”고 설명했다.
금융·공공기관 등 민감한 데이터를 다루는 환경에서도 네트워크 연결 없이 완전 오프라인으로 작동해 정보 노출 위험도 차단했다.
오픈데이터로더PDF는 악의적인 콘텐츠 삽입을 통한 프롬프트 인젝션(Prompt Injection) 등 보안 위협을 자동 감지·차단하는 기능도 추가로 제공할 예정이다.
한컴은 이번 오픈소스 공개를 단순한 기술 공유에 그치지 않고, AI 생태계 전반의 오픈소스 확산과 기술 고도화를 추진하고 있다.
이를 위해 챗GPT, 제미나이, 랭체인 등 주요 AI 프레임워크와의 연동·호환성을 강화하고 깃허브를 통한 글로벌 개발자 커뮤니티와의 협력을 이어갈 계획이다.
정지환 한컴 최고기술책임자(CTO)는 “AI전환(AX) 시대에 오픈소스는 더 이상 선택이 아닌 기업과 사회 전반의 혁신과 경쟁력 확보를 위한 필수 전략”이라며, “오픈데이터로더PDF 핵심 기술 공개를 통해 전세계 개발자들에게 인정받고 PDF 데이터 추출 기술을 한 단계 더 발전시켜 글로벌 최고 수준의 AI 데이터 추출 기술을 완성하겠다”고 말했다.