‘PDF 데이즈 유럽 2025’서 데이터 추출 엔진 선봬
한글과컴퓨터가 독일 베를린에서 열린 유럽 최대 PDF 기술 컨퍼런스 ‘PDF 데이즈 유럽(PDF Days Europe) 2025’에서 자사가 개발한 PDF 문서에서 AI 학습 데이터를 추출하는 ‘오픈데이터로더 PDF’를 선보였다고 19일 밝혔다.
‘PDF Days’는 PDF 기술 표준을 제정하는 PDF협회(PDF Association)가 주최하는 세계 최고 권위의 기술 포럼이다.
한컴은 이번 참가를 통해 자사의 기술 경쟁력을 글로벌 시장에 선보이는 한편, 전세계 기술 전문가들과의 교류를 바탕으로 향후 파트너십을 모색하고 글로벌 오픈소스 생태계를 확장하는 발판을 구축할 계획이다.
한컴은 “이번 공개는 단순한 기술 시연을 넘어 AI시대의 고질적인 데이터 처리 병목 현상을 해결하고 글로벌 AI생태계의 기술 표준으로 자리매김하겠다는 전략적 목표를 담았다”고 설명했다.
한컴의 기술 파트너사이자 PDF 오픈소스 분야에서 높은 신뢰도를 자랑하는 듀얼랩의 보리스 두브로프 CEO가 직접 발표자로 나섰다.
최근 깃허브를 통해 공개한 오픈데이터로더 PDF는 한컴이 오랜 기간 축적한 문서 처리 기술력을 바탕으로 개발한 PDF 데이터 추출 엔진이다.
AI가 문서를 더 잘 이해하고 활용할 수 있도록 JSON, Markdown, HTML 등 최적화된 형태로 데이터를 변환하며 경량화된 소프트웨어개발키트(SDK) 형태로 제공돼 다양한 AI서비스와 연동이 쉬운 점도 특징이다.
정지환 한컴 CTO는 “이번 행사에서 기술 비전을 발표한 것은 한컴의 문서 기술력을 전세계 개발자들과 공유하고 함께 성장하기 위한 상징적인 첫걸음”이라며 “라마인덱스, 제미나이 등 주요 AI 프레임워크와의 호환성을 강화하고 글로벌 커뮤니티와의 협력을 통해 기술을 고도화해 나갈 것”이라고 밝혔다.
이어 “궁극적인 목표는 복잡하고 비정형화된 PDF 문서를 AI가 가장 잘 이해할 수 있는 데이터로 변환하는 기술 분야에서 글로벌 리더십을 확보하고 전세계 AI기술 발전에 기여하는 것”이라고 말했다.
관련기사
- 한컴, PDF 추출 핵심 기술 ‘깃허브’에 오픈소스로 공개
- SKT 유영상 “일상 속 AI 위한 최고 수준 파운데이션 모델 제시”
- 카카오, ‘기업과 인권 국제포럼’서 AI 윤리·리스크관리 사례 공유
- 우리은행, 생성AI 플랫폼 도입…DT 프로젝트 본격화
- 카카오, 경량형 멀티모달 언어모델 오픈소스로 공개
- 韓 방문한 오픈인프라 재단…오케스트로와 ‘탈VM웨어’ 기술 투어
- 한컴, 오픈소스 강자 ‘듀얼랩’과 맞손…PDF 데이터 로더 공동 개발
- KT, 자체 개발 한국적 AI 모델 ‘믿:음 2.0’ 오픈소스로 푼다
- 레드햇, 메타와 엔터프라이즈용 오픈소스 AI 분야 협력 확대
- 레드햇· GCP, 엔터프라이즈 개방형 AI 협력 강화