상단여백
HOME 컴퓨팅인사이트 테크니컬리포트 포토
고문서 해석에 사용되는 딥러닝 기술 ①

딥러닝 연구자들은 지금 책과 씨름하고 있다. 고문서의 내용을 전사하는 인공지능(AI) 툴을 개발해 수 세기를 거쳐온 문헌을 연구하는 이들을 위해 귀중한 자원을 구축하고 있는 것이다.

그간 고문서는 스캔이나 사진촬영으로 디지털화(化)를 진행해왔다. 그리스 소문자나 독일 프락투어체(Fraktur)와 같은 고문서는 전문가라면 읽을 수 있겠으나, 일반인들이 읽거나 컴퓨터로 검색하기는 불가능에 가깝다.

인력을 동원해 이런 고문서를 일일이 수집해 파일로 만드는 작업은 많이 시간, 비용이 소요된다. 이는 개발자들이 인쇄물이나 손글씨를 기계가 읽을 수 있는 형태로 변환하는 광학문자 인식용 디지털 툴을 개발하게 된 이유이기도 하다. 여기에 딥러닝을 활용하면 정확성이 크게 향상된다.

인문학 연구자들은 이와 같은 AI 분석을 거친 텍스트를 사용해 책 속 특정 단어를 검색하고, 주로 사용됐던 표현이 시간의 흐름에 따라 어떻게 변화했는지 살펴보며 언어 진화 추이를 분석하거나 인구 통계나 사무 기록을 통해 개개인의 배경도 추적할 수 있다.

이번 연구의 또 다른 이점이라면, 텍스트 이미지가 딥러닝 네트워크의 객체인식학습테스트를 수행하기에 이상적인 여건이 된다는 점이다. 동물사진이나 거리의 풍경 속 여러 요소를 식별하는 경우와 달리, 텍스트 속 글자가 ‘c’ 인지 ‘o’ 인지 판가름해야 하는 경우 나올 수 있는 답은 하나이기 때문이다.

토마스 브로이엘(Thomas Breuel) 엔비디아 연구원은 “딥러닝 모델에 개(dog) 사진을 입력하면 개(dog) 일수도 있고, 동물(animal) 일수도 있고, 단모 코기(cogi)라고 답할 수도 있다. 그러나 글자의 경우 답이 명확하다. 정답과 오답이 무엇인지 분명히 알 수 있다”고 설명한다.

고문서와 만난 인공지능(AI) 기술
브로이엘은 2004년부터 고문서 분석에 딥러닝을 사용해 왔다. 순환신경망(RNN)의 일종인 LSTM(Long Short-Term Memory)을 이러한 작업에 적용한 최초의 연구자 그룹을 이끌어왔다.

인식률과 오독률 측면에서 정말 획기적이었다. 그는 연구를 진행할 당시 독일 카이저스라우테른대학교(the University of Kaiserslautern) 교수로 재직 중이었다.

구텐베르크 인쇄술의 본고장인 독일은 고문서 데이터를 열람하기에 좋은 곳이었다고 브로이엘은 말했다. 쿠텐베르크 인쇄술이 발명된 후 르네상스 시기 동안 유럽 전역에 걸쳐 인쇄기가 널리 보급된 점은 우리 모두 알고 있는 사실이다.

16세기부터 20세기 초까지 널리 사용되었던 문자였던 프락투어체(Fraktur). 1885년 출간된 덴마크 동화작가 한스 안데르센의 작품 ‘돼지 치는 왕자(The Swineherd)’가 프락투어체로 쓰여졌다. [위키미디어 커먼스(Wikimedia Commons)]

16세기부터 20세기 초까지 나온 여러 독일어 인쇄물은 프락투어(Fraktur)라고 불리는 예술적 서체로 작성됐다. 브로이엘의 설명에 따르면 지금은 이 서체를 읽을 수 있는 사람이 더 이상 존재하지 않는다.

브로이엘 팀은 2007년 프락투어 인쇄물을 디지털 방식으로 전사하기 위해 OCRopus(optical character recognition)라고 불리는 오픈소스 시스템을 개발했다. 소프트웨어의 최신 버전인 ‘ocropus3’은 깃허브(GitHub)에서 사용할 수 있다. 연구팀의 설명에 따르면, 라틴어 텍스트 오독률이 0.1%에 불과한 수준이다.

연구진은 다른 언어와 텍스트 용으로 트레이닝된 데이터를 사용해 라틴어와 그리스어, 산스크리트어 텍스트에 OCRopus를 사용했다.

또 다른 독일 연구자인 우베 슈프링만(Uwe Springmann)은 OCRpus로 디지털 인문학 연구를 진행했는데, 그가 다루는 15세기에서 17세기까지의 라틴어, 독일어 인쇄물에 대한 문자인식률은 기존 85%에서 98%로 개선됐다.  

슈프링만과 그의 공동저자로 활약하는 크리스티안 레울(Christian Reul)은 현재 엔비디아 GPU와 LSTM, 컨볼루션 뉴럴 네트워크(convolutional neural networks)를 통합한 칼라마리(Calamari)라는 이름의 오픈소스 딥 러닝 OCR 엔진을 사용하고 있다. 뷔르츠부르크 대학교(the University of Würzburg) 문헌·디지털학 센터 디지털화 이사인 크리스티안 레울에 따르면 GPU를 사용해 트레이닝과 추론 속도가 10배 향상됐다.

 

글 : 이샤 살리안(Isha Salian) / 사이언스·인공지능 라이터 / 엔비디아

 

최태우 기자  taewoo@itbiznews.com

<저작권자 © IT비즈뉴스-아이티비즈뉴스, 무단 전재 및 재배포 금지>

최태우 기자의 다른기사 보기
icon인기기사
여백
Back to Top