오픈소스 기계번역(Open Source MT) 기술 구현을 위한 핵심 도전과제 ①

최태우 / 기사승인 : 2019-06-28 11:30:04
  • -
  • +
  • 인쇄
[source=pixabay]

기계번역(MT)은 인공지능(AI)과 기계학습(ML) 분야에서 어려운 문제 중 하나로 꼽힌다. 이는 대다수 사람들이 생각하는, ‘문제를 완벽히 해결하는 인공지능(AI-complete problems)’의 뜻을 담고 있는 ‘완벽한 AI’를 구현하는 것 만큼 풀기 어려운 것이 바로 컴퓨터를 사람만큼 지능적으로 만드는 것이다.


이와 같은 이유로 인류가 거의 70년 간 MT 문제를 해결하기 위해 노력해온 것은 놀랄만한 일이 아니다.


정확하게 번역하기 위해서는 이성과 상식적인 지식, 동작과 조작, 지각, 사회적 지성의 기초가 되는 직감 등 인간이 갖춘 다양한 지적능력을 갖춰야 한다. 그렇기 때문에 개인적으로 “MT가 가장 완벽한 AI”라고 생각하는 사람들 중의 한 명이다.


오늘날 우리는 오픈소스 ML과 AI 관련 개발 플랫폼이 확산되고 있는 시대에 살고 있다. 따라서 사람들은, 다수의 데이터와 높은 컴퓨팅 성능을 활용하면서, 기능적으로 유용한 MT 시스템(솔루션)이 DIY(do-it-yourself) 툴 키트로 개발될 수 있다고 믿고 있다.


하지만 알다시피 현실은 훨씬 복잡하다. 성공의 길은 구불구불하고 때로는 개발자를 배신하기도 한다. 오픈소스 기반의 MT 솔루션을 성공적으로 구축하기 위해서는 몇 가지 중요한 요소를 반드시 고려해야한다.


- ML 기술을 활용한 기본 역량 갖추기
- MT 시스템을 구축하고 개발하는 데 필요한 데이터에 대한 이해
- 적절한 데이터의 준비와 데이터 최적화 프로세스에 대한 이해
- 개발 프로세스에 적용되는 모델 구축의 성공과 실패를 명확히 측정·구분하고 대응하는 능력
- 엔터프라이즈급 시스템에서 MT를 구현하는 데 필요한 추가 지원 툴과 인프라의 이해


대부분의 오픈소스를 활용한 MT 솔루션 개발이 실패하는 이유는 쉽게 활용할 수 있는(이미 오픈된) 공공 MT 솔루션과 성능이 같거나 더 나은 결과 값을 일관성 있게 제공하지 못하거나 효과적으로 배치할 수 없기 때문이다.


물론 이것이 불가능하다는 말은 아니다. 하지만 성공을 위해 필요한 투자, 장기적인 약속이 과소평가되거나 혹은 단순히 제대로 이해되지 않는 경우가 많은 것 또한 사실이다. 일반적으로 공공 MT 솔루션에서 제공되는 옵션보다 결과 값의 정확도가 낮더라도, 사용성과 높은 보안기술을 제공하는 기업용 시스템에 도입된 MT 솔루션의 성공사례는 다수 보고되고 있다.


업계에서는 LSP 구축 시스템보다 우수한 무료 MT 솔루션(혹은 API)을 활용할 수 있다면, 많은 개발자들이 이를 사용할 것으로 예상하고 있다. 높은 수준의 결과 값을 제공하는 자체 개발한 MT 시스템의 경우, 기업이 현재 운영하고 있는 코어 인프라·플랫폼과의 통합과정에서 문제점이 종종 발생되곤 한다.


역사의 교훈을 무시하는 사람들은 또 다시 실패할 수밖에 없다는 말도 있다. 최근에 모세(Moses)에서 통계 기반 MT(Statistical Machine Translation, SMT) 툴 키트가 출시되었을 때, 업계의 많은 사람들이 고도화된, 수천 개의 MT 시스템이 개발될 것이라는 기대감을 갖고 있었다. 물론, 기술 수준이 실험단계에 그치지 않았다는 것을 알아차리는 데 많은 시간이 걸리지 않았다.


그렇다면, 오픈소스에 의존하는 기업이 해결해야만 하는 위험요소는 무엇일까? 지속적으로 발전하고 있는 MT 기술의 경우, 개발자와 엔지니어 모두 실행 가능한 시스템을 개발·운영하기 위한 연구를 이해하고 해당 기술을 최신 상태로 유지해야할 필요가 있다.


필요한 수준에서 지속적으로 수행하는 시스템을 생산하기 위해서는, 심층적이고 전문적인 지식과 폭 넓은 경험이 필요하다. 최소한 스스로 시스템 구축을 위해 해당 기술을 개발하고자 한다면, ML 기술을 둘러싸고 있는 다양한 요소에 대한 기본적인 지식을 갖춰야 한다.


오픈소스가 실제로 같은 알고리즘에 대한 접근성을 제공하는 반면, MT 시스템을 구축하는 데 필수적인 기술은 알고리즘이 음질 기반에서 학습하도록 보장하기 위해 적절한 데이터이 분석, 데이터의 준비와 정리를 수행하는 것이라고 할 수 있다.


다양한 사용사례의 고유한 요구사항을 이해하는 숙련된 개발자들은, 이를 통해 MT 관련 작업을 강화하고, 개선하기 위한 추가 툴과 프로세스를 개발할 수 있을 것이다.



글 : 커티 바시(Kirti Vashee) / MT 기술 에반젤리스트 / SDL



[저작권자ⓒ IT비즈뉴스. 무단전재-재배포 금지]

  • 글자크기
  • +
  • -
  • 인쇄
뉴스댓글 >

주요기사

+

많이 본 기사

마켓인사이트

+

컴퓨팅인사이트

+

스마트카

+

PHOTO NEWS