상단여백
HOME 오피니언 테크니컬 리포트 포토
‘인공신경망 기계번역(NMT)’ 기술의 등장, 새로운 시대의 번역 기술 ②

지난 글에 이어 이번 글에서는 인공신경망 기계번역(NMT) 기술이 적용되는 다양한 사례, 번역서비스 프로바이더(LSP)와 번역가와 함께 진행하는 ‘기계번역 사후편집(MTPE)’ 부문에서 기술·업무 간 효율성을 높이기 위한 도전과제에 대해 알아보고자 한다.

‘인공신경망 기계번역(Neural Machine Translation, NMT)’ 기술의 탄생은 기술의 진화라기 보다는 혁명으로 다가왔다. NMT가 제공하는 강력한 아키텍처의 패터다임은, 텍스트나 구문 정보를 캡처하는 것이 아니라 실제 의미와 의미를 캡처해 전반적인 번역 품질을 향상시키는 데 있다.

또 이러한 기술의 혜택은, SDL을 비롯한 모든 기계번역(MT) 제공사가 언어 쌍과 조합에 대한 광범위한 테스트를 거친 후 제공되고 있다는 점이다.

[source=pixabay]

그렇다면 NMT는 어떻게 이것을 실현하는 것일까? 간략하게 말하면, NMT는 우리가 주변 세계를 이해하는 것..우리가 만지고, 보고, 냄새를 맡고, 맛을 보는 것 등과 같은..에서 도움이되는 상호 연결된 뉴런으로 인간의 뇌를 모방한 인공신경망 네트워크를 사용하기 때문이다.

NMT 시스템은 소스 텍스트와 대상 텍스트 간의 상관관계를 관찰, 학습하고 올바른 변환(번역 결과물)을 생성할 가능성을 높이기 위해 자체적인 테스트를 거치고 수정한다.

하지만 NMT는 인간의 두뇌가 작동하는 시스템에서 영감을 얻은 것은 사실이지만, 인간과 매우 유사한 언어를 배우는 것은 아니다(인간은 광범위한 사회적 맥락에서 서로 간의 의사소통을 위해 ‘말하는 것’을 배운다).

NMT 시스템은 여전히 2개 언어 데이터 세트에 대한 교육(훈련)을 진행하지만, 번역 규칙을 학습하기 위한 효율적인 프레임워크 안에서 번역 품질을 향상시키는 방법을 택하게 된다.

의미와 의미가 수학을 통해 표현 될 때, 유사한 의미를 지닌 단어는 함께 묶여지는 경향이 있다.

NMT 시스템은 번역 기술을 제공하는 데 있어 텍스트가 시스템에 입력되는 ‘입력 레이어단’을 사용한다. 또 숨겨진 레이어에는 예측된 결과를 제공하기 위해 입력값이 숫자벡터로 인코딩되는 광대한 신경 노드 네트워크가 포함돼 있다. 근본적으로 말하자면, 언어와 번역 문제에 수학적 사고방식을 적용하고 있는 셈이다.

의미와 의미가 수학적 방법이 적용되어 표현될 때, 유사한 의미를 갖는 단어는 함께 묶이는 경향을 보인다. 또 단어의 의미가 여러개인 다의어인 경우에는 다른 클러스터에 나타난다. 예를 들면, ‘은행(bank)’이 지리(geography) 혹은 금융(finance) 클러스터에서도 발생될 수 있다.

아래의 그림처럼 벡터에 더 많은 수학적 접근법을 대입하는 것도 가능하다. 벡터 ‘왕(king)’을 가져와서 벡터 ‘남자(man)’를 빼고 벡터 ‘여자(woman)’를 더하면 벡터 ‘여왕(Queen)’을 구하는 것도 이론적으로 가능하다.

NMT는 롱-레인지(long-range) 컨텍스트와 의존성(dependencies)을 보이는 컨텍스트에 적합한 딥 뉴럴 네트워크(Deep Neural Network, DNN)를 사용한다. 이는 통계적 기계번역의 이점이 제한적인 언어에 적용될 경우 중요하게 작용된다. 일본어와 같은 언어쌍, 영어와 구문구조가 매우 다른 언어들이나 독일어-네덜란드어와 같은 종속성을 보이는 언어에 적용되는 사례를 예로 들 수 있다.

NMT의 주요 이점은 높은 수준의 번역 결과물을 제공한다는 점이다. 하지만 때때로는 자동번역의 내용이 정확하지 않다는 것을 이해하는 것 또한 중요하다. 그리고 이것이 NMT 결과로 작업을 할 때에도 ‘사후편집(Post-Editing)’이 중요한 이유 중 하나일 것이다. 번역가 또한 MNT 기술을 활용하기 위해서는 NMT의 행동과 패턴을 이해하는 것이 중요하다.

NMT와 같은 신기술은 갈수록 고도화될 것이다. 번역서비스 프로바이더(Language Service Provider, LSP)의 핵심과제는 개선된 NMT 기술을 사후편집 경험과 프로바이더에 대한 전략을 조율하는 것이다.

NMT 기술은 광범위한 도메인, 콘텐츠 유형에서 활용되는 것이 목적이다. 유효 데이터 포인트를 수집해 번역가에게 의뢰하기 전에 높은 수준의 결과물 도출 가능성을 미리 평가하는 것 또한 중요하다. 또 이러한 결과를 번역가에게 공유하고 편집 후 의사결정에 도움이 되도록 MT 행동 지침을 개선해나가는 것도 많은 효과를 볼 수 있다.

우리는 자율주행자동차, 비약적으로 발전하고 있는 의료기술 분야 등 일상생활의 여러 측면에서 인공지능(AI)과 기계학습(ML)의 지속적인 성장을 목격해왔다. 관련 기술은 우리가 살아가는 방식, 우리가 행동하는 방식의 중요한 부분을 차지하고 있다.

사후편집은 사람과 기술이 갖는 교차점에서 진행되며, 기계번역은 번역가가 사용하는 툴(tool) 중에서 가장 많이 사용되는 기술로 자리매김할 것이다. 

(왼쪽부터) 로드리고 푸엔티스 코라디(Rodrigo Fuentes Corradi) SDL MT 컨설턴트, 안드리아 스티븐스(Andrea Stevens) SDL MT 매니저

물론, ‘기계번역 사후편집(Machine Translation Post-Editing, MTPE)’은 현재 번역서비스 업계에서 선택해야 하는 영역이지만, 번역가를 위한 또 다른 기술이나 새로운 신경망 MT 기술이 개발된다면 이를 무시할 수도 있을 것이다.

MT 기술의 개발은 번역가의 역할을 감소시키는 것이 아니다. 오히려 변화시키고 향상시키는 것이 목적이다. 관련 업계에서는 새로운 기회를 얻은 만큼, 지속적인 학습과 지원·피드백을 제공하면서 생태계를 구축해 나가야 하는 과제를 안고 있음을 인식해야 할 것이다.

 

글 : 로드리고 푸엔티스 코라디(Rodrigo Fuentes Corradi) / MT 컨설턴트 / SDL
안드리아 스티븐스(Andrea Stevens) / MT 매니저 / SDL

 

최태우 기자  taewoo@itbiznews.com

<저작권자 © IT비즈뉴스-아이티비즈뉴스, 무단 전재 및 재배포 금지>

최태우 기자의 다른기사 보기
icon인기기사
여백
여백
Back to Top