[source=Freepik]

지난 글에서는 생명과학산업에서 급증하는 기계번역(MT)의 사용과 수요에 대해 알아보았습니다. 이번 글에서는 기계번역에서의 진보와 발전이 생명과학 분야에서 어떠한 새로운 기회를 제시할 수 있는지 자세히 알아보고자 합니다.

기계번역(MT)의 품질 향상과 신경망 기계번역
최근 일련의 연구에 의하면 시스템 학습 혁신, 시스템 교육에 필요한 관련 데이터량의 증가와 이를 수용하는 컴퓨팅파워 향상으로 MT 품질이 크게 향상되고 있습니다.

SDL은 데이터 기반 기계번역 선도기업으로, 앞서 2000년대 초반 통계 기반 기계번역(SMT)를 소개한 바 있습니다. 현재까지 수백 건의 관련 연구논문 발표, 45개 이상의 관련 특허를 취득하면서 관련 기술 전파에 노력하고 있습니다.

신경망 기반 기계번역(NMT)는 이를 향상시킬 수 있는 실질적인 기능 향상을 제공합니다. 업계 관계자들 대부분 NMT를 진화적 진보가 아닌 기계학습의 혁명이라고 생각하고 있습니다.

SDL이 추진한 1세대 NMT 시스템은 이전 SMT 시스템 대비 평균 27% 향상되었습니다. 일부 언어에서는 개선을 측정하는 데 사용된 자동 메트릭을 기준으로 하면 최대 100%까지 향상된 것을 확인할 수 있습니다.

2세대 NMT 시스템의 경우 전 세대에 비해 25% 향상된 기능을 제공하고 있는데, 일반적으로 1년에 5%씩 기술이 개선되고 있는 점은 주목할 만 합니다. NMT와 관련된 연구 강도가 지속되고, SDL 또한 NMT 전략을 구체화하면서 지속적인 기술 개선에 힘을 보테고 있습니다.

특히 신경망 기계번역의 결과물은 일본, 독일, 러시아어와 같은 번역이 까다로운 언어까지도 고품질의 결과물을 제공하면서 주목받고 있습니다.

러시아어를 위한 인공신경망 MT 개발
번역이 어려운 러시아어의 인공신경망 MT 기술도 빠르게 고도화되고 있습니다. 실제로 러시아어를 위한 MT 기술 개발을 지속적으로 추진해 온 SDL의 예를 들자면, 러시아-영어 간 인공신경망 기계번역의 결과가 번역가가 진행한 번역 품질과 약 95%의 동일 결과물을 보여주고 있습니다.

아울러 이와 같은 기술혁신을 바탕으로, 번역 서비스·글로벌 엔터프라이즈 모범 사례에 대한 폭넓은 경험을 통해 전자적 증거개시(eDiscovery), 현지화 생산성 향상, 글로벌 고객 서비스 및 전세계 기업들이 CX를 개선할 수 있도록 하는 광범위한 글로벌 통신과 공동 작업 사례에 이르기까지 다양한 엔터프라이즈 사용 사례를 위한 효율적인 MT 솔루션을 제공할 수 있는 근간을 마련하게 되었습니다.

엔터프라이즈를 위한 MT 솔루션의 가용성
공용포털에서 기계번역을 사용하는 것은 광범위하지만 이러한 일반 공용 시스템이 기업에 적합하지 않은 이유로는 여러 가지가 있습니다. 중요한 용어에 대한 정확성 부족, 데이터 보안 부족, 엔터프라이즈 IT 인프라와의 통합 부족, 배포 유연성 부족 등이 포함됩니다. 기업에서 사용되어지는 MT는 다음과 같은 핵심 기능을 갖춰야 합니다.

- 엔터프라이즈 콘텐츠·주제 도메인에 맞게 조정 및 최적화할 수 있는 기능
- 확실한 데이터 보안·개인정보 보호 기능 제공
- 엔터프라이즈 인프라 통합을 위한 다국어 데이터를 생성·실행·프로세스·검토·분석·생성 가능
- 구내, 사설 클라우드 또는 공유 클라우드를 포함한 다양한 필수 설정으로 MT를 배포 가능
- 맞춤식 요구 사항과 사례 최적화를 용이하게 해주는 전문가 서비스의 가용성

생명과학 분야에서의 MT
오늘날 분명한 것은, 생명과학산업에서 MT 활용을 통한 비지니스 이점과 효용성은 매우 크다는 점입니다. 이러한 영향력을 고려해볼 때 MT는 생명과학 분야에서 새롭게 고찰되고 검토해볼 만한 가치가 충분히 있다고 볼 수 있습니다.

예를 들자면, MT는 무료 텍스트 임상 노트나 고객 통화 같은 비정형 데이터를 구조화된 데이터로 변형하여 환자 집단의 건강과 복지를 향상시킬 수 있는 통찰력을 제공할 수 있습니다. 셀프 서비스가 생명과학산업계에서 증가하는 지금의 현상을 고려하면, 향후 크게 늘어날 새로운 데이터들은 다음과 같습니다.

- 더 나은 건강 결과를 촉진하고 새로운 약의 발견과 상업화의 촉진이 가능
- 대규모 인구 검사 기능을 개선하여 해당 분야의 데이터 기반 추세 분석 가능 및 위험 환자 파악 가능

MT 및 텍스트 마이닝 솔루션을 사용하면 기업은 다국어 RWE(Real World Evidence)를 처리하고 RWD(Real World Data)를 생성하면서 의료환경에서 의약품 개발, 상업화·마약 사용을 모든 단계에 인지할 수 있습니다.

FDA와 같은 규제기관 또한 제품 승인 과정에서 전체론적인 데이터로 확대함으로써 약물 승인 시련과 관련된 추가 데이터를 활용할 수도 있습니다.

예를 들면, 그들은 국제 보고서의 다국어 내부 데이터와 MT가 분석에 사용할 수 있는 소셜 미디어의 다국어 외부 데이터를 검토할 수 있게 되면서 새로운 마약 승인 요청에 대한 필요한 배경 정보를 제공하기 위해 더 많은 데이터를 사용할 수 있으며, 이에 따라 약물 승인에 대한 처리속도도 빨라질 수 있습니다.

위의 사례에서처럼 생명과학 분야에 MT 활용이 늘어난다면, 운영상의 효율성부터 의약품 발견, 개인화 개선으로 인해 발생하는 인간의 건강과 복지의 중대한 개선에 이르기까지 다양한 부문에서 높은 잠재적 가치가 실현될 것으로 예상됩니다.

글 : 커티 바시(Kirti Vashee) / 언어기술 에반젤리스트 / SDL

저작권자 © IT비즈뉴스(ITBizNews) 무단전재 및 재배포 금지