쏘카가 자연어처리(NLP) 분야 세계 최고 학회에서 인공지능(AI) 기술 역량을 인정받았다. 8일 쏘카는 자사 AI팀이 자연어처리(NLP) 분야 최고 권위를 자랑하는 ‘EMNLP 2023’에서 채택된 논문이 우수상에 선정됐다고 전했다.
EMNLP(Empirical Methods in Natural Language Processing)은 NLP 분야 최고의 국제 학술대회다. EMNLP에서는 AI 번역, 기계독해, 번역 등 언어 데이터 기반의 AI 연구를 다룬다.
이달 6일~10일 사이 싱가포르에서 개최되는 ‘EMNLP 2023’에는 구글 딥마인드, 마이크로소프트 리서치 등 유수의 AI 기업이 참여했다.
쏘카 AI팀은 지난 7일(현지시간) 열린 MRL(Multilingual Representation Learning) 워크숍에 참가해 다양한 언어에서 활용할 수 있는 다국어 언어 처리 기술에 대한 연구성과를 공유했다.
‘소규모 언어 데이터를 활용한 다국어 음성 파운데이션 모델 학습 방법(Adapt and Prune Strategy for Multilingual Speech Foundation Model on Low-resourced Languages)’을 제안한 쏘카 AI팀은 수십억 개에서 수천억 개의 파라미터를 가진 거대모델에서 필요한 파라미터만 추출해 새로운 언어 혹은 도메인에서도 성능을 보장할 수 있는 사례를 공유했다.
제안한 방법은 먼저 경량화 기법(Lottery Ticket Hypothesis)을 이용해 거대 모델에서 타겟으로 삼은 언어에 관련된 파라미터만을 추출한다. 추출된 파라미터에는 타겟 언어과 관련된 문법적, 고차원의 언어적 특성이 담겨있어 적은 파라미터만으로도 충분히 여러 문제를 풀 수 있다.
이렇게 제안한 기법은 도메인에 관련된 지식을 추가 학습시키기 위해 LoRA(Low-Rank Adaption)을 이용한다. LoRA 기법을 통해 약 2% 만의 파라미터만으로 학습이 가능해 적은 양의 연산 자원에도 기존과 유사한 성능을 달성할 수 있음을 밝혔다.
박경호 쏘카 AI팀장은 “쏘카에서 연구한 음성 언어 파운데이션 모델을 세계 최고 권위를 자랑하는 학회에서 공유할 수 있어 뜻깊다”며 “이번 논문이 성과가 자연어 학습 모델 연구에 레퍼런스로 활용되길 기대한다”고 전했다.
한편, 쏘카 AI팀은 올해 EMNLP, ICLR 등 유명 국제 학회에서 약 7편의 연구논문을 발표한 바 있다. 이 연구성과는 다양한 AI 제품에 적용되고 있다. 이번 연구결과는 쏘카가 2024년 선보일 AICC(AI-based Contact Center) 제품에도 적용됐다.
관련기사
- 민감정보 유출 없이 챗GPT 사용…파수, ‘AI-R DLP’ 서비스 출시
- ETRI, 자율 제품조립로봇 AI기술 개발…“조립·생산성 10% 향상”
- GCP·엔씨소프트, TPU 기반 AI 언어모델 ‘바르코 LLM’ 개발
- 뷰노, 미국심장협회 학술대회서 심전도 연구논문 4편 발표
- 쏘카, 제주서 ‘레벨4 자율주행 카셰어링 서비스’ 1단계 기술 시연
- ‘AI 아카데미’ 개설한 엔비디아…이달 31일까지 참가자 모집
- 라이드플럭스, ‘CVPR 2023’서 비정형 객체탐지(OD) 성능 개선 연구논문 공유
- ETRI, AI 연구 논문대회 성료…고려대 팀 대상 수상
- 쏘카, “모빌리티 초거대AI 챌린지 연다”
- MS, “코파일럿으로 미래 AI 교육 환경 지원 확대”