인공지능 데이터 구축·공개 사업 일환, 올해 말 2500여만건 데이터셋 추가 공개

인공지능 데이터 구축·공개 사업의 일환으로 한국형 AI 개발을 위해 사용되는 AI 학습용 데이터가 공개됐다. (사진은 음성인식 기능이 탑재된 아마존 스마트스피커인 에코) [ITBizNews DB]

[IT비즈뉴스 최태우 기자] 한국사람의 감정에 대한 영상정보와 한국어의 발성정보를 담고 있는 인공지능(AI)용 데이터가 개방된다. AI 개발에서 데이터 확보가 경쟁력으로 작용하는 만큼, 데이터 확보에 어려움이 많은 국내 개발자, 중소벤처·스타트업에 도움이 될 것으로 예상된다.

한국정보화진흥원(NIA)은 이달 250만개의 AI 학습용 데이터를 자체 운영하는 AI허브 홈페이지를 통해 추가 공개했다.

공개된 데이터는 ▲감정, 상황, 대화내용을 담고 있는 복합영상(멀티모달) 데이터 ▲ 한국어 대화 음성 데이터 ▲한국어 챗봇용 대화 및 시나리오 데이터 ▲한국어 기계독해 데이터 등 총 4종이다.

데이터 확보가 AI 경쟁력으로 작용하고 있지만 대다수의 중소·벤처·스타트업은 많은 비용과 시간이 소요되는 데이터 구축에 어려움을 겪고 있다. 이번 데이터 개방이 AI 기술의 활용 스펙트럼을 넓히면서 관련 서비스의 상용화를 촉진하는 계기가 될 것으로 전망된다.

앞서 NIA는 2017년부터 법률, 특허, 일반상식, 한국형 이미지 4종의 데이터셋 구축을 시작하고 올해 1월에 관광, 농업, 헬스케어 등 7종을 개방한 바 있다.

인공지능 학습용 데이터 구축현황 및 계획

국가 R&D 과제인 지능정보 플래그십 사업을 통해 만들어진 학습용 데이터 다수를 내달 AI허브에 공개할 예정이다. 올해 말에는 한-영 번역말뭉치, 한국형 사물이미지, 한글 글자체 이미지, 이상행동 영상 등 10종 2500여만건의 데이터셋도 공개할 계획이다.

문용식 한국정보화진흥원장은 “AI 제품과 서비스가 활발히 개발되고 출시될 수 있도록 수요에 꼭 맞는 데이터셋을 대량 구축, 공개하면서 국내 AI 산업과 시장의 경쟁력을 강화하는데 기여할 것”이라고 밝혔다.

저작권자 © IT비즈뉴스(ITBizNews) 무단전재 및 재배포 금지