'한국형 AI 서비스' 개발자 지원, 한국어 음성·영상데이터 250만개 풀린다

인공지능 데이터 구축·공개 사업 일환, 올해 말 2500여만건 데이터셋 추가 공개

인공지능 데이터 구축·공개 사업의 일환으로 한국형 AI 개발을 위해 사용되는 AI 학습용 데이터가 공개됐다. (사진은 음성인식 기능이 탑재된 아마존 스마트스피커인 에코) [ITBizNews DB]

[IT비즈뉴스 최태우 기자] 한국사람의 감정에 대한 영상정보와 한국어의 발성정보를 담고 있는 인공지능(AI)용 데이터가 개방된다. AI 개발에서 데이터 확보가 경쟁력으로 작용하는 만큼, 데이터 확보에 어려움이 많은 국내 개발자, 중소벤처·스타트업에 도움이 될 것으로 예상된다.

한국정보화진흥원(NIA)은 이달 250만개의 AI 학습용 데이터를 자체 운영하는 AI허브 홈페이지를 통해 추가 공개했다.

공개된 데이터는 ▲감정, 상황, 대화내용을 담고 있는 복합영상(멀티모달) 데이터 ▲ 한국어 대화 음성 데이터 ▲한국어 챗봇용 대화 및 시나리오 데이터 ▲한국어 기계독해 데이터 등 총 4종이다.

데이터 확보가 AI 경쟁력으로 작용하고 있지만 대다수의 중소·벤처·스타트업은 많은 비용과 시간이 소요되는 데이터 구축에 어려움을 겪고 있다. 이번 데이터 개방이 AI 기술의 활용 스펙트럼을 넓히면서 관련 서비스의 상용화를 촉진하는 계기가 될 것으로 전망된다.

앞서 NIA는 2017년부터 법률, 특허, 일반상식, 한국형 이미지 4종의 데이터셋 구축을 시작하고 올해 1월에 관광, 농업, 헬스케어 등 7종을 개방한 바 있다.

국가 R&D 과제인 지능정보 플래그십 사업을 통해 만들어진 학습용 데이터 다수를 내달 AI허브에 공개할 예정이다. 올해 말에는 한-영 번역말뭉치, 한국형 사물이미지, 한글 글자체 이미지, 이상행동 영상 등 10종 2500여만건의 데이터셋도 공개할 계획이다.

문용식 한국정보화진흥원장은 “AI 제품과 서비스가 활발히 개발되고 출시될 수 있도록 수요에 꼭 맞는 데이터셋을 대량 구축, 공개하면서 국내 AI 산업과 시장의 경쟁력을 강화하는데 기여할 것”이라고 밝혔다.

상단영역

IT비즈뉴스(ITBizNews)

본문영역

'한국형 AI 서비스' 개발자 지원, 한국어 음성·영상데이터 250만개 풀린다

인공지능 데이터 구축·공개 사업 일환, 올해 말 2500여만건 데이터셋 추가 공개

관련기사

기사 댓글 0

비회원 로그인