알리바바클라우드, 이미지·텍스트 이해 가능한 대규모 시각언어모델 공개

알리바바클라우드가 개방형 언어모델 2종을 새로 공개했다. 이번에 공개된 시각언어모델(Large Vision Language Model, LVLM) ‘Qwen-VL’과 대화형모델 ‘Qwen-VL-Chat’은 프롬프트의 이미지·텍스트 및 경계상자를 이해할 수 있고 영어와 중국어로 다중 라운드 질문에 대한 답변을 지원하도록 설계됐다.

이미지에서 의미와 정보를 추출하는 기능을 갖춘 모델들의 도입은 시각 콘텐츠와의 상호작용을 혁신할 수 있는 잠재력을 갖는다. 가령 이미지 이해와 질문답변 기능은 온라인 쇼핑 시 시각 장애인에게 정보를 지원하는 데에 향후 활용될 수 있다.

Qwen-VL은 알리바바클라우드의 70억개 매개변수로 구성된 대규모언어모델(LLM)인 통이치엔원(Tongyi Qianwen)의 멀티모달 버전으로 모델스코프(ModelScope)에서 오픈소스로 제공된다.

영어와 중국어로 된 이미지 입력과 텍스트 프롬프트를 이해할 수 있고 다양한 이미지와 관련된 개방형 쿼리에 응답하고 이미지 캡션을 생성하는 등의 다양한 작업을 수행할 수 있다고 사측은 소개했다.

이미지와 텍스트 데이터세트에 대한 사전학습도 거쳤다. 224x224 해상도의 이미지를 처리하고 이해할 수 있는 다른 LLM 대비 Qwen-VL은 448x448 해상도의 이미지 입력을 처리할 수 있다.

알리바바클라우드는 “다양한 벤치마크 테스트에서 Qwen-VL은 제로샷 캡셔닝, 일반적인 시각 질문 답변, 텍스트 지향 시각적 질문 답변, 물체 감지 등 여러 시각 언어 작업에서 뛰어난 성능을 기록했다”고 밝혔다.

Qwen-VL-Chat은 여러 이미지 입력을 비교하고 다중 라운드 질문에 답변하는 등 보다 복잡한 상호작용에 적합하다.

이 모델은 정렬 기술을 활용해 입력 이미지를 기반으로 시와 이야기를 창작하고 여러 사진의 내용을 요약하거나 이미지에 표시된 수학 문제도 풀 수 있다고 알리바바클라우드는 설명했다.

알리바바클라우드는 자사 벤치마크 테스트를 인용, “Qwen-VL-Chat은 중국어와 영어 모두에서 텍스트-이미지 대화와 인간과의 일치 수준에서 최고의 결과를 달성했다. 테스트에는 300개 이상의 이미지, 800개 질문, 27개 카테고리가 포함됐다”고 소개했다.

알리바바클라우드는 AI기술의 대중화를 위해 모델의 코드와 가중치 문서를 전세계 학계, 연구원, 상업 기관과 공유하기로 했다. 상업적인 용도로 활용할 경우, 월간 활성 사용자 1억명 이상인 기업은 라이선스로 제공된다.

한편, 알리바바클라우드는 오픈소스 커뮤니티에 70억개의 파라미터를 가진 LLM인 Qwen-7B와 Qwen-7B-Chat을 오픈소스로 공개한 바 있다. 2개 모델 모두 출시 한 달만에 40만건 이상의 다운로드를 기록했다.

상단영역

ITBizNews

본문영역

알리바바클라우드, 이미지·텍스트 이해 가능한 대규모 시각언어모델 공개

관련기사

기사 댓글 0

비회원 로그인

본문영역

관련기사

키워드