print

적는 대로 그려준다…카카오브레인이 만든 초거대 AI 모델

초거대 멀티모달 AI 민달리 업그레이드 버전 공개

 
 
카카오브레인이 개발한 RQ-트랜스포머.[사진 카카오브레인]
카카오브레인이 이미지 생성 모델 ‘RQ-트랜스포머’를 최대 오픈소스 커뮤니티 깃허브(GitHub)1에 공개했다. 이는 카카오브레인이 지난해 12월 공개한 초거대 멀티모달(Multimodal) AI ‘minDALL-E(민달리)’의 업그레이드 버전이다.  
 
39억개의 매개변수(파라미터)로 구성된 RQ-트랜스포머는 3000만쌍의 텍스트-이미지를 학습한 텍스트-투-이미지(text-to-image) AI 모델이다. 계산 비용을 줄이고 이미지 생성 속도를 높인 동시에 이미지의 품질을 크게 끌어올린 모델이다.  
 
카카오브레인이 공개한 RQ-트랜스포머는 공개된 이미지 생성 모델 중 국내 최대 크기의 이미지 생성 모델이며, 이를 공공 목적을 위해 공개했다는 점에서 AI 커뮤니티에 기여가 클 것으로 기대된다.
 
RQ-트랜스포머는 카카오브레인의 초거대 멀티모달 AI 민달리의 업그레이드 버전이다. 민달리 대비 모델 크기는 3배, 이미지 생성 속도와 학습 데이터셋 크기는 2배 늘렸다. 특히 민달리는 미국의 인공지능 개발 기업 ‘오픈AI(OpenAI)’가 공개한 ‘DALL-E’를 재현하는 것에 가까웠던 것에 반해, RQ-트랜스포머의 경우, 카카오브레인 만의 독자적인 기술로 개발됐다.
 
RQ-트랜스포머는 3차원의 코드맵으로 표현된 이미지를 순차적으로 예측하여 생성하도록 학습된 이미지 생성 모델이다. 고해상도의 이미지를 2차원의 코드맵으로 표현하는 기존 기술과는 다르다. 기존 기술과 비교했을 때 이미지 압축으로 인한 손실이 적어, 높은 품질의 이미지를 저해상도의 코드맵으로 표현하는 게 특징이다. 이를 통해 기존 이미지 생성 모델보다 적은 계산 비용과 높은 이미지 생성 속도를 달성할 수 있다.
 
처음 보는 텍스트의 조합을 이해하고, 이에 대응하는 이미지를 생성할 수도 있다. 가령 ‘사막에 있는 에펠탑(the Eiffel Tower in the desert)’이란 텍스트 조건을 입력하면 그에 알맞은 이미지를 생성한다.  
 
김일두 카카오브레인 대표는 “인간의 명령에 따라 이미지를 만들어내는 컴퓨터는 그 명령 뒤에 내재된 의도를 파악하고 이해하는 기술을 보여준다”며 “이번에 우리가 공개한 획기적인 AI 모델이 인간과 컴퓨터가 자유롭게 대화하는 미래를 향한 여정의 첫 시작이 될 것“이라고 말했다.

김다린 기자 kim.darin@joongang.co.kr

ⓒ이코노미스트(https://economist.co.kr) '내일을 위한 경제뉴스 이코노미스트' 무단 전재 및 재배포 금지

많이 본 뉴스

1검찰, ‘아내 살해’ 미국 변호사에 무기징역 구형…“반성 없어”

2美 4월 고용 17.5만건 증가…예상치 크게 밑돌아

3심장병 앓는데…中여대생, 교수 강요로 달리기 후 사망

4일본서 ‘치아 자라게 하는 약’ 나왔다···가격은 얼마?

5되살아난 명동 ‘북적’…가로수길은 어쩌나

6전기차 시대 내다본 조현범...한국앤컴퍼니, 한온시스템 품는다

7“호빈이가 움직이네?”…네이버웹툰, 애니 ‘싸움독학’ 韓 OTT서 공개

8변기 뒤 침대인데도…中상하이 아파트 불티나는 이유

9고피자, 강소기업 지원 사업 선정…“해외 사업 확장 속도”

실시간 뉴스

1검찰, ‘아내 살해’ 미국 변호사에 무기징역 구형…“반성 없어”

2美 4월 고용 17.5만건 증가…예상치 크게 밑돌아

3심장병 앓는데…中여대생, 교수 강요로 달리기 후 사망

4일본서 ‘치아 자라게 하는 약’ 나왔다···가격은 얼마?

5되살아난 명동 ‘북적’…가로수길은 어쩌나