전문가 칼럼

인공지능보다 더 잘 그릴 수 있습니까? [한세희 테크&라이프]

입력 2022.09.17 20:00

공유: 공유

인쇄: 인쇄

URL: URL복사

댓글: 댓글

텍스트 이미지로 만드는 DALL-E에 이어 ‘DALL-E2’ 출시
구글·메타에 이어 스타트업도 이미지 변환 서비스 속속 선보여

인공지능 이미지 생성기 미드저니로 만든 작품 ‘스페이스 오페라 극장’ [유튜브 캡쳐]

“빛이 있으라 하시니…”

성경에 보면 하나님은 오직 ‘말씀’만으로 세상을 창조했다. 반면 인간은 무언가를 만들기 위해 손과 도구를 써야 한다. 창의성은 인간의 가장 큰 특징 중 하나이지만, 창의성을 발휘하려면 재능과 도구가 필요하다.

하지만 기술 발전과 함께 새롭고 더 좋은 도구는 계속 나오고 있고, 인간이 창의성을 드러내기는 점점 쉬워지고 있다. 워드프로세서는 원고를 쓰고 교정하는 고통스러운 과정에 드는 시간과 노력을 크게 줄여주었다. 블로그와 소셜미디어는 글이 쉽고 빠르게 퍼질 수 있게 했다.

고화소 카메라를 가진 스마트폰과 영상 편집 프로그램의 보급 덕분에 학생들도 어느 정도 의지와 노력이 있으면 그럴 듯한 영상을 만들 수 있게 됐다. 디지털 음악 프로그램은 음악 창작을 더 쉽게 했다. 요즘에는 프로그래밍 언어를 몰라도 간단한 소프트웨어를 짤 수 있는 ‘노-코드’ 서비스가 주목받고 있기도 하다.

이는 미술과 사진, 일러스트 같은 시각 예술 분야도 마찬가지다. 포토샵 같은 소프트웨어, 태블릿PC 같은 기기는 새로운 창작의 가능성을 활짝 열었다. 대부분의 아마추어 사용자들에게 포토샵은 소셜미디어에 올릴 프로필 사진이나 증명사진을 ‘뽀샵’하는 용도이긴 하지만 말이다.

최근 인공지능(AI) 기술의 발달은 이러한 추세에 불을 붙였다. 인공지능 개발사 오픈AI가 공개한 GPT-3와 같은 대규모 인공지능 자연어처리 모델이 유명한 작가의 문체나 스타일을 모방해 그럴듯한 시나 소설까지 써 내 우리를 놀라게 한지 벌써 2년이 지났다. GPT-3는 웹에서 학습한 방대한 데이터를 학습해 사용자의 지시나 명령에 따라 자연스러운 문장을 생성해낸다.

그림 그리는 인공지능 잇달아 등장

사용자의 요청에 따라 글을 뽑아내는 인공지능이 있다면, 그림을 그려내는 인공지능도 있을 수 있다. 실제로 최근 사용자가 원하는 구성과 스타일의 그림을 생성하는 이미지 합성 인공지능들이 잇달아 등장하며 주목받고 있다. GPT-3와 같은 텍스트 생성 인공지능에 이어 이제 이미지 생성 인공지능이 화제의 중심에 선 것이다.

이미지를 생성하는 인공지능 역시 꾸준히 연구돼 왔지만, 본격적으로 주목받기 시작한 계기는 지난해 등장한 ‘달리(DALL-E)’이다. GPT-3를 만든 오픈AI가 개발한 DALL-E는 그림에 대한 설명을 텍스트로 입력하면 그에 맞는 이미지를 만들어내는 인공지능이다. ‘하프로 만든 달팽이’나 ‘아보카도 안락의자’ 같은 문장을 주면 그에 맞는 이미지를 그린다.

최근엔 해상도를 높이고, 결과물을 편집할 수도 있는 두번째 버전 ‘DALL-E2’가 나왔다. CEO는 백인 남자로만, 간호사는 백인 여자로만 묘사하는 등의 편향성 문제도 개선했다. 소수의 사람에게만 공개해 폐쇄적으로 운영했던 DALL-E와 달리 DALL-E2는 사용자를 100만명까지 초대할 계획이다. 또 월 15달러 유료 구독 상품도 내놓고, 사용자가 DALL-E2로 만든 이미지를 판매할 수도 있게 하는 등 시장 개척에 나섰다.

최근 구글은 이매젠(Imagen), 페이스북과 인스타그램을 운영하는 메타는 ‘메이크-어-신(Make-A-Scene)’이라는 비슷한 인공지능 이미지 생성 도구를 선보였다. 메이크-어-신은 시용자가 간단한 그림을 그려 첨부하면 그 구도에 맞춰 그림을 그려주는 기능도 있다. 사용자의 의도를 보다 충실히 반영할 수 있는 것이다.

인공지능 이미지 합성은 이제 빅테크 기업만의 전유물이 아니다. 스타트업이나 작은 연구자 그룹들도 나름의 이미지 생성 서비스를 선보이고 있다.

스테빌리티AI라는 스타트업은 대학 인공지능 연구소 및 동영상 소프트웨어 기업들과 협력해 ‘스테이블 디퓨전’을 선보였다. DALL-E 같이 빅테크 기업이 만든 이미지 생성 인공지능 못지 않은 성능을 보여주면서, 비교적 제약 없이 자유롭게 사람들이 활용할 수 있게 했다. 페이크 이미지 생성 등을 우려해 특정 종류의 이미지 생성은 금지하는 등 여러 제약을 걸어 놓은 대기업들의 이미지 생성 모델과는 다른 접근이다.

미드저니라는 연구 팀이 만든 같은 이름의 이미지 생성 모델은 메신저 디스코드를 통해 접근할 수 있고, 다른 사용자와 결과물을 공유할 수도 있다.

스테빌리티AI가 선보인 ‘스테이블 디퓨전’으로 생성한 이미지들. [스테이블 디퓨전 사이트 캡쳐]

인공지능은 인간 창의성의 조력자?

지난해 DALL-E가 처음 나왔을 때도 예상 외의 이미지 품질로 우리를 놀라게 했지만, 최근 쏟아져 나오는 이미지 생성 모델들은 더욱 정교하고 풍부한 모습을 보여준다. 아티스트가 힘줘서 만든 영화나 게임 컨셉 아트나 정교한 일러스트와 비교할 만한 수준이다.

그림에 재주가 없어도 말(글)로 지시만 내리면 그럴듯한 작품이 창조된다. 적어도 시각 예술에 있어서는 ‘말씀’으로 세상을 창조한 신의 모습에 가까워지는 셈이다.

이는 당연히 무엇이 창작이고, 또 예술인가라는 질문으로 이어질 수밖에 없다. 최근 미국 콜로라도 주에서 열린 주 정부 개최 박람회 미술대회의 디지털 아트 부문에서 미드저니로 만든 ‘스페이스 오페라 극장’이라는 이미지가 1위를 차지해 논란이 됐다. AI가 생성한 이미지를 예술 작품이라 부를 수 있느냐는 것이다. 하지만 주최측은 디지털 기술의 도움을 받는 것은 허용된다며 별 문제가 없다는 입장이다.

따지고 보면 이는 사진이 처음 등장했을 때 미술계가 겪었던 몸살과 비슷하다. 사진이 인물화와 풍경화의 영역을 치고 들어오면서 화가들은 빛이 만들어내는 인상, 마음 속 심상을 표현하는데 집중할 수밖에 없게 됐다. 이는 인상파를 비롯한 현대 미술의 출발점이 됐다.

거슬러 올라가면 현실을 묘사하는데 집중한 근대 이전의 화가들도 사진 원리를 이용한 도구의 도움을 받았다. ‘카메라 옵스큐라’라는 일종의 암실 장치로 풍경이나 인물을 투사해 밑그림을 얻은 후, 이를 바탕으로 그림을 그렸다. 사진은 이렇게 얻은 이미지를 화학적으로 보존하는 기술이 개발되면서 등장한 것이었다. 레오나르도 다빈치 같은 유명 화가들 역시 이 장치를 쓴 것으로 알려져 있다.

이미지 생성 AI는 어쩌면 현대의 예술가들을 위한 카메라 옵스큐라라고 할 수 있을 것이다. 인공지능이 제시하는 밑그림들을 가지고 더욱 풍부한 창작의 세계를 탐구할 발판 역할을 하는 것이다. 물론, 인공지능이 이렇게 훌륭하게 그려 놓은 재료를 갖고 더 나은 작품을 만들어내려면 인간의 예술 활동은 더욱 치열해지지 않으면 안될 듯싶다.

※ 필자는 전자신문 기자와 동아사이언스 데일리뉴스팀장을 지냈다. 기술과 사람이 서로 영향을 미치며 변해가는 모습을 항상 흥미진진하게 지켜보고 있다. [어린이를 위한 디지털과학 용어 사전]을 지었고, [네트워크전쟁]을 옮겼다.

한세희 IT 칼럼니스트