마이크로소프트가 문자뿐만 아니라 이미지까지 이해, 생성할 수 있는 '비주얼챗GPT'를 소개했다.
마이크로소프트는 깃허브에 11일(현지시간) 비주얼챗GPT 모델을 공개했다. 이 챗봇은 오픈AI의 GPT-3 모델 확장판이다. 텍스트뿐 아니라 이미지를 이해할 수 있다. 이를 통해 사용자가 원하는 새로운 이미지나 텍스트를 만든다.
이용법은 간단하다. 사용자는 비주얼챗GPT에 이미지를 업로드하고, 이와 관련한 질문이나 요청을 문자로 입력하면 된다. 이 챗봇은 해당 이미지와 문자를 이해, 분석해 새로운 이미지나 텍스트를 내놓는다.
![](https://static.wixstatic.com/media/d16f97_cb6a860dd7284b2e9f53b7d5f6b952ef~mv2.png/v1/fill/w_639,h_429,al_c,q_85,enc_auto/d16f97_cb6a860dd7284b2e9f53b7d5f6b952ef~mv2.png)
비주얼챗GPT 원리 (사진=마이크로소프트)
예를 들어, 사용자가 자동차 사진을 업로드하고 "이 차의 제조사와 모델은 무엇입니까?"라고 물으면 된다. 비주얼챗GPT는 사진 속 자동차 이미지를 분석해 특징을 추출한다. 그후 자동차 제조사와 모델 이름을 알아내서 텍스트로 답한다.