마이크로소프트가 문자뿐만 아니라 이미지까지 이해, 생성할 수 있는 '비주얼챗GPT'를 소개했다.
마이크로소프트는 깃허브에 11일(현지시간) 비주얼챗GPT 모델을 공개했다. 이 챗봇은 오픈AI의 GPT-3 모델 확장판이다. 텍스트뿐 아니라 이미지를 이해할 수 있다. 이를 통해 사용자가 원하는 새로운 이미지나 텍스트를 만든다.
이용법은 간단하다. 사용자는 비주얼챗GPT에 이미지를 업로드하고, 이와 관련한 질문이나 요청을 문자로 입력하면 된다. 이 챗봇은 해당 이미지와 문자를 이해, 분석해 새로운 이미지나 텍스트를 내놓는다.
비주얼챗GPT 원리 (사진=마이크로소프트)
예를 들어, 사용자가 자동차 사진을 업로드하고 "이 차의 제조사와 모델은 무엇입니까?"라고 물으면 된다. 비주얼챗GPT는 사진 속 자동차 이미지를 분석해 특징을 추출한다. 그후 자동차 제조사와 모델 이름을 알아내서 텍스트로 답한다.