[생성형 AI(Generative AI), 인간의 창작 영역을 넘본다! (39)] 구글, 최강 LLM ‘제미나이(Gemini)’ 공개 (下)
최봉 산업경제 전문기자 입력 : 2023.12.21 00:30 ㅣ 수정 : 2023.12.21 00:30
[기사요약] 구글 제미나이, OpenAI와 대조적으로 처음부터 ‘멀티모달(multi-modal)’로 디자인 제미나이의 공개는 첫인상에서 합격점 받기에 충분, 하지만 세부 사항검토하면서 문제점들 지적되.. Gemini Ultra 조차 OpenAI가 적어도 1년 전 작업 완료한 것에 대해 약간의 개선했을 뿐이라는 것 화려한 비디오 데모, 실시간으로 수행되지 않고 정지 영상 사용
사람들은 시, 소설, 보고서 등 글쓰기, 그림 그리기, 알고리즘 코딩 등 창작의 세계가 그동안 인간에게만 허락된 별도의 영역이라 알고 있었다. 그런데 AI(인공지능)의 발전과 함께 이제는 진화한 AI가 스스로 창작의 영역을 넘보는 시대가 되었다. 생성형 AI(Generative AI)의 등장은 인간에게 어떤 의미가 있으며 우리의 미래에 어떤 영향을 미칠지 가늠하기 쉽지 않지만, 생성형 AI는 이미 여러 분야에서 현실로 나타나 적용되고 있다. 우리에게 성큼 다가온 생성형 AI의 시장현황, 다양한 이슈와 관심 사항 등을 살펴보기로 하자. <편집자 주>
[뉴스투데이=최봉 산업경제 전문기자] 구글은 최근 OpenAI의 챗GPT(ChatGPT)와 경쟁할 새로운 AI 모델인 제미나이(Gemini)를 발표했다.
ChatGPT가 방대한 양의 텍스트로 학습된 신경망을 기반으로 하는 대화용 웹 앱(web app)인 것과 마찬가지로, 구글은 대화로 학습된 LaMDA라는 모델을 기반으로 하는 대화형 웹 앱인 바드(Bard)를 보유하고 있다.
하지만 구글은 이제 이를 제미나이를 기반으로 업그레이드하고 있는 것이다.
• 구글 제미나이, 처음부터 ‘멀티모달(multi-modal)’로 디자인
제미나이가 LaMDA와 같은 이전의 생성형 AI(Generative AI) 모델과 다른 점은 지난 편(필자의 이 시리즈 2023.12.13. 기사)에서 언급했듯이 ‘멀티모달 모델(multi-modal model)’이라는 점이다. 즉, 텍스트 입출력을 지원할 뿐만 아니라 이미지, 오디오, 비디오 등 다양한 입력 및 출력 모드를 직접 지원한다.
물론 멀티모달 모델로서 제미나이가 처음 등장한 것은 아니다.
지난 9월에 OpenAI는 이미지, 오디오, 텍스트도 함께 사용할 수 있는 GPT-4Vision이라는 모델을 발표했다. 하지만 그것은 제미나이가 이번에 보여주려고 노력하고 있는 것과 달리 완전한 멀티모달 모델은 아니다.
이와 대조적으로 구글은 제미나이를 처음부터 의도적으로 ‘멀티모달(multi-modal)’로 디자인했다.
이것은 코어 모델이 다양한 입력 유형(오디오, 이미지, 비디오 및 텍스트)을 직접 처리하고 그것들을 직접 출력할 수 있다는 것을 의미한다(Conversation, 2023.12.15).
• 제미나이 데모 영상, 실시간 아닌 편집본으로 확인
OpenAI와의 격차를 줄이기 위해 야심차게 만들어진 AI 모델인 제미나이의 공개는 첫인상에서 합격점을 받기에 충분했다.
구글은 자사 웹사이트에서 제미나이를 홍보(사실은 자랑)하면서, 벤치마크 32개 중 30개에서 Gemini Ultra가 GPT-4에 비해 상당히 앞서 있다는 강력한 메시지를 보였다. 그리고 6분 20여 초짜리 화려한 비디오 데모를 공개하면서 자신감을 나타냈다.
하지만 AI 기술자, 전문가들과 열성적인 팬들이 세부 사항들을 검토하고 문제점들 지적하면서 긍정적인 첫인상은 다소 상처를 입는 상황이 되었다.
우선 구글이 실력 ‘검증’을 위해 보여준 벤치마킹과 관련해서, 대부분의 벤치마크에서 Gemini Ultra는 OpenAI의 GPT-4 모델을 불과 몇 퍼센트 포인트 차이로 앞서 있다.
다시 말해서, 구글의 최고 수준의 AI 모델은 OpenAI가 적어도 1년 전에 작업을 완료한 것에 대해 약간의 개선을 했을 뿐이라는 것을 의미한다. 게다가 Gemini Ultra는 아직 세상 밖으로 나오지도 않은 모델이다(Bloomberg, 2023.12.8).
6분 20여 초짜리 화려한 비디오 데모는 사용자와 제미나이 엔진의 챗봇 사이의 대화를 포함하고 있으며, 시각적인 그림과 물리적인 물체를 인식하고 차이를 아는 제미나이의 능력을 보여준다.
공개 후, 구글은 나중에 블룸버그에 비디오 데모가 실시간으로 수행되지 않고, 정지 영상을 사용하고 제미나이가 응답한 텍스트 프롬프트를 입력하는 것이라고 확인했다.
그것이 구글이 제안하는 것처럼 보이는 “사람이 실시간으로 보고 주변 세계에 반응하면서 제미나이와 원활한 음성 대화를 나눌 수 있다는 것”과 상당히 다르다고 블룸버그는 언급했다.
이에 대해 구글은 “이 비디오는 실제 멀티모달 프롬프트와 테스트 결과를 기반으로 제미나이와 상호 작용할 수 있는 가능성을 예시적으로 묘사한 것”이라고 주장한다.
• 지난 2월 데자뷰 불러와, 너무 서두른 것 아닌지..
데모 영상은 종종 편집되기 마련이지만, 이번 제미나이 비디오 데모 공개는 지난 2월 구글에 있었던 헤프닝의 데자뷰(déjà vu)를 불러온다(cnbc, 2023.12.8).
구글은 마이크로소프트가 ChatGPT와 빙(Bing) 통합을 선보이기로 계획했던 바로 그 주에 발생한 AI 챗봇 바드의 실패한 시연에 대해 대중과 매스컴의 비판에 직면했었다. 또한, 구글 직원들은 순다르 피차이 CEO가 바드의 발표를 “너무 서둘렀다”고 비판했었다(필자의 이 시리즈 7편(2023.2.14.) 참고).
지금까지 2회에 걸쳐 구글이 새롭게 선보인 제미나이의 밝은 측면과 어두운 측면을 소개했다.
앞서나가고 있는 OpenAI와의 격차를 줄이기 위해 애쓰고 있는 구글의 향후 행보가 더욱 궁금해진다.