본문 바로가기
TECH & SCIENCE

AI의 '멀티모달'이란 무엇일까?

by 아이디어박람회 2024. 5. 23.
반응형

최근 몇 년 동안 대형 기술 기업들은 AI 모델 개발에 주력해왔습니다. 더 똑똑하고, 더 빠르며, 더 자연스럽게 동작할 수 있도록 계속해서 업그레이드하고 있습니다. 이 과정에서 자주 등장하는 단어가 '멀티모달'입니다.

 

 

 

그렇다면 멀티모달이란 무엇일까요?

 

 

2022년에 처음 등장해 세계를 사로잡은 ChatGPT의 신선함은 이제 많이 사라졌습니다. 이것은 좋은 의미에서입니다. 많은 사람들이 AI를 일상적으로 사용하게 되면서 놀라움이 줄어든 것입니다. 하지만, 사람은  더 원하죠? 처음에는 얼마나 놀라운 기술이더라도 익숙해지면 더 많은 것을 원하게 됩니다. 더 자연스럽게, 더 실시간으로, 더 똑똑하게 AI가 발전하기를 바라는 것이죠.

 

이러한 욕구를 충족시키는 것이 바로 멀티모달입니다. 멀티모달이라는 단어는 '멀티'는 여러 가지, '모달'은 모드를 의미합니다. 즉, 여러 가지 형태의 데이터를 이해하고 결합하여 처리할 수 있는 능력을 뜻합니다. 예를 들어, AI가 텍스트(글자)뿐만 아니라 이미지(그림), 소리, 동영상 등을 이해하고 이를 바탕으로 답을 도출해내는 것입니다. 이는 마치 AI에게 눈, 귀, 입을 달아주는 것과 같습니다. 텍스트만 읽던 AI가 이제는 그림을 보고, 소리를 듣고, 동영상을 시청하며, 말을 할 수 있게 되는 것입니다.

 

 

 

이번 달, OpenAI는 GPT-4o라는 AI 모델을 발표했습니다. 이 모델은 스마트폰의 카메라를 눈처럼 사용해 수학 문제를 보고 이해하며, 사용자의 음성 요청을 귀로 듣고, 스피커를 통해 답을 전달할 수 있습니다. 다음 날 구글은 프로젝트 Astra를 발표했습니다. Astra도 스마트폰의 카메라를 사용해 주변을 보고 이해하며, 텍스트나 음성으로 사용자에게 응답합니다.

 

구글과 OpenAI의 멀티모달 기술의 차이점은 AI 모델의 사용 방식에 있습니다. GPT-4o는 하나의 AI 모델이 모든 형태의 데이터를 처리하는 반면, 구글은 각 모드를 처리하는 여러 AI 모델을 결합하여 성능을 발휘합니다. 미국의 IT 매체인 Gizmodo의 데모 참여자에 따르면, GPT-4o가 Astra보다 응답 속도가 더 빠르고, Astra의 목소리가 더 로봇처럼 들린다는 의견이 있었습니다.

 

 

 

멀티모달 기술은 개발이 쉽지 않으며, 경쟁도 치열합니다. 구글은 올해 3월 공식 블로그에서 프로젝트 Astra에 대해 "멀티모달 정보를 이해하는 AI 시스템 개발에서 큰 진전이 있었지만, 응답 시간을 단축하고 대화에 적용하는 것은 어려운 개발 도전"이라고 밝혔습니다. 작년 12월에 공개된 구글의 AI, Gemini의 데모 영상에서 보여준 기술은 여전히 완전하게 구현되지 않았습니다. 구글은 빠르게 추격 중이지만, 현재로서는 OpenAI가 앞서가고 있습니다. 구글과 OpenAI의 경쟁은 앞으로도 계속될 것이며, 이는 AI 기술의 발전을 더욱 가속화할 것입니다.

반응형