멀티모달 AI란? 텍스트·이미지·음성을 동시에 이해하는 AI

ChatGPT 초기 버전을 떠올려보자. 텍스트를 넣으면 텍스트가 나왔다. 그게 전부였다. 이미지를 보여줘도 이해 못 했고, 음성을 들려줘도 반응이 없었다. 그런데 지금은? 사진을 찍어서 보여주면 뭐가 찍혀있는지 설명하고, 음성으로 대화하고, 심지어 영상까지 분석한다.

이 변화의 핵심이 바로 멀티모달 AI다.

멀티모달이 뭔가

단어 자체는 간단하다. Multi(여러 개) + Modal(양식). 텍스트, 이미지, 음성, 영상 같은 여러 종류의 입력을 동시에 처리할 수 있는 AI를 멀티모달 AI라고 부른다.

기존 AI 모델은 대부분 단일 모달이었다. 텍스트 전용 모델, 이미지 전용 모델, 음성 전용 모델. 각자 자기 분야에서만 동작했다. 멀티모달 AI는 이 벽을 허문다. 하나의 모델이 텍스트도 읽고, 이미지도 보고, 소리도 듣는다.

사람이 세상을 인식하는 방식과 비슷하다고 보면 된다. 우리도 글만 읽어서 뭔가를 판단하지 않는다. 표정을 보고, 목소리 톤을 듣고, 주변 환경을 관찰하면서 종합적으로 이해한다. 멀티모달 AI도 비슷한 방향을 지향한다.

텍스트 전용 LLM과 뭐가 다른가

GPT-3.5 같은 텍스트 전용 LLM은 토큰(텍스트 조각)만 다룬다. 입력도 텍스트, 출력도 텍스트. "이 이미지에 뭐가 있어?"라는 질문 자체는 이해하지만, 실제 이미지를 볼 수는 없었다.

멀티모달 모델은 다르다.

텍스트뿐 아니라 이미지 픽셀 데이터, 오디오 파형 데이터까지 내부적으로 처리할 수 있는 구조를 갖추고 있다. 이미지를 넣으면 비전 인코더가 이미지를 벡터로 변환하고, 이 벡터가 언어 모델의 임베딩 공간과 정렬된다. 그래서 "이 사진 속 건물이 어디야?"라는 질문에 이미지와 텍스트를 동시에 참고해서 답할 수 있다.

핵심 차이를 정리하면 이렇다:

텍스트 LLM: 텍스트 입력 → 텍스트 출력
멀티모달 AI: 텍스트 + 이미지 + 음성 입력 → 텍스트 (+ 이미지/음성) 출력

출력 쪽도 멀티모달인 경우가 늘고 있다. GPT-4o는 텍스트 응답뿐 아니라 이미지 생성, 음성 합성까지 하나의 모델에서 처리한다.

어떻게 동작하는가

내부 구조를 아주 단순화하면 세 단계다.

1단계: 각 모달리티를 벡터로 변환

텍스트는 토크나이저로, 이미지는 비전 인코더(ViT 계열이 많다)로, 음성은 오디오 인코더로 각각 벡터 표현으로 바꾼다. 서로 다른 형태의 데이터를 같은 수학적 공간으로 옮기는 과정이다.

2단계: 공통 임베딩 공간에서 정렬

변환된 벡터들을 하나의 공유 공간에 배치한다. "고양이 사진"과 "고양이"라는 텍스트가 벡터 공간에서 가까이 위치하도록 학습하는 것이다. CLIP 같은 모델이 이 정렬을 담당하는 대표적인 사례다.

3단계: 트랜스포머로 통합 처리

정렬된 벡터들이 트랜스포머 아키텍처에 들어간다. 여기서 텍스트 토큰과 이미지 토큰이 서로 어텐션을 주고받으며, 모달리티 간의 관계를 파악한다.

이미지 → 비전 인코더 → 이미지 토큰
텍스트 → 토크나이저  → 텍스트 토큰
                              ↓
               트랜스포머 (크로스 어텐션)
                              ↓
                         통합 출력

구체적인 구현 방식은 모델마다 다르다. 어떤 모델은 처음부터 멀티모달로 학습하고(native multimodal), 어떤 모델은 텍스트 모델에 비전 모듈을 붙이는 방식이다. 전자가 더 자연스러운 통합을 만들어내지만, 학습 비용이 훨씬 크다.

대표 모델들

GPT-4o

OpenAI가 2024년에 내놓은 모델. 이름의 "o"가 omni(전부)를 뜻한다는 데서 알 수 있듯, 텍스트·이미지·음성을 하나의 모델로 통합 처리한다. 이전 GPT-4V가 텍스트 모델에 비전을 "붙인" 느낌이었다면, 4o는 처음부터 멀티모달로 설계됐다.

특히 음성 처리가 인상적이다. 기존에는 음성 → 텍스트 변환 → LLM 처리 → 텍스트 → 음성 합성 순서로 여러 모델을 거쳤는데, 4o는 이걸 한 모델 안에서 end-to-end로 처리한다. 응답 지연이 확 줄어든다.

Claude 3.5 Sonnet / Claude 4

Anthropic의 Claude 시리즈. 이미지 입력을 지원하며, 문서 분석 능력이 특히 강하다. 복잡한 표, 그래프, 차트가 포함된 PDF를 넣으면 구조를 파악하고 데이터를 추출하는 작업을 잘 해낸다.

코드가 포함된 스크린샷을 분석하는 것도 가능하다. 에러 메시지가 뜬 화면을 캡처해서 보여주면 문제를 파악하고 해결 방법을 제시한다.

Gemini

Google의 멀티모달 모델. 가장 큰 강점은 긴 컨텍스트 윈도우다. 100만 토큰 이상을 처리할 수 있어서, 긴 영상이나 대량의 이미지를 한번에 분석하는 시나리오에서 강하다. YouTube 영상을 통째로 넣고 요약을 요청하는 것도 가능하다.

Google의 검색 인프라와 연동되는 것도 차별점이다.

오픈소스 진영

LLaVA, InternVL, Qwen-VL 같은 오픈소스 멀티모달 모델도 빠르게 발전하고 있다. 상용 모델 대비 성능 차이가 좁혀지고 있고, 로컬에서 돌릴 수 있다는 게 가장 큰 장점이다. 민감한 데이터를 외부 API로 보내기 어려운 환경에서 유용하다.

실제로 어디에 쓰이나

문서 분석

이게 현재 가장 활발한 활용 영역이다. 스캔된 문서, 영수증, 계약서, 학술 논문을 AI에 넣으면 텍스트를 추출하고, 표를 정리하고, 핵심 내용을 요약한다. 기존 OCR보다 훨씬 정확하고 맥락을 이해하는 수준이 다르다.

예를 들어 복잡한 표가 포함된 재무제표를 이미지로 넣으면, 단순히 숫자를 읽는 게 아니라 "전년 대비 매출이 15% 증가했다" 같은 해석까지 가능하다.

접근성 도구

시각 장애인을 위한 이미지 설명 생성이 대표적. 카메라로 주변을 비추면 AI가 "앞에 횡단보도가 있고, 신호가 빨간색입니다"라고 음성으로 알려주는 앱이 이미 나와 있다. Be My AI 같은 서비스가 그 예다.

의료 영상 분석

X-ray, CT, MRI 같은 의료 영상을 분석해서 이상 소견을 탐지하는 데 활용된다. 보조 진단 도구로서의 가능성이 높은 분야인데, 규제와 신뢰성 문제 때문에 아직은 의사의 판단을 보조하는 역할에 머물러 있다.

코드 + UI 분석

디자인 시안(Figma 스크린샷 등)을 AI에 보여주고 "이거 React 코드로 만들어줘"라고 하면 꽤 그럴듯한 코드가 나온다. 완벽하지는 않지만 초안으로는 쓸 만하다. 에러 화면 캡처를 보여주고 디버깅을 요청하는 것도 흔한 사용 사례.

교육

교과서 사진을 찍어서 AI에 보여주면 문제를 풀어주거나 개념을 설명해준다. 수학 문제가 특히 잘 된다. 손글씨로 쓴 수식도 인식하고 풀이 과정을 보여준다.

한계와 과제

만능은 아니다. 몇 가지 분명한 한계가 있다.

할루시네이션은 여전하다. 이미지를 잘못 해석하는 경우가 종종 있다. 특히 세밀한 텍스트가 포함된 이미지에서 글자를 틀리게 읽거나, 이미지의 맥락을 잘못 파악하는 경우. 숫자를 읽는 것도 100% 정확하지 않다.

공간 추론이 약하다. "왼쪽에 있는 물체가 뭐야?"라는 질문에 오른쪽 물체를 가리키는 경우가 있다. 방향과 위치 관계를 정확히 파악하는 건 아직 개선이 필요한 영역이다.

비용. 멀티모달 입력은 텍스트보다 토큰을 많이 소모한다. 이미지 하나가 수백~수천 토큰에 해당해서, API 비용이 텍스트만 쓸 때보다 훨씬 높다. 대량 처리 시에는 비용 계산을 반드시 해봐야 한다.

프라이버시. 이미지나 음성 데이터는 텍스트보다 민감한 개인정보를 포함할 가능성이 높다. 얼굴이 찍힌 사진이나 목소리 데이터를 외부 API로 보내는 게 괜찮은지 따져봐야 한다.

앞으로의 방향

멀티모달 AI의 다음 단계는 몇 가지 방향이 보인다.

실시간 영상 이해가 점점 현실화되고 있다. 화면을 공유하면서 AI와 실시간으로 대화하는 것. Google의 Project Astra나 OpenAI의 Advanced Voice Mode가 이쪽 방향이다.

모달리티도 더 확장될 수 있다. 촉각 센서 데이터, 3D 공간 데이터, 센서 데이터까지 처리하는 모델이 연구되고 있다. 로봇공학과의 결합이 특히 주목받는 분야다.

그리고 모델 크기는 줄이면서 성능은 유지하는 경량화 연구. 스마트폰에서 멀티모달 AI를 로컬로 돌리는 게 목표다. 온디바이스 AI가 보편화되면 프라이버시 문제도 상당 부분 해결된다.

텍스트만 다루던 AI가 세상을 "보고 듣는" AI로 바뀌고 있다. 아직 사람의 인지 능력에는 한참 못 미치지만, 발전 속도를 보면 그 격차가 빠르게 좁혀질 거라는 건 분명하다.