멀티모달 임베딩 전략 비교 (이미지, 문장, 벡터화)

최근 멀티모달 인공지능 프로젝트에 참여하면서 이미지와 텍스트 데이터를 함께 처리하는 구조를 설계할 일이 많아졌습니다. 이 과정에서 가장 중요하게 다뤄야 했던 부분 중 하나는 각기 다른 데이터 타입을 공통된 의미 공간에서 비교하거나 결합할 수 있도록 임베딩하는 전략이었습니다. 텍스트는 문장 구조, 문맥, 어휘 차이를 고려해야 하며, 이미지는 형태, 색상, 질감 등의 시각적 요소를 벡터로 표현해야 합니다. 이러한 서로 다른 모달리티를 통합하기 위해 어떤 임베딩 전략을 선택하느냐에 따라 모델 성능과 확장성이 크게 달라질 수 있습니다. 본 글에서는 멀티모달 인공지능 시스템에서 사용되는 이미지와 텍스트 임베딩 전략들을 비교하고, 그 특성과 장단점, 선택 시 고려해야 할 요소들을 정리하였습니다.
이미지 임베딩 – CNN에서 비전 트랜스포머까지
이미지 임베딩은 시각 정보를 고차원 벡터로 변환하는 과정이며, 컴퓨터비전 모델의 핵심 구성입니다. 초기에는 Convolutional Neural Network(CNN)가 이미지 특징 추출의 표준 방식이었으며, 대표적으로 ResNet, EfficientNet, Inception 등이 널리 활용되었습니다. 이러한 구조는 이미지의 공간 정보를 보존하면서 지역적인 특징을 추출할 수 있도록 설계되었으며, 이미지 분류, 객체 인식, 세그멘테이션 등 다양한 태스크에 적용되어 높은 성능을 보여주었습니다.
하지만 CNN 기반 구조는 글로벌 컨텍스트 파악에 한계가 있고, 계층적으로 추출된 특징들이 각기 다른 의미 공간에 위치하는 경우가 많아, 멀티모달 통합 임베딩에는 다소 제약이 있었습니다. 이를 극복하기 위해 등장한 것이 Vision Transformer(ViT) 기반 임베딩 전략입니다. ViT는 이미지를 일정 크기의 패치로 나눈 후, 이를 시퀀스 형태로 입력하여 전체 이미지를 글로벌하게 해석하는 방식을 사용합니다.
ViT 기반 임베딩은 텍스트에서 사용하는 트랜스포머 구조와 유사하기 때문에, 이미지와 텍스트 임베딩을 동일한 아키텍처 패턴에서 처리할 수 있다는 장점이 있습니다. 이는 멀티모달 모델에서 임베딩 간 정렬(alignment) 성능을 향상시키는 데 큰 도움이 되며, CLIP, BLIP, Flamingo 등 주요 멀티모달 모델에서도 ViT가 이미지 인코더로 활용되는 사례가 늘고 있습니다.
텍스트 임베딩 – 문맥 이해에서 의미 정렬까지
텍스트 임베딩은 자연어 문장을 수치 벡터로 표현하는 과정으로, 단어 간 문맥, 문장 구조, 의미적 유사성 등을 반영해야 합니다. 가장 기본적인 방식은 Word2Vec이나 GloVe처럼 단어 수준의 벡터를 생성하는 것이었지만, 이러한 정적 임베딩은 문맥 반영에 한계가 있었습니다. 이후 등장한 BERT, RoBERTa, T5, GPT 등 트랜스포머 기반의 언어 모델은 문맥을 반영한 동적 임베딩을 생성함으로써 텍스트 표현의 정밀도를 크게 향상시켰습니다.
특히 멀티모달 임베딩에서는 텍스트 표현이 이미지 표현과 얼마나 의미적으로 가까운지를 고려해야 하기 때문에, 텍스트 임베딩의 품질이 전체 시스템의 정확도에 직접적인 영향을 미칩니다. 예를 들어 “강아지가 잔디밭에 누워 있다”라는 문장을 벡터화할 때, ‘강아지’, ‘잔디밭’, ‘누워 있다’의 의미를 각각 정확히 포착하고, 이들을 통합된 표현으로 구성해야 합니다.
멀티모달 모델에서는 이러한 문장을 임베딩한 결과가 이미지 임베딩과 동일한 임베딩 공간에 위치하도록 학습합니다. 이를 위해 Cross-Modal Contrastive Learning이 사용되며, 이미지-문장 쌍의 유사도는 cosine similarity 또는 inner product 등으로 계산됩니다. 텍스트 임베딩의 성능은 프롬프트 품질에도 영향을 받기 때문에, 멀티모달 시스템에서는 프롬프트 설계 또한 중요한 변수로 작용합니다.
공통 임베딩 공간 구축 전략과 모델별 비교
멀티모달 AI에서 핵심은 이미지와 텍스트를 동일한 의미 공간에서 표현할 수 있도록 임베딩 정렬(alignment)을 잘 수행하는 것입니다. 이를 구현하는 대표적인 전략은 CLIP에서 제안된 대조 학습 기반의 이중 인코더 구조입니다. 이 구조는 이미지와 텍스트를 각각 독립된 인코더에서 임베딩한 후, 동일한 임베딩 공간에서의 유사도를 기반으로 학습합니다.
CLIP은 별도의 태스크 지시 없이 텍스트 프롬프트만으로 다양한 분류나 검색이 가능하다는 점에서 유연성과 확장성이 뛰어납니다. 반면 BLIP는 보다 통합적인 구조로, 이미지와 텍스트를 함께 입력받아 멀티모달 attention을 활용하여 더 깊은 의미 통합을 시도합니다. 이를 통해 이미지 캡셔닝이나 VQA와 같은 복합 태스크에서 더 높은 성능을 발휘할 수 있습니다.
또한 Flamingo, OFA(One For All), Kosmos-1 등은 멀티모달 임베딩을 넘어, 멀티모달 생성까지 가능한 구조를 탑재하고 있으며, 사전학습 단계에서 이미지-텍스트 상호작용을 강화한 학습 기법을 사용합니다. 이러한 구조에서는 텍스트 생성 성능까지 고려하여 임베딩 구조가 설계되며, 학습에 사용되는 데이터셋의 다양성도 임베딩 성능에 중요한 영향을 줍니다.
결론 – 임베딩 전략 선택의 실무적 기준
멀티모달 임베딩 전략은 단순한 벡터화 기술이 아니라, 모델이 서로 다른 모달리티 간 의미를 얼마나 정밀하게 연결할 수 있는지를 결정하는 핵심 요소입니다. 이미지 임베딩에서는 ViT 기반 구조가 점차 주류가 되고 있으며, 텍스트 임베딩에서는 BERT 계열 트랜스포머가 여전히 강력한 성능을 유지하고 있습니다. 그러나 모델의 목적, 응용 분야, 시스템 요구 사항에 따라 어떤 임베딩 구조를 선택할지는 달라질 수 있습니다.
제로샷 분류, 검색 기반 추천, 이미지 설명 생성 등 다양한 목적에 맞춰 공통 임베딩 공간을 어떻게 설계할 것인가는 실무 기획과 모델 개발에서 매우 중요한 판단 기준이 됩니다. 본 글이 멀티모달 인공지능 시스템을 설계하거나 관련 연구를 수행하고자 하는 독자에게 임베딩 전략을 이해하고 비교할 수 있는 실질적인 기초가 되기를 바랍니다.
댓글
댓글 쓰기