VL-JEPA: Joint Embedding Predictive Architecture for Vision-language
Delong Chen!2,* Mustafa Shukor!3,*|—- Théo Moutakanni!,* Willy Chung!3,*
Jade Yu!, Tejaswi Kasarla!, Allen Bolourchi!, Yann LeCun!, Pascale Fung!
‘Meta FAIR HKUST Sorbonne Université NYU
* Equal contribution
delong.chen@connect.ust.hk
We introduce VL-JEPA, a vision-language model built on a
Joint Embedding Predictive Architecture (JEPA).
Instead of autoregressively generating tokens as in classical VLMs, VL-JEPA predicts continuous embeddings of
the target texts.
By learning in an abstract representation space, the model focuses on task-relevant semantics
while abstracting away surface-level linguistic variability.
In a strictly controlled comparison against standard
token-space VLM training with the same vision encoder and training data, VL-JEPA achieves stronger performance
while having 50% fewer trainable parameters.
At inference time, a lightweight text decoder is invoked only when
needed to translate VL-JEPA predicted embeddings into text.
We show that VL-JEPA natively supports selective
decoding that reduces the number of decoding operations by ~2.85x while maintaining similar performance
compared to non-adaptive uniform decoding.
Beyond generation, the VL-JEPA’s embedding space naturally
supports open-vocabulary classification, text-to-video retrieval, and discriminative VQA without any architecture
modification.
On eight video classification and eight video retrieval datasets, the average performance VL-JEPA
surpasses that of CLIP, SigLIP2, and Perception Encoder.
At the same time, the model achieves comparable
performance as classical VLMs (InstructBLIP, QwenVL) on four VQA datasets: GQA, TallyQA, POPE and POPEv2,
despite only having 1.6B parameters.
VL-JEPA: Совместная архитектура прогнозирования встраивания для визуального языка
Delong Chen!2,* Mustafa Shukor!3,*|—- Théo Moutakanni!,* Willy Chung!3,*
Jade Yu!, Tejaswi Kasarla!, Allen Bolourchi!, Yann LeCun!, Pascale Fung!
‘Meta FAIR HKUST Sorbonne Université NYU
* Equal contribution
delong.chen@connect.ust.hk
Мы представляем VL-JEPA, модель обработки визуально-языковых данных, построенную на основе архитектуры
совместного предиктивного встраивания (JEPA).
Вместо авторегрессивной генерации токенов, как в классических моделях обработки визуально-языковых данных,
VL-JEPA предсказывает
непрерывные векторные представления целевых текстов.
Обучаясь в абстрактном пространстве представлений, модель фокусируется на семантике, релевантной задаче,
абстрагируясь при этом от поверхностной лингвистической изменчивости.
В строго контролируемом сравнении со стандартным обучением модели обработки визуально-языковых данных в пространстве токенов с использованием того же кодировщика и обучающих данных, VL-JEPA демонстрирует более высокую производительность,
при этом имея на 50% меньше обучаемых параметров.
Во время вывода легковесный текстовый декодер вызывается только тогда, когда это необходимо для преобразования предсказанных VL-JEPA векторов в текст.
Мы показываем, что VL-JEPA изначально поддерживает селективное
декодирование, которое сокращает количество операций декодирования примерно в 2,85 раза, сохраняя при этом аналогичную производительность
по сравнению с неадаптивным равномерным декодированием.
Помимо генерации, пространство встраивания VL-JEPA естественным образом
поддерживает классификацию с открытым словарем, поиск текста в видео и дискриминативный VQA без каких-либо архитектурных
модификаций.
На восьми наборах данных для классификации видео и восьми наборах данных для поиска видео средняя производительность VL-JEPA
превосходит производительность CLIP, SigLIP2 и Perception Encoder.
В то же время модель достигает сопоставимой
производительности с классическими VLM (InstructBLIP, QwenVL) на четырех наборах данных VQA: GQA, TallyQA, POPE и POPEv2,
несмотря на наличие всего 1,6 млрд параметров.