VL-JEPA: Joint Embedding Predictive Architecture for Vision-language

Delong Chen!2,* Mustafa Shukor!3,*|—- Théo Moutakanni!,* Willy Chung!3,* Jade Yu!, Tejaswi Kasarla!, Allen Bolourchi!, Yann LeCun!, Pascale Fung!

‘Meta FAIR HKUST Sorbonne Université NYU
* Equal contribution
delong.chen@connect.ust.hk

We introduce VL-JEPA, a vision-language model built on a Joint Embedding Predictive Architecture (JEPA).

Instead of autoregressively generating tokens as in classical VLMs, VL-JEPA predicts continuous embeddings of the target texts.

By learning in an abstract representation space, the model focuses on task-relevant semantics while abstracting away surface-level linguistic variability.

In a strictly controlled comparison against standard token-space VLM training with the same vision encoder and training data, VL-JEPA achieves stronger performance while having 50% fewer trainable parameters.

At inference time, a lightweight text decoder is invoked only when needed to translate VL-JEPA predicted embeddings into text.

We show that VL-JEPA natively supports selective decoding that reduces the number of decoding operations by ~2.85x while maintaining similar performance compared to non-adaptive uniform decoding.

Beyond generation, the VL-JEPA’s embedding space naturally supports open-vocabulary classification, text-to-video retrieval, and discriminative VQA without any architecture modification.

On eight video classification and eight video retrieval datasets, the average performance VL-JEPA surpasses that of CLIP, SigLIP2, and Perception Encoder.

At the same time, the model achieves comparable performance as classical VLMs (InstructBLIP, QwenVL) on four VQA datasets: GQA, TallyQA, POPE and POPEv2, despite only having 1.6B parameters.

VL-JEPA: Совместная архитектура прогнозирования встраивания для визуального языка

Delong Chen!2,* Mustafa Shukor!3,*|—- Théo Moutakanni!,* Willy Chung!3,* Jade Yu!, Tejaswi Kasarla!, Allen Bolourchi!, Yann LeCun!, Pascale Fung!

‘Meta FAIR HKUST Sorbonne Université NYU
* Equal contribution
delong.chen@connect.ust.hk

Мы представляем VL-JEPA, модель обработки визуально-языковых данных, построенную на основе архитектуры совместного предиктивного встраивания (JEPA). Вместо авторегрессивной генерации токенов, как в классических моделях обработки визуально-языковых данных, VL-JEPA предсказывает непрерывные векторные представления целевых текстов.

Обучаясь в абстрактном пространстве представлений, модель фокусируется на семантике, релевантной задаче, абстрагируясь при этом от поверхностной лингвистической изменчивости.

В строго контролируемом сравнении со стандартным обучением модели обработки визуально-языковых данных в пространстве токенов с использованием того же кодировщика и обучающих данных, VL-JEPA демонстрирует более высокую производительность, при этом имея на 50% меньше обучаемых параметров.

Во время вывода легковесный текстовый декодер вызывается только тогда, когда это необходимо для преобразования предсказанных VL-JEPA векторов в текст.

Мы показываем, что VL-JEPA изначально поддерживает селективное декодирование, которое сокращает количество операций декодирования примерно в 2,85 раза, сохраняя при этом аналогичную производительность по сравнению с неадаптивным равномерным декодированием.

Помимо генерации, пространство встраивания VL-JEPA естественным образом поддерживает классификацию с открытым словарем, поиск текста в видео и дискриминативный VQA без каких-либо архитектурных модификаций.

На восьми наборах данных для классификации видео и восьми наборах данных для поиска видео средняя производительность VL-JEPA превосходит производительность CLIP, SigLIP2 и Perception Encoder.

В то же время модель достигает сопоставимой производительности с классическими VLM (InstructBLIP, QwenVL) на четырех наборах данных VQA: GQA, TallyQA, POPE и POPEv2, несмотря на наличие всего 1,6 млрд параметров.

Introduction

One of the most important aspects of advanced machine intelligence is the ability to understand the physical world that surrounds us.

This ability enables AI systems to learn, reason, plan and act in the real world in order to assist humans [LeCun, 2022].

Intelligent systems that need to act in the real world includes wearable devices and robots [Fung et al.

, 2025].

Machine learning tasks that make up for this ability include captioning, retrieval, visual question answering, action tracking, reasoning and planning etc [Bordes et al., 2024, Chen et al., 2025b]. Systems for such real-world applications must have real-time response with low latency and inference cost.

Introduction

Одним из важнейших аспектов передового машинного интеллекта является способность понимать физический мир, который нас окружает.

Эта способность позволяет системам ИИ учиться, рассуждать, планировать и действовать в реальном мире, чтобы помогать людям [LeCun, 2022].

Интеллектуальные системы, которым необходимо действовать в реальном мире, включают носимые устройства и роботов [Fung et al., 2025].

Задачи машинного обучения, которые обеспечивают эту способность, включают создание подписей, поиск информации, визуальные ответы на вопросы, отслеживание действий, рассуждения и планирование и т. д. [Bordes et al., 2024, Chen et al., 2025b].

Системы для таких реальных приложений должны иметь отклик в реальном времени с низкой задержкой и низкой стоимостью вывода.

Currently, the common approach to achieve these tasks is to use large token-generative Vision Language Models (VLMs) [Liu et al., 2023, Dai et al., 2023, Alayrac et al., 2022, Chen et al., 2024b, Cho et al., 2025, Chen et al., 2022], which takes visual input X_v, textual query 𝑋𝑄 to generate desired textual response 𝑌 autoregressively in token space, i.e., (𝑋𝑉 , 𝑋𝑄) ↦→ 𝑌.

This is straightforward but inadequate for two main reasons. First, VLMs are expensive to develop, because they are trained to generate responses 𝑌 to queries by capturing both task-relevant semantics with task-irrelevant surface linguistic features such as words choice, style or paraphrasing.

During training, VLMs must model both aspects, which results in unnecessary computing effort spent producing diverse token sequences that ultimately do not impact the correctness of the output.

Figure 1. VL-JEPA model architecture

Second, real-time tasks involving live streaming video (e.g., live action tracking) require sparse and selective decoding (e.g.,, emitting a description only when a new event occurs) [Zhou et al., 2024].

However, VLMs rely on autoregressive token-by-token decoding, which must be completed before revealing the underlying semantics of 𝑌.

This process introduces unnecessary latency and hampers the ability to update semantics dynamically in real time.

В настоящее время распространенный подход к решению этих задач заключается в использовании больших токен-генерирующих моделей визуального языка (VLM) [Liu et al., 2023, Dai et al., 2023, Alayrac et al., 2022, Chen et al., 2024b, Cho et al., 2025, Chen et al., 2022], которые принимают визуальный вход X_v и текстовый запрос 𝑋𝑄 для генерации желаемого текстового ответа 𝑌 авторегрессивно в токен-пространстве, т. е., (𝑋𝑉 , 𝑋𝑄) ↦→ 𝑌.

Это простой, но недостаточный подход по двум основным причинам. Во-первых, разработка VLM обходится дорого, потому что они обучаются генерировать ответы 𝑌 на запросы, улавливая как релевантную задаче семантику, так и нерелевантные задаче поверхностные лингвистические особенности, такие как выбор слов, стиль или перефразирование.

Во время обучения VLM должны моделировать оба аспекта, что приводит к ненужным вычислительным затратам на создание разнообразных последовательностей токенов, которые в конечном итоге не влияют на правильность выходных данных.

Figure 1. VL-JEPA model architecture

Во-вторых, задачи реального времени, связанные с потоковой передачей видео в реальном времени (например, отслеживание действий в реальном времени), требуют разреженного и выборочного декодирования (например, выдача описания только при возникновении нового события) [Zhou et al., 2024].

Однако VLM-модели полагаются на авторегрессивное потоковое декодирование, которое должно быть завершено до раскрытия базовой семантики 𝑌.

Этот процесс вносит ненужную задержку и затрудняет возможность динамического обновления семантики в реальном времени.

This paper introduces the Joint Embedding Predictive Architecture for Vision-Language (VL-JEPA), turning expensive learning of data-space token generation into more efficient latent-space semantic prediction.

As illustrated in Fig. 1, the model employs x-encoder to map vision inputs 𝑋𝑉 into embedding 𝑆𝑉, a y-encoder to map the textual target 𝑌 into an embedding 𝑆𝑌, and a predictor that learns the mapping (𝑆𝑉 , 𝑋𝑄) ↦→ 𝑆𝑌 where 𝑋𝑄 is a textual query (i.e., the prompt). The training objective is defined in the embedding space ℒVL-JEPA = 𝐷(ˆ 𝑆 𝑌, 𝑆𝑌) instead of the data space ℒVLM = 𝐷( ˆ 𝑌 , 𝑌). During inference, a y-decoder reads out the predicted embedding ˆ 𝑆 𝑌 to text space ˆ 𝑌 when needed.

В данной статье представлена архитектура Joint Embedding Predictive Architecture for Vision-Language (VL-JEPA), которая превращает дорогостоящее обучение генерации токенов в пространстве данных в более эффективное семантическое прогнозирование в латентном пространстве.

Как показано на рис. 1, модель использует x-кодировщик для отображения входных данных изображения в векторное представление 𝑋𝑉, y-кодировщик для отображения текстового целевого объекта 𝑌 в векторное представление 𝑆𝑌 и предиктор, который обучается отображению (𝑆𝑉 , 𝑋𝑄) ↦→ 𝑆𝑌, где 𝑋𝑄 — текстовый запрос (т.е., подсказка). Цель обучения определяется в пространстве встраивания ℒVL-JEPA = 𝐷(ˆ 𝑆 𝑌, 𝑆𝑌) вместо пространства данных ℒVLM = 𝐷( ˆ 𝑌 , 𝑌). Во время вывода y-декодер считывает предсказанное встраивание ˆ 𝑆 𝑌 в текстовое пространство ˆ 𝑌 при необходимости.