Яндекс обновил Нейро, добавив VLM для улучшения поиска по картинкам

5 октября 2024 5:25

Эта мультимодальная модель одновременно анализирует текст и изображения.

На Хабре вышла статья от разработчика Яндекса, объясняющая устройство VLM. Модель состоит из текстовой и визуальной частей, объединенных специальным адаптером.

В статье сравниваются старый и новый подходы обработки запросов в Нейро. Спойлер: новая система лучше понимает связь между текстом и изображениями. Это мы читаем.

Назад к списку