Яндекс обновил Нейро, добавив VLM для улучшения поиска по картинкам
Эта мультимодальная модель одновременно анализирует текст и изображения.
Эта мультимодальная модель одновременно анализирует текст и изображения.
На Хабре вышла статья от разработчика Яндекса, объясняющая устройство VLM. Модель состоит из текстовой и визуальной частей, объединенных специальным адаптером.
В статье сравниваются старый и новый подходы обработки запросов в Нейро. Спойлер: новая система лучше понимает связь между текстом и изображениями. Это мы читаем.