Почитать на выходных: серия заметок SberDevices про обучение LLM пониманию видео
В двух материалах авторы изложили эволюцию подходов к обучению мультимодальных больших языковых моделей пониманию и интерпретации видеоряда. Также разработчики рассказали о направлении Video Understanding на стыке компьютерного зрения и обработки естественного языка и о значимых работах в этой и других сферах.
В двух материалах авторы изложили эволюцию подходов к обучению мультимодальных больших языковых моделей пониманию и интерпретации видеоряда. Также разработчики рассказали о направлении Video Understanding на стыке компьютерного зрения и обработки естественного языка и о значимых работах в этой и других сферах.
Отдельно они объяснили сложность обучения русскоязычных моделей для применения в реальных условиях и раскрыли методы их оценки с помощью бенчмарка.