Компания Илона Маска выпустила мультимодальную ИИ-модель Grok 1.5 Vision
Компания xAI, занимающаяся ИИ, представила мультимодальную модель Grok 1.5 Vision — конкурента OpenAI. Помимо «понимания» текста, она может работать с документами, диаграммами, скриншотами и фотографиями, а также способна преобразовывать информацию из изображений в различные форматы, писать творческие тексты и даже давать советы по ремонту дома.
Компания xAI, занимающаяся ИИ, представила мультимодальную модель Grok 1.5 Vision — конкурента OpenAI. Помимо «понимания» текста, она может работать с документами, диаграммами, скриншотами и фотографиями, а также способна преобразовывать информацию из изображений в различные форматы, писать творческие тексты и даже давать советы по ремонту дома.
Согласно релизу, Grok 1.5V соединяет физический и цифровой миры. Компания привела семь примеров, чтобы объяснить, как работает новая модель. Так, пользователь может поделиться с Grok изображением блок-схемы, а ИИ переведет ее в код Python. Или, показав этикетку продукта, можно узнать, сколько калорий получишь от еды. Еще Grok может преобразовать таблицу в формат CSV, а также исправит нерабочий фрагмент кода. Если нужен совет по ремонту дома, достаточно прислать фото — и модель даст рекомендации. Судя по примерам, представленным в релизе, Grok 1.5V может просматривать изображения и различать сравнительно большие объекты.
Напомним, в ноябре 2023 года представили первую версию модели Grok. Разработчики подчеркнули стремление к открытости, сделав доступными исходные коды весов и архитектуру.