GPT-4-Turbo возглавила рейтинг языковых моделей. Объясняем, как его составляют
На прошлой неделе OpenAI выпустила обновленную версию модели GPT-4-Turbo. Согласно отзывам, она лучше создает код, пишет эссе, в ее текстах меньше «воды». Вскоре после выпуска GPT-4-Turbo заняла первое место в рейтинге больших языковых моделей (LLM) — Arena Leaderboard. Он формируется на основе голосования людей, сбора пользовательских данных и парного сравнения.
На прошлой неделе OpenAI выпустила обновленную версию модели GPT-4-Turbo. Согласно отзывам, она лучше создает код, пишет эссе, в ее текстах меньше «воды». Вскоре после выпуска GPT-4-Turbo заняла первое место в рейтинге больших языковых моделей (LLM) — Arena Leaderboard. Он формируется на основе голосования людей, сбора пользовательских данных и парного сравнения.
❓ Что означают параметры в рейтинге Arena
⚪️ Arena Elo — рейтинг LLM-моделей, похожий на тот, что используется в шахматах. Он показывает, как хорошо модель справляется в соревнованиях с другими. В этих соревнованиях пользователи выбирают лучшую модель. Сравнение происходит в режиме слепого тестирования: пользователю выдается два окна для общения с неизвестными ему нейросетями, он может с ними беседовать, пока не определит лучшую LLM на основе его личных предпочтений.
⚪️ CI, 95% — доверительный интервал рейтинга модели. Что это означает: например, у модели GPT-4-Turbo указан рейтинг Elo —1260, а показатель CI, 95% — +5/-5; значит, с вероятностью 95% истинный рейтинг модели будет находиться в интервале 1255–1265 (то есть плюсуем 5 и вычитаем 5 из показателя 1260). С помощью CI можно отслеживать объективность положения LLM в таблице, и именно поэтому сразу 3 модели занимают 1-е место: их рейтинги «пересекаются» в своих доверительных интервалах.
⚪️ Голоса — количество голосов пользователей Arena. На сегодняшний день Arena оперирует 670 тыс. голосов.
⚪️ Разработчик — компания, которой принадлежит LLM.
⚪️ База знаний — на данных за какой период обучена модель, например, GPT-4-Turbo обладает знаниями о мире до декабря 2023.