Ученые МФТИ предложили способ улучшения работы чат-ботов
Для этого они создали полуавтоматизированный алгоритм разметки диалоговых данных для ИИ.
Для этого они создали полуавтоматизированный алгоритм разметки диалоговых данных для ИИ.
Специалисты провели эксперимент, основной задачей которого была автоматизация аннотации, и попробовали сымитировать человеческую разметку данных для обучения моделей с помощью ChatGPT. Схемы аннотаций разработали лингвисты. По словам ученых, теперь эксперты требуются только для предварительной разметки и разработки иерархической схемы разметки.
«Эксперты тратят в среднем 14,5 минут на аннотацию одного диалога, в то время как краудсорсеры (разметчики на фрилансе — прим.ред.) затрачивают 29 минут на ту же работу. Время, необходимое для выполнения задачи с помощью ChatGPT, всегда разное, тем не менее, в среднем небольшой диалог может быть аннотирован за 10 минут», — отметили в МФТИ. Стоимость аннотирования с помощью ChatGPT составляет, по словам ученых, «от 0,03$ до 0,07$, в то время как работникам краудсорсинга необходимо платить от 0,12$ до 0,22$ за аннотацию одного диалога».
Специалисты также отмечают, что аналогичный подход к разметке диалогов может иметь широкое применение и уже зарекомендовал себя в работе над одним из совместных научно-исследовательских проектов МФТИ и Сбербанка.
Схема аннотации данных с помощью больших языковых моделей представлена на скриншоте.