Нейросети обучают на датасетах, состоящих из гигантских объёмов текстов новостях, архивах изданий, открытых обсуждениях в соцсетях. Объём этих данных огромен, но конечен. Чем будут питаться нейросети, когда данные закончатся?
Сколько данных нужно для обучения?
Сколько данных нужно для обучения?
Лидирующие большие языковые модели используют наборы данных с десятками триллионов слов, и с каждым новым релизом их нужно больше. По подсчётам Epoch AI, в интернете содержится около 500 триллионов токенов (частей слов или целых слов в понятном для машин виде). Но если отфильтровать некачественный контент, останется 100 триллионов.
Когда данные закончатся?
Epoch AI считают, что технологические компании исчерпают запас общедоступных текстовых данных с 2026 по 2032 год, если сохранятся текущие темпы развития и тренд на «избыточное обучение» (использование большего количества данных, чем требуется).