Нейросети обучают на датасетах, состоящих из гигантских объёмов текстов новостях, архивах изданий, открытых обсуждениях в соцсетях. Объём этих данных огромен, но конечен. Чем будут питаться нейросети, когда данные закончатся?

26 июля 2024 13:29

Сколько данных нужно для обучения?

Лидирующие большие языковые модели используют наборы данных с десятками триллионов слов, и с каждым новым релизом их нужно больше. По подсчётам Epoch AI, в интернете содержится около 500 триллионов токенов (частей слов или целых слов в понятном для машин виде). Но если отфильтровать некачественный контент, останется 100 триллионов.

Когда данные закончатся?

Epoch AI считают, что технологические компании исчерпают запас общедоступных текстовых данных с 2026 по 2032 год, если сохранятся текущие темпы развития и тренд на «избыточное обучение» (использование большего количества данных, чем требуется).

Назад к списку