Microsoft разработала искусственный интеллект, способный за 3 секунды сымитировать любой голос
Microsoft разработала искусственный интеллект (ИИ), способный за 3 секунды сымитировать любой голос
Сотрудники Майкрософт показали миру VALL-E – ИИ, который позволяет за несколько секунд анализа человеческой речи точно ее сымитировать. По словам разработчиков, достаточно всего нескольких простых фраз и 3-секундного звучания. В дальнейшем, система способна полноценно разговаривать голосом конкретного человека, соблюдая соответствующую интонацию и звуковой ландшафт. Многих данная разработка не только удивила, но и несколько насторожила.
Сам по себе синтез речи искусственным интеллектом – разработка далеко не новая. Однако в данном случае, поражает скорость обучения. Кроме того, речь звучит не сухо, а с выражением и необходимой интонацией, что ранее представлялось невозможным. Но и это далеко не все. Примечательно, что VALL-E начинает формировать произношение тех слов, которые человек ранее не говорил. Чтобы это осуществить, ИИ обучался английскому языку на протяжении более 60 тысяч часов. Происходило это при помощи бесплатных аудиокниг, которые читались тысячами дикторов с разными голосами.
Всего Microsoft продемонстрировала 4 разных фрагмента:
• Speaker Prompt. 3-секундная запись, которую должен сымитировать ИИ.
• Ground Truth. Уже имеющаяся запись для сравнения.
• Baseline. Пример стандартного синтеза речи.
• VALL-E. Речь, произнесенная ИИ от компании Microsoft.
Сравнивая все 4 фрагмента, можно убедиться в том, что американская компания действительно сделала большой шаг вперед. Синтезированная речь куда больше похожа на подлинную человеческую, а не на ту, что была озвучена роботом. А ведь не стоит забывать, что главный принцип любого ИИ – способность совершенствоваться. Кроме того, все результаты представлены на основании всего лишь 3-секундной речи. Если же дать ИИ больше исходных данных, то и в лучшем качестве обработки не придется сомневаться.
Однако даже в самой компании прекрасно осознают, что данный инструмент в чужих руках может привести к не самым приятным инцидентам. По этой причине, широкой публике не предоставили исходный код VALL-E. А значит оценить его возможности для всех желающих пока что не представляется возможным.
Официальные лица компании закончили демонстрацию следующими рассуждениями: «Раз VALL-E способен синтезировать речь конкретного человека, то имеется вероятность неправомерного использования данной разработки. Подделка голоса может привести к тому, что злоумышленники смогут получить доступ к личным данным людей или дистанционно представляться от лица конкретного человека. Поэтому, перед тем, как предоставить людям возможность использовать ИИ, необходимо создать модель обнаружения, способную определять оригинальность голоса или его подделку, через системы синтеза. Компания твердо намерена и дальше соблюдать базовые принципы этики, в том числе при разработке новых моделей ИИ».