Недавно я побеседовал с нашим ведущим разработчиком искусственного интеллекта Степаном Степановым. Он занимается
в компании
IPTelefon обучением голосового робота Маши
. Степан учит её естественному общению с людьми – реакция на эмоции, определение пола собеседника, построению логических взаимосвязей беседы.
В начале января ему попалась на глаза одна любопытная техническая статья. В ней рассказывалось о том, что Майкрософт создал программу, способную почти со 100% точностью копировать голос, причём, с моделированием естественных эмоций.
Возможности нового продукта впечатляли: голос оригинала и смоделированный ИИ голос практически не отличались друг от друга.
Это ещё не всё, впечатляет размер оригинального фрагмента речи. Для того чтобы клонировать голос им требуется всего 3-х секундный аудио блок.
Свою модель разработчики назвали VALL-E. Конечно, это был всего лишь анонс продукта и никаких открытых кодов они не дали, но сам по себе факт того, что у них получилось, впечатляет.
Что-то подобное есть у Яндекса, но только им для клонирования нужен 5 часовой кусок речи, 3 месяца работы и стоимость этой услуги выражается суммой с пятью нолями.
Как происходит клонирование голоса. Кончик айсберга