На сайте используются «cookies», чтобы сайт работал еще лучше

Кому нужны программы клонирования голоса. Мнение ведущего инженера ИИ

Недавно я побеседовал с нашим ведущим разработчиком искусственного интеллекта Степаном Степановым. Он занимается в компании IPTelefon обучением голосового робота Маши. Степан учит её естественному общению с людьми – реакция на эмоции, определение пола собеседника, построению логических взаимосвязей беседы.

В начале января ему попалась на глаза одна любопытная техническая статья. В ней рассказывалось о том, что Майкрософт создал программу, способную почти со 100% точностью копировать голос, причём, с моделированием естественных эмоций.

Возможности нового продукта впечатляли: голос оригинала и смоделированный ИИ голос практически не отличались друг от друга.

Это ещё не всё, впечатляет размер оригинального фрагмента речи. Для того чтобы клонировать голос им требуется всего 3-х секундный аудио блок.

Свою модель разработчики назвали VALL-E. Конечно, это был всего лишь анонс продукта и никаких открытых кодов они не дали, но сам по себе факт того, что у них получилось, впечатляет.

Что-то подобное есть у Яндекса, но только им для клонирования нужен 5 часовой кусок речи, 3 месяца работы и стоимость этой услуги выражается суммой с пятью нолями.

Как происходит клонирование голоса. Кончик айсберга
Уже считается нормой, когда встроенные в текстовые сервисы программы озвучивают напечатанный текст. Не любишь читать слушай. Только сам голос чаще всего безэмоциональный, механический, без души.

И здесь вопрос даже не тембра, здесь вопрос эмоциональной окраски. Научить этому искусственный интеллект основная современная задача ML инженеров.

Компьютеру для чтения текста вслух важно понимать, что он читает и как это произнести. Поэтому в системе клонирования два входящих источника:
  • Озвучиваемый текст;
  • Образец голоса, который будет использован при прочтении.

Самая главная проблема при синтезе речи – это создание голосового образа со всеми характерными особенностями. Чтобы обучить систему, нужно иметь большую базу аудиозаписей и текстов для сопоставления.
Отличительная особенность новых разработок – создание правдоподобного образа оригинала на основании очень коротких интервалов звучащей речи.

Над созданием инструментов клонирования голоса трудится много IT команд, которые стремятся к созданию коммерческих продуктов:
  • Resemble.AI
  • iSpeech
  • Lyrebird
  • Vera Voice

Для обхода этических моментов и некоторые компании создают коммерческие продукты, используя вместо клонирования голоса нейросетевые системы синтеза-смешения множества голосов. Пример такого продукта – Yandex SpeechKit.
Команда разработчиков искусственного интеллекта робота Маши тоже шагает в ногу со временем. Мы пока не Майкрософт, но и у нас есть свои интересные наработки в области технологии voice cloning. Робот Маша подтвердит.

Скорее всего, очень скоро клонирование голоса любого человека будет доступно каждому. Для этого нужно будет просто подключиться к понравившемуся сервису, подгрузить текст и файл оригинального голоса, а дальше дело техники.
Но, как известно, любое изобретение имеет две стороны: светлую и темную. Один человек направит новинку на хорошее дело, второй – на плохое.

Светлая сторона
Какая польза от систем клонирования голоса?

Точек приложения на самом деле может быть очень много.

  1. Озвучка персонажей в играх;
  2. Поздравить близкого человека голосом любимого актера.
  3. Начитывание аудиокниг со сказками профессиональными дикторами с дальнейшим клонированием голосов родителей.
  4. Создание аудио-, видеокурсов, рекламных роликов и аудиорекламы.
  5. Генерация голосов ботов, различных умных устройств, индивидуальных голосовых помощников.
  6. Можно адаптировать устную речь под местный акцент.
  7. Синтезирование естественной устной речи для людей, которые не могут говорить, используя примеры их собственной речи.
  8. Озвучивание переводов фильмов голосами оригинальных актёров.

Как вариант коммерческого применения – это биржа голосов, наподобие стоков для фотографий и видео. У человека замечательный голос и он его продает. Вы выбираете голос, покупаете, скачиваете аудиофайл себе. Делаете с ним рекламу, озвучиваете фильм и так далее.

Это только малая часть того, что можно придумать с подобным сервисом. Такой технологический прорыв породит создание новых видов услуг, новых профессий, начнут создаваться голосовые банки.

Темная сторона
И, конечно, совершенно очевидно, что мошенники непременно подхватят такой подарок. Телефонное мошенничество чуть ослабило сейчас свою хватку, но получив в свои загребущие ручки простой и доступный инструмент клонирования голоса, поднимется на новый уровень.

Это сильно упростит им работу. Достаточно произнести в трубку: «Алло, алло. Кто говорит?», – этого будет достаточно, чтобы снять голос и использовать его в преступных целях.

Или звонит сын, брат, сват с какого-то незнакомого номера и говорит родным и знакомым голосом, что он разбил телефон и просит денег на новый.

Вполне естественно на защиту честных граждан встанут IT инженеры и создадут противоядие от недобросовестных товарищей. Скорее всего начнут появляться приложения для смартфонов с вариантами верификации, Критерии могут быть разные, и это непаханое поле для думающих и умных людей.

Кстати у новой технологии есть ещё один подводный камушек.

Много творческих людей может остаться без работы
Распространение и удешевление сервисов по клонированию голоса может оставить без работы людей, которые озвучивают фильмы, мультфильмы, рекламу, начитывают книги и т.д. Это вполне предсказуемо, но это совсем не повод отказываться от прогресса.

Это произойдёт рано или поздно, но без работы люди творчества вряд ли останутся. Кто хочет, тот всегда найдёт применение своему таланту. Например, будут изобретать новые голоса.

По большому счёту искусственный интеллект всё равно постепенно вытеснит некоторые профессии, и он уже сейчас это делает, являясь могильщиком многих специальностей. Даже есть официальная статистика по профессиям, которые исчезнут в ближайшее время.

Повод ли об этом переживать?

Ушло старое – пришло новое. Законы эволюции в действии. Двигаемся вперед и потому живём. Опять же статистика штука упрямая и она уже назвала профессии, которые придут взамен старых.

Например, обслуживание программных и технических устройств ИИ – за ними нужно следить, обслуживать, дорабатывать, разрабатывать что-то новое.
В Майкрософт придумали подход, который быстро и правдоподобно позволяет копировать голос. И это замечательная новость для людей, интересующихся данными технологиями. А мы, команда ZEON будем и дальше продолжать отслеживать движения в этом направлении и держать вас в курсе всплесков инновационных решений на фоне российских и международных трендов по развитию ИИ.