Решать простые задачи с помощью ИИ — вполне привлекательная для них перспектива.
Например, это дает возможность легко закончить неинтересный диалог, быстро оформить заявку или отменить запись на приём.Пункт №3 ниже рассмотрим подробнее.
Синтез речи: голос, неотличимый от человеческогоЗдесь мы обратились к нашему разработчику Степану, чтобы немного развеять миф о том, что разговорный AI — это некая абстрактно-магическая сущность с непредсказуемыми навыками.
Степан: «Классическая задача любого бота, который с нами общается, решается так: сначала звук, полученный от человека преобразуется в текст. Потом этот текст анализируется. Далее текстовый модуль генерирует и озвучивает ответ. Здесь есть два основных варианта, над которыми сейчас работают it-компании:
- «Вопрос-ответ» по скрипту. В этом случае бот выбирает ответ из 2-3 заготовленных вариантов.
- Звук при этом может быть записан заранее спикером. Или в первый раз он синтезируется нейросетью, а все последующие — воспроизводится запись.
- Ответ, сгенерированный из миллиардов возможных вариантов. Здесь нейросеть обучена строить свободные предложения, в которых содержится правильный ответ.
- Звук при этом каждый раз синтезируется заново.
У этих направлений общая цель: сделать так, чтобы речь была максимально живой.Потому что на данный момент, как бы красиво ни звучала синтезированная речь, человек чаще всего слышит, что говорит с ботом. Получается что-то вроде привычного роботизированного голоса из фильмов: «Доступ к информации получен».
Также акцент сделан на распознавании эмоций. Цель: голосовые роботы, помимо генерирования оригинальных ответов, должны правильно распознать тон разговора. И, в нужный момент, ответить грустно, восторженно или просто дружелюбно.
Однако уже на сегодняшний день существуют голосовые ассистенты, которых не так просто отличить от живого собеседника. Для того, чтоб распознать, с кем идёт диалог, нужно задать пару странных вопросов.