WaveNet против говорящих голов на сайте Pepsimist

WaveNet против говорящих голов

Google, вернее его подразделение DeepMind, научило компьютер говорить голосом, неотличимым от настоящего человеческого.
Он (она, оно) может говорить любым голосом: мужским, женским, с разными обертонами, различным выражением, темпом, интонированием, на разных языках.
При этом может воспроизводить придыхание, причмокивание, придавая речи еще большую натуральность.
Сейчас Android и Siri «говорят» типичным компьютерным голосом (text-to-speech, TTS) со всеми присущими ему дефектами.
В одном случае, компиляционном (concatenative TTS), используются слова и фонемы, взятые из предварительно начитанных и записанных семплов. Их надо лишь умудриться более-менее плавно соединять.
Либо применяется параметрический способ (parametric TTS), когда вокодер синтезирует фонемы, из которых состоит проговариваемый текст.
Но результат в обоих случаях хилый.
Гугловская же система WaveNet работает несколько иначе. Сперва её нейронную сеть «натаскали», дав ей проанализировать массив разнообразной аудиоинформации. Затем дали для анализа записи, сделанные на двух языках: английском и китайском.
Ниже можно сравнить образцы, сделанные всеми тремя вышеописанными способами.

Parametric

Concatenative

WaveNet

Ниже два примера генерации речи без преобразованного осмысленного текста, то есть голая имитация. Там как раз хорошо слышны звуки вдоха и размыкания губ.

Дальше таким образом возможно создание уникального голоса или копирование голоса любого человека со всем присущим именно ему своеобразием. И пожалуйста — подсовываете машине текст и она произносит его нужным вам голосом со всеми модуляциями, интонированием, причмокиванием, прихлюпыванием, шепелявостью, картавостью и прочими узнаваемыми деталями.
Автоматически все аудиоматериалы вроде записи телефонных переговоров сразу становятся недействительными в суде или в качестве доказательных материалов.
Дикторов, «говорящие головы» с большим успехом заменят специально отшлифованные вкрадчивые или деловито отстраненные машинные «дикторы». А там и до кинематографа доберутся и примутся штамповать звезд-вокалистов с диапазоном в шесть октав, которые не «дают петуха» и никогда не поют мимо нот, не простужаются, не срывают голоса и не пьют горькую.
Словом, радужная, но при этом мрачная картина вырисовывается.
Такой вот парадокс.

Теги: Всячина интернет любопытно учености

Ссылка:

WaveNet против говорящих голов

| В избранное

Опубликовал: . 21.09.2016 (Среда) 20:05 пп Раздел Всячина. Комментарии RSS.

На схожие темы:

Кот просится к человекам

С Новым годом!

Черный пояс по боевой парапсихологии, или Как сбивать компьютерные программы на лету

Тюнингованная Машина Голдберга

Колонизаторы Disney или Правила перевода по-африкански

Гуд-ньюз вместо фейк-ньюз

Харакири в прямом эфире ОТР

Чук и Гек против Тома и Гека

Законники лапотные

Ну и как теперь размерами мериться

Собянизация

Чтобы спереди погладить надо сзади полизать

Зеленка против отбеливателя

Как заработать на пенсию за два часа

Оставить комментарий

Ваш первый комментарий модерируется, поэтому появится не сразу.
Комментарии со ссылками проходят модерацию обязательно.
Комментарии, где в поле имени прописан ключевик, реклама, слоганы — удаляются.

Pepsimist

WaveNet против говорящих голов

Оставить комментарий

Архив

Разделы

Полезное

Страницы

Полезное

Полезное

Самые комментируемые