WaveNet против говорящих голов
Среда, Сентябрь 21st, 2016Google, вернее его подразделение DeepMind, научило компьютер говорить голосом, неотличимым от настоящего человеческого.
Он (она, оно) может говорить любым голосом: мужским, женским, с разными обертонами, различным выражением, темпом, интонированием, на разных языках.
При этом может воспроизводить придыхание, причмокивание, придавая речи еще большую натуральность.
Сейчас Android и Siri «говорят» типичным компьютерным голосом (text-to-speech, TTS) со всеми присущими ему дефектами.
В одном случае, компиляционном (concatenative TTS), используются слова и фонемы, взятые из предварительно начитанных и записанных семплов. Их надо лишь умудриться более-менее плавно соединять.
Либо применяется параметрический способ (parametric TTS), когда вокодер синтезирует фонемы, из которых состоит проговариваемый текст.
Но результат в обоих случаях хилый.
Гугловская же система WaveNet работает несколько иначе. Сперва её нейронную сеть «натаскали», дав ей проанализировать массив разнообразной аудиоинформации. Затем дали для анализа записи, сделанные на двух языках: английском и китайском.
Ниже можно сравнить образцы, сделанные всеми тремя вышеописанными способами.
Parametric
Concatenative
WaveNet
Ниже два примера генерации речи без преобразованного осмысленного текста, то есть голая имитация. Там как раз хорошо слышны звуки вдоха и размыкания губ.
Дальше таким образом возможно создание уникального голоса или копирование голоса любого человека со всем присущим именно ему своеобразием. И пожалуйста — подсовываете машине текст и она произносит его нужным вам голосом со всеми модуляциями, интонированием, причмокиванием, прихлюпыванием, шепелявостью, картавостью и прочими узнаваемыми деталями.
Автоматически все аудиоматериалы вроде записи телефонных переговоров сразу становятся недействительными в суде или в качестве доказательных материалов.
Дикторов, «говорящие головы» с большим успехом заменят специально отшлифованные вкрадчивые или деловито отстраненные машинные «дикторы». А там и до кинематографа доберутся и примутся штамповать звезд-вокалистов с диапазоном в шесть октав, которые не «дают петуха» и никогда не поют мимо нот, не простужаются, не срывают голоса и не пьют горькую.
Словом, радужная, но при этом мрачная картина вырисовывается.
Такой вот парадокс.