Наука и техника
Главная » IT-технологии » ИТ - Новости » В компании Google DeepMind работают над улучшением машинной речи

В компании Google DeepMind работают над улучшением машинной речи

машинная речь

В компании Google DeepMind AI генерируют машинную речь, которая будет формироваться из разговоров окружающих устройство людей.

С ростом популярности виртуальных личных помощников, таких как Google assistant, Apple’s Siri, Microsoft’s Cortana или Amazon’s Alexa, машинная речь сама по себе, а также язык который используют эти устройства, становится все более и более важным вопросом. В настоящее время в виртуальных помощниках используется настоящая человеческая речь, которую просто рубят на небольшие куски и подставляют по мере необходимости. Этот процесс известен как "конкатенативный синтез речи", который опирается на предварительно записанные слова или фразы.

В настоящее время, подразделение Google DeepMind AI занято генерированием своего собственного голоса и речи. Используя полученную из вне языковую информацию и опираясь на неё, устройство формирует свою собственную речь. Из той же самой полученной информации будет имеется возможность создавать и различные голоса. Эта система называется параметрическим синтезом речи и является потенциально гораздо более гибкой, поскольку не ограничивается записями, которые в неё заложены изначально.

Новая система Google под названием WaveNet, уже была протестирована на английских и китайских слушателях, которые оценили её как значительно более реалистичную, чем другие речевые генераторы, используемые в тесте. В слепых тестах с использованием 100 тестовых предложений, слушатели дали WaveNet большие рейтинги за высокий реализм, хотя эта речь по-прежнему отличается от подлинного человеческого голоса.

Система WaveNet не ограничивается только созданием речи. Она имеет (что уже было продемонстрировано) способность генерировать собственную музыку, анализируя существующие записи игры на фортепиано. Скорее всего, она может в равной степени изучить все типы музыки и инструментов, а также создавать свою собственную музыку для любого из инструментов (это ещё не проверялось).

Тест Тьюринга используемый для проверки машинного интеллекта основывается на текстовых словах, используемых в разговоре, а не на фактической речи, но, возможно, мы близки к точке, когда люди не смогут отличить разницу между реальным человеческим голосом и речью генерируемой компьютером. Хотя WaveNet это во многом перспективная технология, благодаря вычислительной мощности, которая требуется для анализа и работы, она не будет использоваться на потребительских устройствах в ближайшем будущем, в первую очередь это экспериментальный проект. Сейчас он может служить в качестве индикатора для будущего, когда наши устройства, вероятно найдут свой собственный голос./p>

Добавить комментарий