Россия: “Яндекс” представила для разработчиков технологии голосового ввода и синтеза речи

0

В рамках проведения конференции для разработчиков Yet Another Conference компания “Яндекс” представила новые технологии голосового взаимодействия людей с электронными устройствами. Отмечается, что у “Яндекса” имеется собственная система распознавания речи – Yandex SpeechKit. Она используется как в сервисах Яндекса – например, Навигаторе, – так и в продуктах сторонних разработчиков. Эта система была дополнена тремя новыми технологиями, которые призваны сделать человека с компьютером более полноценным. Теперь эта система умеет включаться по голосовой команде, понимает смысл слов, а также не только слушает пользователя, но и отвечает ему – с помощью технологии синтеза речи.

Технология голосовой активации предназначена для перевода компьютера в режим распознавания при помощи определенного сигнала. В Yandex SpeechKit таким сигналом выступает команда голосовой активации. Причем, командой может служить любое слово или фраза – все зависит от фантазии разработчика. Голосовая активация в Yandex SpeechKit, по сути, представляет собой систему распознавания речи в миниатюре. Система запускается прямо на устройстве и не требует доступа в интернет. Она анализирует весь входящий звуковой поток на предмет наличия речи, и, если речь обнаружена, начинает искать в ней кодовую фразу. Такой подход позволяет сэкономить заряд батареи в смартфоне или планшете. Когда пользователь произносит команду, устройство переходит в режим распознавания – так как понимает: все, что будет сказано в дальнейшем, предназначено ему. Нажимать кнопки не нужно, достаточно сказать кодовую фразу.

В Yandex SpeechKit также добавлена технологию выделения в распознанном тексте смысловых объектов. Такими объектами могут быть дата и время, имена и фамилии или адреса. Технология позволяет управлять компьютером или смартфоном простыми фразами, которые не нужно запоминать специально. Например, “Поставь будильник на семь утра” или “Поехали на улицу Льва Толстого, дом 16”. Фраза может звучать по-разному – система поймет, что “Набери номер Ивана Ивановича” и “Позвони Ивану Ивановичу” – это одно и то же. При этом Yandex SpeechKit умеет анализировать контекст и поэтому уяснит, что во фразе “Позвони Владимиру” имеется в виду человек, а во фразе “Поехали во Владимир” – город.

Еще одним нововведением в Yandex SpeechKit является технология синтеза речи – она позволяет компьютеру проговаривать текст вслух. Синтез речи – это задача, обратная распознаванию речи. В случае с распознаванием система получает звук, который надо преобразовать в текст, а в случае с синтезом – текст, который надо озвучить. В Yandex SpeechKit для синтеза речи используется система на базе скрытых марковских моделей. Акустическая модель принимает на вход последовательность фонем и выдает на выходе соответствующий им звук. Это позволяет добиться более плавных интонаций, гибко управлять скоростью речи и даже придавать ей те или иные эмоции. Все указанные новые технологии уже входят в библиотеку SpeechKit Mobile SDK и облачный сервис SpeechKit Cloud и доступны сторонним разработчикам.

Чтобы показать новые возможности SpeechKit, было выпущено демонстрационное приложение “Яндекс.Диктовка”. Оно предназначено для набора текста голосом. Чтобы начать набор, достаточно произнести фразу “Яндекс, записывай”. Приложение начнет слушать пользователя и преобразовывать его речь в текст в режиме реального времени. При этом поддерживается возможность ввода знаков препинания и редактирования текста при помощи голосовых команд. Приложение “Яндекс.Диктовка” доступно для установки на мобильные устройства с ОС Android из магазина Яндекс.Store. (Яндекс/NovostIT)