Компания "Яндекс" запустила облачный сервис распознавания речи SpeechKit Cloud, с помощью которого разработчики могут научить свои продукты понимать голос человека. Поддержку нового сервиса разработчики могут добавить в различные программы, сервисы и устройства: от компьютерной игры до автомобильной навигационной системы.



В основе SpeechKit Cloud лежит технология распознавания речи Yandex SpeechKit, которую компания запустил в 2013 году. Сейчас она используется в 400 мобильных приложениях для Android, iOS и Windows Phone и ежедневно обрабатывает миллионы голосовых запросов. Распознавание занимает около секунды: именно столько времени проходит с момента отправки данных на сервер до получения ответа. Короткие запросы система распознает с точностью 85%, геозапросы - с точностью 95%, диктовку текста - 82%. Для сравнения, человек распознает то, что он услышал, на 96-99%.

В основе технологии Yandex SpeechKit лежат акустические и языковые модели. Они построены с применением нейронных сетей, которые обучаются на больших массивах данных. Инфраструктура системы спроектирована таким образом, чтобы выдерживать высокие нагрузки. Система умеет распознавать короткие запросы любой тематики, геозапросы, диктовку коротких текстов. Yandex SpeechKit уже используется в мобильных продуктах компании. На его основе работают голосовые команды в "Яндекс.Навигаторе", голосовой поиск в "Яндекс.Картах", Поиске, "Яндекс.Браузере" и "Яндекс.Городе".

Компания открыла технологию для сторонних разработчиков в виде Yandex SpeechKit Моbile SDK и сервиса Yandex SpeechKit Cloud. С помощью мультиплатформенной библиотеки Yandex SpeechKit Mobile SDK разработчики мобильных приложений смогут внедрить голосовое управление, голосовой ввод текста или поиск по содержимому приложения. Это поможет сделать взаимодействие с приложением более удобным, к примеру, в ситуациях, когда у человека заняты руки.

Облачный сервис распознавания речи "Яндекса" уже используют компания Oktell, выпускающая программное обеспечение для колл-центров, и Cubic Robotics - разработчик домашнего робота CUBIC. Робот понимает заданные голосом вопросы и отвечает на них, а система Oktell распознает речь звонящего в колл-центр человека и соединяет его с нужным специалистом.

SpeechKit Cloud понимает русский и турецкий языки. Обработка голосовых запросов производится на серверах "Яндекса".

"Вообще в мире есть менее пяти компаний, которые умеют хорошо распознавать голос. Для русского языка таких компаний, по большому счету, две: американская Nuance и "Центр речевых технологий". Сейчас мы реализовали свое решение для русского и турецкого языков, которое отличается качеством и скоростью распознавания. Со временем мы будем добавлять поддержку других языков", - рассказал IT.TUT.BY Григорий Бакунов, директор по распространению технологий "Яндекса".

Разработчики могут бесплатно использовать SpeechKit Cloud в течение месяца. По окончании пробного периода стоимость будет зависеть от количества запросов.
{banner_819}{banner_825}
-45%
-30%
-20%
-20%
-21%
-80%
-50%
-30%