Подпишитесь на нашу ежедневную рассылку с новыми материалами

В Беларуси


Валерий Егоров | Фото: IT.TUT.BY«Сакрамент» – белорусская компания с многолетней историей работы в сфере синтеза и распознавания речи. О нынешней ситуации в области распознавания и синтеза речи мы беседовали с Валерием Николаевичем Егоровым, директором фирмы.
 
– Валерий Николаевич, на какой стадии сейчас находятся технологии распознавания и синтеза речи в Беларуси и в мире? Насколько велико отставание?

– Наши технологии на данном этапе не хуже, а во многом даже и лучше чем то, что есть в мире. Существуют уникальные разработки, которые в принципе в мире не реализованы. Мы сейчас находимся на передовых рубежах. Конечно, в определенных аспектах наш синтез уступает другим решениям, в определенных – обгоняет. Но в целом, если оценивать интегрированный продукт, мы однозначно на очень высоких позициях находимся.

Синтез речи будет двигаться в жизнь в ближайшие несколько лет совсем иными темпами, быстрее, чем раньше. Прежде всего, прогресс коснется мобильных устройств – для тех случаев, когда читать с экрана нереально, а пользоваться теми или иными функциями хотелось бы. Синтез является очень востребованным продуктом на данный момент.

К сожалению, распознавание речи сейчас находится совсем на другом уровне. Должно пройти ещё достаточно много времени, может быть даже десятки лет, чтобы в реальных условиях оно хорошо, качественно работало. Например, наш вот с вами разговор система бы не поняла – как только появляется беглая речь, вклинивается чужой голос или источник шума, начинаются казусы. А человек ведь может анализировать сразу несколько источников. То есть, по сути, нам нужен полный аналог человеческого мозга – искусственный интеллект. Когда он будет полноценно реализован на программном уровне (я слышал прогнозы относительно 2030-2040-х годов), тогда мы и получим качественные системы распознавания речи.

– Какие речевые технологии сейчас наиболее востребованы в мире и в нашей стране?

– У нас, прежде всего, сейчас востребованы решения для людей с нарушениями зрения. Эти люди без подобных технологий просто лишаются канала получения информации. Потеряв зрение, такие люди бывают глубоко одарены в других областях – из них получаются талантливые музыканты, переводчики, но для этого им необходимо дать поток информации. Ведь, как вы знаете, 90% информации человек получает через зрение – и это слабовидящим надо компенсировать речью. Они должны постоянно что-то слушать, «читать». Приезжала делегация из Германии, и они говорили, что у них далеко не в каждой школе есть то, что сейчас у нас. У нас 5% населения полностью незрячих, много людей с большой потерей зрения (0,2 и хуже). Речевые технологии дают огромные возможности по образованию, дарят возможность чтения и открывают все сопутствующие перспективы.

– Можно ли сказать, что в нашей стране голосовые технологии играют скорее не коммерческую, а социальную роль?

– На сегодняшнем этапе – да. Коммерческое применение начинается буквально сейчас, по мере появления мобильных устройств, которые можно применять для получения информации в любой обстановке. Сейчас люди проводят массу времени в условиях, когда читать глазами просто невозможно: это транспорт, движение и так далее. Но при этом у людей остается возможность слушать, воспринимать информацию по этому каналу.

– Насколько поддерживаются государством подобные социальные инициативы? Я имею в виду программы, облегчающие жизнь пользователям с нарушениями зрения?

– Государство поддерживает, интересуется и с удовольствием использует подобные продукты. Но, к сожалению, получить финансирование нам пока не удалось для этих проектов. С моей точки зрения, чтобы предоставить наши продукты людям, которые в них нуждаются, не нужно никакого финансирования. Это наша миссия: для белорусов предоставить такие программы бесплатно, а вот в других регионах, конечно, будем уже продавать.

В Парке высоких технологий государство предоставило нам уникальные возможности по налогообложению, поэтому мы с удовольствием передаем наши продукты для белорусских пользователей, которые в них нуждаются, бесплатно – в специальные школы-интернаты, например.

Сейчас мы вышли с предложениями на Министерство образования чтобы внедрить эти программы в обычных школах. В шестой гимназии проводим первый опыт по внедрению этого продукта. Если он пойдет, то это будет огромный шаг вперед по охране зрения детей.

– Что сложнее с точки зрения реализации, синтез или распознавание речи?

– Распознавание в целом сложнее на алгоритмическом уровне. Оно сложнее хотя бы потому, что в случае некачественного синтеза человек сам может «додумать», догадаться, что хотела сказать машина. Хотя и синтез, безусловно, это очень сложная вещь. На пространстве СНГ, по большому счету, есть специалисты только в МГУ, СпбГУ, «Центре речевых технологий» (бывшее «НИИ дальней связи»).

У нас в Беларуси ведет работы в этой отрасли Институт технической кибернетики и мы. Они разрабатывают модели, алгоритмы, научные подходы. У нас же задача практическая: реализация. Минск – один из центров, где серьезно велась работа с речью ещё во времена СССР.

– Какие продукты ваша компания предлагает в области синтеза речи?

– Нами предлагается полная линейка продуктов для персонального компьютера. Talker – для чтения русских, английских и белорусских текстов. BookAssist – для незрячих.

Кроме того, у нас есть продукты для КПК, для смартфонов (под S60). Сейчас работаем над новой редакцией BookAssist и также будем разрабатывать новую программную оболочку «Ассистент» (подробности смотрите в презентации с конференции «Мобильные технологии 2» – прим. IT.TUT.BY)

– Правильно ли я понимаю, что эта оболочка (независимо от конкретной модели телефона) будет работать с единой информационной базой и предоставлять необходимую информацию пользователю?

– Абсолютно верно.

– Но речь идет все-таки о голосовом представлении информации?

– Пользователь будет получать текст на экран, но при этом также он будет воспроизводиться программой в зависимости от условий. То есть, например, понятно, что за рулем текст никто читать не будет – необходимо звуковое сопровождение.

Программа постоянно формирует динамические запросы к этой информационной среде, организует их получение и в удобное время доставляет полученную информацию пользователю. Кроме того, среди функций будет и еженедельник, и график, и звонки… Все функции будут доступны через голосовой интерфейс.

Потенциально речь идет о том, что такая оболочка должна стоять на каждом мобильном устройстве. Она будет бесплатной, но за счет трафика и дополнительных сервисов выгоду получит и разработчик, и контент-провайдер, и оператор.

– А что насчет обновления этой «информационной среды»? Вы знаете, до сих пор трудно назвать действительно успешные «интеллектуальные агрегаторы» информации, хотя над решением этой задачи трудились и трудятся многие коллективы по всему миру…

– Мы считаем, что основная часть – это, всё-таки, речь. И этот элемент у нас уже есть, мы постоянно работаем над её улучшением. Что касается всего остального… Мы достаточно детально проработали отдельные модули и не видим принципиально неразрешимых задач. Естественно, это большая работа, и если осуществлять её собственными средствами, то она затянется – мы ищем партнеров, инвесторов, которые бы вложили средства в эту разработку.

– Предлагали ли вы стать инвестором представителям крупных сотовых операторов и контент-провайдеров?

– Мы встречались с МТС, с контент-провайдерами для МТС и Велком. Нам сказали, что когда такая программа появится, они с удовольствием с ней поработают. Вкладывать средства – нет, но использовать – без проблем.

– Чувствует ли ваша компания влияние международного кризиса?

– Да, конечно, влияние есть. Такое ощущение, что многие проекты, которые мы обсуждали, например, с россиянами, теперь отодвинулись. На рынке стало меньше свободных средств. Не уверен, что у партнеров появятся средства для реализации ранее запланированных проектов.

Конъюнктура ухудшается, но значимость наших технологий на рынке очень активно повышается, поэтому обстановка конкретно в нашей сфере становится более благоприятной.

– У "Сакрамент", одной из немногих в мире, имеется собственный движок для синтеза речи. В чем его сильные и слабые стороны, как вы его планируете развивать?

– Наш движок практически полностью совместим с SAPI4-5, полностью соответствует нынешним требованиям к движкам такого типа, он ничуть не хуже зарубежных разработок.

Качество звучания наших голосов (английских) тестировалось на аудитории и не понравилось только, скажем так, «чистокровным англичанам». Мы сейчас работаем над второй версией русского языка для синтезатора – есть определенные недостатки.

Наш синтез зачастую «сходу» людям не нравится – но через 10-15, максимум 20 минут, синтез становится уже приятным и не вызывает никакого отторжения. А вот специфика движков наших европейских конкурентов – другая. На одной-двух фразах они слушаются как раз приятнее, но как только начинаешь слушать большие тексты, звук почему-то начинает «плавать» и это очень плохо действует, например, на психику детей.

У нас оригинальная собственная модель, построенная на базе непосредственно человеческого голоса. Для каждого языка строится модель языка (русского, английского, литовского), в которую выбираются основные, базовые звуки – гласные, ударные и т.п. Модель должна быть минимальной и достаточной: чем больше «лишних» звуков, тем больше несоответствий. После этого в соответствии с моделью человек записывает определенные тексты, из которых вручную «нарезаются» базовые звуки, создается база данных. В дальнейшем, специальные четыре блока собирают из этих звуков слова, предложения, обрабатывают текст, оформляют паузы, запятые, ударения…

Для русского языка у нас 800 базовых звуков, в новой модели будет уже несколько тысяч.

– Что бы вы пожелали нашим читателям?

– Я бы пожелал «больше слушать» – обратить внимание на продукты для синтеза речи, даже не только наши, конкурирующие в том числе. Ведь зрение лучше охранять, пока оно есть. Ну и здоровья, конечно!