151 день за решеткой. Катерина Борисевич
Коронавирус: свежие цифры
  1. «Все оказались в выигрыше». Эксперты — о «предотвращении переворота» в Беларуси и роли России в этом
  2. Врач — о тревожных симптомах, которые касаются зубов мудрости
  3. Поставил лайк — получи срок. Как в России и Казахстане сажают за экстремизм (у нас могут повторить)
  4. Почему все говорят про футбольную Суперлигу? Рассказываем о скандальном проекте
  5. Узнали, что открывается на местах, где были магазины Bigzz
  6. США возобновляют санкции против «Белнефтехима» и еще 8 белорусских госпредприятий
  7. «Уже не рецессия, но еще и не рост». Эксперты — о настроении бизнеса и его влиянии на экономику
  8. Как сейчас выглядит ТРЦ Minsk City Mall, который строится в районе вокзала
  9. «Осознание, что это действия не совсем законные, появилось позже». Замов Бабарико допрашивают в суде
  10. Тест не для слабонервных. Какой герой «Игры престолов» так умер?
  11. Магазины «Домашний» приказали долго жить
  12. Биолог рассказал, как сделать рассаду крепкой. Нужно выполнить всего пять простых пунктов
  13. «Он не тот человек, который привык жаловаться». Девушка Эдуарда Бабарико — о его 10 месяцах в СИЗО
  14. Громкие «преступления», которые якобы готовились в Беларуси из-за политики: до и после выборов 2020 года
  15. «На фуфайке фамилия выбита другим цветом». Родные осужденных по политическим статьям о том, как те отбывают наказание
  16. «Подобных дел в истории суверенной Беларуси не было». В КГБ сообщили подробности по «делу о госперевороте»
  17. Что происходит с ИП, которым хотят поднять налоги и взносы: теряют рынок, падает товарооборот
  18. Нацбанк ожидает ускорения инфляции во втором квартале
  19. «Банк умыл руки». Помните историю с изъятием ценностей из ячеек Белгазпромбанка? Спросили, вернули ли их
  20. В Бресте суд решил ликвидировать «Польскую школу»
  21. Перестал выходить на связь бывший следователь СК Евгений Юшкевич. Он в СИЗО КГБ
  22. Их фура — их дом на колесах: как работает семья дальнобойщиков из Пинска, где жена — королева красоты
  23. В Браславе в костеле обвенчалась пара — жениху и невесте по 91 году
  24. Сколько получает, где хранит и как тратит. Как работает Фонд соцзащиты, из которого платят пенсии
  25. «Они не знают, наступит ли завтра». Белорусский фотограф показал жизнь бездомных котов без прикрас
  26. «Путин сделал предложение, от которого нельзя отказаться». Эксперты — об отношении Кремля к «заговору»
  27. С 20 апреля снова дорожает автомобильное топливо
  28. Рабочая неделя будет теплой, зато на выходных выпадет снег
  29. От выстрелов под Лиозно до погреба в Гомельской области. Как «покушались» на Лукашенко
  30. Песков: Путин и Байден обсуждали информацию о готовившемся покушении на Лукашенко


Валерий Егоров | Фото: IT.TUT.BY«Сакрамент» – белорусская компания с многолетней историей работы в сфере синтеза и распознавания речи. О нынешней ситуации в области распознавания и синтеза речи мы беседовали с Валерием Николаевичем Егоровым, директором фирмы.
 
– Валерий Николаевич, на какой стадии сейчас находятся технологии распознавания и синтеза речи в Беларуси и в мире? Насколько велико отставание?

– Наши технологии на данном этапе не хуже, а во многом даже и лучше чем то, что есть в мире. Существуют уникальные разработки, которые в принципе в мире не реализованы. Мы сейчас находимся на передовых рубежах. Конечно, в определенных аспектах наш синтез уступает другим решениям, в определенных – обгоняет. Но в целом, если оценивать интегрированный продукт, мы однозначно на очень высоких позициях находимся.

Синтез речи будет двигаться в жизнь в ближайшие несколько лет совсем иными темпами, быстрее, чем раньше. Прежде всего, прогресс коснется мобильных устройств – для тех случаев, когда читать с экрана нереально, а пользоваться теми или иными функциями хотелось бы. Синтез является очень востребованным продуктом на данный момент.

К сожалению, распознавание речи сейчас находится совсем на другом уровне. Должно пройти ещё достаточно много времени, может быть даже десятки лет, чтобы в реальных условиях оно хорошо, качественно работало. Например, наш вот с вами разговор система бы не поняла – как только появляется беглая речь, вклинивается чужой голос или источник шума, начинаются казусы. А человек ведь может анализировать сразу несколько источников. То есть, по сути, нам нужен полный аналог человеческого мозга – искусственный интеллект. Когда он будет полноценно реализован на программном уровне (я слышал прогнозы относительно 2030-2040-х годов), тогда мы и получим качественные системы распознавания речи.

– Какие речевые технологии сейчас наиболее востребованы в мире и в нашей стране?

– У нас, прежде всего, сейчас востребованы решения для людей с нарушениями зрения. Эти люди без подобных технологий просто лишаются канала получения информации. Потеряв зрение, такие люди бывают глубоко одарены в других областях – из них получаются талантливые музыканты, переводчики, но для этого им необходимо дать поток информации. Ведь, как вы знаете, 90% информации человек получает через зрение – и это слабовидящим надо компенсировать речью. Они должны постоянно что-то слушать, «читать». Приезжала делегация из Германии, и они говорили, что у них далеко не в каждой школе есть то, что сейчас у нас. У нас 5% населения полностью незрячих, много людей с большой потерей зрения (0,2 и хуже). Речевые технологии дают огромные возможности по образованию, дарят возможность чтения и открывают все сопутствующие перспективы.

– Можно ли сказать, что в нашей стране голосовые технологии играют скорее не коммерческую, а социальную роль?

– На сегодняшнем этапе – да. Коммерческое применение начинается буквально сейчас, по мере появления мобильных устройств, которые можно применять для получения информации в любой обстановке. Сейчас люди проводят массу времени в условиях, когда читать глазами просто невозможно: это транспорт, движение и так далее. Но при этом у людей остается возможность слушать, воспринимать информацию по этому каналу.

– Насколько поддерживаются государством подобные социальные инициативы? Я имею в виду программы, облегчающие жизнь пользователям с нарушениями зрения?

– Государство поддерживает, интересуется и с удовольствием использует подобные продукты. Но, к сожалению, получить финансирование нам пока не удалось для этих проектов. С моей точки зрения, чтобы предоставить наши продукты людям, которые в них нуждаются, не нужно никакого финансирования. Это наша миссия: для белорусов предоставить такие программы бесплатно, а вот в других регионах, конечно, будем уже продавать.

В Парке высоких технологий государство предоставило нам уникальные возможности по налогообложению, поэтому мы с удовольствием передаем наши продукты для белорусских пользователей, которые в них нуждаются, бесплатно – в специальные школы-интернаты, например.

Сейчас мы вышли с предложениями на Министерство образования чтобы внедрить эти программы в обычных школах. В шестой гимназии проводим первый опыт по внедрению этого продукта. Если он пойдет, то это будет огромный шаг вперед по охране зрения детей.

– Что сложнее с точки зрения реализации, синтез или распознавание речи?

– Распознавание в целом сложнее на алгоритмическом уровне. Оно сложнее хотя бы потому, что в случае некачественного синтеза человек сам может «додумать», догадаться, что хотела сказать машина. Хотя и синтез, безусловно, это очень сложная вещь. На пространстве СНГ, по большому счету, есть специалисты только в МГУ, СпбГУ, «Центре речевых технологий» (бывшее «НИИ дальней связи»).

У нас в Беларуси ведет работы в этой отрасли Институт технической кибернетики и мы. Они разрабатывают модели, алгоритмы, научные подходы. У нас же задача практическая: реализация. Минск – один из центров, где серьезно велась работа с речью ещё во времена СССР.

– Какие продукты ваша компания предлагает в области синтеза речи?

– Нами предлагается полная линейка продуктов для персонального компьютера. Talker – для чтения русских, английских и белорусских текстов. BookAssist – для незрячих.

Кроме того, у нас есть продукты для КПК, для смартфонов (под S60). Сейчас работаем над новой редакцией BookAssist и также будем разрабатывать новую программную оболочку «Ассистент» (подробности смотрите в презентации с конференции «Мобильные технологии 2» – прим. IT.TUT.BY)

– Правильно ли я понимаю, что эта оболочка (независимо от конкретной модели телефона) будет работать с единой информационной базой и предоставлять необходимую информацию пользователю?

– Абсолютно верно.

– Но речь идет все-таки о голосовом представлении информации?

– Пользователь будет получать текст на экран, но при этом также он будет воспроизводиться программой в зависимости от условий. То есть, например, понятно, что за рулем текст никто читать не будет – необходимо звуковое сопровождение.

Программа постоянно формирует динамические запросы к этой информационной среде, организует их получение и в удобное время доставляет полученную информацию пользователю. Кроме того, среди функций будет и еженедельник, и график, и звонки… Все функции будут доступны через голосовой интерфейс.

Потенциально речь идет о том, что такая оболочка должна стоять на каждом мобильном устройстве. Она будет бесплатной, но за счет трафика и дополнительных сервисов выгоду получит и разработчик, и контент-провайдер, и оператор.

– А что насчет обновления этой «информационной среды»? Вы знаете, до сих пор трудно назвать действительно успешные «интеллектуальные агрегаторы» информации, хотя над решением этой задачи трудились и трудятся многие коллективы по всему миру…

– Мы считаем, что основная часть – это, всё-таки, речь. И этот элемент у нас уже есть, мы постоянно работаем над её улучшением. Что касается всего остального… Мы достаточно детально проработали отдельные модули и не видим принципиально неразрешимых задач. Естественно, это большая работа, и если осуществлять её собственными средствами, то она затянется – мы ищем партнеров, инвесторов, которые бы вложили средства в эту разработку.

– Предлагали ли вы стать инвестором представителям крупных сотовых операторов и контент-провайдеров?

– Мы встречались с МТС, с контент-провайдерами для МТС и Велком. Нам сказали, что когда такая программа появится, они с удовольствием с ней поработают. Вкладывать средства – нет, но использовать – без проблем.

– Чувствует ли ваша компания влияние международного кризиса?

– Да, конечно, влияние есть. Такое ощущение, что многие проекты, которые мы обсуждали, например, с россиянами, теперь отодвинулись. На рынке стало меньше свободных средств. Не уверен, что у партнеров появятся средства для реализации ранее запланированных проектов.

Конъюнктура ухудшается, но значимость наших технологий на рынке очень активно повышается, поэтому обстановка конкретно в нашей сфере становится более благоприятной.

– У "Сакрамент", одной из немногих в мире, имеется собственный движок для синтеза речи. В чем его сильные и слабые стороны, как вы его планируете развивать?

– Наш движок практически полностью совместим с SAPI4-5, полностью соответствует нынешним требованиям к движкам такого типа, он ничуть не хуже зарубежных разработок.

Качество звучания наших голосов (английских) тестировалось на аудитории и не понравилось только, скажем так, «чистокровным англичанам». Мы сейчас работаем над второй версией русского языка для синтезатора – есть определенные недостатки.

Наш синтез зачастую «сходу» людям не нравится – но через 10-15, максимум 20 минут, синтез становится уже приятным и не вызывает никакого отторжения. А вот специфика движков наших европейских конкурентов – другая. На одной-двух фразах они слушаются как раз приятнее, но как только начинаешь слушать большие тексты, звук почему-то начинает «плавать» и это очень плохо действует, например, на психику детей.

У нас оригинальная собственная модель, построенная на базе непосредственно человеческого голоса. Для каждого языка строится модель языка (русского, английского, литовского), в которую выбираются основные, базовые звуки – гласные, ударные и т.п. Модель должна быть минимальной и достаточной: чем больше «лишних» звуков, тем больше несоответствий. После этого в соответствии с моделью человек записывает определенные тексты, из которых вручную «нарезаются» базовые звуки, создается база данных. В дальнейшем, специальные четыре блока собирают из этих звуков слова, предложения, обрабатывают текст, оформляют паузы, запятые, ударения…

Для русского языка у нас 800 базовых звуков, в новой модели будет уже несколько тысяч.

– Что бы вы пожелали нашим читателям?

– Я бы пожелал «больше слушать» – обратить внимание на продукты для синтеза речи, даже не только наши, конкурирующие в том числе. Ведь зрение лучше охранять, пока оно есть. Ну и здоровья, конечно!


-35%
-50%
-30%
-25%
-14%
-20%
-10%
-30%
-50%
-10%
-50%