Поддержать TUT.BY
69 дней за решеткой. Катерина Борисевич
Коронавирус: свежие цифры
  1. Англия глазами белоруса: чем плоха и хороша британская жизнь
  2. Последствия «Ларса»: более 2200 обесточенных пунктов, упавшие деревья, подтопленные дома и застрявшие машины
  3. Что происходит в Беларуси 27 января
  4. «Он держится, и я держусь». Девушка одаренного студента, осужденного на 4 года, ищет ему работу и стажировки
  5. «Службой был доволен, не жаловался». Что известно о погибшем в части в Островце 18-летнем срочнике
  6. Горный инженер из Могилева предлагает пешеходный туннель под Днепром — и это звучит круто. Он все рассчитал
  7. «Я одна здесь уже 10 лет». История Галины, которая живет в мертвой деревне. Почти
  8. Генпрокуратура опровергла задержание прокурора Витебска. Он уволен
  9. Бегуна из Новополоцка ждет суд за фото с забега Zombie Run. Соседи считают их «исключительно циничными»
  10. Опознана одна из девушек, которая часто появляется в окружении Лукашенко. Она тоже срезала ленточки во дворах
  11. Минчанина судят за протест 9−10 августа: бросил цветок в ОМОН, нанес ущерб «Минсктрансу» на 27 тысяч
  12. «Нет, алкоголем не пахнет вообще». BYPOL опубликовал свое расследование по факту смерти Романа Бондаренко
  13. С 1 февраля повысят пособия на детей. Сколько составит прибавка
  14. Четыре спальни, гостиная и терраса. Проект каркасного дома на 108 «квадратов» со сметой
  15. Конфликт в столичной маршрутке. Водитель хотел высадить пассажира из-за неприятного запаха
  16. Представитель власти — это кто? Разобрались с юристом, кого нельзя будет оскорблять по новому УК
  17. «Любимая пациентка» доктора Менгеле. Как белоруска выжила после опытов палача из Освенцима и написала письмо его сыну
  18. «Цепкало участвовать не планирует». Экс-представитель штаба Цепкало хочет зарегистрировать партию
  19. Дмитрий Крук назвал сценарии для экономики в 2021 году и угрозы, способные их перечеркнуть
  20. Тест по роману Короткевича. Его должен пройти на 10 из 10 каждый белорус
  21. В Tinder появились профили студентов, которые сейчас в СИЗО. Как так получилось
  22. Сугробы, метель и монохром. Смотрите, как Брест и Гродно накрыло сильным снегопадом
  23. С 28 января снова дорожает автомобильное топливо
  24. Вынесли приговор минчанину, которого обвиняли в нападении на сотрудника ОМОНа, — 5 лет колонии
  25. На пациента, ударившего в «политическом конфликте» врача скорой в Бресте, завели уголовное дело
  26. Песков — о дворце в Геленджике: Кремль не имеет права разглашать
  27. В Беларуси за сутки 1651 новый случай COVID-19 и десять смертей
  28. «С мешком на голове привезли на границу, а милиционеры: «Добро пожаловать домой». Юрист ФБК о протестах
  29. Руководителей МЗКТ, МТЗ, БЕЛАЗа и других предприятий обвиняют в получении взяток от россиян
  30. Правозащитники опубликовали доклад о пытках в Беларуси


Валерий Егоров | Фото: IT.TUT.BY«Сакрамент» – белорусская компания с многолетней историей работы в сфере синтеза и распознавания речи. О нынешней ситуации в области распознавания и синтеза речи мы беседовали с Валерием Николаевичем Егоровым, директором фирмы.
 
– Валерий Николаевич, на какой стадии сейчас находятся технологии распознавания и синтеза речи в Беларуси и в мире? Насколько велико отставание?

– Наши технологии на данном этапе не хуже, а во многом даже и лучше чем то, что есть в мире. Существуют уникальные разработки, которые в принципе в мире не реализованы. Мы сейчас находимся на передовых рубежах. Конечно, в определенных аспектах наш синтез уступает другим решениям, в определенных – обгоняет. Но в целом, если оценивать интегрированный продукт, мы однозначно на очень высоких позициях находимся.

Синтез речи будет двигаться в жизнь в ближайшие несколько лет совсем иными темпами, быстрее, чем раньше. Прежде всего, прогресс коснется мобильных устройств – для тех случаев, когда читать с экрана нереально, а пользоваться теми или иными функциями хотелось бы. Синтез является очень востребованным продуктом на данный момент.

К сожалению, распознавание речи сейчас находится совсем на другом уровне. Должно пройти ещё достаточно много времени, может быть даже десятки лет, чтобы в реальных условиях оно хорошо, качественно работало. Например, наш вот с вами разговор система бы не поняла – как только появляется беглая речь, вклинивается чужой голос или источник шума, начинаются казусы. А человек ведь может анализировать сразу несколько источников. То есть, по сути, нам нужен полный аналог человеческого мозга – искусственный интеллект. Когда он будет полноценно реализован на программном уровне (я слышал прогнозы относительно 2030-2040-х годов), тогда мы и получим качественные системы распознавания речи.

– Какие речевые технологии сейчас наиболее востребованы в мире и в нашей стране?

– У нас, прежде всего, сейчас востребованы решения для людей с нарушениями зрения. Эти люди без подобных технологий просто лишаются канала получения информации. Потеряв зрение, такие люди бывают глубоко одарены в других областях – из них получаются талантливые музыканты, переводчики, но для этого им необходимо дать поток информации. Ведь, как вы знаете, 90% информации человек получает через зрение – и это слабовидящим надо компенсировать речью. Они должны постоянно что-то слушать, «читать». Приезжала делегация из Германии, и они говорили, что у них далеко не в каждой школе есть то, что сейчас у нас. У нас 5% населения полностью незрячих, много людей с большой потерей зрения (0,2 и хуже). Речевые технологии дают огромные возможности по образованию, дарят возможность чтения и открывают все сопутствующие перспективы.

– Можно ли сказать, что в нашей стране голосовые технологии играют скорее не коммерческую, а социальную роль?

– На сегодняшнем этапе – да. Коммерческое применение начинается буквально сейчас, по мере появления мобильных устройств, которые можно применять для получения информации в любой обстановке. Сейчас люди проводят массу времени в условиях, когда читать глазами просто невозможно: это транспорт, движение и так далее. Но при этом у людей остается возможность слушать, воспринимать информацию по этому каналу.

– Насколько поддерживаются государством подобные социальные инициативы? Я имею в виду программы, облегчающие жизнь пользователям с нарушениями зрения?

– Государство поддерживает, интересуется и с удовольствием использует подобные продукты. Но, к сожалению, получить финансирование нам пока не удалось для этих проектов. С моей точки зрения, чтобы предоставить наши продукты людям, которые в них нуждаются, не нужно никакого финансирования. Это наша миссия: для белорусов предоставить такие программы бесплатно, а вот в других регионах, конечно, будем уже продавать.

В Парке высоких технологий государство предоставило нам уникальные возможности по налогообложению, поэтому мы с удовольствием передаем наши продукты для белорусских пользователей, которые в них нуждаются, бесплатно – в специальные школы-интернаты, например.

Сейчас мы вышли с предложениями на Министерство образования чтобы внедрить эти программы в обычных школах. В шестой гимназии проводим первый опыт по внедрению этого продукта. Если он пойдет, то это будет огромный шаг вперед по охране зрения детей.

– Что сложнее с точки зрения реализации, синтез или распознавание речи?

– Распознавание в целом сложнее на алгоритмическом уровне. Оно сложнее хотя бы потому, что в случае некачественного синтеза человек сам может «додумать», догадаться, что хотела сказать машина. Хотя и синтез, безусловно, это очень сложная вещь. На пространстве СНГ, по большому счету, есть специалисты только в МГУ, СпбГУ, «Центре речевых технологий» (бывшее «НИИ дальней связи»).

У нас в Беларуси ведет работы в этой отрасли Институт технической кибернетики и мы. Они разрабатывают модели, алгоритмы, научные подходы. У нас же задача практическая: реализация. Минск – один из центров, где серьезно велась работа с речью ещё во времена СССР.

– Какие продукты ваша компания предлагает в области синтеза речи?

– Нами предлагается полная линейка продуктов для персонального компьютера. Talker – для чтения русских, английских и белорусских текстов. BookAssist – для незрячих.

Кроме того, у нас есть продукты для КПК, для смартфонов (под S60). Сейчас работаем над новой редакцией BookAssist и также будем разрабатывать новую программную оболочку «Ассистент» (подробности смотрите в презентации с конференции «Мобильные технологии 2» – прим. IT.TUT.BY)

– Правильно ли я понимаю, что эта оболочка (независимо от конкретной модели телефона) будет работать с единой информационной базой и предоставлять необходимую информацию пользователю?

– Абсолютно верно.

– Но речь идет все-таки о голосовом представлении информации?

– Пользователь будет получать текст на экран, но при этом также он будет воспроизводиться программой в зависимости от условий. То есть, например, понятно, что за рулем текст никто читать не будет – необходимо звуковое сопровождение.

Программа постоянно формирует динамические запросы к этой информационной среде, организует их получение и в удобное время доставляет полученную информацию пользователю. Кроме того, среди функций будет и еженедельник, и график, и звонки… Все функции будут доступны через голосовой интерфейс.

Потенциально речь идет о том, что такая оболочка должна стоять на каждом мобильном устройстве. Она будет бесплатной, но за счет трафика и дополнительных сервисов выгоду получит и разработчик, и контент-провайдер, и оператор.

– А что насчет обновления этой «информационной среды»? Вы знаете, до сих пор трудно назвать действительно успешные «интеллектуальные агрегаторы» информации, хотя над решением этой задачи трудились и трудятся многие коллективы по всему миру…

– Мы считаем, что основная часть – это, всё-таки, речь. И этот элемент у нас уже есть, мы постоянно работаем над её улучшением. Что касается всего остального… Мы достаточно детально проработали отдельные модули и не видим принципиально неразрешимых задач. Естественно, это большая работа, и если осуществлять её собственными средствами, то она затянется – мы ищем партнеров, инвесторов, которые бы вложили средства в эту разработку.

– Предлагали ли вы стать инвестором представителям крупных сотовых операторов и контент-провайдеров?

– Мы встречались с МТС, с контент-провайдерами для МТС и Велком. Нам сказали, что когда такая программа появится, они с удовольствием с ней поработают. Вкладывать средства – нет, но использовать – без проблем.

– Чувствует ли ваша компания влияние международного кризиса?

– Да, конечно, влияние есть. Такое ощущение, что многие проекты, которые мы обсуждали, например, с россиянами, теперь отодвинулись. На рынке стало меньше свободных средств. Не уверен, что у партнеров появятся средства для реализации ранее запланированных проектов.

Конъюнктура ухудшается, но значимость наших технологий на рынке очень активно повышается, поэтому обстановка конкретно в нашей сфере становится более благоприятной.

– У "Сакрамент", одной из немногих в мире, имеется собственный движок для синтеза речи. В чем его сильные и слабые стороны, как вы его планируете развивать?

– Наш движок практически полностью совместим с SAPI4-5, полностью соответствует нынешним требованиям к движкам такого типа, он ничуть не хуже зарубежных разработок.

Качество звучания наших голосов (английских) тестировалось на аудитории и не понравилось только, скажем так, «чистокровным англичанам». Мы сейчас работаем над второй версией русского языка для синтезатора – есть определенные недостатки.

Наш синтез зачастую «сходу» людям не нравится – но через 10-15, максимум 20 минут, синтез становится уже приятным и не вызывает никакого отторжения. А вот специфика движков наших европейских конкурентов – другая. На одной-двух фразах они слушаются как раз приятнее, но как только начинаешь слушать большие тексты, звук почему-то начинает «плавать» и это очень плохо действует, например, на психику детей.

У нас оригинальная собственная модель, построенная на базе непосредственно человеческого голоса. Для каждого языка строится модель языка (русского, английского, литовского), в которую выбираются основные, базовые звуки – гласные, ударные и т.п. Модель должна быть минимальной и достаточной: чем больше «лишних» звуков, тем больше несоответствий. После этого в соответствии с моделью человек записывает определенные тексты, из которых вручную «нарезаются» базовые звуки, создается база данных. В дальнейшем, специальные четыре блока собирают из этих звуков слова, предложения, обрабатывают текст, оформляют паузы, запятые, ударения…

Для русского языка у нас 800 базовых звуков, в новой модели будет уже несколько тысяч.

– Что бы вы пожелали нашим читателям?

– Я бы пожелал «больше слушать» – обратить внимание на продукты для синтеза речи, даже не только наши, конкурирующие в том числе. Ведь зрение лучше охранять, пока оно есть. Ну и здоровья, конечно!


-5%
-20%
-31%
-20%
-5%
-20%
-25%
-30%