Подпишитесь на нашу ежедневную рассылку с новыми материалами

В Беларуси


Виталий Киселев | Фото: IT.TUT.BYВ этот понедельник мы предлагаем вам очень интересное и объёмное интервью о технологиях в области работы со звуком, распознаванием и синтезом речи. Достижения этой отрасли редко "светятся" в новостных лентах, но в то же время современный мир без них представить уже трудно. О тонкостях, проблемах и достижениях в сфере речевых технологий IT.TUT.BY рассказал директор ООО "Речевые Технологии" Виталий Киселев.

– Здравствуйте! Расскажите о вашей компании.

– Наша компания называется "Центр речевых технологий" (ЦРТ) – это большая корпорация, главный офис которой находится в Санкт-Петербурге. Есть филиал в Москве, представительство в Германии, эксклюзивное представительство в Минске и более 30 дилеров по всему миру.

"Центр речевых технологий" – компания с полным циклом производства, в основном занимающаяся, обработкой речи, звуковых сигналов, разработкой технологий, программных и аппаратных средств. Полный цикл, включает в себя множество производственных процессов, начиная от разработки и апробации фундаментальных алгоритмов и заканчивая воплощением их в аппаратуру.

– Какие именно решения по обработке звука вы предлагаете?

– По речевой обработке у нас есть готовые коммерческие решения, в виде программного, программного-аппаратного или аппаратного обеспечения, и есть технологии. В чем между ними разница? Готовые коммерческие решения – это комплексы, завершенные системы, ориентированные на конечного потребителя. Спектр готовых решений очень большой. Например, системы записи – с телефонов, с микрофонов, с радиоэфира, в общем, записывается все, что можно записать. Это специальные комплексы, состоящие из телефонных плат и программного обеспечения.

Вы спросите, при чем тут речевые сигналы? А дело в том, такие системы, как правило, предназначены для записи именно речевых сообщений, диалогов, выступлений, монологов и т.п. Например, в наших телефонных линиях качественно восстановить речевой сигнал для последующей обработки очень трудно. Разные АТС, разные типы линий, шумовые помехи... В наших же комплексах записанные фонограммы специальных образом обрабатываются, архивируются. К ним могут быть применены наши алгоритмы. Например, мы можем автоматически найти ключевые слова в фонограмме – во время вашего разговора, алгоритм может фиксировать определенные слова. Можно найти диктора в записи; предположим, у вас есть аудиозапись вашего офиса за год и нужно найти все переговоры конкретного лица. Наша система позволяет всё это сделать.


Системы многоканальной записи и оповещения

Системы оповещения, наоборот, используются для оповещения большого количества людей. Кроме того, у нас имеются системы, работающие непосредственно с сигналом – это либо законченные устройства в виде "черного ящика" с входом и выходом, в котором все параметры вы можете настроить самостоятельно, либо программное обеспечение. Такие комплексы, в основном, предназначены для экспертов. Если комплексы программные, то они обычно достаточно мощные, поэтому наша компания проводит цикл дополнительного обучения по своим же продуктам, потому что просто "почитать мануал" и разобраться достаточно трудно. Есть у нас и собственная система видеонаблюдения, система документирования и стенографирования.

Компания на рынке уже 19 лет, и с момента основания занимается только своим ключевым направлением. В ЦРТ же всего работает 220-230 человек, порядка 25 человек работает в минском офисе.

– ЦРТ – 19 лет, а минскому офису сколько?

– Этой весной исполнится 3 года.

– Как вы пришли к открытию представительства именно в Минске?

– Нам, "Речевым технологиям", в Минске наиболее интересны именно речевые технологии. В Беларуси большой научный потенциал. Здесь была очень серьезная школа "речевиков" в своё время, до развала Союза.

Мы открылись как техническая компания, реализующая проекты совместно с Петербургом, либо отдельно. Нам дается тематика, которую мы исследуем, делаем обзор, оценку трудозатрат, после чего реализуем. Когда начали работать, к нам стали обращаться клиенты ЦРТ (компания предлагала и продвигала продукты в Беларуси ещё до нас) с предложениями организовать сервисное обслуживание и обучение. Помимо этого, продукция ЦРТ вызвала большой интерес со стороны белорусских потребителей. Так волей-неволей мы влезли в коммерческую деятельность: через какое-то время взяли людей и приняли решение об открытии коммерческого отдела. Но основа-то компании, 70-80% – техническая часть, программисты, алгоритмисты, ученные, есть в штате даже доктор технических наук и один кандидат (защищавшие в своё время диссертации по речевой тематике).

– Так, всё-таки, какие конкретно технологии вы считаете речевыми?

– Например, технологию распознавания речи. Распознавание речи бывает дикторозависимым и дикторонезависимым, оно может работать с ограниченным и неограниченным словарем. Все методы, существовавшие прежде, были созданы по "шаблонным" принципам. Для того, чтобы система понимала команды, необходимо было собрать и обучить большое количество дикторов, то есть, они реально должны были произнести эти слова, после чего система обучалась и получался "эталон слова".

В ЦРТ у нас есть такой продукт, он называется VoiceCom – это дикторозависимая система с ограниченным словарем. Достаточно хорошо работает такой алгоритм в шумах, он адаптирован к шуму, и в ряде задач покрывает 100% потребностей заказчика. Причем, если словарь не очень большой и обучен под конкретного диктора, система будет работать очень хорошо.

Дикторонезависимая система с неограниченным словарем у нас тоже есть. Но что такое "неограниченная"? Чтобы сделать такую вещь, необходимо собрать речевую базу всех дикторов, причем не только слов, но и сочетаний, предложений, тексты. Такая речевая база у ЦРТ есть, и ещё одну мы недавно приобрели. База собиралась по всей России, по разным областям, деревням и округам, с различными диалектами, акцентами и т.п. Но мало просто собрать информацию, ее еще нужно обработать! Фонетист должен прослушать все это, разметить на фонемы, на предложения, на интонационные контуры... Это огромная работа, которая стоит очень больших денег.

В принципе, чем больше база, тем лучше будет система распознавания. Как для "неограниченного", так и для ограниченного словаря. В ЦРТ данный продукт присутствует, называется условно "пофонемное распознавание" и ведется уже 3-й год. Из него уже получились хорошие продукты: для распознавания речи (CSREgine) и поиска ключевых слов (VoiceDigger). Вот вы ввели команду через клавиатуру, и система уже её знает, больше обучать её не нужно. Причем работает данная система очень быстро.

Следующая технология – это синтез речи, то есть, когда электронная машина говорит человеческим голосом. На сегодняшний день на рынке присутствуют лишь несколько движков синтеза – французский Digalo, Скансофт, белорусский "Сакрамент" и движок ЦРТ. Наш движок назывался "Оратор". А с середины лета прошлого года у нас начался один очень большой проект в этом направлении. Проект серьезный, долгосрочный – на 3 года. В целом, на этом проекте уже работает человек 25-30, часть из них – у нас в Минске, часть в Петербурге. Ожидаем, что получится хороший синтез, малоотличимый от человека. И заказчик очень серьезный, и у нас очень большие намерения.

С синтезом ситуация проще, чем с распознаванием: он прозрачен. В принципе, известно, как и что делать. Русский язык уже хорошо изучен, все правила известны, их нужно просто грамотно реализовать, грамотно к ним подойти с лингвистической точки зрения. Как это делается? Берутся большие базы, сегментируются. При синтезе нужные элементы извлекаются из базы и аккуратно склеиваются в сигнал.

– И все это происходит в реальном времени?

– Да, этот метод называется Unit Selection, когда в большой базе ищется минимальная единица, та, которая необходима. Например, буква "А" может встречаться в словах с разной длительностью, интонацией, громкостью, в разных вариациях. И вот все это анализируется и подбирается, нужен только какой-то мощный вычислительный ресурс. Есть очень много методов синтеза. В 50-е годы начинали с создания артикуляторного тракта. Хотели создать тракт, повторить, как человек говорит, чтобы и машина смогла заговорить. Но ученым до сих пор не удаётся этого достичь. Ещё одна голубая мечта всех речевиков – запрограммировать ухо (со всеми его мембранами и т.д.), чтобы оно работало как человеческое ухо. Однако пока тоже ничего не получается.

Удивительно, что ребенок начинает распознавать команды быстрее, чем говорить. А у нас в технологиях – наоборот, синтез мы можем сделать быстрее, чем распознавание.

Следующая технология – распознавание дикторов. Когда, например, разговаривают три человека и нужно автоматически различить каждого из них. Называется эта технология идентификацией-верификацией. Для чего? Например, для аудиопоиска по большой базе. В Беларуси собрана очень большая речевая база правонарушителей. Получается очень много записей. И надо человека в этой базе найти – как это сделать? Пожалуйста, применяйте наш "Трал". От 10 тыс. фонограмм и больше – примерно за час можно хотя бы сузить эту область поиска, чтобы эксперт мог объективно при помощи аудитивного анализа и своих экспериментальных методов все доказать и просмотреть. Такая технология применяется много где, например, при необходимости идентификации человека. В нашем случае идентификация происходит по голосу, а продукт называется VoiceKeyService.

Еще одна смежная технология – это автоматическое разделение дикторов. Например, в телефонном разговоре участвуют 2-3 человека и нам нужно их реплики автоматически разделить. Вручную разделять долго, плюс аудитивный анализ – это очень тяжело, операционистки просто не выдерживают. Наша технология же позволяет разделять дикторов автоматически. Нужно просто запустить программу и она сразу покажет, где какой диктор говорит.

Была разработана, но до коммерческого воплощения не дошла и технология определения языка говорящего. В качестве конечного продукта она существует в виде автоматизированного комплекса, т.е., работающего при участии человека. Удаётся определять даже диалект – то есть, оператору дается, например, подсказка, что "человек из белорусского региона".

Для поиска музыки существует отдельная очень интересная технология JingleTracker. Например, вы хотите узнать, сколько раз в эфире появлялась данная композиция: предположим, с целью защиты авторских прав. Вы начинаете мониторинг, и узнаете, что вместо пяти раз она звучала в эфире десять. То же самое и с рекламными роликами.

– В чем вообще специфика работы со звуком и голосом?

– Начнем с голоса, который имеет характерные особенности. У каждого человека голос характеризуется положением так называемых формант, частой основного тона, тембром, лингвистической, фонетической, просодической индивидуальностью. Например, форманта – это некоторая величина, которая является характеристикой самого голоса. Положение их очень индивидуально, как например, оболочка глаза, или отпечаток пальца. Нашими алгоритмами можно их высчитать, обработать, проанализировать. Первая и вторая форманты отвечают за распознавание смысла, за сам язык. А третья, четвертая и более высокие форманты отвечают за индивидуальность.

Из всех разумных существ, лишь только человек обладает голосом и речью. Поэтому индивидуальные признаки присущи только речевым звукам, даже попугай, который, казалось бы, воспроизводит речеподобрые звуки, не обладает такими особенностями (там работает теория психоакустики, т.е. восприятия).

В плане алгоритмов тут можно найти аналогичные принципы в других областях науки. Например, алгоритм распознавания "речь/не речь" можно использовать для распознавания изображения (тёмное/светлое). Самому алгоритму, в общем-то, всё равно. И у нас работают математики, которые к речи не имеют прямого отношения. Самое важное – выделить первичные признаки. Какие признаки мы выделим – с такими дальше алгоритм и будет работать. Можно просчитать спектр и выделить фильтры – низко-, средне– или высокочастотные. А можно выделить и форманты тоже – это будут первичные признаки алгоритма. Самому алгоритму, повторюсь, все равно – лишь бы были признаки. Признаки могут быть как индивидуальными, так и общими. Например, при распознавании речи мы стараемся забыть про индивидуальность, это уже характеристика фонем.

– А в плане сложности с точки зрения вычислительной техники? Большие ли ресурсы требуются для работы?

– Всё зависит от задачи, и от платформы реализации. Наши разработчики алгоритмов могут адаптировать их под самые требовательные ресурсы.

– А кто ваши основные потребители? Силовые структуры?

– Действительно, первый потребитель ЦРТ – это специальные службы и военные органы, поскольку во всех речевых делах они, как правило, более продвинуты. Казалось бы, кому нужен поиск ключевых слов в фонограммах, для чего искать? А вот им это нужно.

Портфель нашей продукции действительно широк. В Петербурге есть отдел спецтехники и военный отдел, которые делают аудиорегистраторы (переговорные устройства) для кораблей служб береговой охраны. Они записывают по рации все, что происходит на корабле – т.е. представляют собой аналог черного ящика на самолете, в реализации, которых компания тоже принимала участие.

Но это не главная ниша. Я не упомянул выше о системе документирования и стенографирования. Это два очень крупных комплекса, которые применяются для автоматизированного перевода звучащей речи в печатный эквивалент, электронный вид, что очень удобно для больших заседаний и совещаний.

И это не просто установка диктофона, который стоит и пишет, – это распределенный комплекс "Нестор" с большим количеством микрофонов, с целой группой операторов и руководителем группы. Такого рода разработки уже используются в высших эшелонах власти. Если же мы продвинемся дальше в распознавании речи, то можно говорить об автоматизации функций оператора.

– Но эта технология все равно завязана на работе оператора?

– Да, вся информация идет на оператора – он ее выслушивает, набирает. Ошибиться тут нельзя.

Но возвратимся к потребителям. Телефония. У нас очень много систем, связанных с телефонными платами: здесь самый разнообразный спектр задач, от удовлетворения потребностей пожарников, МЧС, которым нужно очень быстро оповещать личный состав, и заканчивая оповещением задолженников по квартплате. Кстати системы оповещения задолженников мы сейчас очень активно внедряем в Минске. Обычная бытовая служба, которая приобрела наши решения.

В тех же ЖРЭО, чтобы не стоять в очереди для записи показаний по холодной или горячей воде, людям достаточно позвонить в ЖРЭО и оставить показания счетчиков воды вместе со своими контактными данными. В дальнейшем оператор соберет эти данные и перепишет. То же самое и с системой оповещения. Подобная технология освобождает от работы 2 человек, которые ежедневно занимаются обзвонами. Она автоматически включается, после чего начинает самостоятельно обзванивать.

– Эти технологии в ЖРЭО уже внедрены? Где именно?

– Да, они успешно работают в Советском, Фрунзенском и Центральном ЖРЭО г. Минска и ряде регионов.

– А системы записи на вокзале – это тоже результат вашей деятельности?

– Нет, это работа наших конкурентов – они их установили ещё тогда, когда мы не занимались коммерческой деятельностью. Для установки подобных систем необходимо специальное разрешение в виде лицензии и сертификации. Мы уже через это прошли, поэтому все документы и разрешения у нас есть.

– Вы предлагаете и специализированные устройства записи…

– Да, у нас есть профессиональные диктофоны. Для оперативно-розыскной деятельности они идеальны. Даже наши криминалисты говорят, что лучше не видели. Эти диктофоны очень хороши для адвокатов, юридических компаний, они удобны и в ВУЗах при записи лекций, в малом бизнесе. По своим характеристикам они вторые в мире.

По всему миру у ЦРТ множество дилеров, и диктофоны "Гном" хорошо продаются в 73 странах мира. В них встроена шумоочистка, используется специальный корпус. Более того, все записанные с их помощью фонограммы имеют силу в суде, так как они специально проверяются, а диктофоны имеют соответствующую сертификацию, где указано, что их записи пригодны для экспертизы.

Конечно эти устройства не дешевые, но при этом пользуются большой популярностью. Кстати, новый продукт "Гном-видео" выйдет в конце февраля-начале марта. Это будет диктофон, снабженный встроенной и выносной видеокамерой для съёмки видео.


Портативный цифровой стереофонический диктофон "Гном 2М" в профессиональной комплектации

Комплексы речевых технологий приобретают большие call-центры, для автоматизации работы своих операторов, а также информационные службы. А в прошлом году система распознавания была внедрена в швейцарские часы. Причем, не очень дорогие – около $150. Распознают они 10 цифр и 5 команд независимо от языка – на каком обучите, на таком и будут распознавать. Наша система шумоочистки встроена даже в гоночные автомобили NASCAR – для общения пилота с командой обслуживания. Обращений очень много. Шумоочистку хотел внедрить и наш Метрополитен, другие крупные компании – для распознавания речи в цеху.

– А каково качество распознавания ваших систем, от чего оно зависит, в чем главные внешние и внутренние препятствия качественному распознаванию?

– Внешний шум, конечно, играет свою роль. Например, если клиент говорит, что у него достаточно шумное помещение, то мы приезжаем, измеряем шум, снимаем образцы. Пытаемся сразу что-то распознать – да, процент очень маленький, около 50% колеблется, это никуда не годится. Далее мы применяем систему шумоочистки. Она, конечно, работает очень хорошо, но задевает индивидуальность речи. Но если нам важно распознать саму речь, а не диктора, то нас это не пугает.


Система шумоочистки Золушка-микро 3

Затем мы включаем распознавание и повторно проходим измерения, при этом процент повышается и колеблется уже в районе 90-95%. И здесь, все-таки, приходится работать с технологией шаблонного обучения: перед системой пофонемного распознавания (для которой собирались большие базы) шумоочистку поставить пока затруднительно. Диктор обучает систему, она подстраивается под акустические характеристики, включается шумоочистка и проводится распознавание. В этом случае мы можем достичь около 95% точности распознавания текста.

Если говорить о тихом офисе, дикторонезависимом распознавании и большом словаре, то здесь достигается точность 90-93%. При распознавании слитной речи, у нас распознается около 60% с ограниченным словарем по определенной области (ИТ). За предстоящие 2 года планируем выйти на показатель около 90%, что для слитной речи очень много. Пока лучший результат в мире – распознавание испанского языка на уровне 82%. Мы этого достичь пока не можем.

Особая сложность имеется со славянскими языками. В латинских языках – строгое построение фразы, в русском же – многовариантное ("на лугу пасется корова", "корова пасется на лугу"). Поэтому распознавать английский или французский язык проще.

– А какой уровень качества распознавания считается минимально приемлемым для слитной речи?

– Все зависит от целей. Людям с ограниченными возможностями, например, понять 70% уже очень хорошо. Чтобы уловить общий смысл, этого будет достаточно. Но в то же время для стенографирования 70% – уже неприемлемый вариант. Для этого необходима точность не менее 90%, т.к. здесь уже включаются и орфографические ошибки. А 82% у испанцев используются для мониторинга новостных каналов и перевода новостей в печатный вид, чтобы в дальнейшем было проще их искать в архиве.

– Имеются ли системы поиска прямо по аудио? Насколько они эффективны?

– Да, это и есть "поиск ключевых слов", область, близкая к распознаванию речи. Но при распознавании можно пропустить всю фонограмму и определить, встречается ли в ней данное слово или нет. Поиск же покажет, где находится данное слово в фонограмме, с какой вероятностью оно было произнесено. Ведь акустически близколежащие слова могут быть очень похожи на слух, в результате чего система может их расценить как одинаковые ("кот" и "пот"). Еще есть и такое понятие, как порог. Все системы распознавания – пороговые, т.е. они принимают решения в зависимости от того, какой установлен пороговый уровень.

Если пороговое значение превышается, система называет процент вероятности данного слова (в зависимости от величины превышения порога). Пороги можно регулировать. Для спецслужб, например, очень важно, чтобы во время поиска слово не было пропущено. Пусть даже будут ложные срабатывания (например, из 10 найденных 5 окажутся мусором) – не страшно! Лучше прослушать несколько ненужных слов, чем пропустить одно важное.

– Как сильно, в целом, изменились системы синтеза и распознавания речи за последние 8 лет?

– Если говорить о русском языке, то по синтезу речи выросли 3 движка, которые говорят на русском. Во-вторых, выросла компьютерная техника и её вычислительная мощность, что позволило реализовать метод Unit Selection. Он был открыт еще в 1996 году, не так давно.

До этого ученые пытались моделировать форманты человеческого голоса и форманты звука (формантный метод), также использовался артикуляторный метод, моделирующий речевой тракт человека. Синтез получался, но он был настолько неестественным, голос оказывался настолько роботизированным, что использовать, его было очень трудно. Но между тем, именно в Минске он был применен: в белорусской Академии наук профессором Б.М. Лобановым, который еще в 60-е годы делал оповещение задолженников через синтез (продукт "Фонемофон"). Он был в Союзе человеком №1 по синтезу, создавал синтезаторы русского языка. В то время техники не хватало, работали с тем, что было. Но со временем это дело начало приносить прибыль, стали появляться коммерческие проекты. Появлялись деньги и было решено не вдаваться в большие ученые алгоритмы. Маленькие "шаблончики" стали брать прямо из голоса, из живого диктора, и такой этот метод получил название компилятивного синтеза (unit selection): берем звуки, компилируем их, собираем и выдаем готовый звуковой сигнал. В этом методе нужна не сколько математика, сколько лингвистика.

В качестве минимальной единицы решили использовать аллофоны (фонема с учетом окружения, правого и левого). Нарезали аллофонов, составили базу от 1000 до 10000. На Украине, например, делают русский язык на 11000 аллофонов, в Беларуси – на 1500, в России – на 4000. По-разному, но качество у всех примерно одно и то же. В 1996 году создали метод, который на основе кластеризированного анализа извлекает нужный аллофон из базы. Звуковой сигнал остается целостным, это был большой прорыв. В 90-е годы на вычислительной технике тех времен это было сделать невероятно трудно (огромный объем вычислений в реальном времени). С 2000 года дело пошло и теперь все синтезаторы английского говорят уже на этих принципах вполне нормально.

В распознавании речи, по большому счету, всё было завязано на фонетические базы, и адаптировали не шаблонный метод, а статистику, метод скрытых марковских моделей. Они были известны и раньше, но именно с конца 90-х нашли широкое коммерческое применение. В основе этого метода стоял вопрос: с какой вероятностью появляется следующая фонема в зависимости от того, что стоит перед ней? На основе данного подхода все работают до сих пор. Это наиболее эффективный метод. Применяют и нейронные модели, и динамическое программирование, но наряду с марковскими моделями.

– Какие существуют системы распознавания речи и каковы их ограничения?

– У ЦРТ существует система пофонемного распознавания VoiceCom, которую не нужно обучать, и система распознавания слитной речи – в ней точность достигает 60%, но она до сих пор разрабатывается.

Существует консорциум "Российские речевые технологии", состоящий из 10 компаний, большинство из которых – вузы и академические круги. Заниматься распознаванием слитной речи – очень дорогостоящее занятие, мало кто позволяет себе заниматься распознаванием слитной речи.

Что касается распознавания команд то здесь есть несколько продуктов – московская Cognitive Technologies, компания SPIRIT, AudiTech. Для компаний, которые реализуют распознавание шаблонным методом, не имеет значения, какой язык распознавать – вы можете обучить их любому языку. Явного лидера на рынке выделить очень трудно. Но ЦРТ остается компанией №1 в России, никто у нас больше не занимается речью как мы…

– То есть, конкурентов нет?

– Слитную речь, насколько нам известно, делает только ЦРТ. Есть распознавание речи и у питерской компании Аудитек, но у них пофонемное распознавание команд. Что касается синтеза, то здесь все очень условно. Мы сделали систему "Оратор", сейчас он усовершенствуется и в корне преобразуется. Думаю, здесь мы должны очень хорошо себя поднять качество в этом проекте. Синтез-то характеризуется в первую очередь качеством.

– Ваша компания является резидентом Парка высоких технологий?

– Нет.

– А собираетесь?

– Трудно сказать. Пока мы только присматриваемся.

– Можете ли спрогнозировать, когда качественные звуковые решения (в первую очередь, по распознаванию речи) придут в мобильники, PDA, цифровые диктофоны?

– Думаю, через лет 20 – это в лучшем случае. Хотя кто знает, может научное открытие придет завтра-послезавтра и все поменяется…

Ну у нас уже сейчас есть продукт VoicePIN, который позволяет голосом ввести свой PIN-код (либо фраза специальная, либо просто цифры). Он сделан для мобильных устройств на базе Windows Mobile. Для распознавания речи на мобильных устройствах мы предлагаем VoiceCom Mobile – программу, работающую на базе шаблонного метода. К сожалению, под Symbian ПО у нас нету, но в планах такой пункт есть.

– Одно из направлений работы ЦРТ – определение биометрических и физиологических характеристик по голосу. Что именно можно определить? Пол, возраст?

– Да, у нас есть такой продукт, который по голосу может определить примерный возраст человека и определить его пол, некоторые физиологические особенности – например, если человек картавит или заикается. Продукт был выстроен на базе НИР и представляет собой автоматизированный комплекс, но не автоматический.

Да, можем с определенной вероятностью сказать, что, например, "человек немолодой, вероятнее всего – с толстой шеей и большой грудью, потому что у него такой-то специфический голос". Но все биометрические характеристики можно определить лишь приближенно, ни в коем случае не точно ("мужчина, 32 лет, высокий – 1,78…").

– В голливудских фильмах иногда проскакивают моменты, когда по фрагменту записи голоса человека компьютер "обучается" и далее позволяет синтезировать фразы, сказанные уже другими людьми, но этим необходимым голосом. Это фантастика или уже реальность?

– Это уже можно сделать через систему синтеза речи. Пусть у нас есть синтезированный голос и образец голоса того человека, который мы хотим получить при синтезе. Технология называется VoiceMorpher – с её помощью голос трансформируется из одного в другой. У нас сейчас есть продукт, который называется "Изменитель голоса", работающий в двух вариантах – полный вокодер и система линейных изменений. Это всё очень близко, рядом лежит. Систему мы сделали полностью здесь, в Минске и даже уже ввели в эксплуатацию в Верховный суд Республики Беларусь. Там есть комната свидетелей и для того, чтобы защитить каждого свидетеля, его голос должен идти в зал заседаний измененным. Причем, измененным таким образом, чтобы разборчивость осталась 100%-ной, а узнаваемости не было вообще – например, из мужского сделать женский голос.

Эти технологии близко лежат к VoiceMorpher и в синтезе мы планируем это сделать. Поэтому если у нас будет один или два синтезированных диктора и кусочек речи, которую мы хотим получать при синтезе, то мы это сделаем. С другой стороны, диктор может наговорить определенный текст системе и система начнет говорить его голосом. Книжку маленькую начитает, 2-3 страницы – для системы синтеза этого будет достаточно. Это всё достижимо.

– Как далеко продвинулись технологии шумоподавления, "очистки" записей?

– Что касается России, то в ней лучше ЦРТ точно никого нету. Именно нам поручили "чистить" записи с подводной лодки "Курск", пролежавшие год на дне. Очень много всегда фонограмм на восстановление – для этого у нас используется продукт SoundCleaner. Алгоритмы шумоочистки в ЦРТ – очень серьёзные. Они сами могут подстраиваться под определенный шум, подсказывать экспертам какие-то настройки чтобы чистили более эффективно.


Миниатюрный цифровой стереофонический диктофон "Гном Р"

Кстати, при использовании нашего диктофона, даже лежащего в заднем кармане брюк, даже на сильно зашумленном участке, голос будет слышен очень хорошо – в диктофоне имеется встроенная шумоочистка. Кроме того, я уже говорил, у нас имеется комплекс SoundCleaner – очень мощный, который может серьёзно почистить запись. У нас была поставка комплекса в один ресторан, где использовалось распознавание речи в шумах, на кухне, где посудомоечные машины, где всё гремит и скрипит…


Системы шумочистки

Целая группа, человек 6-7, у нас работает только над шумоочисткой. И работают они далеко не первый год. Всего, кстати, в научном отделе нашей компании работает 19 кандидатов наук.

– Применяются ли ваши технологии и решения в интернете?

– В интернете наши технологии пока не применяются. В ближайшее время мы планируем предоставлять веб-услугу "синтезированного диктора". Вам нужно создать какой-нибудь текст? Пожалуйста, набирайте его прямо на сайте, получайте звуковой поток.

– Куда будут двигаться речевые, голосовые технологии в ближайшие несколько лет?

– Если смотреть на ближайшее время – речевые технологии останутся уделом больших корпораций, call-центров. В телефонию, конечно идут и будут идти – к операторам масштаба Cisco, Alcatel, поставляющим телекоммуникационное оборудование.

Дальше же технологии будут распространяться в мобильники и ориентироваться на конечных пользователей. Тут надо быть осторожными, потому что конечный пользователь – это не крупная корпорация, а технология, по сути, должна быть одна. В этом плане необходима четко выработанная политика. Но к конечному пользователю в итоге технология все равно придет – или через интеграторов, или через поставщиков.

ЦРТ никогда не ориентировалась на конечных пользователей и поставляет свои продукты, в основном, интеграторам. Напрямую частное лицо что-то кроме небольших продуктов по распознаванию речи или по синтезу приобрести не сможет.

Около 10-15 лет назад, когда только появился метод Unit Selection (компилятивный синтез), один из создателей отметил, что данный метод в ближайшее время будет наиболее выгодным с точки коммерции. Но с точки научности и интереса артикуляторный синтез как был, так и остается "голубой мечтой" любого синтезаторщика – т.е. моделирование звукового тракта. Даже отдельные звуки просинтезировать таким методом очень сложно. Распознавание – более наукоемкая область. В ней очень много статистики и тоже не всё так прозрачно, особенно если отказаться от шаблонных методов (обучение по диктору, произвольных фраз).

Виталий Киселёв о себе

Родился 30.06.1979. Закончил БГУИР, кафедру искусственного интеллекта. В 2004 г закончил аспирантуру в лаборатории синтеза и распознавания речи, ОИПИ НАН БР. С момента организации компании ООО "Речевые Технологии" работаю её руководителем. Женат, воспитываю дочь.


Нужные услуги в нужный момент
{banner_819}{banner_825}
-20%
-20%
-22%
-50%
-70%
-30%
-20%
-77%
-20%
-50%