• В Беларуси
  • Наука
  • Интернет и связь
  • Гаджеты
  • Игры
  • Оружие
  • Архив новостей
    ПНВТСРЧТПТСБВС
  1. На продукты рванули цены. Где сейчас выгоднее закупаться — на рынках, в гипермаркетах, дискаунтерах?
  2. Как Беларусь зарабатывает на реэкспорте цветов в Россию
  3. Приговор по делу о «ноль промилле»: полгода колонии журналистке TUT.BY и два года с отсрочкой врачу
  4. Был боссом Дудя, построил крутой бизнес в России, а сейчас помогает пострадавшим за позицию в Беларуси
  5. Светлана Тихановская прокомментировала видео СК по ее делу
  6. «Утром ломились в подъезд». Что известно о массовых задержаниях блогеров и админов телеграм-чатов в Минске
  7. Кризис и волны релокейта не помеха? Резидент ПВТ пошел развивать технологические проекты в регионах
  8. Суд за надпись «3%» и пять лет колонии за «изготовление ежей». Что происходит в Беларуси 3 марта
  9. Двухлетний ребенок полгода не видел папу. Посмотрите, как сын встречает политзаключенного
  10. Водители жаловались, что после поездки по М10 не могут отмыть машины. Вот что рассказали дорожники
  11. «Предложили снять, я отказался». Житель «Пирса» повесил на балконе БЧБ-флаг, а его авто забрал эвакуатор
  12. Какой будет погода весной и стоит ли прятать теплые пуховики в марте
  13. Виктор Лукашенко получил звание генерал-майора запаса. Предыдущее его известное звание — капитан
  14. Беларусбанк начал выдавать потребительские кредиты. Какую сумму дадут при зарплате в 1000 рублей
  15. Все магазины Bigzz и «Копилка» не работают. Компания ушла в ликвидацию
  16. «Радуюсь „мягкому“ приговору для невиновных людей». Известные белорусы — о приговоре врачу и журналисту
  17. Кирилл Рудый — о жизни после госслужбы и проектах с Китаем. «Cперва кажется, ничего нельзя, а оказывается — все можно»
  18. Жуткое ДТП в Волковысском районе: погибли три человека, в том числе новорожденный ребенок
  19. Протестировали, как работает оплата проезда в метро по лицу, и рассказываем, что из этого вышло
  20. В Витебске увольняют Владимира Мартова — реаниматолога, который первым в Беларуси честно говорил о ковиде
  21. Для водителя, который прокатил на капоте гаишника, запросили 11 лет колонии усиленного режима
  22. «Малышке был месяц, они ее очень ждали». Что известно о троих погибших в страшной аварии под Волковыском
  23. Перенес жуткое сотрясение, но вернулся и выиграл два Кубка Стэнли. Хоккеист, которым восхищается весь мир
  24. «Деревня умирает! Здесь живут 4 человека — и все». История Анатолия, который работает в автолавке
  25. «Пары начинались в 3 утра». Белорусы, которые учатся в Китае, не могут вернуться в вуз
  26. «За полтора месяца мое душевное рвение ушло в минус». Минчанка продала квартиру и купила синагогу
  27. «В детстве комплексовала и боялась, что нет будущего». Глухой автоинструктор — о жизни и работе
  28. Нет ни документов, ни авто. В правительстве объяснили, как снять с учета такую машину, чтобы не платить налог
  29. Родители не пускали дочь на учебу из-за ковида — и ее отчислили. Колледж: все законно
  30. Вот почему он стоит больше 100 тысяч евро. В Минск привезли первый Mercedes S-класса нового поколения


Светлана Чистякова,

Сенсор Kinect известен как устройство, которое распознает жесты и движения человека и позволяет играть в игры, не используя контроллеры. Попросту говоря, вместо джойстика или геймпада игрок использует собственное тело. Однако возможности Kinect этим не ограничиваются.

Сенсор понимает голосовые команды, которые геймер отдает ему с другого конца комнаты. Доктор Иван Ташев, один из ведущих исследователей в группе технологий речи Microsoft Research, рассказал "Ленте.ру" о том, как работает функция распознавания голоса в Kinect, почему геймерам не нужна аудиогарнитура, ожидать ли нам игры с голосовым управлением и будет ли устройство поддерживать русский язык.

Лента.ру: Сенсор Kinect и геймера разделяют несколько метров - существенная дистанция для любого микрофона, особенно если учесть, что в комнатах бывает шумно - лето, распахнутое окно, автомобили. Как удается заставить Kinect "расслышать" то, что ему говорят?

Иван Ташев: Ранее распознать речь человека было возможно лишь в том случае, если он находился в непосредственной близости от микрофона - идеальным считалось расстояние в два сантиметра. Если же перенести микрофон на расстояние в один, два, три или даже четыре метра, возникают сразу несколько проблем. Первая - это шум. Шум исходит в том числе и от устройств, которые работают в комнате - от телевизора и от самой консоли Xbox. Мозг человека умеет отделять шум от голоса. Тем не менее, иногда с этой задачей не под силу справиться даже людям - поставьте человека на расстояние четырех метров от микрофона, запишите его голос и попробуйте прослушать.

Вторая задача, которую необходимо решить, - это так называемая реверберация. Мы с вами сидим в комнате и разговариваем, но при этом вы воспринимаете примерно одну треть от изначальной энергии моего голоса. Остальное - это отражения звука от стен, стола и других поверхностей. Получается, что вы слышите мой голос плюс множество его задержанных более слабых копий. Это снижает разборчивость речи.

Наконец, одна из самых сложных задач, которые стояли перед разработчиками "распознавателя" речи - это звук от динамиков. Динамики расположены очень, очень близко к Kinect, а пользователь, который произносит голосовые команды, находится далеко. К тому же геймеры, как известно, имеют привычку выставлять звук на максимальную громкость.

Получается, что устройство должно уметь, во-первых, отсекать звук из динамиков, а во-вторых, уменьшать реверберации и шум. Только в этом случае в "распознаватель речи" будет поступать разборчивый звук относительно высокого качества.

Поэтому Kinect нужны целых четыре микрофона?

Помочь нам отсечь звук из динамиков и снизить реверберации и шум могут сразу несколько технологий. Одна из них носит название технологии направленных микрофонов.

В Kinect - совершенно верно - имеются четыре микрофона, и они позволяют системе захвата определить, откуда идет звук, и отсечь шумы и реверберацию. Вторая технология - это так называемое эхоподавление. С его помощью можно отделить звук голоса от звука динамиков. Эхоподавление - один из самых старых алгоритмов обработки сигнала, и он используется практически в каждом спикерфоне (телефоне с громкоговорящей связью). Но в случае со спикерфоном уровень громкости динамика приближен к уровню громкости голоса человека. В случае с Kinect динамики звучат громче, а человек - тише. Более того, сигнал от динамиков является не монофоническим, а стереофоническим.

Выход мы нашли, разработав алгоритм стереоакустического эхоподавления. Само по себе это было довольно непростой исследовательской задачей, а Kinect стал первым устройством, где применяется подобная технология. Более того, Kinect - первое потребительское устройство, которое способно распознавать речь с расстояния трех-четырех метров.

Важно также, что в Kinect, в отличие от автомобильных гарнитур и других аналогичных устройств, отсутствует кнопка Push-to-talk ("Нажми и говори"). Иными словами, пользователю не нужно выполнять никаких действий, чтобы подать знак компьютеру - "Смотри, я сейчас заговорю".

Сейчас голосовое управление поддерживает в первую очередь меню Xbox 360 - консолью можно управлять, отдавая команды "Xbox, open tray", "Xbox, play disc", "Xbox, pause" и так далее. А как насчет голосовых команд в играх?

XDK, или Xbox Development Kit, поставляется с анализатором речи, и разработчики игр могут встраивать его в свои приложения. Базовый пакет игр включает в себя две игры с функцией распознавания речи. Одна из них - это Kinectimals. Ее очень любят дети, потому что она сочетает в себе речь, жесты, графику, звук.

Хочу еще раз подчеркнуть, что речь - это отличный способ взаимодействия с компьютером, но просто речь в чистом виде - это телефон, а зачем нам возвращаться в девятнадцатый век? Наш выбор - это объединить речь, жесты, графику, звук в единый интуитивный интерфейс. Чтобы начать им пользоваться, не нужно читать мануалы или проходить подготовку. Все понятно и так.

В настоящий момент Kinect понимает четыре языка: английский, испанский, японский и французский. Будет ли поддержка новых языков - например, русского?

Серьезный вопрос. Сам по себе распознаватель речи - довольно сложная программа, но она может работать с любым языком. Чтобы научить ее новому языку, нам нужно собрать образцы речи на этом языке - тысячу часов записи, а еще лучше сто тысяч, - чтобы извлечь из них акустические модели. Это не столько инженерная, сколько организационная задача. Чтобы собрать коллекцию образцов и проанализировать их, требуется немало финансовых и человеческих ресурсов, но мы это делаем. Да, мы работаем над этим, и в будущем Kinect научится понимать новые языки. Россия - важный рынок для Microsoft, поэтому вероятно, что в относительно скором времени появится поддержка и русского языка. Если вернуться к исследовательским задачам, то мы в Microsoft работаем над тем, чтобы Kinect смог обучаться новым языкам как можно быстрее.

Если рассматривать вопрос с технической точки зрения, то все люди на Земле принадлежат к одному биологическому виду. Их речевой аппарат способен воспроизводить определенное количество звуков, называемых фонемами. Фонем насчитывается 67-68. В разных языках число фонем разное. Огромным подспорьем будет, если мы научимся применять накопленный для конкретного языка материал ко всем языкам этой языковой группы - например, славянским языкам или романским языкам.

Распознавание речи применяется пока в основном в развлекательной сфере: это игровой Kinect, угадыватели песен наподобие Shazam и так далее. Найдет ли эта технология более "серьезное" применение? Представим: включает пользователь компьютер и говорит ему: а запусти-ка Outlook и напиши моему бизнес-партнеру, что встреча в четверг отменяется...

Это возможно уже сегодня. Такая задача даже гораздо проще, чем распознавание речи в Kinect - поскольку пользователь, в отличие от геймера, сидит в тихом офисе в относительной близости от компьютера. Функция распознавания речи имеется в современных версиях Windows 7 и Microsoft Office 2010. Она не так популярна, потому что с точки зрения удобства ввода информации голос не может соперничать с мышкой и клавиатурой. Пока вы печатаете текст на клавиатуре, у вас есть время подумать.

Ну и проговаривать вслух все подряд тоже не хочется.

Да, и это в том числе. Ситуация кардинально меняется, когда речь заходит о портативных устройствах или устройствах без клавиатуры. Или возьмем автомобилистов - во многих странах запрещено набирать текст на телефоне за рулем, поэтому вводить информацию голосом может быть едва ли не единственным выходом. Примером может служить автомобильная информационно-развлекательная система Kia UVO, которую совместно разрабатывают KIA и Microsoft. Она будет поддерживать возможность набора SMS голосом.

-25%
-10%
-20%
-35%
-10%
-5%
-35%
-23%
-25%
-20%
0072641