148 дней за решеткой. Катерина Борисевич
Коронавирус: свежие цифры
  1. «Падает мотивация платить налоги». Белорусы плохо разбираются в бюджете. Вот к чему это может приводить
  2. «Оказалось бы, что Минск — древний азербайджанский город». Бывший президент Армении раскритиковал Лукашенко
  3. Глава Минздрава о третьей волне коронавируса в Беларуси: заболевших меньше, но тяжелых случаев больше
  4. Врач объясняет, когда выпивать два дня — это уже запой и как быстро человек может спиться
  5. «Переболел COVID-19 и вернулся». История 92-летнего фельдшера, без которого в деревне никак
  6. Склепы с останками ребенка и взрослого обнаружили при прокладке теплотрассы в центре Могилева
  7. Как не перепутать грипп с простудой и коронавирусом, рассказывает врач
  8. В выходные чуть потеплеет, на следующей неделе — похолодание и дожди
  9. Курсы доллара и евро заметно упали. Что происходит на валютном рынке
  10. Где в Беларуси численность населения падала, а где росла? Посмотрели статистику по регионам
  11. Врач — о симптомах хламидиоза и том, как им можно заразиться
  12. «Нормализация отношений невозможна, пока не прекратится насилие». Макей встретился с послами Германии и Франции
  13. Переговоры с Мишустиным, новые законы и задержания. Что происходило в Беларуси 16 апреля
  14. «Это недопустимо». Григорий Василевич — об идее ограничить возраст для голосования 70 годами
  15. Премьер-министр России в Минске: налоговая интеграция и анонс встречи Лукашенко и Путина
  16. На «Гомсельмаше» рассказали про 400 вакансий, приглашение россиян на работу и зарплаты выше 3600 рублей
  17. Как скручивают пробеги у машин из Европы: вопиющие примеры и советы специалистов
  18. Руководителем Белорусской ассоциации журналистов избрали Андрея Бастунца
  19. Девушка Роналду — модель с невероятными формами. Вы удивитесь, узнав, чем она занималась до встречи с ним
  20. «Попытка восстановить легитимность». Эксперты — о «заигрывании с Баку» и будущей встрече с Путиным
  21. Туктамышеву называют новой примой российского фигурного катания. Только взгляните, как она хороша
  22. Вместо Земфиры — Моргенштерн. Организаторы «Вёски» — о возврате билетов и новом лайнапе
  23. Суд приговорил музыканта Тиму Белорусских к двум годам «домашней химии»
  24. Бежали за границу через реки, леса и поля. Как белорусы скрываются от преследования силовиков
  25. Белорус заочно получил пожизненное за убийство французских миротворцев. Рассказываем, что известно
  26. «Настроения упаднические». Работники «Белмедпрепаратов» сообщают об увольнениях из-за политики
  27. Дух захватывает. Что видно с крыши в центре Минска, где сегодня презентовали высотный огород?
  28. «Мы не гоняемся за сложными рецептурами». На Белинского открылась кондитерская Mousse
  29. В прокате — «Чернобыль» Данилы Козловского. Что с ним не так?
  30. «В больнице плакал и просил прощения». Поговорили с женой Виктора Борушко, которому дали 5 лет колонии


Создатели систем распознавания речи окончательно зашли в тупик?Предполагалось, что когда компьютер научится понимать человеческую речь, мы быстро сможем создать искусственный интеллект. Но точность систем распознавания речи достигла своего пика в 1999 году и с тех пор застыла на месте. Академические тесты (cs.brandeis.edu/~marc/misc/proceedings/lrec-2006/pdf/802_pdf.pdf) 2006 года констатируют: системы общего профиля так и не преодолели уровень 80%, тогда как у человека этот показатель составляет 96-98%.
 
Профессор Роберт Фортнер из Media Research Institute считает, что создатели систем распознавания речи окончательно зашли в тупик. Программисты сделали все, что смогли, и у них не получилось. Спустя несколько десятилетий они поняли, что человеческая речь – не просто набор звуков. Акустический сигнал не несет достаточно информации для распознавания текста.

Сложность задачи можно себе представить. По некоторым оценкам, количество возможных предложений в человеческом языке составляет 10*570. В документированных источниках зафиксирована лишь малая их часть, так что систему невозможно научить, даже если "скормить" ей все тексты, созданные людьми.

У многих слов в языке – сотни или тысячи значений. Выбор конкретного значения зависит от контекста, то есть от окружающих слов. В устной речи он еще зависит от выражения лица или от интонации.

Наш мозг способен генерировать текст совершенно произвольно, используя интуитивно понятные правила функциональной грамматики и усвоенную с возрастом семантическую парадигму каждого слова. Эти правила описывают, какие слова могут сочетаться друг с другом и каким образом (через какие функциональные элементы). Значение каждого слова зависит от значения предыдущего слова, а в сложных случаях наш мозг распознает речь лишь по обрывкам фраз, зная контекст.

Базовые правила функциональной грамматики понятны каждому человеку, но их никак не удается формализовать, чтобы стало понятно и компьютеру. А без этого никак. Когда компьютер пытается распознать ранее не встречавшиеся ему предложения, он неизбежно будет допускать ошибки в распознавании, если у него нет грамматического парсера и словаря с семантическими парадигмами, встроенного в человеческий мозг.

Например, российские лингвисты когда-то попытались составить семантическую парадигму одного простого предлога русского языка (кажется, ПРИ). Они дошли до нескольких сотен значений, каждое из которых допускает свой набор последующих элементов. И это был явно не полный список.

По грамматике предлогов проводятся целые научные конференции (www.philol.msu.ru/~lex/gsp/gsppart.php, некоторые ученые всю жизнь изучают предлог ПО и не могут до конца раскрыть его тайны). А ведь подобное описание требуется для каждой морфемы человеческого языка, включая приставки и суффиксы. Только после этого можно будет приступить к программированию компьютерных систем распознавания речи. По силам ли человечеству эта задача? Ведь нужно учесть еще, что парадигма каждого элемента человеческой речи постоянно меняется, ведь язык живет своей жизнью и все время эволюционирует. Как компьютерная система сможет самообучаться?

Самый поверхностный анализ опубликованных компанией Google в интернете текстов позволил выявить триллион объектов. Это лишь мизерная часть морфем, из которых состоит наша речь. Google выложил 24-гигабайтный архив с текстами во всеобщий доступ и прекратил дальнейшие публикации по этой теме.

Проект MindNet по созданию "универсального парсера" компания Microsoft начала в 1991 году. Они пытались построить универсальную карту всех возможных взаимосвязей между словами. На проект потратили много сил и финансовых средств, но были вынуждены практически прекратить исследования в 2005 году.

Можно поставить точку и начинать все сначала, только другим способом (гораздо более сложным). Язык необходимо формализовать в рамках единой функциональной грамматики, универсальной для всех языков, и без серьезной помощи лингвистов тут не обойтись, если задача вообще решаема.

Анатолий АЛИЗАР
-10%
-15%
-5%
-25%
-20%
-20%
-50%
-21%
-50%