168 дней за решеткой. Катерина Борисевич
Коронавирус: свежие цифры
  1. 22 года назад пропал бывший глава МВД и оппозиционный политик Юрий Захаренко
  2. «На 19 мая у него был обратный билет в Норильск». Что известно о докторе, которого задержали в Борисове
  3. Старинные усадьбы и парки, храмы и марсианские пейзажи. Маршрут на длинные выходные
  4. Эксперт рассказал, что можно посадить в длинные выходные, а что еще рано сажать
  5. Паша «Мясной король». Как популярный гродненский блогер занялся мясным мини-бизнесом, который вдруг «выстрелил»
  6. Семья минчан построила дом в дачном поселке и живет там круглый год. Вот как там все устроено
  7. Лукашенко запретил продажу жилья через облигации. И что теперь будет с ценами на квартиры?
  8. «Когда войну ведут те, кто уже проиграл». Чалый объясняет «красные линии» и угрозы Лукашенко
  9. Как белорусские сигареты оказываются в опломбированных вагонах с удобрениями? Попытались найти ответ
  10. До +26°С! Прогноз погоды на длинные выходные
  11. «Новые отношения меня не пугают». Одно утро с Юлией Курьян
  12. Тест. Вы хорошо ориентируетесь в простых вопросах экономики?
  13. «Не доводите ногти до такого». Эти специалисты работают со стопами и показывают видео не для слабонервных
  14. «Он меня слышит, реагирует на голос». Что сейчас с Ромой, который вынес из огня брата
  15. Нацбанк не аттестовал двух топ-менеджеров Альфа-Банка, в том числе председателя правления. Что говорят в банке
  16. «Вы звоните в такое горячее время». Так получат ветераны ВОВ единовременные выплаты к 9 Мая или нет?
  17. Главный скандал «фигурки»: россияне выиграли золото Игр, но через 5 дней его вручили и канадцам. Как так?
  18. В какие страны пустят белорусов, привившихся непризнанными ЕС «Спутником V» или вакциной от китайской Sinopharm
  19. Нарколог рассказала, почему стоит обращать внимание на состав алкоголя
  20. Участвовавший в испытании «Спутника V» минчанин спустя полгода проверил, что ему вкололи
  21. Лукашенко пообещал «ягодки» по «делу о госперевороте» и вспомнил «убийства друзей-президентов»
  22. «Жена разбудила и говорит: «Слушай, ты уже не подполковник». Поговорили с лишенными званий экс-силовиками
  23. Участников канала «Армия с народом» приговорили к большим тюремным срокам
  24. Эксперт рассказал, что можно сажать рядом с помидорами, а что — нельзя
  25. В Польше задержали самую крупную в истории партию контрабандных сигарет из Беларуси
  26. В МИД Беларуси ответили на призыв «Большой семерки» провести новые выборы
  27. Лукашенко о заявлении на него в прокуратуру Германии: Не наследникам фашизма меня судить
  28. Lada Vesta больше не лидер продаж, Rapid тоже нашли замену: какие машины сейчас покупают белорусы
  29. Привьют всех желающих. Стало известно, когда в ТЦ «Экспобел» откроется пункт вакцинации
  30. Ведущий химиотерапевт — о причинах рака у белорусов, влиянии ковида и о том, сколько фруктов есть в день


Лого: GoogleРазработчики из подразделения краулинга и индексации (Crawling and Indexing Team) сообщили о важном эксперименте, который начался совсем недавно. Они осуществили апгрейд краулера и начали испытывать технологию интеллектуальной обработки HTML-форм. После апгрейда робот-краулер должен научиться получать скрытые URL'ы и веб-страницы, которые генерируются в ответ на обработку форм на различных сайтах и которые невозможно получить иным путем.
 
На практике технология работает так: при встрече с элементом обработчик форм осуществляет ряд пробных запросов. Для текстовых полей в качестве запросов автоматически выбираются слова с этого самого сайта, на котором находится форма. Значения чекбоксов и выпадающих меню берутся непосредственно из кода страницы. После этого программа пытается обработать полученный URL. Если страница действительно содержит некий контент, то ее отправляют на индексирование в общий поисковый индекс.

Несмотря на кажущуюся простоту и очевидность, обработка HTML-форм является очень важным шагом по вытаскиванию на свет так называемой "Невидимой Сети" (Deep Web) – огромных массивов информации, которые скрываются в больших базах данных, открытых миру через интерфейсы HTML-форм. Это юридические БД, разнообразные справочники (телефоны, адреса, цены) и прочие массивы данных. По некоторым оценкам, Невидимая Сеть содержит сотни миллиардов страниц и охватывает 90% всего содержимого Интернета. Нужно заметить, что именно там скрывается самый ценный контент, который до сих пор не доступен через стандартные поисковики.

Правда, в любом случае, огромный кусок Невидимой Сети по-прежнему останется за пределами досягаемости Google, потому что краулеру запрещено вводить какие бы то ни было пароли или другую персональную информацию в поля форм: таково решение разработчиков и руководства Google. А ведь очень многие сайты предоставляют открытый доступ к информации только после бесплатной регистрации на сайте. Но с юридической точки зрения робот Google не имеет права создавать фиктивную личность специально для регистрации, потому что это является мошенничеством и противоречит принципам всегда дружелюбного гуглобота.

Кстати, знающие люди уже объяснили, откуда растут ноги у новой технологии краулинга. Скорее всего, ее создала команда разработчиков из маленькой компании Transformic, которую Google приобрела в 2005 году. Последние два с половиной года они упорно трудились, совершенствуя свою разработку и помогая интегрировать ее в краулер Google.


-10%
-14%
-50%
-5%
-25%
-10%
-5%
-40%
-10%
-31%
-10%