• В Беларуси
  • Наука
  • Интернет и связь
  • Гаджеты
  • Игры
  • Оружие
  • Архив новостей
    ПНВТСРЧТПТСБВС
  1. «Утром ломились в подъезд». Что известно о массовых задержаниях блогеров и админов телеграм-чатов в Минске
  2. Беларусбанк начал выдавать потребительские кредиты. Какую сумму дадут при зарплате в 1000 рублей
  3. «Шахтер» впервые стал обладателем Суперкубка Беларуси, победный пенальти забил вратарь
  4. Двухлетний ребенок полгода не видел папу. Посмотрите, как сын встречает политзаключенного
  5. Протестировали, как работает оплата проезда в метро по лицу, и рассказываем, что из этого вышло
  6. Был боссом Дудя, построил крутой бизнес в России, а сейчас помогает пострадавшим за позицию в Беларуси
  7. Жуткое ДТП в Волковысском районе: погибли три человека, в том числе новорожденный ребенок
  8. Какой будет погода весной и стоит ли прятать теплые пуховики в марте
  9. Светлана Тихановская прокомментировала видео СК по ее делу
  10. «За полтора месяца мое душевное рвение ушло в минус». Минчанка продала квартиру и купила синагогу
  11. «Малышке был месяц, они ее очень ждали». Что известно о троих погибших в страшной аварии под Волковыском
  12. Горбачев: Я не раз говорил, что Союз можно было сохранить
  13. Суд за надпись «3%» и пять лет колонии за «изготовление ежей». Что происходило в Беларуси 3 марта
  14. Для водителя, который прокатил на капоте гаишника, запросили 11 лет колонии усиленного режима
  15. «Готовились к захвату зданий в Гомеле». СК — об экстрадиции Тихановской и деле в отношении ее доверенных лиц
  16. «Предложили снять, я отказался». Житель «Пирса» повесил на балконе БЧБ-флаг, а его авто забрал эвакуатор
  17. Кирилл Рудый — о жизни после госслужбы и проектах с Китаем. «Cперва кажется, ничего нельзя, а оказывается — все можно»
  18. Перенес жуткое сотрясение, но вернулся и выиграл два Кубка Стэнли. Хоккеист, которым восхищается весь мир
  19. Нет ни документов, ни авто. В правительстве объяснили, как снять с учета такую машину, чтобы не платить налог
  20. Все магазины Bigzz и «Копилка» не работают. Компания ушла в ликвидацию
  21. Приговор по делу о «ноль промилле»: полгода колонии журналистке TUT.BY и два года с отсрочкой врачу
  22. Как Беларусь зарабатывает на реэкспорте цветов в Россию
  23. Родители не пускали дочь на учебу из-за ковида — и ее отчислили. Колледж: все законно
  24. «Желающих помочь белорусам в их „хлопотном дельце“ много». Чем заняты «Народные посольства» за границей
  25. «Пары начинались в 3 утра». Белорусы, которые учатся в Китае, не могут вернуться в вуз
  26. Кризис и волны релокейта не помеха? Резидент ПВТ пошел развивать технологические проекты в регионах
  27. На продукты рванули цены. Где сейчас выгоднее закупаться — на рынках, в гипермаркетах, дискаунтерах?
  28. В Витебске увольняют Владимира Мартова — реаниматолога, который первым в Беларуси честно говорил о ковиде
  29. «Осторожно, тут могут быть бэчебэшники». Как в Купаловском прошел первый спектакль после президентских выборов
  30. Лукашенко рассказал о подробностях переговоров с Путиным


Лого: GoogleРазработчики из подразделения краулинга и индексации (Crawling and Indexing Team) сообщили о важном эксперименте, который начался совсем недавно. Они осуществили апгрейд краулера и начали испытывать технологию интеллектуальной обработки HTML-форм. После апгрейда робот-краулер должен научиться получать скрытые URL'ы и веб-страницы, которые генерируются в ответ на обработку форм на различных сайтах и которые невозможно получить иным путем.
 
На практике технология работает так: при встрече с элементом обработчик форм осуществляет ряд пробных запросов. Для текстовых полей в качестве запросов автоматически выбираются слова с этого самого сайта, на котором находится форма. Значения чекбоксов и выпадающих меню берутся непосредственно из кода страницы. После этого программа пытается обработать полученный URL. Если страница действительно содержит некий контент, то ее отправляют на индексирование в общий поисковый индекс.

Несмотря на кажущуюся простоту и очевидность, обработка HTML-форм является очень важным шагом по вытаскиванию на свет так называемой "Невидимой Сети" (Deep Web) – огромных массивов информации, которые скрываются в больших базах данных, открытых миру через интерфейсы HTML-форм. Это юридические БД, разнообразные справочники (телефоны, адреса, цены) и прочие массивы данных. По некоторым оценкам, Невидимая Сеть содержит сотни миллиардов страниц и охватывает 90% всего содержимого Интернета. Нужно заметить, что именно там скрывается самый ценный контент, который до сих пор не доступен через стандартные поисковики.

Правда, в любом случае, огромный кусок Невидимой Сети по-прежнему останется за пределами досягаемости Google, потому что краулеру запрещено вводить какие бы то ни было пароли или другую персональную информацию в поля форм: таково решение разработчиков и руководства Google. А ведь очень многие сайты предоставляют открытый доступ к информации только после бесплатной регистрации на сайте. Но с юридической точки зрения робот Google не имеет права создавать фиктивную личность специально для регистрации, потому что это является мошенничеством и противоречит принципам всегда дружелюбного гуглобота.

Кстати, знающие люди уже объяснили, откуда растут ноги у новой технологии краулинга. Скорее всего, ее создала команда разработчиков из маленькой компании Transformic, которую Google приобрела в 2005 году. Последние два с половиной года они упорно трудились, совершенствуя свою разработку и помогая интегрировать ее в краулер Google.


-50%
-10%
-50%
-15%
-17%
-35%
-15%
-15%
-33%
-70%
-50%
0072641