• В Беларуси
  • Наука
  • Интернет и связь
  • Гаджеты
  • Игры
  • Офтоп
  • Оружие
  • Архив новостей
    ПНВТСРЧТПТСБВС
  1. «Все средства будут использованы». Сколько денег белорусы уже собрали на восстановление костела в Будславе
  2. Посмотрели цены на рынке «Валерьяново», куда приезжал Лукашенко, и сравнили с Комаровкой
  3. Проект указа: садовые товарищества могут стать населенными пунктами. Но не сразу
  4. Тысячи человек пришли на первый за 30 лет концерт «Кино» в Москве. Показываем, как это было
  5. Белорусы «без государства ни черта не сделают»? Собрали примеры, которые доказывают, что это не так
  6. ГПК: сбор за выезд за границу на машине надо будет оплачивать с 1 июня
  7. Депрессия и 20 лишних кг почти похоронили ее карьеру. Фигуристка, которая была одной из лучших в мире
  8. «Белавиа» отменила сегодняшний рейс в Тель-Авив. Полетят ли туда самолеты на следующей неделе?
  9. «С такой болезнью живут до 30 лет». История Кати и ее сына Вани с миопатией Дюшенна
  10. Что сейчас происходит в Индии, которая шокирует мир смертностью от COVID-19? Рассказывают белоруски
  11. Мангал под навесом уже не в тренде. Вот как круто белорусы обустраивают свои террасы и беседки
  12. «50% клещей заражены». Врач — о клещевом боррелиозе и первой помощи при укусе
  13. Культурная революция в Китае: как школьники вырезали интеллигентов в рамках «классовой борьбы»
  14. С чем полезнее съесть шашлык: с майонезом или кетчупом? Главное о здоровье за неделю
  15. В обвинении по «делу студентов» прокуроры говорят о санкциях ЕС и США
  16. Медики больше не будут прививать от ковида всех желающих в ТЦ «Экспобел»
  17. По центру Минска ранним утром гулял бобр. Рассказываем, что с ним приключилось
  18. Генпрокурор обвинил сопредельные государства в попытке внедрить в Беларусь «коричневую чуму»
  19. Суд по делу задержанной журналистки TUT.BY Любови Касперович не состоялся. Она остается на Окрестина
  20. В Гомеле из-за вылетевшего на тротуар авто погибла девочка. Поговорили с экспертами и ГАИ, как защитить пешеходов в таких ДТП
  21. Ваш народ от рук отбился. Почему у власти уже сбоит система распознавания «свой-чужой»
  22. «Расходы превышают доходы, нужно еще 10−15 млн». Олексин может выкупить торговый центр «Валерьяново»
  23. «Среди стран Европы хуже только в Молдове и Албании». Изучили статистику по белорусской науке
  24. «Шахтер» обыграл «Неман» и установил новый рекорд чемпионата. БАТЭ добыл волевую победу над «Рухом»
  25. «Скинул 20 кг за 5 месяцев». Белорус рассказывает, как похудел, а потом набрал мышечную массу
  26. По деньгам выходит дешевле, чем отели. Путешествие на автодоме по Полесью
  27. И снова умерли 10 человек. Минздрав выдал свежую суточную статистику по коронавирусу в Беларуси
  28. «Здесь очень скучно». История Марии и Максима, которых по распределению отправили в агрогородок
  29. Какая боль в шее особенно опасна и что при этом делать нельзя
  30. Йоханнес Бё души не чает в жене и ребенке. Только взгляните на их семейную идиллию


Логотип компанииВ компании Google сообщили, что интернет-поисковик Google.com успешно проиндексировал триллионную по счету веб-страницу. В официальном блоге компании говорится, что поисковик ведет создание индекса уже 10 лет – с августа 1998 года.
 
До конца 1998 года в поисковом индексе Google.com насчитывалось уже 26 млн страниц. В 2000 году был проиндексирован первый миллиард страниц. "За последние 8 лет интернет значительно вырос и увеличились объемы данных в поисковом сервисе", – говорит Джесси Алперт, программный инженер Google.

В компании говорят, что поисковик уже давно научился отыскивать и удалять из индекса дубликаты страниц и страницы с разными адресами. "Старт работы по индексированию начался с того, что поисковый робот начал запоминать содержимое страниц и следовать по гиперссылкам, присутствующими на данных страницах. Система постоянно следует по ссылкам, переходя с сайта на сайт и запоминая содержимое уже изученных страниц. В реальности Google.com проиндексировал уже более триллиона страниц, однако далеко не все из них являются уникальными автономными страницами. Многие из них имеют по несколько адресов, другие являются автокопиями друг друга", пишет в официальном блоге компании Ниссан Хаджай, один из разработчиков поисковой системы.

Инженеры Google говорят, что поисковик для того, чтобы избежать безконтрольного разбухания поискового индекса должен обладать изрядной долей интеллекта и отличать автоматически генерируемые страницы от настоящего пользовательского контента.

"Например многие онлайновые календари, работающие в интернете, имеют ссылку "следующий день", нажав на которую можно начать планирование на предстоящий день, однако парадокс состоит в том, что продвигаться по данной ссылке, каждый раз нажимая "следующий день" можно до бесконечности. Потому реальный размер интернета с точки зрения поисковой системы зависит только от того, насколько строги параметры индексирования робота и насколько он способен распознать степень полезности той или иной страницы", – говорят в Google.

Ранее в Google использовалась так называемая узловая система работы с веб-данными. Так один компьютер мог обсчитать граф информации для PageRank из 26 млн страниц за пару часов и эта информация использовалась в качестве индекса на протяжении жестко указанного периода времени. В случае с Google.com этот временной промежуток составлял пару дней.

Сегодня, как рассказывают в компании, пополнение веб-данных не останавливается ни на секунду, а благодаря распределенной системе обсчета данных и оперативному обновлению информации весь поисковый индекс ранжируется заново по несколько раз в сутки.

"Такой граф из триллиона страниц можно сравнить с разветвленной системой дорог, каждая из которых по триллиону раз пересекается с другой. Подобная система соотношения "многие ко многим" позволяет максимально быстро изучать петабайты данных", – пишет в блоге компании Джесси Алперт.


-10%
-80%
-15%
-20%
-15%
-15%
0072916