• В Беларуси
  • Наука
  • Интернет и связь
  • Гаджеты
  • Игры
  • Оружие
  • Архив новостей
    ПНВТСРЧТПТСБВС
  1. Все магазины Bigzz и «Копилка» не работают. Компания ушла в ликвидацию
  2. Год с коронавирусом. В какие страны сейчас могут слетать белорусы и что для этого нужно
  3. Новый декан у ФМО БГУ и большой красно-зеленый флаг в Новой Боровой. Что происходит в Беларуси 4 марта
  4. Светлана Тихановская прокомментировала видео СК по ее делу
  5. Белорусов атаковали банковские мошенники. Откуда у них данные, почему их сложно найти, как защититься
  6. «Осторожно, тут могут быть бэчебэшники». Как в Купаловском прошел первый спектакль после президентских выборов
  7. «Утром ломились в подъезд». Что известно о массовых задержаниях блогеров и админов телеграм-чатов в Минске
  8. «В школе думали, что приводит бабушка». История Даши, у которой разница в возрасте с мамой 45 лет
  9. Инициатива BYPOL выложила напутственную речь якобы экс-главы МВД по случаю его ухода с должности
  10. «Мы с вами не допустили гражданского раскола». Лукашенко и Кубраков поздравили милиционеров
  11. Эксперт рассказал, как правильно посеять семена и что делать, чтобы они взошли
  12. Беларусбанк начал выдавать потребительские кредиты. Какую сумму дадут при зарплате в 1000 рублей
  13. Служит в армии и копит на дом в деревне. В женском биатлоне — новая звезда (и она невероятно милая)
  14. Итоги ажиотажа: за два месяца техосмотр прошло столько машин, сколько раньше за полгода
  15. Уволился декан ФМО БГУ Виктор Шадурский. Он возглавлял факультет больше 12 лет
  16. Две машины в Андорру, пять — в Эстонию, 121 — в Германию. Интересные факты об экспорте авто из Беларуси
  17. По зарплатам «в конвертах» ввели новшество. Для работников появился бонус за «сдачу» нанимателей
  18. Перенес жуткое сотрясение, но вернулся и выиграл два Кубка Стэнли. Хоккеист, которым восхищается весь мир
  19. Белорусские биатлонистки выступают в эстафете. Онлайн гонки
  20. Нет ни документов, ни авто. В правительстве объяснили, как снять с учета такую машину, чтобы не платить налог
  21. «Предложили снять, я отказался». Житель «Пирса» повесил на балконе БЧБ-флаг, а его авто забрал эвакуатор
  22. «Вместо 25 рублей — 129». Банк повысил предпринимателю плату за обслуживание в 5 раз из-за овердрафта
  23. «Парень выдержал полгода». История мотоциклистки, которая в 25 лет стала жертвой страшной аварии
  24. «За полтора месяца мое душевное рвение ушло в минус». Минчанка продала квартиру и купила синагогу
  25. Протестировали, как работает оплата проезда в метро по лицу, и рассказываем, что из этого вышло
  26. Носкевич: Уголовное дело Тихановского до конца месяца будет передано прокурору для направления в суд
  27. «Малышке был месяц, они ее очень ждали». Что известно о троих погибших в страшной аварии под Волковыском
  28. Как перекладывают «по карманам» долги госсектора и чем это чревато
  29. На продукты рванули цены. Где сейчас выгоднее закупаться — на рынках, в гипермаркетах, дискаунтерах?
  30. Медики написали открытое письмо главе профсоюза: «Мог ли врач промолчать и позволить опорочить имя убитого?»


Логотип компанииВ компании Google сообщили, что интернет-поисковик Google.com успешно проиндексировал триллионную по счету веб-страницу. В официальном блоге компании говорится, что поисковик ведет создание индекса уже 10 лет – с августа 1998 года.
 
До конца 1998 года в поисковом индексе Google.com насчитывалось уже 26 млн страниц. В 2000 году был проиндексирован первый миллиард страниц. "За последние 8 лет интернет значительно вырос и увеличились объемы данных в поисковом сервисе", – говорит Джесси Алперт, программный инженер Google.

В компании говорят, что поисковик уже давно научился отыскивать и удалять из индекса дубликаты страниц и страницы с разными адресами. "Старт работы по индексированию начался с того, что поисковый робот начал запоминать содержимое страниц и следовать по гиперссылкам, присутствующими на данных страницах. Система постоянно следует по ссылкам, переходя с сайта на сайт и запоминая содержимое уже изученных страниц. В реальности Google.com проиндексировал уже более триллиона страниц, однако далеко не все из них являются уникальными автономными страницами. Многие из них имеют по несколько адресов, другие являются автокопиями друг друга", пишет в официальном блоге компании Ниссан Хаджай, один из разработчиков поисковой системы.

Инженеры Google говорят, что поисковик для того, чтобы избежать безконтрольного разбухания поискового индекса должен обладать изрядной долей интеллекта и отличать автоматически генерируемые страницы от настоящего пользовательского контента.

"Например многие онлайновые календари, работающие в интернете, имеют ссылку "следующий день", нажав на которую можно начать планирование на предстоящий день, однако парадокс состоит в том, что продвигаться по данной ссылке, каждый раз нажимая "следующий день" можно до бесконечности. Потому реальный размер интернета с точки зрения поисковой системы зависит только от того, насколько строги параметры индексирования робота и насколько он способен распознать степень полезности той или иной страницы", – говорят в Google.

Ранее в Google использовалась так называемая узловая система работы с веб-данными. Так один компьютер мог обсчитать граф информации для PageRank из 26 млн страниц за пару часов и эта информация использовалась в качестве индекса на протяжении жестко указанного периода времени. В случае с Google.com этот временной промежуток составлял пару дней.

Сегодня, как рассказывают в компании, пополнение веб-данных не останавливается ни на секунду, а благодаря распределенной системе обсчета данных и оперативному обновлению информации весь поисковый индекс ранжируется заново по несколько раз в сутки.

"Такой граф из триллиона страниц можно сравнить с разветвленной системой дорог, каждая из которых по триллиону раз пересекается с другой. Подобная система соотношения "многие ко многим" позволяет максимально быстро изучать петабайты данных", – пишет в блоге компании Джесси Алперт.


-20%
-15%
-10%
-20%
-5%
-35%
-20%
-17%
-15%
-50%
0072680