Главная » Готовые бесплатные работы » Компьютерные сети » Рефераты

Моделирование Web-графа

Реферат^* по компьютерным сетям

Дата добавления: 01 июля 2006

Язык реферата: Русский

Word, rtf, 6.6 Мб (архив zip, 437 кб)

Реферат можно скачать бесплатно

Скачать

Данная работа не подходит - план Б:

Создаете заказ

Выбираете исполнителя

Готовый результат

Исполнители предлагают свои условия

Автор работает

Заказать

Не подходит данная работа?

Вы можете заказать написание любой учебной работы на любую тему.

Заказать новую работу

^* Данная работа не является научным трудом, не является выпускной квалификационной работой и представляет собой результат обработки, структурирования и форматирования собранной информации, предназначенной для использования в качестве источника материала при самостоятельной подготовки учебных работ.

Очень похожие работы

ФЕДЕРАЛЬНОЕ АГЕНСТВО ПО ОБРАЗОВАНИЮ

Государственное образовательное учреждение

высшего профессионального образования

“САМАРСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ”

Механико-математический факультет

Кафедра информатики и вычислительной математики

Специальность “прикладная математика”

Моделирование Web-графа.

Курсовая работа

Выполнил студент

4 курса группы 1241

Труфанов Александр Николаевич

_____________________________

Научный руководитель

Борисова С. П.

_____________________________

Работа защищена

“______”_________________2006г.

Оценка________________________

Зав. кафедрой

д.ф.-м.н., профессор

Степанов А.Н.

______________________________

Самара 2006

Оглавление.

Введение. 3

Web-граф. Применение и ценность исследования. 3

Этапы изучения web-графа и его моделирование. 4

Цели и задачи этой работы. 7

Модели Web-графа. 8

Модель ACL. 8

Модель “Развивающейся” сети. 10

Копирующая модель сети. 12

Модель “Растущей сети”. 13

Многослойная модель. 14

Заключение. 16

Библиография. 17

Введение.

Web-граф. Применение и ценность исследования.

Под Web-графом понимается орграф, вершинами которого являются документы (в основном статические html страницы) сети Интернет, а дугами – гипертекстовые ссылки между ними. Изучение его свойств представляет большой научный интерес и имеет огромную практическую ценность. Основная область применения накопленных о Web-графе данных – информационно поисковые системы (ИПС), такие как Google, MSN, Altavista.

Подавляющее большинство запросов пользователей содержат не более 3-5 слов, и число релевантных им документов измеряется десятками тысяч. Естественно, пользователю предоставляются ссылки на первые 10-15 самых “лучших” страниц. Ранжирование результатов поиска производится по присвоенным им рейтингам. Существует огромное число алгоритмов, для определения “важности” ресурса сети. Прорывом в методах ранжирования стал алгоритм PageRank [1] компании Google: превосходя конкурентов более качественным поиском, она быстро стала лидером рынка. На данный момент ни одна крупная ИПС не может обойтись без подобного алгоритма. PageRank в качестве рейтинга страницы использует взвешенное отношение суммы рейтингов ссылающихся на страницу ресурсов к количеству исходящих из них ссылок. Реализация подобного подхода невозможна без использования web-графа.

Наряду с web-графом исследуются также такие структуры как:

Хост-граф (Host graph). Орграф вершинами которого являются web узлы. Дуга между вершинами A и B существует, если существует хоть одна web страница узла A имеющая гипертекстовую ссылку на одну из web страниц узла B.
Cosine-граф (Cosine graph). Неориентированный граф, вершинами которого являются web узлы. А дуги имеют вес равный cosine дистанции между векторами терминов соответствующих страниц
Граф цитирования (Co-citation graph). Неориентированный граф вершинами которого являются web узлы. Весом дуги E(x,y) между вершинами x и y является число страниц ссылающихся и на страницу x и на страницу y.
Пиринговый граф (Gnutella graph). Орграф, вершинами которого являются хосты пиринговых программ, таких как Gnutella, Napster, Morpheus и т.п. А дугами – соединения между ними.
Интернет-граф (Internet graph). Неориентированный граф, представляющий физическое соединение компьютеров в Интернет.
Коммуникационный граф (Communication graph). Взвешенный неориентированный граф, вершинами которого являются хосты, а дугами – соединения между ними. Весом дуги является количество информации проходящей по соответствующей линии связи.
Роутинг граф (Routing graph). Представляет движение пакетов в сети Интернет.

Удивительно, но web-граф имеет во многом схожие свойства со многими вышеперечисленными структурами.

Одним из направлений в исследовании web-графа является его моделирование. Получить Web-граф всей сети невозможно – размеры ее огромны. Каждая ИПС имеет сеть роботов-пауков, производящих индексирование ресурсов сети и накапливающих информацию о них в специальных хранилищах данных. Со временем появляются новые ресурсы, исчезают, либо перемещаются уже проиндексированные – поэтому, процесс исследования сети пауками непрерывен. Периодически происходит обновление рабочей базы данных ИПС (раз в 1-2 недели, для крупных ИПС – раз в месяц). В настоящий момент наибольшим числом проиндексированных сайтов может похвастаться компания Google - .... Непроиндексированными же остаются многочисленные форумы, блоги, файлы неподдерживаемых форматов, динамически создаваемые и просто труднодоступные для пауков страницы. Эту часть сети принято называть невидимой (“Invisible Web”). По различным оценкам, она превосходит видимую часть от 10 до 500 раз.

Многие ИПС, заинтересованные в более качественном ранжировании результатов поиска, предоставляют данные, собранные пауками, для изучения. Но размеры этих данных делают эксперименты над ними чрезвычайно трудоемкими, что затрудняет создание эффективных алгоритмов. Работа с полноценным web-графом может вестись только на высокопроизводительных серверах. Для примера, приведем сведения о экспериментальных данных, использованных при создании алгоритма BlockRank [2]. Работа алгоритма на web-графе, созданном в рамках проекта “Stanford WebBase” в январе 2001г., размером в 290 млн. вершин и чуть более миллиарда дуг, на AMD Athlon 1533MHz с дисковым массивом RAID-5 и3.5Гб оперативной памяти, требовала около 100 итераций по 7 минут каждая. Представление web-графа на внешних носителях потребовало 6Гб памяти, и это – очень небольшой web-граф.

На практике используют “мини” web-графы, сгенерированные на основе некоторой модели. Основная задача моделирования web-графа – охватить все его особенности, в связи с этим, создание новой модели обычно являлось ответом на обнаружение неизвестных свойств web-графа. Рассмотрим основные, известные на данный момент, свойства web-графа и модели, их отражающие:

Этапы изучения web-графа и его моделирование.

Первой моделью web-графа являлась модель Erd?s-Renyi [3]. Конечные вершины для исходящих дуг в этой модели выбираются случайным образом из всех вершин графа. В частности, для моделирования web-графа применялась модель с среднем числом исходящих из каждой вершины дуг равным 7. Более глубокий анализ полученных на практике данных показал неадекватность модели Erd?s-Renyi настоящим web-графам.
В 1999г. R. Kumar [4] и независимо A.L. Barabasi и A. Albert [5] обнаружили, что число входящих в вершину дуг имеет экспоненциально распределение с коэффициентом 2.1. Также ими было выдвинуто предположение о том что и число исходящих дуг имеет экспоненциальное распределение с коэффициентом 2.7. Следует отметить, что последнее утверждение не является бесспорным [6].
Первой моделью, реализовавшая это свойство считается модель Aiello, Chung и Lu [7], хотя она и предназначена для отображения трафика телефонных звонков.¹ Немного позднее Albert, Barabasi and Jeong [8] предложили модель “Развивающейся сети”, в которой на каждой итерации к графу добавляется новая вершина и соединяется с некоторым числом вершин графа. Если выбрать эту константу равной 7-и, то коэффициент распределения будет около 2.
В том же году A. Border [9] обнаружил удивительное свойство web-графа. На макроскопическом уровне он имеет структуру “бабочки”. Ее центром является группа страниц, образующих компонент сильной связности (SCC). Также имеются страницы, ссылающиеся на центральную группу (IN), страницы на которые ссылается центральная группа (OUT) и группа несвязных с ними страниц. Существуют также “трубы” – ссылки между “крыльями” бабочки. В web-графе размером 200 млн. страниц, предоставленным компанией Alexa в 1997г. было обнаружено свыше 100000 подобных сообществ.

рис 1. Структура “бабочки”.

Также A. Border показал, что вероятность существования пути между двумя случайно выбранными вершинами web-графа равна 24%, а средняя длина такого пути равна 16.
В работах J. Kleinberg [10] и D. Watts [11] был обнаружен свойственный web-графу феномен “Малого мира” (Small world phenomen), типичный для динамических социальных сетей.² За исключением небольшого процента дуг, почти все страницы достижимы из любой другой через огромный центральный компонент связности, объединяющий около 90% вершин web-графа.
В структуре web-графа также было выделено удивительно большое число специфических топологических структур, таких как двудольные клики небольшого размера (3-10 страниц). Это связывают с наличием неявных кибер-сообществ: групп ресурсов сходной тематики, имеющих общие “авторитетные” страницы. Двудольные клики интерпретируются как ядро подобных сообществ – они состоят из множества “фанатских” и “авторитетных” страниц, причем все страницы из первого множества ссылаются на страницы второго.³
Для реализации вышеназванных свойств, в частности существования кибер-сообществ R. Kumar [12] в 2000г. предложил “Копирующую модель”. Она похожа на модель развивающейся сети, но новые вершины соединяется с некоторым постоянным числом уже имеющихся вершин с некоторой вероятностью. (т.н. фактор копирования) Автор предложил 2 модификации алгоритма: в первой на каждой итерации добавляется постоянное (обычно 1) число вершин (линейная модель), во второй – это число является функцией от текущего размера сети (экспоненциальная модель).

рис 2. Двудольная клика.

В виду особой практической важности PageRank и ему подобных алгоритмов G. Pandurangan, P. Raghavan, и E. Upfal изучили распределение рейтинга PageRank (PR) в web-графе. Их исследование показало, что распределение PR, также как и число ссылающихся страниц, подчиняется экспоненциальному закону с коэффициентом 2.1, но корреляция между этими параметрами очень невелика, а значит, страница с большим количеством входящих ссылок может получить очень низкий PR. Подобный результат очень обрадовал ИПС, в частности Google, ведущую постоянную борьбу с компаниями-оптимизаторами сайтов (SEO).
Основываясь на данных о распределении PageRank и числа ссылающихся страниц, G. Pandurangan, P. Raghavan и E.Upfal [13] предложили т.н. PageRank модель, являющуюся обобщением модели развивающейся сети. В ней вводятся 2 параметра и , , . Конечная вершина для i-й дуги, соединяющая ее с новой добавляемой вершиной, с вероятностью будет выбираться с вероятностью, пропорциональной числу входящих в нее дуг (преференциальное добавление); с вероятностью она выбирается с вероятностью пропорциональной ее PageRank; и с вероятностью случайным образом (единообразное добавление). С помощью компьютерной симуляции авторам удалось показать, что при правильно подобранных коэффициентах генерируемый данной моделью граф обладает свойствами распределения и числа входящих дуг и PageRank.
В 2002г. D.M. Pennock, G.W. Flake и др. [14] установили, что закон распределения числа входящих дуг для таких групп страниц, как домашние сайты студентов университета, или все страницы сайтов новостей, испытывают значительные отклонения от экспоненциального закона в различной для каждой группы степени. В этой же работе, они предложили модель “Растущей сети”, являющуюся комбинацией единообразных и преференциальных добавлений вершин с коэффициентом вероятности . Было установлено, что меняя и тем самым балансируя между единообразным и преференциальным добавлением вершин, можно добиться распределения числа входящих дуг, аналогичного распределению обнаруженному в рассматриваемых группах. Это модель также считается обобщением развивающейся модели.
S. Dill в своей работе [15] исследовал различные фрактальные свойства web-графа. Граф может быть рассмотрен как производная нескольких независимых стохастических процессов. Изучая различные cohesive группы страниц (напр. страницы, принадлежащие одному сайту, или страницы общей тематики), было обнаружено подобие их структуры структуре всего графа (структура “бабочки”, экспоненциальный закон распределения числа ссылающихся страниц). Центральная часть структуры этих коллекций была названа “Тематически Объединенным Кластером” (Thematically Unified Cluster" (TUC)).

рис 3. Самоподобие web-графа.

Для реализации фрактальных свойств web-графа, L. Laura, S. Leonardi и др. [16] в 2002г. предложили “Многослойная модель”. Она позволяет одновременное использование 2-х и более моделей, рассмотренных ранее, и подробно освещается в данной работе.

Цели и задачи этой работы.

В данной работе описаны наиболее актуальные модели web-графа, позволяющие получить компактные наборы данных, максимально полно отражающие структуру и особенности web. Эти данные делают доступными эксперименты с алгоритмами и симуляциями, использующими в своей работе ссылочную структуру сети (от PageRank и выделения кибер-собществ до моделирования распространения вирусов в реальных сетях).

В среде Delphi 7 мною была реализована Многослойная модель, использующая для формирования слоев гибридную, копирующую и развивающуюся модели.

Модели Web-графа.

Модель ACL.

Модель ACL зависит от 2-х параметров: и . Для реализации экспоненциального закона распределения степеней, положим, что мы имеем в графе y вершин степени x > 0⁴, где x и y удовлетворяют следующему равенству:

Таким образом, мы имеем:

По сути, - это логарифм числа вершин степени 1, а - двойная логарифмическая оценка убывания числа вершин заданной степени. Из формулы видно, что y – действительное число. На практике используют . Другим ограничением является то, что сумма степеней вершин должна быть четной. Если это не так, то можно добавить к графу вершину степени 1, но далее будем полагать, что в графе нет изолированных вершин. Для данной модели характерны следующие свойства:

Максимальная степень равна , учитывая что
Число вершин в модели может быть вычислено следующим образом:

где - функция Реймана-Зетта.

Число дуг в модели может быть вычислено следующим образом:

Для создания графа необходимо поступить следующим образом:

Выбрать параметры и . рекомендуется брать близким к 1.
Вычислить максимальную степень вершины графа ()
По вышеописанным свойствам модели вычислить число вершин и дуг, из которых состоит граф.
Сформировать набор L, состоящий из deg(v_i) копий вершин v_i, i = 1..n.
Выбрать случайное соответствие элементов в L.
Для всех пар вершин u и v графа, число дуг соединяющих эти вершины будет равно числу соответствий всех копий вершины u копиям вершины v набора L.

Результатом модели будет мультиграф, который может содержать петли. Прообразом для модели служил т.н. call-граф – граф междугородних телефонных звонков, произведенных за некоторый длительный промежуток времени (например, сутки). Для генерации web-графа эта модель не используется, но оказала большую помощь в его изучении этой проблемы.

Модель “Развивающейся” сети.

Модель представляет собой итерационный процесс, в котором на каждой итерации к web-графу добавляется по одной вершине. Пусть функция indegree(v) возвращает число входящих в вершину v дуг. Тогда новая вершина w соединяется с вершинами v_k графа с вероятностью пропорциональной indegree(v_k) (преференциальное добавление).

Для реализации модели, используется массив I[k] хранящий значения indegree(v_k) + 1. Обозначим число уже добавленных к web-графу вершин g. Пусть I – сумма значений indegree всех вершин + количество вершин.

Все добавляемые вершины получают фиктивное значение indegree равное 1, что позволяет им быть выбранным в качестве конечной вершины дуги. Поэтому к I и было добавлено g.

Добавим к web-графу вершину w. Выберем случайное число r от 1 до I. Затем найдем вершину v_k с наименьшим k, для которого выполняется следующее:

Вершина v_k выбирается конечной вершиной новой дуги, а значение I[k] увеличивается на 1. Начальной вершиной дуги является добавленная вершина w.

При генерации массивных web-графов возникают две трудности:

В оперативной памяти должен хранится массив I[j], что затруднительно при большом числе вершин.
Процесс поиска подходящей конечной вершины v_k существенно замедляется.

Для решения вышеописанных проблем используется следующее усовершенствование алгоритма:

В оперативной памяти хранится вспомогательный массив S из элементов. Каждый элемент массива S хранит сумму значений indegree для вершин. Т.о. , и т.д. Множество из вершин назовем блоком. Алгоритм генерации web-графа принимает следующий вид:

Фаза 1.

В оперативной памяти хранятся картежи t_k, описывающие дуги, для которых известна начальная вершина, но не найдена конечная. Каждый картеж хранит номер блока, в котором находится конечная вершина дуги.

Пусть с – добавляемая вершина, она и будет являться начальной для новой дуги. Выберем случайное число r от 1 до I, где , а g = с – 1. Затем необходимо определить блок, в котором находится конечная вершина. Для этого найдем наименьшее k’, для которого выполняется следующее:

В память записывается картеж t <номер дуги; номер блока; относительная позиция внутри блока>, где за относительную позицию внутри блока принимается разность числа r и суммы значений indegree всех блоков, предшествующих найденному. Добавление вершин и генерация картежей продолжается до заполнения заданного объема памяти.

Фаза 2.

Создание дуг и запись их во внешнюю память. Для каждого блока ищутся все картежи, которые ссылаются на один блок. Затем этот блок загружается в оперативную память и в нем ищется конечные вершины описанных картежами дуг. Полученные дуги пишутся в буфер, выгружаемый во внешнюю память по мере заполнения, а значение indegree их конечных вершин увеличивается. Фаза завершает работу, когда для всех картежей будут сгенерированны дуги.

На практике часто используют многоуровневую систему блоков и специальные структуры, ускоряющие поиск вершины внутри них.

Копирующая модель сети.

На каждой итерации алгоритма к web-графу добавляется по одной вершине. Для каждой новой вершины v выбирается вершина-прототип p. Для всех исходящих из v дуг, с вероятностью конечная вершина выбирается среди всех вершин графа (“единообразный” выбор), а, с вероятностью , выбирается одна из конечных вершин исходящих дуг прототипа p (“копирование” дуги).

Отличительной особенностью этой модели является необходимость в большом числе операций чтения/записи из внешней памяти:

Алгоритм сохраняет сгенерированные дуги.
Считывает дуги, которые должны быть “скопированы”.

Для сокращения числа обращений к внешней памяти применяют модификацию модели, не требующей считывания копируемых дуг.

Пусть L – некоторое фиксированное число исходящих дуг. Сгенерируем для каждой вершины 1+2*L случайных чисел. Одно – для выбора вершины-прототипа, L – для конечных вершин, выбираемых “единообразно” и L значений , определяющих, копировать дугу прототипа или нет. Эти значения запоминаются за каждое фиксированное число итераций. Благодаря этому, если возникает необходимость “скопировать” дугу прототипа p, можно “вернуться” к моменту добавления p к графу и “пересчитать” исходящие из него дуги. Это может привести к цепи вычислений, но все они достаточно просты и проводятся в оперативной памяти, что заметно ускоряет работу алгоритма.

Результаты работы алгоритма записываются в буфер. При заполнении буфера, его содержимое переносится во внешнюю память, а сам буфер очищается.

Описанная выше модель является линейной. Существует ее т.н. “экспоненциальная” модификация, при которой на каждой итерации к web-графу добавляется не одна, а k вершин. Где k – функция, зависящая от размера графа.

Модель “Растущей сети”.

Модель была предложена в 2002г. D.M. Pennock и G.W. Flake. В своей работе они исследовали структуры web-графа, образованные тематическими наборами страниц. Их исследования показали, что распределение значений indegree в этих множествах сильно отличаются от экспоненциального. Распределение числа ссылающихся страниц в подобных группах более всего походит на “унимодальное с экспоненциальным хвостом”. Авторы выдвинули гипотезу, что экспоненциальный закон распределения является скорее исключением, чем правилом. Для реализации web-графа на уровне групп страниц с подобным распределением и была разработана модель “Растущей сети”.

Пусть мы имеем некий начальный граф, содержащий m₀ вершин. На каждой итерации t к нему будет добавляться по одной вершине и m дуг. В модели развивающейся сети все m дуг соединяют новую вершину со старыми преференциально: Вероятность П(k_i) того, что дуга соединит вершину i пропорциональна k_i, где k_i – текущее число дуг, инцидентных i.

В этой модели у всех вершин есть некая базовая вероятность быть соединенной с новой вершиной (единообразное добавление). Поэтому, вероятность соединения i-той вершины с новой, можно выразить следующей формулой:

где m₀+ t – число вершин, а 2mt – число дуг графа на t-й итерации.

При преференциальном добавлении, страницы на которые указывают множество ссылок имеют большее предпочтение при добавлении дуги. При единообразном – все страницы равноценны. Баланс между этими принципами дает более адекватную модель графа, т.к. web-дизайнеры при создании ссылок руководствуются 2 принципами:

Ссылки ставятся на наиболее популярные страницы.
Ссылки ставятся на наиболее интересные автору страницы, без учета их популярности.

При устремлении параметра к 1 или m к 1 закон распределения числа входящих ссылок вновь станет близок к экспоненциальному.

Многослойная модель.

Как и все вышеописанные модели, многослойная модель является итерационной. В этой модели web-граф рассматривается как объединение нескольких регионов, называемых слоями. На каждой итерации t к графу добавляется вершина x, и ей присваиваются фиксированное число l регионов и d дуг, соединяющих x с вершинами графа.

рис. Многослойная модель графа.

Пусть X_i(t) – число вершин принадлежащих i-му слою на t-ой итерации.

L(x) – набор слоев, связанных с вершиной x.

Для связывания вершины x со слоями, в цикле l раз необходимо выполнить следующую операцию:

, где i – слой, выбираемый из множества L/L(x) с вероятностью, пропорциональной X_i(t) с некоторым нормализующим фактором.

При генерации дуг при преференциальном добавлении рассматриваются только вершины одного слоя. Это позволяет генерировать слои “независимо” друг от друга. В связи с этим в многослойной модели выделяют 2 процесса: “поведение вне слоя” (extra-layer behavior) и “поведение внутри слоя” (intra-layer behavior).

Подобная независимость позволяет использовать для формирования слоев различные модели (Развивающейся сети, Копирующую модель, модель Роста сети и т.д.). При этом часть слоев может генерироваться одной моделью, а часть – другой.

В данной работе мы рассмотрим т.н. “гибридную” модель формирования слоев. Она была предложена авторами многослойной модели [16] и обладает большой устойчивостью при вариации параметров. “Гибридная” модель является сочетанием “Развивающейся” и “Линейной копирующей” моделей.

Между l слоями равномерно распределяются d дуг. Пусть с = [d/x] и - параметр копирования. В каждом слое i, с которым связана вершина x, она будет иметь с или с + 1 исходящую дугу, к которой необходимо подобрать конечную вершину. Обозначим за множество из X_i(t) вершин слоя i. Т.о. слой i будет состоять из вершин множества и дуг между ними, созданных за t-1 итерацию. Выберем из прототип p. Соединим x с помощью с дуг с вершинами множества следующим образом:

Для с вероятностью l-я дуга соединяется с конечной вершиной l-й дуги прототипа p. Иначе, концом l-й дуги выбирается одна из еще не связанных с x вершин множества, с вероятностью, пропорциональной их нормализованному значению indegree + 1. Если прототип имеет лишь с исходящих дуг, а необходимо создать c+1, то она берется вторым способом.

Заключение.

Моделирование web-графа уже долгое время является самостоятельным и очень динамично развивающимся направлением исследований. Публикации, посвященные данной теме, появляются с завидной регулярностью. Также не может не радовать их доступность – подавляющее большинство из них можно найти в сети.

В последнее время активно обсуждается возможность модификации вышеописанных моделей: разрабатываются механизмы корректного изменения и удаления дуг и вершин, не ухудшающие свойства web-графа. Возможность подобных операций сделает модель более гибкой и позволит симулировать не только рост сети, но и ее распад. В свою очередь, это обеспечит изучение различных деструктивных процессов, таких как вирусная атака, отказ оборудования или просто резкое уменьшение числа пользователей некоторого сегмента web (например, в связи с прекращением работы какого-либо пирингового сервиса).

Также активно изучаются фрактальные свойства web-графа, его структурную эволюцию и влияние на нее большого числа появившихся за последние годы сервисов (напр. “живые журналы”, блоги, реферальные услуги и on-line игры). Возможно, глубокий анализ web-графа уже сейчас позволит нам “заглянуть в будущее” и узнать, на что будет похожа web через 3, 5, 10 лет, какие проблемы и перспективы нас ждут.

Растет и число программных продуктов, позволяющих генерировать качественные наборы данных. Особенно хочется отметить пакет WebGraph Framework II [17]. Он разработан группой ученых на платформе Java и содержит в себе не только механизмы генерации web-графов, но и различные инструменты и алгоритмы для работы с ними. Для хранения данных используется специально разработанное кодирование, позволяющее экономить внешнюю память, а также механизм, “на лету” определяющий необходимость извлечения данных из архива и их объем. [18]

Библиография.

S. Brin and L. Page. The anatomy of a large-scale hypertextual web search engines. In Proceedings of the 7th WWW Conference, 1998.

S. D. Kamvar, T. H. Haveliwala, C. D. Manning, G. H. Golub. Exploiting the Block Structure of theWeb for Computing PageRank. Stanford University.

P. Erd?s, Renyi R. Publ. Math. Inst. Hung. Acad. Sci, 5, 1960.

R. Kumar, P. Raghavan, S. Rajagopalan, and A. Tomkins. Trawling the web for emerging cyber communities. In Proc. of the 8th WWW Conference, pages 403-416, 1999.

A.L. Barabasi and A. Albert. Emergence of scaling in random networks. Science, (286):509, 1999.

G. Caldarelli, P. De Los Rios, L. Laura, S. Leonardi, S.Millozzi. A study of stochastic models for the Web Graph. 2003

W Aiello, F Chung, and L Lu. A random graph model for massive graphs. In Proc. ACM Symp. on Theory of computing, pages 171{180, 2000.

R. Albert, H. Jeong, and A.L. Barabasi. Nature, (401):130, 1999.

Broder, R. Kumar, F. Maghoul, P. Raghavan, S. Rajagopalan, S. Stata, A. Tomkins, and J. Wiener. Graph structure in the web. In Proceedings of the 9th WWW conference, 2000.

D. Watts and S. Strogatz. Collective dynamics of small-world networks. Nature, (393):440, 1998.

J. Kleinberg. The small world phenomenon: an algorithmic perspective.

R. Kumar, P. Raghavan, S. Rajagopalan, D. Sivakumar, A. Tomkins, and E. Upfal. Stochastic models for the web graph. In Proc. of 41st FOCS, 2000.

G. Pandurangan, P. Raghavan, and E. Upfal. Using pagerank to characterize web structure.

D.M. Pennock, G.W. Flake, S. Lawrence, E.J. Glover, and C.L. Giles. Winners don't take all: Characterizing the competition for links on the web. Proc. of the National Academy of Sciences, April 2002.

S. Dill, R. Kumar, K. McCurley, S. Rajagopalan, D. Sivakumar, and A. Tomkins. Self-similarity in the web. In Proceedings of the 27th VLDB Conference, 2001.

L. Laura, S. Leonardi, G. Caldarelli, and P. De Los Rios. A multi-layer model for the webgraph. In On-line proceedings of the 2nd International Workshop on Web Dynamics., 2002.

Paolo Boldi, Sebastiano Vigna. The Web Graph Framework I/II. Technical Reports 293-03/294-03, Universit? di Milano, Dipartimento di Scienze dell’Informazione, 2003. Available at http://webgraph.dsi.unimi.it/.

Paolo Boldi, Sebastiano Vigna. The Web Graph Framework II: Codes For The World–Wide Web

1 Граф, при таком подходе, является неориентированным.

2 Дуги web-графа должны быть неориентированными.

3 Наряду с неявными, различают также явные кибер-сообщества: кольца (webrings), службы новостей и группы, образованные клиентами пиринговых сетей.

4 Вершины степени 0 являются изолированными и обычно не рассматриваются, т.к. на практике они не встречаются.