Особенности структуры

Наличие экспертных оценок

В Веб содержится огромное количество экспертных оценок, как явных, так и неявных, которые могут быть использованы для обучения и настройки методов поиска.

Например, явная информация о тематической направленности ресурсов содержится в тематических каталогах — как в глобальных типа Yahoo! или List.Ru, так и в небольших персональных подборках ссылок на ресурсы по определенной теме.

Важным источником экспертных оценок в Веб являются гипертекстовые ссылки. Поскольку большинство ссылок создается вручную, то гипертекстовая ссылка часто отражает мнение создателя о цитируемом ресурсе. Пытаться характеризовать это мнение можно разными способами — например, путем анализа текста ссылки или в ее окружении.

Особенности структуры

Естественной моделью представления Веб является ориентированный граф, в котором вершины соответствуют страницам, а ребра — соединяющим страницы гиперссылкам. В рамках этой модели задача анализа структуры связей между страницами — это задача анализа структуры графа.

Информацию о структуре графа Веб можно использовать при решении многих связанных с Веб задач: при теоретическом анализе поведения алгоритмов, использующих информацию о ссылках; для оптимизации вычислительной эффективности методов работы с графом — например, сжатие графа Веб; при исследовании развития Веб с социологической точки зрения и т.д. [26].

Отметим лишь некоторые известные свойства Веб, которые активно используются в методах информационного поиска:

Входящие и исходящие ссылки. Несколькими независимыми исследователями [16,77] было показано, что распределение полустепеней захода и исхода вершин графа Веб подчиняется степенному закону, т.е. вероятность того, что соответствующая степень вершины равна

пропорциональна

(для входящих ссылок

, а для исходящих —

). Этот факт, например, неявно используется в алгоритмах, использующих информацию о цитировании для оценки «авторитетности» ресурсов (см. раздел 4).

Общая структура графа. Веб — это не просто месиво из случайных ссылок. Так, более 90% страниц в Веб относятся к одной компоненте связности, в которой можно выделить четыре примерно одинаковые по размеру части [26] (см. рис. 1). Ядро этой компоненты связности составляет компонента сильной связности (КСС), где для любой пары документов существует путь от первого документа ко второму. К ней примыкают части ИСТОК и СТОК, в которых для любой страницы существует путь соответственно «в» или «из» КСС, но не наоборот. Отметим, что ИСТОК и СТОК могут быть связаны путями в обход КСС. Остальные страницы относятся к так называемым «отросткам» (tendrils), для них не существует пути, соединяющего их с КСС.
Прямым следствием этого наблюдения является, например, ограничение сверху на количество страниц Веб, которые можно посетить, начав с некоторой выбранной страницы и переходя по обнаруженным ссылкам.

Повторяемость структурных шаблонов. При рассмотрении небольших подграфов Веб также можно выделить нетривиальные, но часто встречающиеся структуры. Например, такой структурой являются

-кланы (

-clans), т.е. графы из

вершин, где между любыми двумя вершинами существует путь длины

[51].

Другой часто встречающийся вид подграфов — полные двудольные подграфы

, т.е. графы из

вершин, в которых каждая из множества

вершин ссылается на каждую из

. При разумных значениях

и

такие подграфы (например

) можно интерпретировать как ядро некоторого сообщества [77].

Эти наблюдения очень важны для использующих структуру графа Веб алгоритмов, которые обсуждаются далее (см. раздел 4.1).

#128308; Как выбрать наставника? Особенности и алгоритм работы моей структуры.

Похожие статьи:

Понравилась статья? Поделиться с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!:

Adblock
detector