Grafy Polskiego WWW

Grafy polskiego WWW (domena ".pl")

Dostępne są zbiory danych dotyczące polskiego grafu WWW.

Obecnie są dostępne 2 zestawy danych zebrane w zimie 2005/2006:

Graf hostów (167604 hosty). Zestaw reprezentuje strukturę połączeń pomiędzy hostami z domeny ".pl" i składa się z dwóch plików: listy sąsiedztwa (5MB), pliku mapowania (id wierzchołka -> URL) (1MB).

Graf dokumentów (ponad 20 mln dokumentów). Zestaw reprezentuje strukturę linków pomiędzy 21 472 824 dokumentami z domeny ".pl" i składa się z 2 plików: listy sąsiedztwa (ok. 210MB), plik mapowania (ok. 256MB). Linki wielokrotne reprezentowane są jako pojedyncze, pętle (linki wskazujące na ten sam dokument, w którym są umieszczone) pominięto.

Zbiory przeznaczone są tylko do badań naukowych.
Wszystkie pliki są w formacie tekstowym i skompresowane programem gzip.

Aby uzyskać dane (i dalsze informacje) proszę napisać na adres crawl.pl@pjwstk.edu.pl lub msyd@pjwstk.edu.pl.

Dane przygotował zespół projektu "crawl.pl":

dr Carlos Castillo, Uniwersytet w Rzymie, (obecnie: Yahoo! Research, Barcelona)
mgr Bartłomiej Starosta, PJWSTK, Polska,
dr Marcin Sydow, PJWSTK, Polska, (koordynator projektu).

Dane zostały przygotowane w ramach projektu "crawl.pl" polegającego na systematycznym zbieraniu kolekcji dokumentów domeny .pl przeprowadzanego w PJWSTK, (Polsko-Japońska Wyższa Szkoła Technik Komputerowych), Warszawa, Koszykowa 86, przy wsparciu grantu PJWSTK (ST/AI/03/2005).

Co to jest graf WWW?

Obenie dostępnie dane dotyczą grafów WWW. Przez graf WWW rozumie się graf skierowany, w którym wierzchołki stanowią dokumenty WWW (lub hosty WWW) a krawędź skierowana (p,q) jest obecna tylko wtedy, gdy istnieje link z dokumentu p do dokumentu q (w przypadku hostów: gdy istnieje link z jakiegokolwiek dokumentu na hoście p do jakiegokolwiek dokumentu na hoście q). Grafy WWW są intensywnie badane w ramach dziedziny "Eksploracja sieci WWW" (ang. Web Mining), m.in. w związku z ogromnym zainteresowaniem wyszukiwarkami inernetowymi.