Projekt: "crawl.pl"

Opis projektu:

"crawl.pl" jest projektem naukowym, rozpoczętym na jesieni 2005 roku, polegającym na automatycznym zbieraniu dużych porcji dokumentów z polskiego WWW w celu przeprowadzenia jego badań. Projekt jest przeprowadzany w PJWSTK, (Polsko-Japońska Wyższa Szkoła Technik Komputerowych), Warszawa, Koszykowa 86, przy wsparciu grantu PJWSTK (ST/AI/03/2005).

Zbiory Danych:
W ramach projektu przygotowano m.in. zbiory danych dotyczące grafów polskiego WWW dostępne do celów naukowych.

Nasz zespół:

dr Carlos Castillo, Uniwersytet w Rzymie, (obecnie Yahoo! Research, Barcelona)
mgr Bartłomiej Starosta, PJWSTK, Polska,
dr Marcin Sydow, PJWSTK, Polska, (koordynator projektu)

Technicznie, dokumenty są automatycznie ściągane za pomocą "zbieracza" (ang. crawler) - specjalnego programu sieciowego pracującego nieprzerwanie przez dłuższy okres. Dotychczas używaliśmy systemu: WIRE crawler powstałego w ośrodku: the Center for Web Research, University of Chile.

Dokładamy wszelkich starań by projekt nie powodował zauważalnych obciążeń serwerów WWW.

Jeśli jednak z jakiegokolwiek powodu zaistnieje potrzeba wyłączenia danego serwera z procesu kolekcjonowania stron należy podjąć którąkolwiek z poniższych akcji:

Jak zablokować nasz dostęp do serwera: Opcja 1 (zalecana)

Utworzyć w katalogu głównym witryny plik o nazwie "/robots.txt" z nastepującą zawartością:

User-Agent: WIRE
Disallow: /

Więcej informacji na ten temat: a standard for robot exclusion. Efekt powinien być zauważalny w ciągu najwyżej kilku dni.

Jak zablokować nasz dostęp do serwera: Opcja 2

W przypadku braku dostępu do pliku robots.txt można wykonać następujące kroki:

Uwaga: w ten sposób blokujemy daną witrynę przed indeksowaniem przez wszelkie crawlery.

Należy dodać następujący fragment do kodu strony:

<meta name="robots" content="noindex,nofollow">

Zapytania i komentarze uprzejmie prosimy kierować na adres crawl.pl@pjwstk.edu.pl