Projekt: "crawl.pl"
>>>English Language
Opis projektu:
"crawl.pl" jest projektem naukowym, rozpoczętym na jesieni 2005 roku, polegającym na automatycznym zbieraniu dużych porcji dokumentów z polskiego WWW w celu przeprowadzenia jego badań. Projekt jest przeprowadzany w PJWSTK, (Polsko-Japońska Wyższa Szkoła Technik Komputerowych), Warszawa, Koszykowa 86, przy wsparciu grantu PJWSTK (ST/AI/03/2005).
Zbiory Danych:
W ramach projektu przygotowano m.in. zbiory danych dotyczące grafów polskiego WWW dostępne do celów naukowych.
Nasz zespół:
- dr Carlos Castillo, Uniwersytet w Rzymie, (obecnie Yahoo! Research, Barcelona)
- mgr Bartłomiej Starosta, PJWSTK, Polska,
- dr Marcin Sydow, PJWSTK, Polska, (koordynator projektu)
Technicznie, dokumenty są automatycznie ściągane za pomocą "zbieracza" (ang. crawler) - specjalnego programu sieciowego pracującego nieprzerwanie przez dłuższy okres. Dotychczas używaliśmy systemu: WIRE crawler powstałego w ośrodku: the Center for Web Research, University of Chile.
Dokładamy wszelkich starań by projekt nie powodował zauważalnych obciążeń serwerów WWW.
Jeśli jednak z jakiegokolwiek powodu zaistnieje potrzeba wyłączenia danego serwera z procesu kolekcjonowania stron należy podjąć którąkolwiek z poniższych akcji:
Jak zablokować nasz dostęp do serwera: Opcja 1 (zalecana)
Utworzyć w katalogu głównym witryny plik o nazwie "/robots.txt" z nastepującą zawartością:
User-Agent: WIRE
Disallow: /
Więcej informacji na ten temat: a standard for robot exclusion. Efekt powinien być zauważalny w ciągu najwyżej kilku dni.
Jak zablokować nasz dostęp do serwera: Opcja 2
W przypadku braku dostępu do pliku robots.txt można wykonać następujące kroki:
Uwaga: w ten sposób blokujemy daną witrynę przed indeksowaniem przez wszelkie crawlery.
Należy dodać następujący fragment do kodu strony:
<meta name="robots" content="noindex,nofollow">
Zapytania i komentarze uprzejmie prosimy kierować na adres crawl.pl@pjwstk.edu.pl