• 2024-11-21

Definicja Web Spidering i Web Crawlers

Spider Shoots 25 Metre Web | The Hunt | BBC Earth

Spider Shoots 25 Metre Web | The Hunt | BBC Earth

Spisu treści:

Anonim

Pająki to programy (lub zautomatyzowane skrypty), które „indeksują” w sieci w poszukiwaniu danych. Pająki podróżują przez adresy URL witryn i mogą pobierać dane ze stron internetowych, takich jak adresy e-mail. Pająki są również wykorzystywane do wyszukiwarek w witrynach internetowych.

Pająki, zwane także „robotami sieciowymi”, przeszukują sieć i nie wszystkie są przyjazne.

Spamerzy Strony pająków do zbierania informacji

Google, Yahoo! a inne wyszukiwarki nie są jedynymi zainteresowanymi indeksowaniem stron internetowych - tak samo jak oszuści i spamerzy.

Spamerzy i inne zautomatyzowane narzędzia są wykorzystywane przez spamerów do wyszukiwania adresów e-mail (w Internecie ta praktyka jest często określana jako „zbiór”) na stronach internetowych, a następnie wykorzystywana do tworzenia list spamowych.

Pająki są również narzędziem używanym przez wyszukiwarki, aby uzyskać więcej informacji na temat Twojej witryny, ale pozostawione bez kontroli, witryna bez instrukcji (lub „uprawnień”) dotyczących indeksowania witryny może stanowić poważne zagrożenie bezpieczeństwa informacji. Pająki podróżują za pomocą linków i są bardzo biegli w znajdowaniu linków do baz danych, plików programów i innych informacji, do których mogą nie chcieć mieć dostępu.

Webmasterzy mogą przeglądać dzienniki, aby zobaczyć, jakie pająki i inne roboty odwiedziły ich strony. Te informacje pomagają webmasterom wiedzieć, kto indeksuje ich witrynę i jak często.

Informacje te są przydatne, ponieważ umożliwiają webmasterom dostrojenie SEO i aktualizację plików robot.txt w celu uniemożliwienia robotom indeksowania ich witryny w przyszłości.

Wskazówki dotyczące ochrony witryny przed niechcianymi robotami

Istnieje dość prosty sposób na usunięcie niechcianych robotów indeksujących z Twojej witryny. Nawet jeśli nie obawiasz się złośliwych pająków indeksujących Twoją witrynę (zaciemniony adres e-mail nie ochroni Cię przed większością robotów indeksujących), nadal powinieneś dostarczyć wyszukiwarkom ważnych instrukcji.

Wszystkie witryny powinny mieć plik znajdujący się w katalogu głównym o nazwie plik robots.txt. Ten plik umożliwia instruowanie robotów indeksujących, gdzie chcesz, aby przeglądały strony indeksu (o ile nie podano inaczej w metadanych konkretnej strony, aby nie były indeksowane), jeśli są to wyszukiwarki.

Tak jak możesz powiedzieć poszukiwanym robotom, gdzie chcesz je przeglądać, możesz również powiedzieć im, gdzie mogą nie iść, a nawet zablokować określone roboty z całej witryny.

Ważne jest, aby pamiętać, że dobrze przygotowany plik robots.txt będzie miał ogromną wartość dla wyszukiwarek, a nawet może być kluczowym elementem w poprawianiu wydajności witryny, ale niektóre roboty robota nadal będą ignorować instrukcje. Z tego powodu ważne jest, aby cały czas aktualizować oprogramowanie, wtyczki i aplikacje.

Powiązane artykuły i informacje

Ze względu na powszechność zbierania informacji wykorzystywanych do celów nikczemnych (spam), w 2003 r. Przyjęto ustawodawstwo, aby niektóre praktyki stały się nielegalne. Te przepisy dotyczące ochrony konsumentów podlegają ustawie CAN-SPAM z 2003 r.

Ważne jest, aby poświęcić trochę czasu na zapoznanie się z ustawą CAN-SPAM, jeśli Twoja firma zajmuje się masową wysyłką lub zbieraniem informacji.

Możesz dowiedzieć się więcej o prawach antyspamowych i sposobach postępowania ze spamerami oraz o tym, czego nie możesz zrobić jako właściciel firmy, czytając następujące artykuły:

  • CAN-SPAM Act 2003
  • Przepisy ustawy CAN-SPAM dla organizacji non-profit
  • 5 Reguł CAN-SPAM Właściciele małych firm muszą zrozumieć

Interesujące artykuły

Słownictwo fikcyjne: Słownictwo

Słownictwo fikcyjne: Słownictwo

Postacie zapasowe czerpią z powszechnie znanych typów kulturowych ze względu na ich cechy i maniery i często są używane w parodii.

Musisz przestać być nieszczęśliwy w pracy

Musisz przestać być nieszczęśliwy w pracy

Jeśli jesteś niezadowolony z pracy, masz okazję przejąć kontrolę nad swoimi poglądami i kontrolować czynniki, które sprawiają, że jesteś nieszczęśliwy. Oto jak.

Stock Trader - Opis stanowiska

Stock Trader - Opis stanowiska

Dowiedz się więcej o byciu handlowcem giełdowym. Oto informacje o karierze, w tym zarobki, wymagania i perspektywy. Dowiedz się o powiązanych zawodach.

Jak powstrzymać działające mamy walczyć między pracą a życiem

Jak powstrzymać działające mamy walczyć między pracą a życiem

Znajomość osobistych wartości może zaoszczędzić czas, energię i ułatwić nie mówienie nikomu i tak, co jest dla ciebie ważne.

Opisy wszystkich zadań armii

Opisy wszystkich zadań armii

Oto lista Wojskowych Specjalizacji Wojskowych (MOS) lub miejsc pracy dostępnych dla żołnierzy oraz opis obowiązków każdego z nich.

Navy Enlisted Classification (NEC) Codes - Supply Community

Navy Enlisted Classification (NEC) Codes - Supply Community

System klasyfikacji Navy Enlisted Classification (NEC) uzupełnia zapisaną strukturę ratingową w identyfikacji personelu.