• 2024-06-30

Definicja Web Spidering i Web Crawlers

Spider Shoots 25 Metre Web | The Hunt | BBC Earth

Spider Shoots 25 Metre Web | The Hunt | BBC Earth

Spisu treści:

Anonim

Pająki to programy (lub zautomatyzowane skrypty), które „indeksują” w sieci w poszukiwaniu danych. Pająki podróżują przez adresy URL witryn i mogą pobierać dane ze stron internetowych, takich jak adresy e-mail. Pająki są również wykorzystywane do wyszukiwarek w witrynach internetowych.

Pająki, zwane także „robotami sieciowymi”, przeszukują sieć i nie wszystkie są przyjazne.

Spamerzy Strony pająków do zbierania informacji

Google, Yahoo! a inne wyszukiwarki nie są jedynymi zainteresowanymi indeksowaniem stron internetowych - tak samo jak oszuści i spamerzy.

Spamerzy i inne zautomatyzowane narzędzia są wykorzystywane przez spamerów do wyszukiwania adresów e-mail (w Internecie ta praktyka jest często określana jako „zbiór”) na stronach internetowych, a następnie wykorzystywana do tworzenia list spamowych.

Pająki są również narzędziem używanym przez wyszukiwarki, aby uzyskać więcej informacji na temat Twojej witryny, ale pozostawione bez kontroli, witryna bez instrukcji (lub „uprawnień”) dotyczących indeksowania witryny może stanowić poważne zagrożenie bezpieczeństwa informacji. Pająki podróżują za pomocą linków i są bardzo biegli w znajdowaniu linków do baz danych, plików programów i innych informacji, do których mogą nie chcieć mieć dostępu.

Webmasterzy mogą przeglądać dzienniki, aby zobaczyć, jakie pająki i inne roboty odwiedziły ich strony. Te informacje pomagają webmasterom wiedzieć, kto indeksuje ich witrynę i jak często.

Informacje te są przydatne, ponieważ umożliwiają webmasterom dostrojenie SEO i aktualizację plików robot.txt w celu uniemożliwienia robotom indeksowania ich witryny w przyszłości.

Wskazówki dotyczące ochrony witryny przed niechcianymi robotami

Istnieje dość prosty sposób na usunięcie niechcianych robotów indeksujących z Twojej witryny. Nawet jeśli nie obawiasz się złośliwych pająków indeksujących Twoją witrynę (zaciemniony adres e-mail nie ochroni Cię przed większością robotów indeksujących), nadal powinieneś dostarczyć wyszukiwarkom ważnych instrukcji.

Wszystkie witryny powinny mieć plik znajdujący się w katalogu głównym o nazwie plik robots.txt. Ten plik umożliwia instruowanie robotów indeksujących, gdzie chcesz, aby przeglądały strony indeksu (o ile nie podano inaczej w metadanych konkretnej strony, aby nie były indeksowane), jeśli są to wyszukiwarki.

Tak jak możesz powiedzieć poszukiwanym robotom, gdzie chcesz je przeglądać, możesz również powiedzieć im, gdzie mogą nie iść, a nawet zablokować określone roboty z całej witryny.

Ważne jest, aby pamiętać, że dobrze przygotowany plik robots.txt będzie miał ogromną wartość dla wyszukiwarek, a nawet może być kluczowym elementem w poprawianiu wydajności witryny, ale niektóre roboty robota nadal będą ignorować instrukcje. Z tego powodu ważne jest, aby cały czas aktualizować oprogramowanie, wtyczki i aplikacje.

Powiązane artykuły i informacje

Ze względu na powszechność zbierania informacji wykorzystywanych do celów nikczemnych (spam), w 2003 r. Przyjęto ustawodawstwo, aby niektóre praktyki stały się nielegalne. Te przepisy dotyczące ochrony konsumentów podlegają ustawie CAN-SPAM z 2003 r.

Ważne jest, aby poświęcić trochę czasu na zapoznanie się z ustawą CAN-SPAM, jeśli Twoja firma zajmuje się masową wysyłką lub zbieraniem informacji.

Możesz dowiedzieć się więcej o prawach antyspamowych i sposobach postępowania ze spamerami oraz o tym, czego nie możesz zrobić jako właściciel firmy, czytając następujące artykuły:

  • CAN-SPAM Act 2003
  • Przepisy ustawy CAN-SPAM dla organizacji non-profit
  • 5 Reguł CAN-SPAM Właściciele małych firm muszą zrozumieć

Interesujące artykuły

Jak znaleźć staż rządowy

Jak znaleźć staż rządowy

Staże federalne, stanowe i lokalne zapewniają uczniom możliwość poznania sytuacji, w której prowadzony jest nasz rząd.

Jak i gdzie możesz ubiegać się o pracę w FedEx

Jak i gdzie możesz ubiegać się o pracę w FedEx

Informacje o ofertach pracy i możliwościach kariery FedEx, rodzajach możliwości zatrudnienia, procesie ubiegania się o pracę i korzyściach dla firmy.

5 powodów, dla których powinieneś poważnie potraktować opinię szefa

5 powodów, dla których powinieneś poważnie potraktować opinię szefa

Kiedy twój szef daje ci opinię, z którą się nie zgadzasz, nie powinieneś tego ignorować. Dowiedz się, dlaczego powinieneś potraktować tę opinię poważnie.

Wady i zalety elastycznego harmonogramu pracy

Wady i zalety elastycznego harmonogramu pracy

Elastyczna praca może zaspokoić potrzeby zarówno pracownika, jak i pracodawcy w wielu możliwościach, ale są też wady. Zobacz zarówno dobre, jak i złe.

Przepracowany - nie jesteś sam

Przepracowany - nie jesteś sam

Wielu pracowników czuje się przepracowanych, wynika z badania przeprowadzonego przez The Families and Work Institute. Dowiedz się, jakie czynniki przyczyniają się do tego, że ludzie tak się czują.

10 porad, aby zwiększyć satysfakcję z pracy

10 porad, aby zwiększyć satysfakcję z pracy

Walcz o utrzymanie równowagi między życiem zawodowym a prywatnym, zwiększając jednocześnie satysfakcję z pracy i skuteczność? Oto dziesięć wskazówek.