Definicja Web Spidering i Web Crawlers
Spider Shoots 25 Metre Web | The Hunt | BBC Earth
Spisu treści:
- Spamerzy Strony pająków do zbierania informacji
- Wskazówki dotyczące ochrony witryny przed niechcianymi robotami
- Powiązane artykuły i informacje
Pająki to programy (lub zautomatyzowane skrypty), które „indeksują” w sieci w poszukiwaniu danych. Pająki podróżują przez adresy URL witryn i mogą pobierać dane ze stron internetowych, takich jak adresy e-mail. Pająki są również wykorzystywane do wyszukiwarek w witrynach internetowych.
Pająki, zwane także „robotami sieciowymi”, przeszukują sieć i nie wszystkie są przyjazne.
Spamerzy Strony pająków do zbierania informacji
Google, Yahoo! a inne wyszukiwarki nie są jedynymi zainteresowanymi indeksowaniem stron internetowych - tak samo jak oszuści i spamerzy.
Spamerzy i inne zautomatyzowane narzędzia są wykorzystywane przez spamerów do wyszukiwania adresów e-mail (w Internecie ta praktyka jest często określana jako „zbiór”) na stronach internetowych, a następnie wykorzystywana do tworzenia list spamowych.
Pająki są również narzędziem używanym przez wyszukiwarki, aby uzyskać więcej informacji na temat Twojej witryny, ale pozostawione bez kontroli, witryna bez instrukcji (lub „uprawnień”) dotyczących indeksowania witryny może stanowić poważne zagrożenie bezpieczeństwa informacji. Pająki podróżują za pomocą linków i są bardzo biegli w znajdowaniu linków do baz danych, plików programów i innych informacji, do których mogą nie chcieć mieć dostępu.
Webmasterzy mogą przeglądać dzienniki, aby zobaczyć, jakie pająki i inne roboty odwiedziły ich strony. Te informacje pomagają webmasterom wiedzieć, kto indeksuje ich witrynę i jak często.
Informacje te są przydatne, ponieważ umożliwiają webmasterom dostrojenie SEO i aktualizację plików robot.txt w celu uniemożliwienia robotom indeksowania ich witryny w przyszłości.
Wskazówki dotyczące ochrony witryny przed niechcianymi robotami
Istnieje dość prosty sposób na usunięcie niechcianych robotów indeksujących z Twojej witryny. Nawet jeśli nie obawiasz się złośliwych pająków indeksujących Twoją witrynę (zaciemniony adres e-mail nie ochroni Cię przed większością robotów indeksujących), nadal powinieneś dostarczyć wyszukiwarkom ważnych instrukcji.
Wszystkie witryny powinny mieć plik znajdujący się w katalogu głównym o nazwie plik robots.txt. Ten plik umożliwia instruowanie robotów indeksujących, gdzie chcesz, aby przeglądały strony indeksu (o ile nie podano inaczej w metadanych konkretnej strony, aby nie były indeksowane), jeśli są to wyszukiwarki.
Tak jak możesz powiedzieć poszukiwanym robotom, gdzie chcesz je przeglądać, możesz również powiedzieć im, gdzie mogą nie iść, a nawet zablokować określone roboty z całej witryny.
Ważne jest, aby pamiętać, że dobrze przygotowany plik robots.txt będzie miał ogromną wartość dla wyszukiwarek, a nawet może być kluczowym elementem w poprawianiu wydajności witryny, ale niektóre roboty robota nadal będą ignorować instrukcje. Z tego powodu ważne jest, aby cały czas aktualizować oprogramowanie, wtyczki i aplikacje.
Powiązane artykuły i informacje
Ze względu na powszechność zbierania informacji wykorzystywanych do celów nikczemnych (spam), w 2003 r. Przyjęto ustawodawstwo, aby niektóre praktyki stały się nielegalne. Te przepisy dotyczące ochrony konsumentów podlegają ustawie CAN-SPAM z 2003 r.
Ważne jest, aby poświęcić trochę czasu na zapoznanie się z ustawą CAN-SPAM, jeśli Twoja firma zajmuje się masową wysyłką lub zbieraniem informacji.
Możesz dowiedzieć się więcej o prawach antyspamowych i sposobach postępowania ze spamerami oraz o tym, czego nie możesz zrobić jako właściciel firmy, czytając następujące artykuły:
- CAN-SPAM Act 2003
- Przepisy ustawy CAN-SPAM dla organizacji non-profit
- 5 Reguł CAN-SPAM Właściciele małych firm muszą zrozumieć
Zaangażowanie pracowników - definicja i przykłady
Potrzebujesz zrozumieć, jakie zaangażowanie pracowników pociąga za sobą strategię organizacyjną i filozofię? Większość organizacji się myli. Dowiedz się dlaczego.
Definicja i konsekwencje cudzołóstwa w wojsku
Czy cudzołóstwo nadal stanowi przestępstwo w ramach wojskowego wymiaru sprawiedliwości? Chociaż nie jest to oficjalne przestępstwo w ramach UCMJ, odpowiedź brzmi zarówno tak, jak i nie.
Praca z elastycznym harmonogramem - definicja i przewodnik
Czy jesteś zainteresowany elastycznym harmonogramem? Spójrz na opcje elastycznego harmonogramu, który oferuje typowe miejsce pracy. Dowiedz się więcej.