Semalt poskytuje tipy, jak se vypořádat s roboty, pavouky a crawlery

Kromě vytváření adres URL vhodných pro vyhledávače umožňuje soubor .htaccess webmastery blokovat konkrétní robotům přístup k jejich webu. Jedním ze způsobů, jak tyto roboty zablokovat, je prostřednictvím souboru robots.txt. Ross Barber, manažer Semalt Customer Success Manager, však uvádí, že viděl některé prolézací moduly ignorující tento požadavek. Jedním z nejlepších způsobů je použití souboru .htaccess k zastavení indexování obsahu.

Co jsou to roboti?

Jedná se o typ softwaru, který používají vyhledávače k odstranění nového obsahu z internetu pro účely indexování.

Plní následující úkoly:

  • Navštivte webové stránky, na které jste odkazovali
  • Zkontrolujte chyby kódu HTML
  • Ukládají, na které webové stránky odkazujete, a vidí, na jaké webové stránky odkazují váš obsah
  • Indexují váš obsah

Někteří roboti jsou však škodliví a hledají na vašem webu e-mailové adresy a formuláře, které se obvykle používají k zasílání nechtěných zpráv nebo spamu. Jiní dokonce hledají bezpečnostní mezery ve vašem kódu.

Co je potřeba k blokování webových prolézacích modulů?

Před použitím souboru .htaccess musíte zkontrolovat následující věci:

1. Váš web musí být spuštěn na serveru Apache. V dnešní době vám dokonce i ty webhostingové společnosti, které jsou ve své práci napůl slušné, vám umožní přístup k požadovanému souboru.

2. Měli byste mít přístup k nespracovaným serverovým protokolům vašeho webu, abyste mohli zjistit, co roboti navštívili vaše webové stránky.

Všimněte si, že neexistuje způsob, jak budete moci zablokovat všechny škodlivé roboty, pokud neblokujete všechny, i ty, které považujete za užitečné. Nové roboty přicházejí každý den a starší jsou upravovány. Nejúčinnějším způsobem je zabezpečit váš kód a ztěžovat robotům, aby vás spamovali.

Identifikační roboti

Boti mohou být identifikováni IP adresou nebo z jejich "User Agent String", který odesílají v HTTP hlavičkách. Google například používá „Googlebot“.

Tento seznam možná budete potřebovat s 302 roboty, pokud již máte název robota, který byste nechtěli používat .htaccess

Dalším způsobem je stáhnout všechny soubory protokolu ze serveru a otevřít je pomocí textového editoru. Jejich umístění na serveru se může měnit v závislosti na konfiguraci vašeho serveru. Pokud je nemůžete najít, vyhledejte pomoc od svého hostitele webu.

Pokud víte, která stránka byla navštívena, nebo čas návštěvy, je snadnější přijít s nežádoucím robotem. Pomocí těchto parametrů byste mohli prohledat soubor protokolu.

Jednou jste si všimli, jaké roboty musíte zablokovat; pak je můžete zahrnout do souboru .htaccess. Upozorňujeme, že blokování robota nestačí k jeho zastavení. Může se vrátit s novou IP nebo jménem.

Jak je zablokovat

Stáhněte si kopii souboru .htaccess. V případě potřeby zálohujte.

Metoda 1: blokování pomocí IP

Tento fragment kódu blokuje robot pomocí adresy IP 197.0.0.1

Objednávejte Odepřít, Povolit

Odepřít od 197.0.0.1

První řádek znamená, že server zablokuje všechny požadavky odpovídající zadaným vzorům a umožní všem ostatním.

Druhý řádek říká serveru, aby vydal stránku 403: zakázaná

Metoda 2: Blokování podle uživatelských agentů

Nejjednodušší způsob je použít přepisovací modul Apache

PřepsatEngine zapnuto

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

První řádek zajišťuje, že je povolen přepisovací modul. Druhý řádek je podmínka, na kterou se pravidlo vztahuje. "F" v řádku 4 říká serveru, aby vrátil 403: zakázáno, zatímco "L" znamená, že se jedná o poslední pravidlo.

Poté nahrajete soubor .htaccess na svůj server a přepíšete existující. Časem budete muset aktualizovat IP robota. Pokud uděláte chybu, nahrajte zálohu, kterou jste provedli.

mass gmail