De crawl-l întârzie

Consistently completați toate câmpurile obligatorii. După cum instrucțiunile dumneavoastră, veți vedea conținutul directivelor robots.txt. Ceea ce urmează descrie în detaliu toate directivele fișier robots.txt.







Descriere format de fișier robots.txt

fișier robots.txt este format din înregistrări, fiecare fiind format din două domenii: o linie cu numele aplicației client (user-agent) și unul sau mai multe linii care încep cu directivele Disallow:

Directiva User-agent:

Pentru Rambler: pentru Yandex: pentru Google:

Puteți crea un manual pentru toate roboți:

Directiva Disallow:

A doua parte constă în înregistrarea liniilor Disallow. Aceste linii - directive (instrucțiuni, comenzi) pentru acest robot. În fiecare grup, a introdus linia User-agent, ar trebui să fie de cel puțin un Interdicție de instrucțiuni. Instrucțiuni Numărul Disallow nu ogranicheno.Oni spune robotul ce fișiere și / sau directoare robot nu li se permită să indice. Puteți împiedica indexarea unui fișier sau director.

Următoarea directivă interzice indexarea directorul / cgi-bin /:

Notați / la sfârșitul numele directorului! Pentru a interzice vizita este directorul „/ dir“. instruirea trebuie să fie de forma: "Disallow: / dir /". Un șir de „Disallow: / dir“ interzice vizitele la toate paginile serverului, numele complet al cărui rădăcină (server) începe cu „/ dir“. De exemplu: "/dir.html", "/dir/index.html", "/directory.html".

Înregistrate următoarea directivă interzice indexarea fișier index.htm situat în rădăcină:

În cazul în care directiva Disallow este gol, înseamnă că indicele robotul poate toate fișierele. Cel puțin o directivă Interdicție trebuie să fie prezent pentru fiecare domeniu User-agent. că robots.txt a fost considerată corectă. Complet robots.txt gol este la fel ca în cazul în care nu ar exista.







Robot * Rambler să înțeleagă modul în care orice caracter, astfel încât Disallow instrucțiuni: * înseamnă interdicția de indexare întregul site.

Se lasă directivă, Disallow fără parametri. Lipsa de opțiuni pentru directive permit. Disallow este interpretat după cum urmează:

Utilizarea caracterelor speciale „*“ și „$“.
Atunci când căi care specifică allow-Disallow directive, puteți utiliza caractere speciale „*“ și „$“, stabilind astfel o anumită expresie regulată. Caracter special „*“ înseamnă orice (inclusiv unul gol) secvența de caractere. Exemple: caractere speciale „$“.
În mod implicit, la sfârșitul fiecărei reguli descrise în robots.txt, atribuite „*“, de exemplu: pentru a anula „*“ la sfârșitul regulii, puteți utiliza caracterul special „$“, de exemplu:

Directiva gazdă.

Exemple ignora gazdă directive:

Directiva crawl de întârziere

Specifică timeout în secunde, la care crawler descarcă pagina de pe server (crawl de întârziere).

Dacă serverul este foarte încărcat și nu are timp să-și îndeplinească cererile de descărcare, utilizați directiva „crawl de întârziere“. Acesta vă permite să specificați căutarea robotului perioada minimă de timp (în secunde) între capătul de injectare a unei pagini și începutul următoarea injecție. Pentru compatibilitate cu roboți care nu sunt urmeze pe deplin standardul la procesarea robots.txt, directiva „crawl de întârziere“, se adaugă la grup, începând cu mențiunea „User-Agent“, imediat după directivele „Disallow“ ( „Permiteți“).

Yandex crawler sprijină valorile fractionare Crawl-Delay, de exemplu, 0,5. Acest lucru nu garantează că crawlerul nostru va vizita site-ul dvs. la fiecare jumătate de secundă, dar oferă mai multă libertate robotului și permite site-ul de by-pass mai repede.

Directiva Clean-param

Liniile goale sunt permise între grupurile de instrucțiuni administrate User-agent.

Disallow Instrucțiunea luată în considerare numai în cazul în care este supus orice șir User-agent - care este, în cazul în care are un șir de caractere mai mare User-agent.

Următorul fișier robots.txt simplu împiedică indexarea tuturor paginilor de pe site-ul tuturor roboți, cu excepția Rambler robot, care, dimpotrivă, a permis indexarea tuturor paginilor site-ului.

Greseli frecvente:

În plus față de utilizarea unui fișier robots.txt, puteți controla indexarea folosind roboți meta tag-ul și instrucțiunile .

O verificare pe Yandex „răspunde la robots.txt, poți de pe această pagină