Pentru un site - setarea corectă

În acest și au nevoie de instrucțiuni de utilizare, motoarele de căutare nu sunt excepții de la regulă, și, prin urmare, să vină cu un fișier special numit robots.txt. Acest fișier trebuie să fie în directorul rădăcină al site-ului, sau poate fi virtuală, dar mereu deschis pentru: www.vashsayt.ru / robots.txt







Motoarele de căutare au învățat mult timp să se facă distincția între fișierele HTML necesare din setul intern de script-uri ale sistemului CMS, sau, mai degrabă, ei au învățat să recunoască linkuri către articole bazate pe conținut și tot felul de gunoaie. Prin urmare, multi webmasteri au uitat să facă roboți pentru site-urile lor și cred că totul este atât de bun. Da, ei sunt chiar la 99%, pentru că în cazul în care site-ul dvs. nu are acest fișier, atunci motoarele de căutare sunt nelimitate în căutarea de conținut, dar se întâmplă nuanțe de greșeli care pot avea grijă de în avans.

T o Care este robots.txt

Fișierul robots.txt este creat pentru setarea indexarea corespunzătoare a site-ului dvs. pentru motoarele de căutare. Aceasta este, norme permise și interdicții privind anumite căi către site-ul dvs. sau de tipul de conținut. Dar acest lucru nu este un panaceu. Toate regulile din fișierul roboți nu indică exact le urmeze, ci pur și simplu o recomandare pentru motoarele de căutare. Google, de exemplu, scrie:

Nu puteți utiliza fișierul robots.txt pentru a ascunde pagina din rezultatele căutării Google. Se poate referi la alte pagini, și va fi în continuare indexate.

Căutare roboți decide ce să indice și ce nu, și cum să se comporte pe site-ul. Fiecare căutătorului obiectivele și funcția sa. Ca și cum nu l-am dori modul în care acestea nu sunt imblanzesti.

Dar există un truc pe care nu se aplică în mod direct obiectul acestui articol. Pentru a preveni complet roboți la pagini de index și afișează în rezultatele de căutare, aveți nevoie pentru a scrie:

Să ne întoarcem la roboți. Reguli în acest fișier, puteți închide sau a permite accesul la următoarele tipuri de fișiere:

  • Fișierele non-grafice. Aceasta este, în principal fișiere HTML, care conțin oricare dintre informațiile. Puteți închide pagina duplicat sau paginile care nu poartă informații utile (pagina paginare, pagina calendar, pagina arhive, Pagina profil etc.).
  • Fișiere imagine. Dacă doriți să site-ul imaginile nu sunt afișate în căutare, puteți înregistra în fișierul roboți.
  • fișiere de resurse. De asemenea, cu ajutorul unor roboți, puteți dezactiva indexarea diferitelor scripturi, fișiere CSS stylesheet, și alte resurse sunt lipsite de importanță. Dar nu se blochează resursele care sunt responsabile pentru partea vizuala a site-ului pentru vizitatori (de exemplu, dacă închideți site-ul css si js, care afișează blocuri frumoase sau de masă, nu văd un robot de căutare, și va jura să-l).

Pentru a ilustra modul în care funcționează un roboți, uita-te la imaginea de mai jos:

De crawl-l întârzie
Căutare robot, după site-ul, uita la normele de indexare, apoi începe indexarea recomandări de fișiere.
De crawl-l întârzie
În funcție de regulile de setările, motorul de căutare știe că pot fi indexate și ce nu este.

Cu fișierul intaksis robots.txt

Pentru a scrie regulile de căutare în directivele de fișiere motoare Roboții sunt folosite cu diferiți parametri, prin care roboții urmează. Să începem cu primul și, probabil, cele mai importante orientări:

O directivă: User-agent

User-agent - Această directivă specifică numele robotului Tu, care ar trebui să utilizați recomandări în fișierul. Acești roboți oficial din lume pe Internet - 302 bucăți. Tu cu siguranță poate prescrie reguli pentru toată lumea în mod individual, dar dacă nu aveți timp pentru ea, pur și simplu mount:

* -În acest exemplu, înseamnă „totul.“ Ie fișierul un robots.txt, trebuie să înceapă cu „pentru care este“ fișier destinat. Pentru a nu deranja numele tuturor roboților, doar lista de „stea“ în directiva user-agent.

Eu vă voi da liste detaliate populare roboți motoare de căutare:

Google - Googlebot - robotul principal

Restul roboți Google

Yandex - YandexBot - bază robot de indexare;

Ceilalți roboți Yandex

O directivă Disallow și Allow

Disallow - regula cea mai de bază în roboți, prin această directivă dezactivați indexarea anumit loc pe site. Scris de directivă, după cum urmează:

Este adesea posibil să se observe o directivă Disallow: gol, și anume, se presupune că spune robotul că nimic nu este interzis pe site-ul pe care doriți indexate. Fii atent! Dacă ați pus / pentru a nu permite, atunci va închide complet site pentru indexare.

Prin urmare, versiunea cea mai standard a robots.txt, care „permite indexarea întregului site toate motoarele de căutare“ este după cum urmează:

Dacă nu știi ce să scrie în robots.txt, dar undeva auzit de el, pur și simplu copiați codul de mai sus, salvați-l într-un fișier numit robots.txt și încărcați-l la rădăcina site-ului. Sau nu creează nimic, pentru că fără ea roboți va indexa totul de pe site-ul tau. Sau citește povestea până la sfârșit, și vei realiza că închiderea site-ul și ceea ce nu este.







În conformitate cu regulile de roboți, interziceți directivă ar trebui să fie obligatorie.

Această directivă poate fi dezactivat ca un director sau un fișier.

Dacă doriți să dezactivați un dosar, ar trebui să scrie:

Dacă doriți să împiedicați un anumit fișier:

Dacă doriți să restricționați anumite tipuri de fișiere:

Expresiile regulate nu sunt acceptate de mai multe motoare de căutare. Google acceptă.

Permiteți - Directiva rezoluție robots.txt. Acesta permite robotului să indice un anumit traseu sau un fișier în directorul interzice. Numai prin Yandex a fost folosit până de curând. Google a prins cu ea și începe să utilizați-l prea. De exemplu:

Aceste directive interzic indexa întregul conținut site-ului, cu excepția directorului de conținut. Sau aici este o altă directivă populară în ultima vreme:

Aceste valori permit indicele toate fișierele JS CSS și pe site-ul. dar să interzică indicele toate într-un dosar cu șablonul. Pe parcursul anului trecut Google a trimis o mulțime de email-uri pentru webmasteri de astfel de conținut:

Googlebot nu a putut accesa fișierele JS CSS și on-line

Dacă adăugați doi permit directivei, care sunt scrise în ultimul cod din robots.txt, nu veți vedea astfel de mesaje de la Google.

Și Utilizarea caracterelor speciale în robots.txt

Acum, despre semnele din directivele. Principalele caractere (caractere speciale) pentru a bloca sau permite /, *, $

slash-Pro (slash) «/»

Slash este foarte înșelător în robots.txt. Am urmarit de zeci de ori o situație interesantă atunci când este adăugat în necunoștință în fișierul robots.txt:

Priviți cu atenție la toate / în robots.txt

Întotdeauna, la sfârșitul director put /. Dacă pui / Disallow în, dezactivați indexarea întregului site, dar dacă nu pui / pentru a permite, de asemenea, dezactivați indexarea întregului site. / - într-un anumit sens, înseamnă „Tot ceea ce urmează directivei /.“

Despre asterisc * în robots.txt

Caracter special * denotă orice (inclusiv unul gol) secvența de caractere. Puteți să-l utilizați oriunde în roboți, de exemplu:

Interzice toate fișierele cu extensia ASPX în directorul papka, de asemenea, interzice nu numai dosarul / vechi, dar directiva / papka / vechi. Zamudreno? Asta e ceea ce recomandăm să nu se deda la un * în roboți.

În mod implicit, fișierul cu reguli de indexare și interdicția ar trebui să * directive robots.txt la toate!

$ Caracter special în roboți se termină wildcard *. De exemplu:

Această regulă interzice „/ meniu“, dar nu interzice „/menu.html“, adică fișier împiedică motoarele de căutare numai Directiva / meniu, și nu poate împiedica toate fișierele cu meniul cuvânt în URL`e.

O directivă gazdă

gazdă în mod obișnuit funcționează doar în Yandex, prin urmare, nu este necesară. definește domeniul principal al site-ului dvs. oglindă, dacă este cazul. De exemplu, aveți dom.com de domeniu, dar același lucru trebuie să cumpere și să configurați următoarele domenii: dom2.com, dom3, com, dom4.com și cu ei există o redirecționare spre domeniul principal de dom.com

Yandex pentru a determina rapid care dintre ele site-ul principal (gazdă), lista directorul gazdă în robots.txt:

gazdă de înregistrare trebuie să fie una, și, dacă este necesar, cu port scris. (Host: staurus.net:8080)

O directivă crawl de întârziere

Această directivă a fost conceput pentru a elimina posibilitatea de a sarcinii pe server. roboți de motoare de căutare pot face sute de cereri în același timp, pe site-ul dvs. și dacă serverul dvs. este slab, aceasta poate provoca erori minore. Pentru acest lucru nu sa întâmplat, venit cu o regulă pentru roboți de crawl-delay - aceasta este perioada minimă între pagina de descărcare a site-ului. O valoare tipică pentru acest set de linii directoare recomanda 2 secunde. În Roboți, se pare ca acest lucru:

Această directivă funcționează pentru Yandex. În Google, puteți seta frecvența de scanare în panoul webmasterul, sub Setări site, în colțul din dreapta sus cu „cog“.

Directiva D Clean-param

Yandex robot, folosind aceste informații nu vor fi în mod repetat reporni aceleași informații. Astfel, pentru a crește eficiența crawlere site-ului dvs., pentru a reduce încărcarea serverului.
De exemplu, site-ul are o pagină:

www.site.com/some_dir/get_book.pl?ref=site_1book_id=123
www.site.com/some_dir/get_book.pl?ref=site_2book_id=123
www.site.com/some_dir/get_book.pl?ref=site_3book_id=123

O directivă Harta site-ului

Această directivă trebuie doar să specificați locația sitemap.xml dumneavoastră. Robotul el memoreaza „spune ea vă mulțumesc,“ și analizează în mod constant de-a lungul unei căi predeterminate. Se pare ca acest lucru:

întrebări G eneral și recomandări pentru roboți

Și acum să ne uităm la problemele comune care apar în pregătirea de roboți. Pe Internet, multe dintre aceste subiecte, astfel încât să analizeze cele mai relevante și cele mai frecvente.

P ht robots.txt

O mulțime, dar în cuvântul „dreapta“, deoarece pentru același site pe aceeași CMS va fi corect, iar alte CMS - va reveni erori. „Un configurat corect“ pentru fiecare site individual. Robots.txt trebuie să fie închise indexeze acele secțiuni ale acelor fișiere care nu sunt necesare de către utilizatori și nu poartă nici o valoare pentru motoarele de căutare. Cea mai simplă și cea mai bună opțiune robots.txt

R obots.txt pentru WordPress

Din nou, o mulțime de întrebări, un site poate fi magazine online, un alt blog, al treilea - de aterizare, al patrulea - un mic site-ul web al companiei, și poate fi toate pe WordPress CMS și roboți regulile sunt complet diferite. Aici este robots.txt pentru acest blog:

Sunt atât de multe opțiuni, să le analizăm împreună.

Se lasă la WordPress. În primul rând permite reguli pentru conținutul pe care utilizatorii doresc (acest dosar încărcările imagine) și roboți (acest CSS și JS pentru a afișa pagini). Este pentru css si js criticat de multe ori Google, așa că le-am lăsat deschis. A fost posibil să se utilizeze metoda tuturor fișierelor prin simpla introducere «/*.css$», dar interzice linia acestor dosare în cazul în care sunt stocate fișierele - nu este permis să le folosească pentru indexare, așa că a trebuit să se stabilească calea către directorul care interzice complet.

Se lasă întotdeauna arată calea spre Disallow conținutul interzis. Daca faci ceva nu este interzis, nu este necesar să se prescrie permit acest lucru, se presupune gândindu-mă că vă dau un impuls pentru motoarele de căutare, cum ar fi „Ei bine, aici e URL-ul, indexat mai repede.“ Acesta nu va funcționa.

Ei bine, Harta site-ului gazdă și liniile directoare standard. Numai că a fost necesar să se facă o gazdă separat pentru Yandex, dar nu am deranja asta. Asta probabil termina cu un robots.txt pentru WP.

H um pentru a crea un robots.txt

Acest lucru nu este la fel de dificil pe cât pare la prima vedere. Trebuie doar să ia un notebook obișnuit (Notepad) și copiați datele pe site-ul pe setările din acest articol. Dar dacă acest lucru este dificil pentru tine, există resurse de pe Internet, care vă permit să genereze Roboți pentru site-urile:

Roboți Generator din PR-cy - Una dintre cele mai simple generatoare de roboți în RuNet. Pur și simplu introduceți link-urile instrument, care nu ar trebui să intre în index și toate.

Crearea Roboți de la htmlweb - un generator bun de roboți cu posibilitatea de a adăuga gazdă și Harta site-ului.

Dl de a verifica robots.txt

Acesta este unul dintre elementele cele mai importante și obligatorii Roboți înainte de a trimite un fișier pe server - verifica. Dacă ați făcut ceva greșit, puteți „îngropa“ site-ul dvs. la motoarele de căutare spații deschise. Lyapom de obicei, așa cum se întâmplă, dezactivați indexarea întregului site.

Pentru a evita acest lucru, ar trebui să verificați fișierul inhibițiile într-unul dintre serviciile de screening confortabile:

Nimeni nu vă va spune mai multe despre robots.txt, acești tovarăși. La urma urmei, este pentru ei, și creați dvs. „interzise l-am găsit.“

Acum, hai sa vorbim despre unele mici erori care pot fi roboți.

Din moment ce ai fost leneș Staurus.