Corect - gestionarea site-urilor de indexare
Robots.txt - fișier care este plasat în directorul rădăcină al site-ului. C ajutorul controlului are loc de motorul de căutare păianjeni care vizitează un site. Ca și în cazul oricărui program de, crawlerele motorului de căutare sunt supuse unor reglementări. Uneori trebuie să vă asigurați că motoarele de căutare să nu indexeze anumite secțiuni ale site-ului, sau, invers, la anumite pagini de index.
Fișierul robots.txt spune că motoarele de căutare indexul și ceea ce nu este. Acesta poate fi de mare beneficiu pentru optimizarea ulterioară și promovarea site-ului.
Cum de a crea un fișier robots.txt
User-agent
User-agent - robot motor de căutare la care instrucțiunile descrise în fișierul robots.txt. În cazul în care această directivă lipsește, se consideră că accesul la secțiunile site-ului fără a se limita.
Yandex, următoarele roboți, care pot fi specificate în directivă User-agent:
Google folosește următoarele scanere:
Pentru a User-agent tratat cu toate antenele motoarelor de căutare, acesta ar trebui să arate astfel:
Disallow și Allow
Pentru a dezactiva indexarea anumitor părți ale site-ului folosesc directiva Disallow.
Disallow: / # interzise indexarea întregul site
Disallow: / imagine # indexare secțiunea imagine fumători și pagina image.html
Disallow: # page1.php /page1.php interzis indexarea paginii
Pentru a activa scanarea unei anumite zone site, utilizați directiva Allow
Disallow: interzis / imagine # indexare / imagine și /image.html. dar
Permite: / imagine / catalog # permise imagine / catalog indexare subsecțiunea
Nu este permisă linie goală pauze între user-agent, Permiterea și Disallow.
În cazul unui conflict între Disallow și Allow, se acordă prioritate permite.
Caractere speciale * și $
Respingeți sau Allow directive pot specifica caractere speciale „*“ și „$“.
Disallow: / imagine $ # blocuri de indexare numai / imagine
Disallow: / imagine * $ # ca 'nepermisă: / imagine' - să interzică și / imagine și /image.html
Dacă proprietatea dvs. web are o hartă a site - sitemap.xml. si doriti motoarele de căutare știu despre ea, specificați calea de fișier robots.txt în harta site-ului, utilizați directiva Harta site-ului. În cazul în care mai multe hărți site-ul - puteți specifica toate dintre ele.
Harta site-ului: //site1.com/sitemap1.xml
Harta site-ului: //site1.com/sitemap2.xml
Dacă un fișier robots.txt conține instrucțiuni pentru mai multe crawlerele, directiva Harta site-ului este posibil să se înregistreze o singură dată pentru totdeauna, va arăta ceva de genul:
Disallow: /about.html
Harta site-ului: //site1.com/sitemap1.xml
Dacă site-ul dvs. are o oglindă diferită, de exemplu, un domeniu cu www sau fara www, un robot special zerkalischik găsi o oglindă și formează un grup, iar rezultatele căutării se vor afișa numai unul dintre ele. Pentru a ajuta crawlerul nostru să identifice oglinda principală, utilizați directiva gazdă - susținută de Yandex.
Gazdă - nu garantează 100% alegerea corectă a oglinzii primare, dar, cu toate acestea, motorul de căutare va lua în considerare această declarație.
Pentru compatibilitatea fișierul robots.txt cu roboți de motoare de căutare care nu acceptă directiva gazdă, adăugați-l la normele grupului, imediat după ce permite sau nu.
User-agent: Yandex
Permite: /
Fișierul robots.txt poate conține doar 1 gazdă. Dacă va exista câteva motoare de căutare să ia în considerare numai prima.
Crawl de întârziere
Dacă serverul este încărcat și nu îndeplinește toate solicitările - folosirea directivei de crawl-întârziere. Acesta specifică intervalul de timp dintre sfârșitul o scanare și începutul paginii scanare alta.
Crawl de întârziere, precum și gazdă, a adăugat la grupul de instrucțiuni, începând cu User-Agent, după ce permite sau nu.
De crawl-întârziere: 3 # timeout 3 secunde
Clean-param
De exemplu, aveți următoarea pagină:
www.site.com/dir/file.php?ref=site1file_id= 123
www.site.com/dir/file.php?ref=site2file_id= 123
www.site.com/dir/file.php?ref=site3file_id= 123
Surse dinamic parametrul «ref =» Urmăriți site-urile de la care se face tranziția, și nu schimbă conținutul paginii.
Dacă un fișier robots.txt pentru a scrie următoarele:
Clean-param: /dir/file.php ref
Directiva Clean-Param Dividing a declarat oriunde robots.txt. În cazul în care există mai mulți roboți vor lua în considerare toate directivele Clean-Param.
verificarea robots.txt
Pentru a verifica fișierul robots.txt, utilizează serviciile motoarelor de căutare. Cine altcineva face ei știu dacă instrucțiunile de lucru din robots.txt corect.
analiză robots.txt în Yandex arată.
Verificarea robots.txt Google:
- Du-te la panoul de webmaster Google.
- Selectați site-ul care aveți nevoie, mergeți la elementul de meniu Status - blocat URL.
- Selectați „Verificați robots.txt».
- Apoi, copiați conținutul fișierului robots.txt și puneți-l în câmpul corespunzător.
- Care este adresa URL pentru a verifica.
- Din lista Agent de utilizare, selectați roboți Google scanerului dorit.
Cum de a crea un Sitemap XML
atribut nofollow și noindex tag-ul
Tag-uri HTML de formatare