Corect - gestionarea site-urilor de indexare

Robots.txt - fișier care este plasat în directorul rădăcină al site-ului. C ajutorul controlului are loc de motorul de căutare păianjeni care vizitează un site. Ca și în cazul oricărui program de, crawlerele motorului de căutare sunt supuse unor reglementări. Uneori trebuie să vă asigurați că motoarele de căutare să nu indexeze anumite secțiuni ale site-ului, sau, invers, la anumite pagini de index.







Fișierul robots.txt spune că motoarele de căutare indexul și ceea ce nu este. Acesta poate fi de mare beneficiu pentru optimizarea ulterioară și promovarea site-ului.

De crawl-l întârzie

Cum de a crea un fișier robots.txt

User-agent

User-agent - robot motor de căutare la care instrucțiunile descrise în fișierul robots.txt. În cazul în care această directivă lipsește, se consideră că accesul la secțiunile site-ului fără a se limita.

Yandex, următoarele roboți, care pot fi specificate în directivă User-agent:

Google folosește următoarele scanere:

Pentru a User-agent tratat cu toate antenele motoarelor de căutare, acesta ar trebui să arate astfel:

Disallow și Allow

Pentru a dezactiva indexarea anumitor părți ale site-ului folosesc directiva Disallow.

Disallow: / # interzise indexarea întregul site

Disallow: / imagine # indexare secțiunea imagine fumători și pagina image.html

Disallow: # page1.php /page1.php interzis indexarea paginii

Pentru a activa scanarea unei anumite zone site, utilizați directiva Allow

Disallow: interzis / imagine # indexare / imagine și /image.html. dar

Permite: / imagine / catalog # permise imagine / catalog indexare subsecțiunea

Nu este permisă linie goală pauze între user-agent, Permiterea și Disallow.

În cazul unui conflict între Disallow și Allow, se acordă prioritate permite.

Caractere speciale * și $

Respingeți sau Allow directive pot specifica caractere speciale „*“ și „$“.

Disallow: / imagine $ # blocuri de indexare numai / imagine

Disallow: / imagine * $ # ca 'nepermisă: / imagine' - să interzică și / imagine și /image.html

Dacă proprietatea dvs. web are o hartă a site - sitemap.xml. si doriti motoarele de căutare știu despre ea, specificați calea de fișier robots.txt în harta site-ului, utilizați directiva Harta site-ului. În cazul în care mai multe hărți site-ul - puteți specifica toate dintre ele.







Harta site-ului: //site1.com/sitemap1.xml

Harta site-ului: //site1.com/sitemap2.xml

Dacă un fișier robots.txt conține instrucțiuni pentru mai multe crawlerele, directiva Harta site-ului este posibil să se înregistreze o singură dată pentru totdeauna, va arăta ceva de genul:

Disallow: /about.html

Harta site-ului: //site1.com/sitemap1.xml

Dacă site-ul dvs. are o oglindă diferită, de exemplu, un domeniu cu www sau fara www, un robot special zerkalischik găsi o oglindă și formează un grup, iar rezultatele căutării se vor afișa numai unul dintre ele. Pentru a ajuta crawlerul nostru să identifice oglinda principală, utilizați directiva gazdă - susținută de Yandex.

Gazdă - nu garantează 100% alegerea corectă a oglinzii primare, dar, cu toate acestea, motorul de căutare va lua în considerare această declarație.

Pentru compatibilitatea fișierul robots.txt cu roboți de motoare de căutare care nu acceptă directiva gazdă, adăugați-l la normele grupului, imediat după ce permite sau nu.

User-agent: Yandex

Permite: /

Fișierul robots.txt poate conține doar 1 gazdă. Dacă va exista câteva motoare de căutare să ia în considerare numai prima.

Crawl de întârziere

Dacă serverul este încărcat și nu îndeplinește toate solicitările - folosirea directivei de crawl-întârziere. Acesta specifică intervalul de timp dintre sfârșitul o scanare și începutul paginii scanare alta.

Crawl de întârziere, precum și gazdă, a adăugat la grupul de instrucțiuni, începând cu User-Agent, după ce permite sau nu.

De crawl-întârziere: 3 # timeout 3 secunde

Clean-param

De exemplu, aveți următoarea pagină:

www.site.com/dir/file.php?ref=site1file_id= 123

www.site.com/dir/file.php?ref=site2file_id= 123

www.site.com/dir/file.php?ref=site3file_id= 123

Surse dinamic parametrul «ref =» Urmăriți site-urile de la care se face tranziția, și nu schimbă conținutul paginii.

Dacă un fișier robots.txt pentru a scrie următoarele:

Clean-param: /dir/file.php ref

Directiva Clean-Param Dividing a declarat oriunde robots.txt. În cazul în care există mai mulți roboți vor lua în considerare toate directivele Clean-Param.

verificarea robots.txt

Pentru a verifica fișierul robots.txt, utilizează serviciile motoarelor de căutare. Cine altcineva face ei știu dacă instrucțiunile de lucru din robots.txt corect.

analiză robots.txt în Yandex arată.

Verificarea robots.txt Google:

  1. Du-te la panoul de webmaster Google.
  2. Selectați site-ul care aveți nevoie, mergeți la elementul de meniu Status - blocat URL.
  3. Selectați „Verificați robots.txt».
  4. Apoi, copiați conținutul fișierului robots.txt și puneți-l în câmpul corespunzător.
  5. Care este adresa URL pentru a verifica.
  6. Din lista Agent de utilizare, selectați roboți Google scanerului dorit.

De crawl-l întârzie

Cum de a crea un Sitemap XML

De crawl-l întârzie

atribut nofollow și noindex tag-ul

De crawl-l întârzie

De crawl-l întârzie

Tag-uri HTML de formatare