06 Nov
Robotstt Si SEO Tot Ceea Ce Trebuie Sa Stiti

Robots.txt și SEO, Tot Ceea Ce Trebuie să Stiți

Robots.txt este unul dintre cele mai simple fișiere de pe un site web, dar este și unul dintre cele mai ușoare de incurcat. Doar un personaj din intregul spectacol SEO poate provoca ravagii pentru afacerea dvs online și poate impiedica motoarele de căutare să acceseze conținut important pe site-ul dvs.

Acesta este motivul pentru care configurațiile greșite robots.txt sunt extrem de frecvente - chiar și in rindul profesioniștilor SEO experimentați .

In acest ghid, veți afla:

Ce este un fișier robots.txt
Cum arată robots.txt
Robots.txt utilizatori și directive
Indiferent dacă aveți nevoie de un fișier robots.txt
Cum să găsiți fișierul dvs. robots.txt
Cum se creează un fișier robots.txt
Cele mai bune practici Robots.txt
Exemplu de fișiere robots.txt
Cum să verificați fișierul dvs. robots.txt pentru probleme
Ce este un fișier robots.txt?
Un fișier robots.txt indică motoarele de căutare unde pot și nu pot merge pe site-ul dvs.

In primul rind, acesta listează tot conținutul pe care doriți să il blocați de motoarele de căutare precum Google. Puteți, de asemenea, să spuneți unor motoare de căutare (nu Google) cum pot crawlează conținut permis.

NOTĂ IMPORTANTĂ
Majoritatea motoarelor de căutare sunt ascultătoare. Nu au obiceiul de a rupe o intrare. Acestea fiind spuse, unii nu sunt timizi in ceea ce privește alegerea citorva incuietori metaforice. Google nu este unul dintre aceste motoare de căutare. Ei respectă instrucțiunile dintr-un fișier robots.txt.

Știi doar că unele motoare de căutare o ignoră complet.

Cum arată un fișier robots.txt?

Iată formatul de bază al unui fișier robots.txt: Cum arată un fișier robots.txt

Sitemap: [locația URL a sitemap-ului]

User-agent: [identificator bot]
[directiva 1]
[directiva 2]
[directivă ...]

User-agent: [alt identificator de bot]
[directiva 1]
[directiva 2]
[directivă ...]
Dacă nu ați văzut niciodată unul dintre aceste fișiere, ar putea părea descurajant. Totuși, sintaxa este destul de simplă. Pe scurt, atribuiți reguli pentru roboți, precizind agentul lor de utilizator urmat de directive .

Să explorăm mai detaliat aceste două componente.

User-agent
Fiecare motor de căutare se identifică cu un alt utilizator-agent. Puteți seta instrucțiuni personalizate pentru fiecare dintre acestea in fișierul dvs. robots.txt. Există sute de agenți utilizatori , dar iată citeva utile pentru SEO :

Google: Googlebot
Google Images: Googlebot-Image
Bing: Bingbot
Yahoo: Slurp
Baidu : Baiduspider
DuckDuckGo: DuckDuckBot
NOTĂ MARGINALĂ. Toți agenții utilizatori sunt sensibili la litere mari și minuscule in robots.txt.
Puteți utiliza, de asemenea, wildcard-ul stele (*) pentru a atribui directive tuturor agenților de utilizare.

De exemplu, să spunem că ați dorit să blocați toti roboții, cu excepția Googlebot, de la crawlingul site-ului dvs. Iată cum ai face-o: blocati boții, cu excepția Googlebot

Agent utilizator: *
Interzice: /

User-agent: Googlebot
Permite: /
Știți că fișierul dvs. robots.txt poate include directive pentru cit mai mulți agenți de utilizator doriți. Acestea fiind spuse, de fiecare dată cind declarați un nou utilizator-agent, acționează ca o ardezie curată. Cu alte cuvinte, dacă adăugați directive pentru mai mulți agenți de utilizator, directivele declarate pentru primul utilizator-agent nu se aplică celui de-al doilea sau al treilea sau al patrulea și așa mai departe.

Excepția de la această regulă este atunci cind declarați același agent utilizator de mai multe ori. In acest caz, toate directivele relevante sunt combinate și urmate.

NOTĂ IMPORTANTĂ
Crawler-urile respectă numai regulile declarate in conformitate cu agentul (utilizatorii) utilizatori care se aplică cel mai precis acestora . Acesta este motivul pentru care fișierul robots.txt de mai sus blochează toate roboții, cu excepția Googlebot (și a altor roboți Google) de la crawlingul site-ului. Googlebot ignoră declarația de utilizator-agent mai puțin specifică.

directivă
Directivele sunt reguli pe care doriți să le respecte agenții de utilizator declarați.

Directive suportate
Iată directive pe care Google le acceptă in prezent, impreună cu utilizările lor.

dezaproba
Utilizați această directivă pentru a instrui motoarele de căutare să nu acceseze fișiere și pagini care se incadrează pe o anumită cale. De exemplu, dacă doriți să blocați toate motoarele de căutare să acceseze blogul și toate postările sale, fișierul dvs. robot.txt ar putea arăta astfel:

Agent utilizator: *
Interzicere: / blog
NOTĂ MARGINALĂ. Dacă nu definiți o cale după directiva de refuz, motoarele de căutare o vor ignora.
Permite
Utilizați această directivă pentru a permite motoarelor de căutare să acceseze o subdirectorie sau o pagină - chiar și intr-un director altfel interzis. De exemplu, dacă doriți să impiedicați motoarele de căutare să acceseze fiecare postare pe blogul dvs., cu excepția unuia, atunci fișierul dvs. robots.txt ar putea arăta astfel:

Agent utilizator: *
Interzicere: / blog
Permiteți: / blog / permise-postare
In acest exemplu, motoarele de căutare pot accesa /blog/allowed-post. Dar nu pot accesa:

/blog/another-post
/blog/yet-another-post
/blog/download-me.pdf

Atit Google, cit și Bing acceptă această directivă.

NOTA. Ca și in cazul directivei de refuz, dacă nu definiți o cale după directiva permis, motoarele de căutare o vor ignora.
O NOTĂ DESPRE REGULI CONFLICTUALE
Cu excepția cazului in care sunteți atenți, renunțați și permiteți ca directivele să poată intra cu ușurință intre ele. In exemplul de mai jos, nu /blog/ permitem accesul și permitem accesul la acesta /blog.

Agent utilizator: *
Interzice: / blog /
Permite: / blog
In acest caz, adresa URL /blog/post-title/ pare să fie atit interzisă, cit și permisă. Deci, care ciștigă?

Pentru Google și Bing, regula este ca directiva cu cele mai multe personaje să ciștige. Aici, asta este directiva de refuz.

Disallow: /blog/ (6 caractere)
Allow: /blog (5 caractere)

Dacă directivele de permis și de respingere au o lungime egală, atunci ciștigă directiva cea mai puțin restrictivă. In acest caz, aceasta ar fi directiva privind permisiunea.

NOTĂ MARGINALĂ. Aici, /blog (fără baremul final), este încă accesibil și accesibil.
In mod crucial, acesta este cazul doar pentru Google și Bing . Alte motoare de căutare ascultă prima directivă de potrivire. In acest caz, aceasta este interzicerea.

Harta site-ului
Utilizați această directivă pentru a specifica locația hărții sit-urilor dvs. in motoarele de căutare. Dacă nu aveți cunoștință de sitemap-uri, acestea includ, in general, paginile pe care doriți ca motoarele de căutare să le acceseze și să le indexeze.

Iată un exemplu de fișier robots.txt folosind directiva sitemap:

Sitemap: https://www.domain.com/sitemap.xml

Agent utilizator: *
Interzice: / blog /
Permite: / blog / post-title /
Cit de important este să includeți site-ul dvs. sitemap in fișierul dvs. robots.txt? Dacă ați trimis deja prin Search Console, atunci este oarecum redundant pentru Google. Cu toate acestea, spune celorlalte motoare de căutare cum ar fi Bing unde se găsește, așa că este incă o practică bună.

Rețineți că nu este necesar să repetați directiva sitemap de mai multe ori pentru fiecare utilizator-agent. Nu se aplică doar unuia. Așadar, cel mai bine să includeți directive despre sitemap la inceputul sau la sfirșitul fișierului dvs. robots.txt. De exemplu:

Sitemap: https://www.domain.com/sitemap.xml

User-agent: Googlebot
Interzice: / blog /
Permite: / blog / post-title /

User-agent: Bingbot
Renunță: / servicii /
Google acceptă directiva sitemap, la fel și Ask, Bing și Yahoo.

NOTA. Puteți include cit mai multe sitemap-uri doriți in fișierul dvs. robots.txt.
Directive fără suport
Iată directivele care nu mai sunt acceptate de Google - dintre care unele din punct de vedere tehnic nu au fost niciodată.

Crawl de intirziere
Anterior, puteți utiliza această directivă pentru a specifica o intirziere de accesare in secunde in citeva secunde. De exemplu, dacă doriți ca Googlebot să aștepte 5 secunde după fiecare acțiune de crawl, ați seta intirzierea de accesare la 5 in acest fel:

User-agent: Googlebot
Intirziere la accesare: 5
Google nu mai acceptă această directivă, dar Bing și Yandex o fac.

Acestea fiind spuse, aveți grijă cind setați această directivă, mai ales dacă aveți un site mare. Dacă setați o intirziere cu rampele de 5 secunde, atunci limitați roboții pentru a trage cu maximum 17.280 de URL-uri pe zi. Nu este foarte util dacă aveți milioane de pagini, dar puteți economisi lățimea de bandă dacă aveți un site web mic.

nOINDEX
Această directivă nu a fost niciodată susținută oficial de Google. Cu toate acestea, pină de curind, se consideră că Google avea niște „coduri care gestionează reguli neacceptate și nepublicate (cum ar fi noindex) . Deci, dacă vrei să impiedici Google să indexeze toate postările pe blogul tău, poți folosi următoarea directivă:

User-agent: Googlebot
Noindex: / blog /
Cu toate acestea, la 1 septembrie 2019, Google a precizat că această directivă nu este acceptată . Dacă doriți să excludeți o pagină sau un fișier din motoarele de căutare, folosiți in schimb eticheta meta roboți sau antet HTTP -x-roboți .

nofollow
Aceasta este o altă directivă pe care Google nu a susținut-o niciodată oficial și a fost folosită pentru a instrui motoarele de căutare să nu urmeze linkurile din pagini și fișiere pe o anumită cale. De exemplu, dacă doriți să impiedicați Google să urmărească toate linkurile de pe blogul dvs., puteți utiliza următoarea directivă:

User-agent: Googlebot
Nofollow: / blog /
Google a anunțat că această directivă nu este acceptată oficial la 1 septembrie 2019. Dacă doriți să nu mai urmăriți toate linkurile dintr-o pagină acum, ar trebui să utilizați meta tag-ul roboților sau antetul roboților x. Dacă doriți să spuneți Google să nu urmeze anumite link-uri dintr-o pagină, utilizați atributul de legătură rel = „nofollow”

Aveți nevoie de un fișier robots.txt?
A avea un fișier robots.txt nu este crucial pentru multe site-uri web, in ​​special pentru cele mici.

Acestea fiind spuse, nu există niciun motiv bun să nu ai unul. Acesta vă oferă mai mult control asupra locurilor in care motoarele de căutare pot și nu pot merge pe site-ul dvs. web, ceea ce vă poate ajuta cu:

Impiedicarea rampetei de conținut duplicat ;
Păstrarea secțiunilor unui site web.
Prevenirea tiririi paginilor de rezultate ale căutării interne;
Prevenirea asupra incărcării serverului;
Impiedicați Google să irosească „ bugetul de accesare la crawlere ”.
Impiedicarea apariției de imagini , videoclipuri și fișiere cu resurse in rezultatele căutării Google.
Rețineți că, deși Google nu indexează in mod normal paginile web blocate in robots.txt, nu există nicio modalitate de a garanta excluderea de la rezultatele căutării folosind fișierul robots.txt .

După cum spune Google , dacă conținutul este legat de alte locuri de pe web, acesta poate apărea in continuare in rezultatele căutării Google.

Cum să găsiți fișierul dvs. robots.txt
Dacă aveți deja un fișier robots.txt pe site-ul dvs., acesta va fi accesibil la domain.com/robots.txt . Navigați la adresa URL din browserul dvs. Dacă vedeți așa ceva, atunci aveți un fișier robots.txt:

roboți ahrefs 5

Cum se creează un fișier robots.txt
Dacă nu aveți deja un fișier robots.txt, crearea unuia este ușoară. Deschideți un document .txt necompletat și incepeți să introduceți directive. De exemplu, dacă doriți să nu permiteți tuturor motoarelor de căutare să se tirască in /admin/directorul dvs. , ar arăta așa:

Agent utilizator: *
Renunță: / admin /
Continuați să construiți directivele pină cind sunteți mulțumit de ceea ce aveți. Salvați fișierul ca „robots.txt”.

Alternativ, puteți utiliza, de asemenea, un generator robots.txt ca acesta .

roboți creatorul 3

Avantajul utilizării unui instrument de acest fel este că reduce la minimum erorile de sintaxă. Asta este bine, deoarece o greșeală ar putea duce la o catastrofă SEO pentru site-ul dvs., așa că plătește să greșească din prudență.

Dezavantajul este că sunt oarecum limitate din punct de vedere al personalizării.

Unde să puneți fișierul dvs. robots.txt
Plasați fișierul dvs. robots.txt in directorul rădăcină al subdomeniului pentru care se aplică. De exemplu, pentru a controla comportamentul de crawling pe domain.com , fișierul robots.txt ar trebui să fie accesibil la domain.com/robots.txt .

Dacă doriți să controlați crawling-ul pe un subdomeniu precum blog.domain.com , atunci fișierul robots.txt ar trebui să fie accesibil la blog.domain.com/robots.txt .

Cele mai bune practici ale fișierului Robots.txt

Țineți cont de acestea pentru a evita greșelile comune. Utilizați o nouă linie pentru fiecare directivă Fiecare directivă ar trebui să se bazeze pe o nouă linie. Altfel, va confunda motoarele de căutare.

Rău:

User-agent: * Renunță: / director / Renunță: / another-directory /
Bun:

Agent utilizator: *
Interzice: / director /
Renunțare: / alt director /
Utilizați wildcards pentru a simplifica instrucțiunile
Nu numai că puteți utiliza wildcards (*) pentru a aplica directive tuturor agenților de utilizare, dar, de asemenea, pentru a corespunde tiparelor URL atunci cind declarați directive. De exemplu, dacă doriți să impiedicați motoarele de căutare să acceseze adresele URL ale categoriei de produse parametrizate pe site-ul dvs., le puteți enumera astfel:

Agent utilizator: *
Aruncați: / produse / tricouri?
Aruncați: / produse / glugă?
Aruncați: / produse / jachete?
...
Dar asta nu este foarte eficient. Ar fi mai bine să simplificați lucrurile cu un wildcard ca acesta:

Agent utilizator: *
Nu permiteți / / produse / *?
Acest exemplu impiedică motoarele de căutare să traverseze toate adresele URL din subfolderul / produs / care conțin un semn de intrebare. Cu alte cuvinte, adresele URL ale categoriei de produse parametrizate.

Utilizați „$” pentru a specifica sfirșitul unei adrese URL
Includeți simbolul „$” pentru a marca sfirșitul unei adrese URL . De exemplu, dacă doriți să impiedicați motoarele de căutare să acceseze toate fișierele .pdf de pe site-ul dvs., fișierul dvs. robots.txt ar putea arăta astfel:

Agent utilizator: *
Renunțați la: /*.pdf$
In acest exemplu, motoarele de căutare nu pot accesa URL-uri care se termină cu .pdf. Asta inseamnă că nu pot accesa /file.pdf, dar pot accesa /file.pdf?id=68937586, deoarece acest lucru nu se termină cu „.pdf”.

Utilizați fiecare agent de utilizator o singură dată
Dacă specificați același agent de utilizator de mai multe ori, Google nu vă deranjează. Acesta va combina doar toate regulile din diversele declarații intr-una și le va urma pe toate. De exemplu, dacă aveți următorii agenți de utilizare și directive in fișierul dvs. robots.txt ...

User-agent: Googlebot
Interzice: / a /

User-agent: Googlebot
Renunță: / b /
... Googlebot nu ar fi accesat niciuna dintre aceste subfoldere.

Acestea fiind spuse, are sens să declare fiecare utilizator-agent o singură dată, deoarece este mai puțin confuz. Cu alte cuvinte, ești mai puțin probabil să faci greșeli critice păstrind lucrurile ingrijite și simple. Folosiți specificitatea pentru a evita erorile neintenționate. Nerespectarea instrucțiunilor specifice atunci cind stabiliți directive poate duce la greșeli ușor ratate, care pot avea un impact catastrofal asupra SEO . De exemplu, să presupunem că aveți un site multilingv și că lucrați la o versiune germană care va fi disponibilă in subdirectorul / de /.

Deoarece nu este destul de gata de a merge, doriți să impiedicați motoarele de căutare să il acceseze. Fișierul robots.txt de mai jos va impiedica motoarele de căutare să acceseze acea subfolder și tot ce se află in ea:

Agent utilizator: *
Interzice: / de
Dar, de asemenea, va impiedica motoarele de căutare să se tirască din paginile sau fișierele incepind cu /de.

De exemplu:

/designer-dresses/
/delivery-information.html
/depeche-mode/t-shirts/
/definitely-not-for-public-viewing.pdf

In acest caz, soluția este simplă: adăugați o tăbliță.

Agent utilizator: *
Renunță: / de /
Folosiți comentarii pentru a explica fișierul dvs. robots.txt oamenilor
Comentariile vă ajută să explicați fișierul dvs. robots.txt dezvoltatorilor și, eventual, chiar viitorul dvs. sine. Pentru a include un comentariu, incepeți linia cu un hash (#).

# Acest lucru se recomandă pentru Bing să nu ne tirască site-ul.
User-agent: Bingbot
Interzice: /
Crawler-urile vor ignora totul pe liniile care incep cu un hash.

Utilizați un fișier robots.txt separat pentru fiecare subdomeniu
Robots.txt controlează doar comportamentul de crawling din subdomeniul unde este găzduit. Dacă doriți să controlați crawling-ul pe un alt subdomeniu, veți avea nevoie de un fișier robots.txt separat.

De exemplu, dacă site-ul principal se află pe domain.com și blogul dvs. se află pe blog.domain.com , atunci veți avea nevoie de două fișiere robots.txt. Unul ar trebui să intre in directorul rădăcină al domeniului principal, iar celălalt in directorul rădăcină al blogului.

Exemplu de Fișiere Robots.txt

Mai jos sunt citeva exemple de fișiere robots.txt. Acestea sunt in principal pentru inspirație, dar dacă se intimplă să se potrivească cerințelor dvs., copiați-lipiți intr-un document text, salvați-l ca „robots.txt” și incărcați-l in directorul corespunzător.

All-Access pentru toți roboții
Agent utilizator: *
Disallow:
NOTĂ MARGINALĂ.Eșecul de a declara o adresă URL după o directivă face ca această directivă să fie redundantă. Cu alte cuvinte, motoarele de căutare o ignoră. De aceea, această directivă de interzicere nu are efect asupra site-ului. Motoarele de căutare pot incă să parcurgă toate paginile și fișierele.
Fără acces pentru toți roboții
Agent utilizator: *
Interzice: /
Blocați un subdirector pentru toți roboții
Agent utilizator: *
Interzice: / folder /
Blocați un subdirector pentru toate roboții (cu un fișier in limita permisului)
Agent utilizator: *
Interzice: / folder /
Permite: /folder/page.html
Blocați un fișier pentru toți roboții
Agent utilizator: *
Renunță: /this-is-a-file.pdf
Blocați un singur tip de fișier ( PDF ) pentru toți roboții
Agent utilizator: *
Renunțați la: /*.pdf$
Blocați toate adresele URL parametrizate numai pentru Googlebot
User-agent: Googlebot
Interzice: / *?
Cum să verificați fișierul dvs. robots.txt pentru erori
Greșelile Robots.txt se pot strecura prin rețea destul de ușor, așa că plătește să fii atent pentru probleme.

Pentru a face acest lucru, verificați in mod regulat probleme legate de robots.txt in raportul „Acoperire” din Search Console . Mai jos sunt citeva dintre erorile pe care le puteți vedea, ce înseamnă și cum le puteți remedia.

TREBUIE SĂ VERIFICAȚI ERORILE LEGATE DE O ANUMITĂ PAGINĂ?
Lipiți o adresă URL in instrumentul de inspecție URL a Google in Search Console. Dacă este blocat de robots.txt, ar trebui să vedeți așa ceva:

blocate de roboți txt 7

Adresa URL trimisă blocată de robots.txt
url trimis blocat de roboți 3

Acest lucru inseamnă că cel puțin una dintre adresele URL din sit-urile site-urilor trimise sunt blocate de robots.txt.

Dacă ați creat harta site-ului dvs. in mod corect și a exclus paginile canonicalizate , noindexate și redirecționate , atunci nici o pagină trimisă nu trebuie blocată de robots.txt . Dacă există, cercetează ce pagini sunt afectate, apoi ajustează-ți fișierul robot.txt in consecință pentru a elimina blocul pentru pagina respectivă.

Puteți utiliza testerul robots.txt al Google pentru a vedea ce directivă blochează conținutul. Doar fii atent cind faci asta. Este ușor să faci greșeli care afectează alte pagini și fișiere.

roboți tester 3

Blocat de roboți.txt
blocate de roboți txt 6

Aceasta inseamnă că aveți conținut blocat de robots.txt care nu este indexat în prezent in Google.

Dacă acest conținut este important și ar trebui indexat, inlăturați blocul de crawl din robot.txt. (Merită, de asemenea, să vă asigurați că conținutul nu este neindexat). Dacă ați blocat conținutul in robots.txt cu intenția de a-l exclude din indexul Google, inlăturați blocul de crawl și folosiți in schimb o etichetă meta roboți sau x-roboți-antet. Aceasta este singura modalitate de a garanta excluderea conținutului din indexul Google.

NOTA. Eliminarea blocului de explorare cind se incearcă excluderea unei pagini din rezultatele căutării este crucială. Nu puteți face acest lucru și Google nu va vedea eticheta noindex sau antetul HTTP , astfel incit va rămine indexat.
Indexat, deși blocat de robots.txt
indexat deși blocat 3

Aceasta inseamnă că o parte din conținutul blocat de robots.txt este incă indexat in Google.

Incă o dată, dacă incercați să excludeți acest conținut din rezultatele căutării Google, robots.txt nu este soluția corectă. Indepărtați blocul de crawl și utilizați in schimb o etichetă meta roboți sau un antet HTTP pentru x-robots-tag pentru a preveni indexarea.

Dacă ați blocat acest conținut din greșeală și doriți să-l păstrați in indexul Google, eliminați blocul de crawl din robot.txt. Acest lucru poate ajuta la imbunătățirea vizibilității conținutului din căutarea Google.

Intrebări frecvente
Iată citeva intrebări frecvente care nu se potrivesc in mod natural in altă parte din ghidul nostru.

Care este dimensiunea maximă a unui fișier robots.txt?
Raspuns: 500 kilobiți (aproximativ).

Unde este robot.txt in WordPress?
Raspuns: Același loc: domain.com/robots.txt .

Cum editez robots.txt in WordPress?
Raspuns: Fie manual, sau folosind una dintre multele WordPress SEO plugin - uri, cum ar fi Yoast care vă permit să editați robots.txt din backend WordPress.

Ce se intimplă dacă nu permit accesul la conținut noindexat in robots.txt?
Raspuns: Google nu va vedea niciodată directiva noindex, deoarece nu poate accesa pagina cu crawlere.

Robots.txt este un fișier simplu, dar puternic. Folosește-l cu ințelepciune și poate avea un impact pozitiv asupra SEO . Folosește-l intimplător si o să regreți.

sursa: https://ahrefs.com/blog/robots-txt/#how-to-create-robots-txt

Robots.txt și SEO Robots.txt importanta folosirii ce este un fisier Robots.txt cum foloseste in SEO Robots.txt

0 Comments

Join Conversation