Kako zapreti spletno mesto pred indeksiranjem v robotih.txt: navodila in smernice

Vsebina

Robotski pomočnik
Funkcije dokumentov
Za kaj so namenjeni roboti?.txt?
ravnanje z datotekami
Funkcija botov
Primeri
Preverjanje datoteke

Delo SEO-optimizerja je zelo obsežno. Začetnikom svetujemo, da si algoritem optimizacije zapišejo, da ne preskočijo nobenega koraka. V nasprotnem primeru bo promocijo težko imenovati uspešna, saj bo spletno mesto nenehno doživljalo napake in napake, ki jih bo treba dolgo popravljati.

Eden od korakov optimizacije je delo z datoteko robots.txt. Vsako spletno mesto bi moralo imeti ta dokument, saj je brez njega težko opraviti optimizacijo. Opravlja veliko funkcij, ki jih boste morali spoznati.

Robotski pomočnik

Datotečni roboti.txt je navaden besedilni dokument, ki ga lahko pregledujete v standardnem sistemu Notepad. Pri ustvarjanju morate nastaviti kodiranje UTF-8, da se bo pravilno bralo. Deluje s http, https in FTP.

Ta dokument je pomočnik iskalnika. Če niste vedeli, vsak sistem uporablja pajke, ki hitro preiskujejo svetovni splet in vam na podlagi zahtev uporabnikov ponujajo ustrezna spletna mesta. Ti roboti morajo imeti dostop do podatkov o virih, kar tudi počnejo.txt.

Da bi "pajki" našli pot, morate predložiti robota.txt v korenski imenik. Če želite preveriti, ali ima spletno mesto to datoteko, v naslovno vrstico brskalnika vnesite "https://site".com.ua/roboti.txt". Namesto "spletno mesto.com.ua" morate vnesti želeni vir.

Funkcije dokumentov

Datotečni roboti.txt iskalnikom zagotavlja več vrst informacij. Zagotavlja lahko delni dostop, tako da lahko pajek pregleda določene elemente vira. S polnim dostopom lahko preverite vse razpoložljive strani. Popolna prepoved robotom prepreči, da bi sploh začeli preverjanje, in ti zapustijo spletno mesto.

Po obisku spletnega mesta pajek dobi ustrezen odziv. Glede na informacije v robotih jih je lahko več.txt. Na primer, če je bilo skeniranje uspešno, se prikaže koda 2xx.

Spletno mesto je bilo morda preusmerjeno z ene strani na drugo. V tem primeru robot prejme kodo 3xx. Če se ta koda pojavi večkrat, ji bo pajek sledil, dokler ne dobi drugačnega odgovora. Čeprav običajno uporabi le 5 poskusov. V nasprotnem primeru se pojavi priljubljena napaka 404.

Če je odgovor 4xx, je dovoljeno skeniranje celotne vsebine spletnega mesta. V primeru sporočila 5xx pa se preverjanje lahko popolnoma ustavi, saj običajno označuje začasno napako strežnika.

Za kaj so namenjeni roboti?.txt?

Kot ste morda uganili, je ta datoteka vodič robotov do korena spletnega mesta. Zdaj se uporablja za delno omejevanje dostopa do neželene vsebine:

strani z osebnimi podatki uporabnikov;
zrcalna mesta;
za ustvarjanje rezultatov iskanja;
obrazci za predložitev podatkov itd.

Če v korenu spletnega mesta ni datoteke z roboti.txt, bo robot pregledal popolnoma vso vsebino. V rezultatih iskanja lahko prejmete neželene podatke, kar pomeni, da lahko vi in vaše spletno mesto utrpite škodo. Če je dokument robots.txt obstajajo posebna navodila, zato jim bo "pajek" sledil in pripravil informacije, ki jih želi lastnik vira.

ravnanje z datotekami

Uporaba robotov.txt, da se spletno mesto ne bi indeksiralo, morate ugotoviti, kako ustvariti to datoteko. Pri tem morate upoštevati navodila:

Ustvarite dokument v programu Notepad ali Beležnica++.
Nastavite končnico datoteke ".txt".
Vnesite potrebne podatke in ukaze.
Dokument shranite in ga naložite v koren spletnega mesta.

Kot lahko vidite, je treba v eni od faz nastaviti ukaze za robote. Delimo jih na dve vrsti: dovoliti (Allow) in prepovedati (Disallow). Prav tako lahko nekateri optimizatorji določijo hitrost izogibanja, gostitelja in povezavo do zemljevida strani z viri.

Kako preprečiti indeksiranje spletnega mesta

Začetek dela z roboti.txt in popolnoma onemogočiti indeksiranje spletnega mesta, morate razumeti tudi uporabljene simbole. Dokument lahko na primer uporablja "/", kar pomeni, da je spletno mesto izbrano v celoti. Če je uporabljen znak "*", to pomeni, da je zaporedje znakov. Na ta način bo mogoče določiti določeno mapo, ki se lahko skenira ali ne.

Funkcija botov

"Spiders", ki ga je iskalniki različne, zato morate to upoštevati, če delate z več kot enim iskalnikom. Njihova imena se razlikujejo, zato morate za nagovor določenega robota navesti njegovo ime: "User Agent: Yandex" (brez narekovajev).

Če želite določiti direktive za vse iskalnike, morate uporabiti ukaz: "Uporabniški agent: *" (brez narekovajev). Pravilno ravnanje z roboti.txt za zaprtje spletnega mesta iz indeksiranja, morate poznati posebnosti priljubljenih iskalnikov.

Dejstvo je, da imata najbolj priljubljena iskalnika Yandex in Google več robotov. Vsak od njih se ukvarja s svojimi nalogami. Glavna pajka, ki preiskujeta spletno mesto, sta na primer Yandex Bot in Googlebot. Če poznate vse botse, boste lažje prilagodili indeksiranje svojega vira.

Primeri

Tako je tudi z roboti.txt za zaprtje vašega spletnega mesta iz indeksiranja je mogoče narediti s preprostimi ukazi, glavna stvar je razumeti, kaj je potrebno Natančneje. Če na primer želite, da se Googlov robot ne približa vašemu viru, mu morate dati ustrezen ukaz. Videti bo kot: "User-agent: Googlebot Disallow: /" (brez narekovajev).

Zdaj moramo razčleniti, kaj je v tem ukazu in kako deluje. "User-agent" se uporablja za neposredno sklicevanje na nekatere bote. Nato določimo, na katerega od njih naj se obrne, v našem primeru je to Google. Ukaz "Disallow" se mora začeti v novi vrstici in robotu prepovedati dostop do spletnega mesta. Poševnica v tem primeru pomeni, da so za izvajanje ukazov izbrane vse strani vira.

Pri robotih.txt, ki prepoveduje indeksiranje za vse iskalnike, lahko naredite s preprostim ukazom: "User-agent: * Prepovedano: /" (brez narekovajev). Simbol zvezdice v tem primeru označuje vse brskalnike iskalnikov. Ta ukaz je običajno potreben za začasno prekinitev indeksiranja spletnega mesta in začetek radikalnega dela na njem, ki bi sicer vplivalo na optimizacijo.

Če je vir obsežen in ima veliko strani, pogosto vsebuje lastniške informacije, ki se ne smejo razkriti ali pa lahko negativno vplivajo na promocijo. V tem primeru je treba razumeti, da, kako zapreti strani, ki jo roboti ne indeksirajo.txt.

Skrijete lahko mapo ali datoteko. V prvem primeru morate znova začeti z naslavljanjem določenega bota ali vseh, zato uporabite ukaz "User-agent" in pod njim določite ukaz "Disallow" za določeno mapo. To bo videti takole: "Disallow: /folder/" (brez narekovajev). S tem skrijete celotno mapo. Če želite prikazati pomembno datoteko, morate napisati spodnji ukaz: "Dovolite: / mapo/datoteko.php" (brez narekovajev).

Preverjanje datoteke

Če uporabljate robote.txt za skrivanje spletnega mesta pred indeksiranjem ste uspeli, vendar ne veste, ali so vse vaše direktive delovale pravilno, lahko preverite, ali.

Najprej morate znova preveriti lokacijo dokumenta. Ne pozabite, da mora biti le v korenski mapi. Če se nahaja v podmapi, ne bo delovala. Nato odprite brskalnik in vnesite naslednji naslov: "http://вашсайт. com/robots.txt" (brez narekovajev). Če se v spletnem brskalniku prikaže napaka, pomeni, da datoteka ni tam, kjer bi morala biti.

Direktive lahko preverite s posebnimi orodji, ki jih uporabljajo skoraj vsi spletni skrbniki. Govorimo o Googlovih in Yandexovih izdelkih. Na primer, Google Search Console ima orodno vrstico, v kateri morate odpreti "Scan" in nato zagnati orodje "Robots file checker".txt". Kopirajte vse podatke iz dokumenta v okno in začnite optično branje. Popolnoma enako preverjanje lahko opravite v aplikaciji "Yandex.webmaster".