Slik konfigurerer du Robots.txt riktig for nettstedet ditt

Slik konfigurerer du Robots.txt riktig for nettstedet ditt / programmering

Hvis du kjører et nettsted 10 måter å lage et lite og enkelt nettsted uten overkill 10 måter å lage et lite og enkelt nettsted uten overkill WordPress kan være en overkill. Som disse andre gode tjenestene viser, er WordPress ikke det beste og slutter all nettstedsopprettelse. Hvis du vil ha enklere løsninger, er det et utvalg å velge mellom. Les mer, du har sikkert hørt om en robots.txt-fil (eller “roboter ekskluderingsstandard”). Enten du har eller ikke, er det på tide å lære om det, fordi denne enkle tekstfilen er en avgjørende del av nettstedet ditt. Det kan virke ubetydelig, men du kan bli overrasket over hvor viktig det er.

La oss se på hva en robots.txt-fil er, hva den gjør, og hvordan du konfigurerer den på riktig måte for nettstedet ditt.

Hva er en robots.txt-fil?

For å forstå hvordan en robots.txt-fil fungerer, må du vite litt om søkemotorer Hvordan fungerer søkemotorer? Hvordan jobber søkemotorer? For mange er Google Internett. Det er uten tvil den viktigste oppfinnelsen siden Internett selv. Og mens søkemotorer har endret seg mye siden, er de underliggende prinsippene likevel de samme. Les mer . Den korte versjonen er at de sender ut “crawlere,” som er programmer som skyr internett for informasjon. De lagrer deretter noe av den informasjonen slik at de kan lede folk til det senere.

Disse crawlere, også kjent som “bots” eller “edderkopper,” finn sider fra milliarder nettsteder. Søkemotorer gir dem retninger om hvor de skal hen, men enkelte nettsteder kan også kommunisere med bots og fortell dem hvilke sider de skal se på.

Mesteparten av tiden gjør de faktisk det motsatte, og forteller dem hvilke sider de bør ikke se på. Ting som administrative sider, backend portaler, kategori og tag sider, og andre ting som nettstedet eiere ikke vil vises på søkemotorer. Disse sidene er fortsatt synlige for brukerne, og de er tilgjengelige for alle som har tillatelse (som ofte er alle).

Men ved å fortelle de edderkoppene å ikke indeksere noen sider, gjør robots.txt-filen alle en tjeneste. Hvis du søkte etter “Benytte seg av” På en søkemotor, vil du ha at våre administrative sider vises høyt i rangeringene? Nei. Det ville ikke gjøre noen bra, så vi forteller søkemotorer for ikke å vise dem. Det kan også brukes til å holde søkemotorer fra å sjekke ut sider som kanskje ikke hjelper dem å klassifisere nettstedet ditt i søkeresultatene.

Kort sagt, forteller robots.txt web crawlere hva de skal gjøre.

Kan Crawlers ignorere robots.txt?

Gjør crawlere noensinne ignorere robots.txt-filer? Ja. Faktisk mange crawlere gjøre Ignorer det. Vanligvis er disse crawlerne imidlertid ikke fra anerkjente søkemotorer. De er fra spammere, e-postoppdrettere og andre typer automatiserte roboter som strever seg over internett. Det er viktig å holde dette i bakhodet - bruk av roboten eksklusjon standard for å fortelle bots å holde ut er ikke et effektivt sikkerhetsmål. Faktisk kan noen roboter start med sidene du forteller dem ikke å gå til.

Søkemotorer vil imidlertid gjøre som robots.txt-filen din sier så lenge den er formatert riktig.

Hvordan skrive en robots.txt-fil

Det er noen få forskjellige deler som går inn i en standard for standardfeil for robot. Jeg vil kutte dem hver ned individuelt her.

Brukeragenterklæring

Før du forteller en bot hvilke sider det ikke bør se på, må du spesifisere hvilken bot du snakker med. Mesteparten av tiden bruker du en enkel deklarasjon som betyr “alle bots.” Det ser slik ut:

Bruker agent: *

Stjernen står for “alle bots.” Du kan imidlertid angi sider for enkelte bots. For å gjøre det må du vite navnet på boten du legger ut retningslinjer for. Det kan se slik ut:

Brukeragent: Googlebot [Liste over sider som ikke skal gjennomsøk] Brukeragent: Googlebot-Image / 1.0 [Liste over sider som ikke skal gjennomsøkes] Brukeragent: Bingbot [Liste over sider som ikke skal gjennomsøk]

Og så videre. Hvis du oppdager en bot som du ikke vil gjennomsøke nettstedet ditt i det hele tatt, kan du også spesifisere det.

For å finne navnene på brukeragenter, sjekk ut useragentstring.com.

Tillatelse av sider

Dette er hoveddelen av roboten din ekskluderingsfil. Med en enkel deklarasjon forteller du en bot eller gruppe av roboter for ikke å krype visse sider. Syntaxen er enkel. Slik forkaster du tilgang til alt i “admin” katalog over nettstedet ditt:

Tillat: / admin /

Den linjen ville holde bots fra å crawle yoursite.com/admin, yoursite.com/admin/login, dinsite.com/admin/files/secret.html, og alt annet som faller under administrasjonsmappen.

For å avvise en enkelt side, bare angi den i disallow-linjen:

Tillat: /public/exception.html

Nå “unntak” siden vil ikke bli trukket, men alt annet i “offentlig” mappen vil.

For å inkludere flere kataloger eller sider, bare oppgi dem på følgende linjer:

Disallow: / private / Disallow: / admin / Disallow: / cgi-bin / Disallow: / temp /

Disse fire linjene vil gjelde for hvilken brukeragent du oppgav øverst i seksjonen.

Hvis du vil beholde bots fra å se på en side på nettstedet ditt, bruk dette:

Tillat: /

Angi forskjellige standarder for Bots

Som vi så over, kan du spesifisere bestemte sider for forskjellige bots. Kombinere de to foregående elementene, her er det som ser ut som:

Bruker-agent: googlebot Disallow: / admin / Disallow: / private / Bruker-agent: bingbot Disallow: / admin / Disallow: / private / Disallow: / secret /

De “admin” og “privat” Deler vil være usynlige på Google og Bing, men Google vil se “hemmelig” katalog, mens Bing ikke vil.

Du kan angi generelle regler for alle bots ved å bruke stjernen bruker agent, og deretter gi spesifikke instruksjoner til bots i senere seksjoner også.

Sette alt sammen

Med kunnskapen ovenfor kan du skrive en komplett robots.txt-fil. Bare brann opp din favoritt tekstredigerer (vi er fans av Sublime 11 Sublime Text Tips for Productivity og en raskere arbeidsflyt 11 Sublime Text Tips for Productivity og en raskere Workflow Sublime Text er en allsidig tekstredigerer og en gullstandard for mange programmerere. tips fokuserer på effektiv koding, men generelle brukere vil sette pris på tastatursnarveiene. Les mer rundt her) og begynn å la roboter vite at de ikke er velkomne i enkelte deler av nettstedet ditt.

Hvis du vil se et eksempel på en robots.txt-fil, kan du bare gå til et hvilket som helst nettsted og legge til “/robots.txt” til slutten. Her er en del av Giant Cycles robots.txt-filen:

Som du kan se, er det ganske mange sider som de ikke vil vise på søkemotorer. De har også tatt med noen få ting vi ikke har snakket om ennå. La oss ta en titt på hva annet du kan gjøre i roboten ekskluderingsfilen din.

Finne ditt nettkart

Hvis robots.txt-filen din forteller bots hvor ikke å gå, ditt sitemap gjør det motsatte Hvordan lage et XML-sitemap i 4 enkle trinn Hvordan lage et XML-sitemap i 4 enkle trinn Det er to typer sitemaps - HTML-side eller en XML-fil. En HTML-sitemap er en enkelt side som viser besøkende alle sidene på et nettsted og har vanligvis lenker til de ... Les mer, og hjelper dem med å finne det de leter etter. Og mens søkemotorer sannsynligvis allerede vet hvor ditt sitemap er, gjør det ikke vondt for å la dem få vite det igjen.

Erklæringen for en sitemap-plassering er enkel:

Sitemap: [URL for sitemap]

Det er det.

I vår egen robots.txt-fil ser det slik ut:

Sitemap: //www.makeuseof.com/sitemap_index.xml

Det er alt der er til det.

Angi en gjennomsøkingsforsinkelse

Direktivet om gjennomsøkingsforsinkelse forteller visse søkemotorer hvor ofte de kan indeksere en side på nettstedet ditt. Den måles om sekunder, selv om enkelte søkemotorer tolker det litt annerledes. Noen ser en gjennomsøkingsforsinkelse på 5 som forteller dem å vente fem sekunder etter hver gjennomsøking for å starte den neste. Andre tolker det som en instruksjon for å bare krype en side hvert femte sekund.

Hvorfor vil du fortelle en crawler å ikke krype så mye som mulig? For å bevare båndbredde 4 måter Windows 10 sparer Internett-båndbredden 4 måter Windows 10 sparer Internett-båndbredde Er Windows 10 å kaste bort internett båndbredden? Slik sjekker du, og hva du kan gjøre for å stoppe det. Les mer . Hvis serveren din sliter med å holde tritt med trafikken, kan det hende du vil sette inn en gjennomsøkingsforsinkelse. Generelt trenger de fleste ikke å bekymre seg for dette. Store nettsteder med høy trafikk må imidlertid kanskje eksperimentere litt.

Slik gjør du en gjennomsøkingsforsinkelse på åtte sekunder:

Gjennomsøkingsforsinkelse: 8

Det er det. Ikke alle søkemotorer vil overholde ditt direktiv. Men det gjør ikke vondt for å spørre. I likhet med at du ikke tillater sider, kan du angi forskjellige gjennomsøkingsforsinkelser for bestemte søkemotorer.

Laster opp robots.txt-filen din

Når du har alle instruksjonene i filoppsettet, kan du laste det opp til nettstedet ditt. Pass på at det er en vanlig tekstfil, og har navnet robots.txt. Last deretter opp det til nettstedet ditt, så det kan du finne på yoursite.com/robots.txt.

Hvis du bruker et innholdshåndteringssystem 10 Mest populære innholdsstyringssystemer Online 10 mest populære innholdsstyringssystemer Online Dagene til håndkodede HTML-sider, og mestring av CSS, er langt borte. Installer et innholdsadministrasjonssystem (CMS), og innen få minutter kan du få et nettsted å dele med verden. Les mer som WordPress, det er sannsynligvis en bestemt måte du må gå om dette. Fordi det er forskjellig i hvert innholdshåndteringssystem, må du konsultere dokumentasjonen for systemet ditt.

Noen systemer kan ha online grensesnitt for å laste opp filen din også. For disse, bare kopier og lim inn filen du opprettet i de forrige trinnene.

Husk å oppdatere filen

Det siste rådet jeg gir, er å av og til se over roboten din ekskluderingsfil. Nettstedet endres, og du må kanskje gjøre noen tilpasninger. Hvis du merker en merkelig forandring i søkemotor trafikken, er det en god ide å sjekke ut filen også. Det er også mulig at standardnotasjonen kan endres i fremtiden. Som alt annet på nettstedet ditt, er det verdt å sjekke opp det hver gang en stund.

Hvilke sider ekskluderer du crawlere fra på nettstedet ditt? Har du merket noen forskjell i søkemotor trafikk? Del dine råd og kommentarer nedenfor!

.