Hvordan jobber søkemotorer?

Artikkel oppdatert av Joel Lee på 10/10/2017

For mange, Google er internettet. Det er utgangspunktet for å finne nye nettsteder, og er uten tvil den viktigste oppfinnelsen siden internett selv. Uten søkemotorer ville nytt webinnhold være utilgjengelig for massene.

Men vet du hvordan søkemotorer jobber? Hver søkemotor har tre hovedfunksjoner: gjennomsøking (for å finne innhold), indeksering (for å spore og lagre innhold) og gjenfinning (for å hente relevant innhold når brukere spørre søkemotoren).

Crawling

Crawling er hvor alt begynner: Oppkjøp av data om et nettsted.

Dette innebærer skanningssteder og samler informasjon om hver side: titler, bilder, søkeord, andre koblede sider, etc. Forskjellige crawlere kan også lete etter forskjellige detaljer, for eksempel sidelayouter, hvor annonser plasseres, om koblinger er innrammet osv..

Men hvordan krypteres et nettsted? En automatisert bot (kalt a “edderkopp”) besøker side etter side så raskt som mulig, ved hjelp av sidelinker for å finne hvor du skal gå neste. Selv i de tidligste dagene kunne Googles edderkopper lese flere hundre sider per sekund. I dag er det i tusenvis.

Når en webcrawler besøker en side, samler den hver kobling på siden og legger dem til listen over de neste sidene du vil besøke. Den går til neste side i sin liste, samler koblingene på at side og gjentakelser. Webbrowwlere besøker også tidligere sider en gang til for å se om det har skjedd noen endringer.

Dette betyr at et nettsted som er koblet fra et indeksert nettsted, etter hvert vil bli gjennomsøkt. Enkelte nettsteder krypes oftere, og noen kryper til større dybder, men noen ganger kan en robotsøkeprogram gi opp hvis et nettsteds sidehierarki er for komplisert.

En måte å forstå hvordan en webcrawler fungerer, er å bygge en selv. Vi har skrevet en opplæring om å lage en grunnleggende webkrywler i PHP, så sjekk det hvis du har noen programmeringsopplevelse.

Merk at sider kan merkes som “noindex,” som er som å spørre søkemotorer for å hoppe over indekseringen. Ikke-indekserte deler av Internett er kjent som “dyp web” Hva er den dype weben? Det er viktigere enn du tror Hva er den dype nett? Det er viktigere enn du tror Den dype banen og den mørke banen er både skummel og nydelig, men farene har blitt overblown. Her er hva de egentlig og hvordan du selv får tilgang til dem selv! Les mer, og noen nettsteder, som de som er vert på TOR-nettverket, kan ikke indekseres av søkemotorer. (Hva er TOR- og løkruting? Hva er løkruting, akkurat? [MakeUseOf Forklarer] Hva er løkruting, nøyaktig? [MakeUseOf Forklarer] Internett-personvern. Anonymitet var en av de største funksjonene på Internett i sin ungdom (eller en av dets verste egenskaper, avhengig av hvem du spørger.) Bortsett fra de forskjellige problemene som kommer frem ... Les mer)

indeksering

Indeksering er når dataene fra en gjennomgang er behandlet og plassert i en database.

Tenk deg å lage en liste over alle bøkene du eier, deres utgivere, deres forfattere, deres sjangere, deres sideantal, osv. Crawling er når du kammer gjennom hver bok mens indeksering er når du logger dem på listen din.

Forestill deg at det ikke bare er et rom fullt av bøker, men hvert bibliotek i verden. Det er en liten versjon av hva Google gjør, som lagrer alle disse dataene i store datasentre med tusenvis av petabytes verdt stasjoner. Minnestørrelser forklart: Gigabyte, Terabytes og Petabytes i Kontekst Minne Størrelser Forklart: Gigabyte, Terabytter og Petabytter i sammenheng Det er lett å se at 500 GB er mer enn 100 GB. Men hvordan sammenligner forskjellige størrelser? Hva er en gigabyte til en terabyte? Hvor passer en petabyte inn? La oss rydde det opp! Les mer .

Her er en titt inne i et av Googles søkedatasentre:

Henting og rangering

Retrieval er når søkemotoren behandler søket ditt og returnerer de mest relevante sidene som samsvarer med søket ditt.

De fleste søkemotorer skiller seg gjennom sine hentemetoder: De bruker forskjellige kriterier for å velge og velge hvilke sider som passer best med det du vil finne. Det er derfor søkeresultatene varierer mellom Google og Bing, og hvorfor Wolfram Alpha er så unikt nyttig. 10 Kule bruksområder av Wolfram Alpha Hvis du leser og skriver i det engelske språket 10 Kule bruksområder av Wolfram Alpha Hvis du leser og skriver i det engelske språket Det tok Jeg har tid til å bryte hodet mitt rundt Wolfram Alpha og spørsmålet det bruker for å tutte ut disse resultatene. Du må dykke dypt inn i Wolfram Alpha for å virkelig utnytte den til ... Les mer .

Ranking algoritmer sjekker søket ditt mot milliarder av sider for å avgjøre hver enkeltes relevans. Bedrifter beskytter deres rangeringsalgoritmer som patenterte industrihemmeligheter på grunn av deres kompleksitet. En bedre algoritme oversetter til en bedre søkeopplevelse.

De vil heller ikke at webdesignere skal spille systemet og urettferdig klatre til toppen av søkeresultatene. Hvis den interne metoden til en søkemotor aldri kom ut, ville alle slags mennesker sikkert utnytte den kunnskapen til skade for søkere som deg og meg.

Bilde Kreditt: Fotovibes via Shutterstock

Utnyttelse av søkemotoren er mulig, selvfølgelig, men er ikke så lett lenger.

Opprinnelig plasserte søkemotorer nettsteder etter hvor ofte søkeord dukket opp på en side, noe som førte til “søkeord fylling” - fylle sider med søkeord-tung tull.

Da kom begrepet link betydning: søkemotorer verdsatt nettsteder med mange innkommende linker fordi de tolket nettsted popularitet som relevans. Men dette førte til koblingsspamming over hele nettet. I dag, søkemotorer vekt koblinger avhengig av “autoritet” av koblingsstedet. Søkemotorer legger mer vekt på lenker fra et offentlig byrå enn linker fra en linkkatalog.

I dag er rangeringsalgoritmer innhyllet i mer mystikk enn noen gang før, og “søkemotor optimalisering” Demystify SEO: 5 Søkemotoroptimaliseringsveiledninger som hjelper deg med å begynne Demystify SEO: 5 Søkemotoroptimaliseringsveiledninger som hjelper deg med å starte søkemotorenes mesterskap, tar kunnskap, erfaring og mange forsøk og feil. Du kan begynne å lære grunnleggende og unngå vanlige SEO feil enkelt ved hjelp av mange SEO guider tilgjengelig på nettet. Les mer er ikke så viktig. Gode søkemotorrangeringer kommer nå av høy kvalitet og gode brukeropplevelser.

Hva er neste for søkemotorer?

Ah, nå er det et interessant spørsmål. Svaret er “semantikk”: betydning av sidens innhold. Du kan lese mer om i vår oversikt over semantisk markering og dens fremtidige innvirkning. Hva Semantisk Markup er og hvordan det vil forandre Internett for alltid [Teknologi forklart] Hva Semantisk Markup er og hvordan det vil forandre Internett for alltid. [Teknologi forklart] Les mer .

Men her er kjennetegnet av det.

Akkurat nå kan du søke etter “glutenfrie kaker” men resultatene kan returnere oppskrifter for glutenfrie kaker. I stedet kan du finne vanlige cookieoppskrifter som sier “Denne oppskriften er ikke glutenfri.” Den har de riktige søkeordene, men feil meningen.

Med semantikk kan du søke etter cookieoppskrifter og deretter fjerne visse ingredienser: mel, nøtter osv. Du kan også begrense resultatene til bare oppskrifter med prep ganger mindre enn 30 minutter og gjennomgå score på 4/5 eller høyere. At ville være kult, ikke sant? Det er der vi er på vei!

Fortsatt forvirret om hvordan søkemotorer jobber? Se hvordan Google forklarer prosessen:

Hvis du fant dette interessant, kan du også lytte til hvordan bilde søkemotorer arbeid.

Bildekreditt: prykhodov / Depositphotos

Utforsk mer om: Google Analytics, Google Søk, Websøk.

« Hvordan fungerer satellittelefoner og hvor kan du kjøpe en? Hvordan sammenligner smarttelefoner med supercomputers fra fortiden? »