Hvordan jeg importerer Internett-UFO-data i et Google-regneark

Hvordan jeg importerer Internett-UFO-data i et Google-regneark / Internett

Når det kommer til elektroniske databaser og informasjon som finnes i det som er kjent som “usynlig web 10 søkemotorer for å utforske den usynlige web 10 søkemotorer for å utforske den usynlige web Vi er kjent med nettet. Men visste du at det er et enormt cache med informasjon om at søkemotorer som Google ikke har direkte tilgang til? Dette er den usynlige nettsiden. Les mer “, Jeg er ikke din typiske bruker. Visst, jeg bruker litt for mye av tiden min ved å sitte gjennom nettbaserte databaser på steder som National Archives og CIA FOIA lesesalen, men jeg må si at ingenting gjør meg mer spent enn når jeg finner et HTML-basert bord fylt med volumer av tilsynelatende komplekse og ubundne data.

Faktum er datatabeller en gullgruve av viktige sannheter. Data blir ofte samlet av hærer av datainnsamlingsgrunter med støvler på bakken. Du har folk fra USA-folketellingen som reiser hele landet for informasjon om hushold og familie. Du har miljøvennlige miljøgrupper som samler all slags interessant informasjon om miljø, forurensning, global oppvarming og mer. Og hvis du er i paranormal eller ufologi, er det også stadig oppdaterte informasjonslister om observasjoner av merkelige gjenstander i himmelen over oss.

Ironisk nok tror du at en hvilken som helst regjering i verden ville være interessert i å vite hvilken slags utenlandsk håndverk som blir sett i himmelen over et hvilket som helst land, men tilsynelatende ikke - i hvert fall ikke i USA likevel. I Amerika har samlingen av uvanlige observasjoner av håndverk blitt henvist til lag av amatørhobbyister som flocker til nye UFO-observasjoner som møllene til en flamme. Min interesse for disse observasjonene stammer faktisk ikke fra en fascinasjon med romvesener eller håndverk fra andre planeter, men fra en vitenskapelig fascinasjon med mønstre - hvor og hvorfor flere mennesker ser ting på himmelen, og om disse observasjonene kan gjenspeile noe veldig ekte og mye mer ned til jorden faktisk skjer.

For å undersøke volumene data samlet av lag av UFO-hobbyister, har jeg faktisk utviklet en måte å importere store HTML-datatabeller til i et Google-regneark, og deretter manipulere og analysere dataene for å trekke ut og oppdage meningsfull og viktig informasjon. I denne artikkelen har jeg tenkt å vise deg hvordan du gjør det samme.

Viktige HTML-data i Google Regneark

I dette eksemplet skal jeg vise deg hvordan du importerer data som kan lagres i et bord på hvilken som helst nettside på Internett, inn i Google-regnearket. Tenk på det enorme datamengden som er tilgjengelig på Internett i dag i form av HTML-tabeller. Wikipedia alene har data i tabeller for temaer som global oppvarming, US Census Bureau har tonnevis av populasjonsdatasett, og en liten bit av Googling vil lande deg mye mer utover det.

I mitt eksempel begynner jeg med en database på National UFO Reporting Center som faktisk ser ut som om det kan være en dyp-web-database med spørringstilstand, men hvis du observerer URL-strukturering, er det faktisk en semi-kompleks web- basert rapporteringssystem bestående av statiske websider og statiske HTML-tabeller - akkurat det vi vil ha når vi ser etter data som skal importeres.

NUForc.org er en av de organisasjonene som fungerer som en av de største rapporteringsentrene for UFO-observasjoner. Det er ikke det eneste, men det er stort nok til å finne nye datasett med nåværende observasjoner for hver måned. Du velger å se dataene sortert etter kriterier som stat eller dato, og hver av disse er gitt i form av en statisk side. Hvis du sorterer etter dato og deretter klikker du på den nyeste datoen, ser du at tabellen som er oppført der, er en statisk nettside oppkalt etter datoformatet.

Så, vi har nå et mønster for å jevnlig trekke ut de nyeste observasjonsinformasjonene fra denne HTML-baserte databasen. Alt du trenger å gjøre er å importere den første tabellen, bruk den nyeste oppføringen (den øverste) for å identifisere den siste oppdateringen, og bruk deretter datoen for denne innleggingen til å bygge URL-lenken der den nyeste HTML-datatabellen eksisterer. Å gjøre dette vil bare kreve et par forekomster av ImportHTML-funksjonen, og deretter noen kreative bruksområder av tekstmanipuleringsfunksjoner. Når du er ferdig, har du et av de kuleste, selvoppdaterende rapporterings regnearkene dine. La oss komme i gang.

Importere tabeller og manipulere data

Det første trinnet er selvfølgelig å lage det nye regnearket.

Så, hvordan importerer du HTML-tabeller? Alt du trenger er nettadressen hvor tabellen er lagret, og nummeret på tabellen på siden - vanligvis den første som er oppført er 1, den andre er 2, og så videre. Siden jeg kjenner nettadressen til den første tabellens noteringsdatoer og tellingsverdier som er oppført, er det mulig å importere ved å skrive følgende funksjon i celle A1.

= Importhtml (“http://www.nuforc.org/webreports/ndxpost.html?”& H2,”bord”,1)

H2 har funksjonen “= Time (nå ())“, slik at bordet vil oppdatere hver time. Dette er sannsynligvis ekstremt for data som oppdaterer dette sjelden, så jeg kunne sannsynligvis komme seg unna med å gjøre det daglig. Allikevel bringer den ovennevnte ImportHTML-funksjonen inn tabellen som vist nedenfor.

Du må gjøre litt data manipulasjon på denne siden før du kan kutte sammen URL-adressen til den andre tabellen med alle UFO-observasjonene. Men gå videre og lag det andre arket på arbeidsboken.

Før du prøver å bygge det andre arket, er det på tide å trekke ut datoen fra denne første tabellen, for å bygge linken til den andre tabellen. Problemet er at datoen er hentet inn som datoformat, ikke en streng. Så først må du bruke TEKST-funksjonen til å konvertere rapportpostdatoen til en streng:

= Tekst (A2,”mm / dd / yy”)

I neste celle til høyre må du bruke SPLIT-funksjonen med “/” Avgrensning for å bryte datoen opp i måned, dag og år.

= Split (D2,”/”)

Ser bra ut! Imidlertid må hvert nummer bli tvunget til to sifre. Du gjør dette i cellene rett under dem ved hjelp av TEXT-kommandoen igjen.

= Tekst (E2,”00" )

Et format på “00” (det er nuller) tvinger to sifre, eller a “0” som plassholder.

Nå er du klar til å gjenoppbygge hele nettadressen til det nyeste HTML-tabellen over nye observasjoner. Du kan gjøre dette ved å bruke CONCATENATE-funksjonen, og kutte sammen alle biter av informasjon du nettopp har hentet fra den første tabellen.

= CONCATENATE (“http://www.nuforc.org/webreports/ndxp”,G3, E3, F3,”.html”)

Nå, på det nye arket du opprettet ovenfor (det tomme arket), skal du gjøre en ny “importhtml” funksjon, men denne gangen for den første URL-koblingsparameteren, så du skal navigere tilbake til det første regnearket og klikke på cellen med nettadresselinken du nettopp har opprettet.

Den andre parameteren er “bord” og den siste er “1” (fordi observasjonstabellen er den første og eneste på siden). Hit enter, og nå har du nettopp importert hele volumet av observasjoner som ble lagt ut på den aktuelle datoen.

Så du tenker sikkert på at dette er en fin nyhetshandling og alt - jeg mener at alt du har gjort er hentet eksisterende informasjon fra et bord på Internett og migrert det til et annet bord, om enn en privat i din Google Docs-konto. Ja, det er sant. Men nå som det er i din egen private Google Docs-konto, har du lett tilgjengelige verktøy og funksjoner for å bedre analysere dataene og begynne å oppdage fantastiske forbindelser.

Bruke Pivot Reports for å analysere importerte data

Bare nylig skrev jeg en artikkel om bruk av Pivot-rapporter i Google-regneark Bli en ekspertdatabase-analytiker om natten ved hjelp av Google-regnearkrapportverktøy Bli en ekspertdatabase-analytiker om natten ved hjelp av Google-regnearkrapportverktøy Visste du at et av de største verktøyene for alle å utføre data analyse er faktisk Google regneark? Årsaken til dette er ikke bare fordi det kan gjøre nesten alt du kanskje vil ... Les mer for å utføre alle slags kule dataanalyser. Vel, du kan gjøre det samme fantastiske dataanalysakrobatikken på dataene du har importert fra Internett, noe som gir deg muligheten til å avdekke interessante tilkoblinger som muligens ingen andre har avdekket før du.

For eksempel, fra det endelige observasjonstabellen, kan jeg bestemme meg for å bruke en svingrapport for å se på antall forskjellige unike former rapportert i hver stat, i forhold til det totale antall observasjoner i den aktuelle tilstanden. Endelig filtrerer jeg også ut noe som nevner “romvesener” i kommentarfeltet, forhåpentligvis luke ut noen av de flere wingnut-oppføringene.

Dette avslører faktisk noen ganske interessante ting rett utenfor flaggermuset, for eksempel det faktum at California tydeligvis har det høyeste antallet rapporterte observasjoner av en annen stat, sammen med forskjellen i å rapportere det høyeste antall håndverketformer i landet. Det viser også at Massachusetts, Florida og Illinois er store hitters i UFO-observasjonsavdelingen også (i det minste i de nyeste dataene).

En annen kul ting om Google Spreadsheet er det store spekteret av diagrammer tilgjengelig for deg, inkludert en Geo-Map som lar deg legge ut “hot spots” av data i et grafisk format som virkelig skiller seg ut og gjør disse tilkoblingene innenfor dataene ganske åpenbare.

Hvis du tenker på det, er dette egentlig bare toppen av isfjellet. Hvis du nå kan importere data fra datatabeller på en hvilken som helst side på Internett, tenk bare på mulighetene. Få de nyeste lagernumrene, eller de nyeste topp 10 bøkene og forfatterne på New York Times bestselgerlisten, eller de største selgerne i verden. Det finnes HTML-tabeller der ute på nesten alle emner du kan forestille deg, og i mange tilfeller blir disse tabellene ofte oppdatert.

ImportHtml gir deg muligheten til å koble Google-regnearket til Internett, og matche dataene som finnes der ute. Det kan bli ditt eget personlige nav med informasjon som du kan bruke til å manipulere og massasje inn i et format som du faktisk kan jobbe med. Det er bare en veldig veldig kul ting å elske om Google Regneark.

Har du noen gang importert data i regnearkene dine? Hvilke slags interessante ting har du oppdaget i dataene? Hvordan brukte du dataene? Del dine erfaringer og ideer i kommentarfeltet nedenfor!

Image Credits: Business Graph

Utforsk mer om: Google, regneark.