Gjør visjonære webforskningsstudier ved hjelp av dyp webdata og Excel-webspørsmål
Hva vil du si hvis jeg fortalte deg at du har verktøyene til din disposisjon for å gjøre banebrytende, jordbundende forskning? Vel, det gjør du, og jeg skal vise deg hvordan.
Regjeringer, akademiske institusjoner og ideelle organisasjoner publiserer tabeller fulle av data til det offentlige området. Uten noen som bruker denne informasjonen, vil dens sanne verdi aldri bli kjent. Dessverre har få personer innsikt, ferdigheter eller verktøy for å ta dataene og gjøre interessante sammenhenger mellom tilsynelatende ukoblet informasjon.
Bakgrunn
Mye av forskningen som jeg gjør for min egen blogg innebærer å grave gjennom det som er kjent som den usynlige weben 10 søkemotorer for å utforske den usynlige web 10 søkemotorer for å utforske den usynlige weben Vi er kjent med nettet. Men visste du at det er et enormt cache med informasjon om at søkemotorer som Google ikke har direkte tilgang til? Dette er den usynlige nettsiden. Les mer, for å avdekke data som er utgitt for publikum, men skjult fra søkemotorer De 5 mest avanserte søkemotorer på nettet De 5 mest avanserte søkemotorer på nettet Les mer i en online database. Dette er den dype nettsiden TorSearch har som mål å være Google for det dype webområdet. TorSearch har som mål å være Google for det dype nettet. Tor er en skjult tjeneste og en del av Deep Web. TorSearch er en ny anonym søkemotor som grunnlegger Chris MacNaughton ønsker å lage “Google av Tor”. Les mer, og det er rife med verdifulle data. Svært ofte kommer jeg over nettsider som bare er chock-fylt med noen av de mest verdifulle dataene om emner som driver spekteret fra folketalldata til epidemiologiske studier på sjeldne sykdommer. Jeg har stadig nye ideer om hvordan du kan korrelere de ulike datakildene ved hjelp av ulike verktøy - og et av de mest verdifulle verktøyene jeg har funnet er Web Query inne i Microsoft Excel.
Finne interessante datakorrelasjoner
Det jeg skal vise deg i dag, er et eksempel på hvordan du kan bruke Excel Web Queries til å trekke inn data fra forskjellige nettsteder, og kartlegge dem mot hverandre for å søke etter potensielle korrelasjoner mellom dataene.
Måten å starte en øvelse som dette er å komme opp med en interessant hypotese. For eksempel - for å holde ting interessant her - Jeg vil tilfeldig postulere at skyrocketing autismene i USA er forårsaket av vaksineinokulasjoner eller den økende forekomsten av elektromagnetiske felt i og rundt barn, som mobiltelefoner. Det er en gal hypotese som du finner på de fleste konspirasjonsteori nettsteder, men det er det som gjør dette morsomt. Så la oss komme i gang, skal vi?
Først åpner du Excel, går over til data menyelementet, og finn “Fra Internett” ikonet i menybåndet.
Dette er hva du vil bruke til å importere de forskjellige datatabellene fra de mange nettstedene der ute som har publisert dem.
Importerer webdata til Excel
Så i gamle dager må du prøve å kopiere dataene fra det aktuelle bordet på en nettside, lime det inn i Excel, og deretter håndtere alle de sprø formateringsproblemene som er involvert i å gjøre det. Totalt trøbbel, og mange ganger er det bare ikke verdt hodepine. Vel, med Excel Web Queries, de dagene er borte. Selvfølgelig, før du kan importere dataene, må du Google din vei rundt nettet for å finne de dataene du trenger i tabellformat. I mitt tilfelle fant jeg et nettsted som hadde utgitt utdanningsstatistikken for antall amerikanske offentlige skoleelever som ble identifisert som autisme. Et fint bord der ga tall fra 1994 hele veien gjennom 2006.
Så du klikker bare på “Fra Internett”, lim inn nettadressen til nettadressen i søkeadressefeltet, og rul deretter nedover siden til du ser den gule pilen ved siden av tabellen med dataene du vil importere.
Klikk pilen slik at den blir et grønt merke.
Til slutt, fortell Excel hvilket felt du vil lime inn tabelldata inn i det nye regnearket.
Så - Voila! Dataene flyter automatisk rett inn i regnearket ditt.
Så, med en trend av offentlig skole autisme priser fra 1996 til 2006 på plass, er det på tide å gå ut på jakt etter vaksinering og mobiltelefon bruk trender også.
Heldigvis fant jeg raskt trender for mobiltelefonabonnenter i USA fra 1985 til 2012. Utmerket data for denne studien. Igjen brukte jeg Excel Web Query-verktøyet for å importere det tabellen.
Jeg importerte dette bordet i et rent, nytt ark. Da oppdaget jeg vaksineringstrender for prosentandel av skolebarn vaksinert for ulike sykdommer. Jeg importerte den tabellen ved hjelp av Web Query-verktøyet i et tredje ark. Så til slutt hadde jeg tre ark med de tre tabellene fylt med tilsynelatende ikke-koblede dataene jeg hadde oppdaget på nettet.
Det neste trinnet, bruker Excel til å analysere dataene og forsøke å identifisere eventuelle korrelasjoner. Det er der et av mine favoritt dataanalyseværktøy kommer til spill - PivotTable.
Analysere data i Excel med pivottabellen
Det er best å lage din PivotTable i et helt nytt, tomt ark. Du vil bruke veiviseren for hva du skal gjøre. For å aktivere PivotTable-veiviseren i Excel, må du trykke på Alt-D samtidig, til et varslingsvindu dukker opp. Slett deretter disse knappene, og trykk på “P” nøkkel. Deretter vil du se veiviseren komme opp.
I første vindu av veiviseren, vil du velge “Flere konsolideringsområder”, som lar deg velge data fra alle arkene du har importert. Ved å gjøre dette kan du konsolidere alle de tilsynelatende ikke-relaterte dataene i en, kraftig pivotabel. I noen tilfeller må du kanskje massere noen av dataene. For eksempel måtte jeg fikse “År” feltet i autismetabellen slik at det viste “1994” i stedet for “1994-1995” - gjør det bedre med bordene på de andre arkene, som også hadde det primære årsfeltet.
Det vanlige feltet mellom data er det du trenger for å forsøke å korrelere informasjon, så hold det i bakhodet når du jakter på nettet for dine data.
Når pivottabellen er ferdig og du har alle de forskjellige dataværdiene som vises i ett bord, er det på tide å gjøre en visuell analyse for å se om det er en åpenbar forbindelse som hopper ut på deg.
Visualisere data er nøkkel
Å ha en mengde tall i et bord er flott hvis du er økonom, men den raskeste og enkleste måten å få det på “aha!” øyeblikk når du prøver å finne forbindelser som en nål i en høstack, er det via diagrammer og grafer. Når du har PivotChart på plass med alle datasettene du har samlet, er det på tide å lage grafen din. Vanligvis vil en linjediagram gjøre best, men det avhenger av dataene. Det er tider når et linjediagram fungerer mye bedre. Forsøk å forstå hva slags data du ser på, og hvilke former for sammenligninger som fungerer best.
I dette tilfellet ser jeg på data over tid, så en linjediagram er virkelig den beste måten å se trender over årene. Kartlegging av autismesatser (grønn) mot nedskalert vaksinasjonshastighet (mørk blå), kyllingpoks vaksiner (lyseblå) og mobiltelefonbruk (lilla), en ujevn korrelasjon plutselig dukket opp i denne prøven sett med data jeg spilte med.
Merkelig nok har trenden i mobiltelefonbruk fra 1994 til 2006 nesten perfekt passet til stigningen i autismene i samme tidsperiode. Mens mønsteret var helt uventet, er det et perfekt eksempel på hvordan sammenkobling av interessante data kan avsløre fascinerende potensiale - gir deg større innsikt og motivasjon for å fortsette å skyve frem og søke etter flere data som kan ytterligere styrke hypotesen.
En sammenheng som ovenfor overbeviser ikke noe. Det er mange trender som stiger over tid - mønsteret kan være tilfeldig, men det kan også være et viktig ledd i din pågående søken etter flere data på Internett. Heldigvis har du et kraftig verktøy som heter Excel Web Queries, som gjør det søket litt enklere.
Fotokreditt: Kevin Dooley via photopin cc
Utforsk mer om: Microsoft Excel.