Gjøre datalogi i skyen med ScraperWiki
Hvis du har de mentale koteletter, en flair for programmering og historiefortelling, og et øye for design, kan du gjøre verre enn å komme inn i datavitenskap. Det er den nye store tingen i teknologi; svært trendy og høyt betalt, med datavitenskapere søkt av noen av de største selskapene i verden.
ScraperWiki er et selskap som lenge har vært assosiert med datavitenskapsfeltet. I de siste årene har denne Liverpool-baserte oppstarten tilbudt en plattform for kodere å skrive verktøy som får data, rydder det og analyserer det i skyen.
Med en nylig oppdatering og den stadig økende etterspørselen etter datavitenskapere i bedriften, er det verdt å ta en fin titt på ScraperWiki.
Full avsløring: Jeg var en praktikant ved ScraperWiki i fjor sommer.
Hva gjør ScraperWiki?
ScraperWiki markerer seg som et sted å få, rense og analysere data, og det leverer på hver av disse tellingene. I sin enkleste form gir den deg - brukeren - et sted hvor du kan skrive kode som henter data fra en kilde, verktøy for å konvertere det til et format som er enkelt å analysere og lagring for å beholde det for senere visualisering - som du Kan også håndtere ScraperWiki.
Den leveres også med en rekke forhåndsbyggede verktøy som automatiserer repeterende oppgaver, inkludert å få data fra PDF-filer, som er notorisk vanskelig å dekode. Dette er i tillegg til Twitter søker 5 Cool Twitter Søk triks for å overvåke hva folk sier om deg 5 Cool Twitter Søk triks for å overvåke hva folk sier om deg Hvis du eier et nettsted eller bare prøver å tjene penger på nettet som freelancer, Det er alltid godt å vite hva folk sier om deg over Internett. Folk kan sitere ... Les mer og skrape verktøy. Du trenger ikke noen programvareutvikling erfaring for å bruke disse.
Koste
Som tidligere nevnt, omfatter ScraperWiki freemium prismodellen og tilbyr en tjeneste som har flere nivåer. De som bare begynner med datavitenskap eller med begrensede behov, kan benytte seg av den gratis tjenesten. Dette gir deg tre datasett - hvor du lagrer data og kode.
De som planlegger å skrive flere skraper eller ønsker å gjøre fjell av data analyse, kan forkjøre litt penger for en premium-konto. Disse starter på $ 9 per måned og tilbyr 10 datasett. Hvis det fortsatt ikke er nok, kan du alltid oppgradere til sitt høyeste nivå som følger med 100 datasett og koster 29 dollar per måned.
Coding
Programmører er ofte ganske spesielle når det gjelder hvordan de kodes. Noen foretrekker skriptspråk over kompilerte språk. Noen foretrekker oppsummering av en tekstredigerer over et integrert utviklingsmiljø (IDE). ScraperWiki gjenkjenner det, og gir brukeren en stor mengde valg når det gjelder hvordan du skriver koden din.
Hvis du er så tilbøyelig, kan du skrive koden din i nettleseren. Som du forventer fra enhver profesjonell, nettbasert Topp 3 nettleserbasert IDE-kode i skyen. Den øverste 3 nettleserbaserte IDE-en til kode i Cloud Read More utviklingsverktøy, kommer dette med funksjoner som noen programmerer ville vurdere å være avgjørende, for eksempel syntaksutheving.
Det finnes en rekke språk på tilbud. Disse inkluderer Python De 5 beste nettstedene å lære Python programmering De 5 beste nettstedene å lære Python programmering Ønsker du å lære Python programmering? Her er de beste måtene å lære Python på nettet, hvorav mange er helt gratis. Les mer, et populært skriptspråk som brukes av Google og NASA. Ruby 3 Interaktive, morsomme, gratis måter å begynne å lære Ruby Programming Language 3 Interaktive, morsomme, gratis måter å begynne å lære Ruby Programming Language Ruby er et ekspressivt, veldig høyt nivå, skriptspråk. Den brukes på nettet hovedsakelig som en del av Ruby on Rails webutviklingsramme, men også frittstående. Hvis du er nysgjerrig på hva Ruby (ikke ... Les mer, som driver en rekke populære nettsteder som Living Social, og det populære statistiske analysespråket, R.
I tillegg kan du også skrive kode fra kommandolinjen ved å bruke SSH, Git og hvilken tekstredigerer du liker å bruke. Ja, du leser det riktig. SSH Hva SSH er og hvordan det er forskjellig fra FTP [Teknologi forklart] Hva SSH er og hvordan det er forskjellig fra FTP [Teknologi forklart] Les mer. Hver boks du bruker er sin egen Linux-konto, og du kan koble til den som du ville ha en VPS eller en annen shell-konto. Det finnes en rekke tekstredigerere tilgjengelig, inkludert Vim Topp 7 grunner til å gi Vim Text Editor en sjanse Topp 7 grunner til å gi Vim Text Editor en sjanse I mange år har jeg prøvd en tekstredigerer etter en annen. Du nevner det, jeg prøvde det. Jeg brukte hver og en av disse redaktørene i over to måneder som min primære daglige redaktør. På en eller annen måte, jeg ... Les mer som kan utvides med plugins og ved å redigere konfigurasjonen. De som er skremt av Vim, kan bruke Nano, som er en lett kommandolinje tekstredigerer.
Bibliotekene som er installert, bør være tilstrekkelig til å skrive verktøy for å hente data og for å behandle det. Hvis du trenger noe litt mer skjult, kan du alltid opprette en virtualenv fra kommandolinjen. Som du ser, er det en stor fleksibilitet som tilbys utviklere.
Datavisualisering
Så, du har dataene dine. Du har normalisert det. Du har renset den. Du har analysert det. Nå er det på tide å gjøre litt visualisering og vise verden hva du har lært.
ScraperWiki tillater utviklere å vise sine data ved hjelp av nettsider konstruert fra den velkjente trifekten av HTML, CSS og JavaScript. I tillegg støttes Bootstrap-komponenter ut av esken.
Det finnes en rekke forhåndsdefinerte visualiseringer, inkludert de som plotter dataene dine på et kart, og finner trender innen funnene dine. For å bruke disse må du sikre at dataene dine er lagret som SQLite-fil med filnavnet 'scraperwiki.sqlite'. Da legger du ganske enkelt til den visualiseringen du er interessert i. Enkelt, rett?
Konklusjon
ScraperWiki tilbyr mye for utviklere som ønsker å gjøre noe dataanalyse uten at utviklingsmiljøet blir i veien, mens de har fleksibilitet til å tilfredsstille selv de mest krevende brukerne. Men hva synes du? Gi meg beskjed i kommentarene nedenfor.
Fotokreditt: Rocket Science (Dan Brown)
Utforsk mer om: Cloud Computing, Web Analytics.