Hvordan jeg importerer Internett-UFO-data i et Google-regneark

I denne artikkelen skal jeg vise deg hvordan du importerer data som kan lagres i et bord på et hvilket som helst nettsted på Internett, inn i Google-regnearket. Tenk på det enorme datamengden som er tilgjengelig på Internett i dag i form av HTML-tabeller.

I denne artikkelen skal jeg vise deg hvordan du importerer data som kan lagres i et bord på et hvilket som helst nettsted på Internett, inn i Google-regnearket.  Tenk på det enorme datamengden som er tilgjengelig på Internett i dag i form av HTML-tabeller.
Annonse

importer data til google regneark Når det kommer til nettbaserte databaser og informasjon som finnes i det som er kjent som "usynlig web 10 søkemotorer for å utforske den usynlige websiden 10 søkemotorer for å utforske den usynlige nettsiden, er vi kjent med nettet. Men visste du at det er et enormt cache med informasjon om at søkemotorer som Google ikke har direkte tilgang til? Dette er den usynlige nettsiden. Les mer ", jeg er ikke din typiske bruker. Visst, jeg bruker litt for mye av tiden min ved å sitte gjennom nettbaserte databaser på steder som Nasjonalarkivet og CIA FOIA leserommet, men jeg må si at ingenting gjør meg mer spent enn når jeg finner et HTML-basert bord fylt med volumer av tilsynelatende komplekse og ubundne data.

Faktum er datatabeller en gullgruve av viktige sannheter. Data blir ofte samlet av hærer av datainnsamlingsgrunter med støvler på bakken. Du har folk fra den amerikanske folketellingen som reiser hele landet for informasjon om hushold og familie. Du har miljøvennlige miljøgrupper som samler all slags interessant informasjon om miljø, forurensning, global oppvarming og mer. Og hvis du er i paranormal eller ufologi, er det også stadig oppdaterte informasjonstabeller om observasjoner av rare ting i himmelen over oss.

Ironisk nok tror du at en hvilken som helst regjering i verden ville være interessert i å vite hvilken slags utenlandsk håndverk som blir sett i skien over ethvert land, men tilsynelatende ikke - i hvert fall ikke i USA uansett. I Amerika har samlingen av uvanlige observasjoner av håndverk blitt henvist til lag av amatørhobbyister som flocker til nye UFO-observasjoner som møllene til en flamme. Min interesse for disse observasjonene stammer faktisk ikke fra en fascinasjon med romvesener eller håndverk fra andre planeter, men fra en vitenskapelig fascinasjon med mønstre - hvor og hvorfor flere mennesker ser ting på himmelen, og om disse observasjonene kan gjenspeile noe veldig ekte og mye mer ned til jorden faktisk skjer.

For å undersøke volumene data samlet av lag av UFO-hobbyister, har jeg faktisk utviklet en måte å importere store HTML-datatabeller til i et Google-regneark, og deretter manipulere og analysere dataene for å trekke ut og oppdage meningsfull og viktig informasjon. I denne artikkelen har jeg tenkt å vise deg hvordan du gjør det samme.

Viktige HTML-data i Google Regneark

I dette eksemplet skal jeg vise deg hvordan du importerer data som kan lagres i et bord på hvilken som helst nettside på Internett, inn i Google-regnearket. Tenk på det enorme datamengden som er tilgjengelig på Internett i dag i form av HTML-tabeller. Wikipedia alene har data i tabeller for temaer som global oppvarming, US Census Bureau har tonnevis av populasjonsdatasett, og en liten bit av Googling vil lande deg mye mer utover det.

I mitt eksempel begynner jeg med en database på National UFO Reporting Center som faktisk ser ut som om det kan være en dyp-web-database med spørringstilstand, men hvis du observerer URL-strukturering, er det faktisk en semi-kompleks web- basert rapporteringssystem bestående av statiske websider og statiske HTML-tabeller - akkurat det vi vil ha når vi ser etter data som skal importeres.
importer data til google regneark
NUForc.org er en av de organisasjonene som fungerer som en av de største rapporteringsentrene for UFO-observasjoner. Det er ikke det eneste, men det er stort nok til å finne nye datasett med nåværende observasjoner for hver måned. Du velger å se dataene sortert etter kriterier som stat eller dato, og hver av disse er gitt i form av en statisk side. Hvis du sorterer etter dato, og deretter klikker du på den nyeste datoen, ser du at tabellen som er oppført, er en statisk nettside oppkalt etter datoformatet.
importer data til google docs
Så, vi har nå et mønster for å jevnlig trekke ut de nyeste observasjonsinformasjonene fra denne HTML-baserte databasen. Alt du trenger å gjøre er å importere den første tabellen, bruk den nyeste oppføringen (den øverste) for å identifisere den siste oppdateringen, og bruk deretter datoen for denne innleggingen til å bygge URL-lenken der den nyeste HTML-datatabellen eksisterer. Å gjøre dette vil bare kreve et par forekomster av ImportHTML-funksjonen, og deretter noen kreative bruksområder av tekstmanipuleringsfunksjoner. Når du er ferdig, har du et av de kuleste, selvoppdaterende rapporterings regnearkene dine. La oss komme i gang.

Importere tabeller og manipulere data

Det første trinnet er selvfølgelig å lage det nye regnearket.
importer data til google docs
Så, hvordan importerer du HTML-tabeller? Alt du trenger er nettadressen hvor tabellen er lagret, og nummeret på tabellen på siden - vanligvis den første som er oppført er 1, den andre er 2, og så videre. Siden jeg kjenner nettadressen til den første tabellens noteringsdatoer og tellingsverdier, er det mulig å importere ved å skrive følgende funksjon i celle A1.

= importhtml ( “http://www.nuforc.org/webreports/ndxpost.html?” og H2, ”table”, 1)

H2 holder funksjonen " = time (nå ()) ", slik at tabellen vil oppdatere hver time. Dette er sannsynligvis ekstremt for data som oppdaterer dette sjelden, så jeg kunne sannsynligvis komme seg unna med å gjøre det daglig. Allikevel bringer den ovennevnte ImportHTML-funksjonen inn tabellen som vist nedenfor.
UFOReport4
Du må gjøre litt data manipulasjon på denne siden før du kan kutte sammen URL-adressen til den andre tabellen med alle UFO-observasjonene. Men gå videre og lag det andre arket på arbeidsboken.
importer data til google docs
Før du prøver å bygge det andre arket, er det på tide å trekke ut datoen fra denne første tabellen, for å bygge linken til den andre tabellen. Problemet er at datoen er hentet inn som datoformat, ikke en streng. Så først må du bruke TEKST-funksjonen til å konvertere rapportpostdatoen til en streng:

= tekst (A2, ”mm / dd / yy”)

I neste celle til høyre, må du bruke SPLIT-funksjonen med "/" avgrenseren for å bryte datoen til måned, dag og år.

= split (D2, ”/”)
importere til google regneark
Ser bra ut! Imidlertid må hvert nummer bli tvunget til to sifre. Du gjør dette i cellene rett under dem ved hjelp av TEXT-kommandoen igjen.

= tekst (E2, ”00")

Et format på "00" (det er nuller) tvinger to sifre eller en "0" som plassholder.
importere til google regneark
Nå er du klar til å gjenoppbygge hele nettadressen til det nyeste HTML-tabellen over nye observasjoner. Du kan gjøre dette ved å bruke CONCATENATE-funksjonen, og kutte sammen alle biter av informasjon du nettopp har hentet fra den første tabellen.

= CONCATENATE ( “http://www.nuforc.org/webreports/ndxp”, G3, E3, F3, ”HTML”)
importere til google regneark
Nå, på det nye arket du opprettet ovenfor (det tomme arket), skal du gjøre en ny "importhtml" -funksjon, men denne gangen for den første URL-koblingsparameteren, slik at du skal navigere tilbake til det første regnearket og klikk på cellen med URL-lenken du nettopp opprettet.
UFOReport9
Den andre parameteren er "tabell" og sist er "1" (fordi observasjonstabellen er den første og eneste på siden). Hit enter, og nå har du nettopp importert hele volumet av observasjoner som ble lagt ut på den aktuelle datoen.
UFOReport10
Så du tenker sikkert på at dette er en fin nyhetshandling og alt - jeg mener at alt du har gjort er hentet eksisterende informasjon fra et bord på Internett og migrert det til et annet bord, om enn en privat i din Google Docs-konto. Ja, det er sant. Men nå, når det er i din egen private Google Docs-konto, har du lett tilgjengelige verktøy og funksjoner for å bedre analysere dataene og begynne å oppdage fantastiske forbindelser.

Bruke Pivot Reports for å analysere importerte data

Bare nylig skrev jeg en artikkel om bruk av Pivot-rapporter i Google-regneark Bli en ekspertdatabase-analytiker om natten ved hjelp av Google-regnearkrapportverktøy Bli en ekspertdatabase-analytiker om natten ved hjelp av Google-regnearkrapportverktøy Visste du at et av de største verktøyene for alle å utføre data analyse er faktisk Google regneark? Årsaken til dette er ikke bare fordi det kan gjøre nesten alt du kanskje vil ... Les mer for å utføre alle slags kule dataanalyser. Vel, du kan gjøre samme fantastiske dataanalyse akrobatikk på dataene du har importert fra Internett, noe som gir deg muligheten til å avdekke interessante forbindelser som muligens ingen andre har avdekket før deg.

For eksempel, fra det endelige observasjonstabellen, kan jeg bestemme meg for å bruke en svingrapport for å se på antall forskjellige unike former rapportert i hver stat, i forhold til det totale antall observasjoner i den aktuelle tilstanden. Endelig filtrerer jeg også ut noe som nevner "romvesener" i kommentarfeltet, for å forhåpentligvis luke ut noen av de mer wingnut-oppføringene.
UFOReport11
Dette avslører faktisk noen ganske interessante ting rett utenfor flaggermuset, for eksempel det faktum at California tydeligvis har det høyeste antallet rapporterte observasjoner av en annen stat, sammen med forskjellen om å rapportere det høyeste antall håndverketformer i landet. Det viser også at Massachusetts, Florida og Illinois er store hittere i UFO-observasjonsavdelingen også (i hvert fall i de nyeste dataene).

En annen kul ting om Google Spreadsheet er det store spekteret av diagrammer tilgjengelig for deg, inkludert en Geo-Map som lar deg lage "hot spots" av data i et grafisk format som virkelig skiller seg ut og gjør disse tilkoblingene i dataene ganske åpenbare.
importer data til google regneark
Hvis du tenker på det, er dette egentlig bare toppen av isfjellet. Hvis du nå kan importere data fra datatabeller på en hvilken som helst side på Internett, tenk bare på mulighetene. Få de nyeste lagernumrene, eller de nyeste topp 10 bøkene og forfatterne på New York Times bestselgerlisten, eller de største selgerne i verden. Det finnes HTML-tabeller der ute på nesten alle emner du kan forestille deg, og i mange tilfeller blir disse tabellene ofte oppdatert.

ImportHtml gir deg muligheten til å koble Google-regnearket til Internett, og matche dataene som finnes der ute. Det kan bli ditt eget personlige nav med informasjon som du kan bruke til å manipulere og massasje inn i et format som du faktisk kan jobbe med. Det er bare en veldig veldig kul ting å elske om Google Regneark.

Har du noen gang importert data i regnearkene dine? Hvilke slags interessante ting har du oppdaget i dataene? Hvordan brukte du dataene? Del dine erfaringer og ideer i kommentarfeltet nedenfor!

Image Credits: Business Graph

In this article