PowerBI ja visualisoinnin tuottaminen
Hämeenlinnan kaupungin julkaisema avoin data
Hämeenlinnan kaupunki on julkaissut ostolaskut vuosilta 2013-2015 avoimena datana. Tiedoista löytyy tarkentavina tekijöinä oston tarkoitus ja oston tekijä kaupungilla. Tiedoista on anonymisoitu tietosuojan rajoittamat tiedot. Näihin lukeutuu esimerkiksi yksityishenkilöiden saamat maksusuoritukset. Lisenssi, millä Hämeenlinnan kaupunki tiedot on julkaissut, on CC BY eli Nimeä-lisenssi. Näistä tiedoista lähdettiin luomaan visualisointia.
Alla olevan visualisoinnin saat näkymään koko ruudulla painamalla oikeassa alareunassa olevaa kaksisuuntaista nuolta
Tietojen lisääminen ja siivoaminen
Data, mitä käytettiin, oli .csv muodossa ja se sisälsi erilliset tiedostot ostolaskuille, tileille ja kustannuspaikoille. Näiden lisäksi tiedot oli vielä jaettu vuosittain. PowerBI:hin tiedot saatiin lisäämällä kansioittain ja yhdistämällä kunkin tiedoston datan yhdeksi tauluksi. Tässä vaiheessa tuli eteen ongelma, jossa osa tiedoista ei tullut näkyviin, vaikka yksittäisiä tiedostoja tarkastellessa ne näkyivät. Tämä selvisi sillä, että tarkistettiin jokaisen tiedoston sarakkeiden otsikot. Yhdessä tiedostossa oli ”Y-tunnus” –sarakkeen otsikko kirjoitettu muotoon ”Tunnus”. Tämän korjauksen jälkeen tiedot ladattiin uudelleen PowerBI:hin, jotta voitiin varmistua, että kaikki tiedot tulisivat varmasti oikein. Muuta siivoamista, mitä tehtiin varmuuden vuoksi, oli ylimääräisen tyhjän poistaminen tietueiden perästä. Järjestellessä tietoja näytti joitain tietueita olevan kaksin kappalein, mutta tämä johtui siitä, että joidenkin perässä oli välilyönti ja joissain ei. Tähän löytyi PowerBI:stä oma työkalu, jolla saatiin sarakkeet käytyä kokonaan läpi.
Yhdistäminen lisätietoon
Hämeenlinnan kaupungin julkaisemista tiedoista löytyvät y-tunnukset niiden osalta mitä ei pidä tietosuojalain mukaisesti anonymisoida, mahdollistaa sen, että hakemalla yritysten osoitteet ne voidaan asettaa kartalle näkyviin. Patentti- ja rekisterihallituksella on saatavilla avoin rajapinta, josta saa haettua yrityksen tietoja y-tunnuksella, esimerkiksi kotipaikka ja päätoimiala. Kun kaikki tiedot oltiin haettu ja lisätty omana tiedostonaan PowerBI:hin, yhdistettiin ne PowerBI:n Yhteydet -ikkunassa y-tunnuksen mukaan ostolaskujen tauluun.
Rajapinnasta saatavat kotipaikat voidaan asettaa ostolaskuista löytyvien toimittajien mukaan kartalle, mutta tässä kohtaa tuli esille PowerBI:n käyttämän Bing-karttajärjestelmän automatiikan heikkous. Maailmalta saattaa löytyä ja löytyykin samannimisiä kaupunkeja, jolloin kaikki merkinnät eivät osuneet edes oikealle mantereelle. Jotta haluttiin varmistua, että merkit menisivät oikeille paikoilleen, käytettiin apuna toista rajapintaa. Avuksi otettiin OpenStreetMap:in Nominatim-rajapinta, josta haettiin koordinaatit kotipaikoille ja ne asetettiin kartalle toimittajien mukaisesti. Tällöin saatiin huomattavasti oikeammat tiedot. Tästä huolimatta muutama merkki oli edelleen muualla kuin pitäisi. Näiden tarkastelu paljasti kaksi syytä tähän. Ensimmäinen syy oli se, että samanniminen paikka löytyi taas muualta ja sen koordinaatit oli haettu. Tämän korjauksena oli käydä ne yksittäiset paikat läpi ja hakea oikeat koordinaatit. Toinen syy oli se, että prh:n rajapinnasta haettavat yritystiedot sisälsivät virheitä, esimerkiksi yrityksen kaupungiksi oli asetettu yrityksen nimi, joka sitten taas kartalla tietysti asettui muualle kuin pitäisi. Näille yrityksille oikeat kaupungit hakemalla saatiin loputkin merkit oikeille paikoilleen. Koordinaatit voitiin yhdistää PowerBI:n puolella kaupunkeihin.
Visualisoinnin luominen
Visualisointi oli itsessään helppo luoda PowerBI:llä, ja siihen saatiin monella tapaa luotua erilaisia näkymiä. Visualisoinnista löytyy puunäkymiä, viivagraafeja, piiraskaavioita, taulukoita, pylväsdiagrammeja ja karttoja. Nämä kaikki ovat PowerBI:n vakio työkaluja, eivätkä ne vaadi lisäosien asentamista. Karttojen luominen vaati hieman enemmän työtä, kuten aiemmin on kirjoituksessa tuotu esiin. Muut esitystavat toimivat sillä periaatteella, että raahataan halutut kentät visualisointi-ikkunaan jonka jälkeen valitaan haluttu esitystapa, jos PowerBI:n oletustapa ei ole haluttu. Samasta palkista visualisointitavan kanssa löytyy erilaisia kenttiä, mihin voidaan asettaa tiedot sen mukaan mitä halutaan esittää. Näytettävät kentät muuttuvat valitun esitystavan mukaan. Esimerkiksi viivagraafista löytyy akselit, kategorisointi, esitettävät arvot ja vihjekenttä. Lisäksi jokaiselta sivulta löytyy suodattimet –kohdat. Niihin sisältyy Sivukohtainen, koko visualisoinnin kohtainen ja tarkentava suodatin. Lisäksi jokaisesta esitystavasta löytyy lisäksi näkyvän tason mukainen suodatin, kuten vaikkapa tietyn vuoden mukaan näytettävät tiedot.
Julkaiseminen
Visualisoinnin julkaiseminen PowerBI:ssä on helppoa ja nopeaa. Sovelluksesta löytyy Publish tai Julkaise painike, ja avautuvasta ikkunasta valitaan haluttu kohde mihin visualisointi lähetetään. Tässä kohtaa voidaan valita My workspace/oma työtila, jotta saadaan visualisointi verkkoon. Siellä voidaan ensin tarkistaa, miltä se näyttää verkossa katsottuna. Siirryttyäsi visualisoinnin verkkonäkymään, File tai tiedosto valikon alta löytyy useampi vaihtoehto. Tämä visualisointi julkaistiin Publish to web/verkkojulkaisu vaihtoehtoa käyttäen. Sen lisäksi tästä voit valita joko html koodinpätkän, jonka voit lisätä omalle verkkosivullesi, tai voit lähettää linkin mistä pääsee visualisoinnin näkemään.
Ajatuksia
Näin jälkikäteen ajateltuna, työläin vaihe oli käytettävän datan siivoaminen. Yleensä ne olivat pieniä yksittäisiä korjauksia, mutta niitä kertyi kuitenkin useampia. Itse visualisoinnin rakentaminen on helppoa riippuen hieman käytettävissä olevasta data. Rajoituksia siitä minkälaista visualisointia pystyy tekemään ei ole tullut vastaan. Ja mikäli olisi jokin oikea tarve mitä pitäisi esitellä, niin visualisoinnista voisi tehdä paljon yksityiskohtaisemman. Nyt visualisointi on enemmän esittelyä siitä mitä kaikkea voidaan tehdä. PowerBI on myös vain yksi vaihtoehto useiden joukossa, millä visualisointeja voi tehdä.
Käytetty data ja lisenssit
Kaupunkien koordinaatit
Open Data Commons Open Database License(ODbL) -lisenssi
© OpenStreetMap contributors
Ostolaskut, kustannuspaikat ja tilit
Hämeenlinnan kaupunki, Lokakuu, 2017
Yritysten tarkemmat tiedot y-tunnuksella haettuna
Patentti- ja rekisterihallitus Lokakuu, 2017
Lähteet:
Creative commons: https://creativecommons.org/licenses/by/4.0/deed.fi
Hämeenlinnan kaupungin avoin data: http://www.hameenlinna.fi/Kaupunki-info/Tilastotietoa/Avoin-data/
PRH rajapinta: https://avoindata.prh.fi/