PRH:n avoin data -palvelu YTJ-tiedoista uudistui 15.8.2024
Uusi palvelu tarjoaa YTJ-tiedot kaikista kaupparekisterin yritysmuodoista toiminimiyrittäjiä lukuun ottamatta. Uuden palvelun rajapinnan kautta on mahdollista suoraan hakea kaikki kaupparekisterissä olevat ja vireillä olevat yritykset JSON -tiedostona. Tiedosto päivitetään päivittäin. LIsätietoja: https://avoindata.prh.fi.
CSV-tiedostojen kokeellisen julkaisun tarina
Saimme avoindata.fi palveluun vuosien ajan kymmeniä viestejä eri kanavia pitkin siitä, että monet avoimen datan hyödyntäjä kokevat Patentti- ja rekisterihallituksen (PRH) avoimen datan rajapinnan vaikeaksi käyttää. Mietimme, voisimmeko tehdä jotain pientä asian hyväksi? Teimme kokeellisen Python-scriptin, joka kerää PRH:n julkaiseman avoimen datan tiedostoon ja julkaisee sen kuukausittain avoindata.fi palvelussa. Näin siksi, että käytämme myös PRH:n julkaisemaa avointa dataa. Toivomme, että pääsemme jatkossa syventämään yhteistyötä PRH:n kanssa. Lisäksi vuonna 2021 toimeenpantava avoimen datan direktiivi (1024/2019/EU) suosittelee, että dynaaminen data julkaistaan sekä rajapintana että tiedostona.
Erilaisten selvityksien mukaan ihmisten on usein paljon helpompi käyttää avointa dataa tiedostona kuin rajapintana. Lisäksi tiedoston koostamisessa käytetään useita rajapintoja. Vaikka resurssimme ovat tiukalla, ajattelimme, että tämä pieni ele saattaisi auttaa ihmisiä hyödyntämään PRH:n avointa dataa helpommin. Palautteen perusteella tuntui, että PRH:n julkaisemalle avoimelle datalle oli suuri tilaus, mutta hyödyntäjät kokivat sen vaikeaksi käyttää. Uusi versio (tiedosto) datasta julkaistaan kuukausittain, koska emme pysty keräämään dataa PRH:n rajapinnasta tätä nopeammin.
http://avoindata.prh.fi -sivustolta olevasta avoimesta PRH:n tajoamasta ohjelmointirajapinnasta kerätyt avoimena datana olevat yritysten tiedot CSV-tiedostoon. Moni avoimen datan hyödyntäjä on kokenut rajapinnan vaikeana käyttää ja datoja on pyydetty meiltä tiedostona usean eri hyödyntäjän toimesta.
Olemme DVV:ssa poimineet datasta tärkeimmät kentät mukaan tähän tiedostoon ja poistaneet toimintansa lopettaneet yritykset. Tämän datasetin julkaisu on osa ketterää kokeilua, jota parannetaan (iteroidaan) datan hyödyntäjäpalautteen avulla.
Tiedosto päivittyy säännöllisesti kerran kuukaudessa ja pidetään ajantasalla. Tällä hetkellä PRH:n rajapinta ei kestä tätä useammin tehtävää päivitystä ja pyrimme kuormittamaan sitä mahdollisimman vähän. Emme toistaiseksi julkaise hakuscriptin koodia avoimena lähdekoodina siitä syystä, että se kuormittaisi jo nyt kuormituksen ylärajoilla olevaa PRH:n rajapintaa lisää, jonka seurauksena esimerkiksi tätä tiedostoa ei pystyttäisi enää julkaisemaan kerran kuukaudessa (käytämme jo lähes kuukauden sen keräämiseen ja päivittämiseen).
USEIN KYSYTYT KYSYMYKSET
1. Datassa on virhe
Tarkista ihan ensin, että olet ladannut viimeisimmän version tiedostoista
Dataan liittyvien sisällöllisten virheiden ja epätäydellisyyksiin liittyen kannattaa olla yhteydessä Patentti- ja rekisterihallitukseen (avoindata@prh.fi). Avoindata.fi ainoastaan kerää heidän julkaiseman avoimen datan aineiston rajapinnasta -> tiedostoon, koska sitä on toivottu kymmeniä kertoja kymmenien yrityksen ja datan käyttäjien toiveesta useiden vuosien ajan. PRH:n avoimen datan rajapinnat koetaan hyödyntäjäpalautteen perusteella liian vaikeana käyttää.
2. Suomessa on yli 600 000 yritystä, missä loput yrityksen ovat?
Toiminimiin liittyy henkilötietojen suojaan (EU:n tietosuoja-asetus) liittyvä tulkintakysymys. Toiminimien nimessä voi olla henkilötietoja ja usein esimerkiksi yrityksen osoite voi olla henkilön kotiosoite (henkilötieto). Näistäkin asioista kannattaa olla suoraa yhteydessä PRH:n. Avoindata.fi kerää ainoastaan heidän julkaiseman datan tiedostoon. Jos PRH julkaisee datan kattavammin, myös meidän tiedostojulkaisun datan sisältö on silloin kattavampi.
Jossain EU muissa on kaksi yritysrekisteriä. Toinen yksityisia elinkeinoharjoittajia varten ja toinen muita yritysmuotoja varten. Ranska on puolestaan tulkinnut niin, että avoimuusvaatimus ajaa osittain yksityiden suojan ohitse tässä asiassa.
3. Miksi tässä on monta kertaa sama tiedosto?
Keräämme ja julkaisemme datan tiedostona kerran kuukaudessa. Tällä hetkellä PRH rajapinta ei kestä tätä useammin tapahtuvaa datan keräämistä ja julkaisemista. Rajapinnassa on sen kaikkien hyödyntäjien kesken jakautuva 300 kyselyä minuutissa rajoitus, jonka jälkeen yhteys katkeaa kaikille. Tiedostot ovat siis aineiston kuukausijulkaisuja. Niistä kannattaa valita uusin versio.
Tiedostot on aikaleimattu (ISO 8601) mukaisesti. Muodossa "2021-03-11_" eli "vuosi-kuukausi-päivämäärä_"