Tiedote pseudonymisoinnin uudistuksista

Jos viesti ei näy oikein, avaa viesti selaimessa

Tiedote pseudonymisoinnin uudistuksista

Mitä ja miksi?

Tutkijapalveluiden pseudonymisointiratkaisua uudistetaan vaiheittain vuosina 2025–2026. Uudistuksen syynä ovat Tilastokeskuksen sisäisiin pseudotunnisteisiin tulevat muutokset sekä tietosuojan vahvistaminen. Uudet pseudotunnisteet tulevat olemaan tietosuojaukseltaan merkittävästi aiempaa parempia, ja ne sallivat monipuolisemmin erilaisia erikoismerkkejä ja tunnisteiden pituuksia.

Tutkijapalveluiden pseudonymisoinnin uudistustyö on jaettu kahteen vaiheeseen: aiemmin tänä vuonna on jo aloitettu työn ensimmäinen osa, joka koski yritys- ja muiden tunnisteiden pseudonymisointeja. Nyt olemme toisessa vaiheessa, joka koskee henkilötunnisteiden suojaamista.

Tutkijapalvelut tekee osan työstä keskitetysti

Vaihdamme pseudotunnisteet jatkuvapäivitteisiin valmisaineistoihin keskitetysti. Työ on aloitettu 5.12. ja uudelleensuojauksia tehdään niin nopeasti kuin mahdollista.

Käyttäjälle tutkijapalveluiden tekemät uudelleensuojaukset näkyvät niin, että aineistokansion tiedostot korvataan uusilla, saman nimisillä versioilla, joissa vanha shnro-tunniste on korvattu uudella hid_e –tunnisteella. Siirrämme vanhan version shnro_suojattu –alikansioon, jossa se on käytössä siirtymäajan eli 30.4.2026 saakka.

Mitä tutkijoiden tulisi tehdä itse?

Manuaalisesti hankkeille vietyjä aineistoja, kuten räätälöidyt aineistot, kertamaksulliset valmisaineistot, poiminnat valmisaineistoista, ulkopuoliset aineistot ja tutkijoiden työtiedostot, ei valitettavasti voida käsitellä keskitetysti tutkijapalveluissa niukan resurssitilanteen vuoksi. Tutkimushankkeiden tulisi siis itse vaihtaa pseudotunnisteet näihin aineistoihin. Tuomme muutostöiden ajaksi hankkeiden käyttöön linkkitaulut.

Työmäärästä

Olemme saaneet paljon palautetta tutkijoilta urakan suuruudesta ja monimutkaisuudesta. Ymmärrämme hyvin tutkijoiden turhautumisen aikaa vievään lisätyöhön. Tallennustilan vähyyteen liittyvät huolet ovat myös todellisia. Selvitämme parhaillaan keinoja muutoksesta tutkimushankkeille aiheutuvan työmäärän vähentämiseksi. Kuulemme mielellämme ideoita ja palautetta asiasta. Pahoittelemme työstä johtuvaa vaivaa tutkimushankkeille.

Käytännön vinkkejä

Ohjeet muutoksiin

Tuomme FIONAan hankkeiden käyttöön linkkitaulut, joiden avulla vanhat tunnisteet voi vaihtaa W-asemalla uusiin ja pyytää meiltä tämän jälkeen sähköpostitse aineiston siirtoa D-levylle. Aineiston uudelleen suojaamiseen on olemassa erillinen ohje FIONAn kansiossa D:\keys.

Tuplarivit linkkitaulussa

Shnro-hid_e –linkkitiedostossa on noin 700 hid_e-tunnusta, joihin yhdistyy kaksi eri shnro-tunnistetta. Nämä ovat aina poikkeuksia ja voivat tyypillisesti liittyä esim. henkilötunnuksen vaihtumiseen, josta tieto ei ole päivittynyt meille ajoissa. Tapauksia korjataan koko ajan, mutta aina on jonkin verran korjausta odottavia tapauksia. Toistaiseksi kannattanee hakea shnro:lle hid_e (eikä päinvastoin), niin vastinpareja pitäisi olla vain yksi. Selvittelemme tähän vielä mahdollisia lisäratkaisuja.

Vuosikansiointi tuo keväällä lisää muutostarpeita koodeihin

Tiedotimme jo aiemmin Tutkijapalveluiden tietosuojaprojektin tuloksena keväällä 2026 toteutettavasta valmisaineistojen vuosikansioinnista. Vuosikansioinnilla tarkoitetaan sitä, että ne valmisaineistot, jotka soveltuvat jaettaviksi pienemmiksi tiedostoiksi vuoden mukaan, kansioidaan FIONAssa vuosikansioihin. Tämä mahdollistaa sen, että käyttöoikeuksia valmisaineistoihin voidaan antaa helpommin vain tutkimuksen kannalta tarpeelliselle ajanjaksolle, eikä tästä kerry heti hankkeelle lisäkuluja, kuten aikaisemmin.

Vuosikansioinnin myötä kaikkien valmisaineistojen sijaintikansio FIONAssa muuttuu, mikä aiheuttaa tarpeen huomioida tämä tutkimushankkeiden omissa analyysikoodeissa. Lisäksi jotkin sellaiset aineistot, jotka ovat aiemmin olleet yhtenäisenä aikasarjatiedostona tulevat uudistuksen jälkeen esiintymään erillisinä vuositiedostoina, mikä vaikuttaa myös osaltaan tutkijoiden analyysikoodien toimintaan. Muutoksista ja uusista aineistosijainneista tiedotetaan tarkemmin alkuvuodesta.

Tallennustilan riittävyys

Aineistojen uudelleensuojaaminen tehdään W-levyllä, joka on tilavuudeltaan rajallinen, eli suuret aineistot ovat aiheuttaneet hankaluuksia tutkimushankkeille. Pyrimme siirtämään aineistoja nopeasti D-levylle tilan vapauttamiseksi ja selvitämme mahdollisuuksia kasvattaa tallennustilaa.

Aikataulu

Pseudonymisointiuudistuksen määräpäivä on vappuna, eli 30.4.2026 mennessä. Tähän mennessä kaikki tunnisteet tulisi siis olla muutettu uusiin pseudotunnisteisiin.

Vanhoilla shnro-tunnisteilla suojattuja aineistoja ei enää tutkijapalveluissa tehdä, eli FIONAn shnro_suojattu-kansioihin ei enää toimiteta uutta aineistoa.

Vuosikansiointi toteutetaan suunnitelman mukaan helmikuussa 2026. Suunniteltu siirtymäaika vanhan ja uuden kansiorakenteen välillä on kevät 2026.

Notice on Pseudonymisation Updates

What and Why?

The pseudonymisation solution of Research Services is being updated in phases during 2025–2026. The reasons for the update are changes to Statistics Finland’s internal pseudo identifiers and the need to strengthen data protection. The new pseudo identifiers will provide significantly better protection and allow more flexibility in the use of special characters and identifier lengths.

The renewal work has been divided into two phases:

- The first phase, started earlier this year, covered pseudonymisation of companies and other identifiers.

- We are now in the second phase, which focuses on protecting personal identifiers.

Centralised Work by Research Services

Research Services will centrally replace identifiers in continuously updated ready-made datasets. This work began on 5 December, and re-pseudonymisation is being carried out as quickly as possible.

For users, the changes appear as follows: files in dataset folders are replaced with new versions of the same name, where the old shnro identifier has been replaced with the new hid_e identifier. The old version is moved to the shnro_suojattu subfolder, where it remains available during the transition period until 30 April 2026.

What Researchers Need to Do Themselves

Manually delivered datasets—such as customised datasets, non-continuous ready-made datasets, extracts from ready-made datasets, external datasets, and researchers’ own work files—cannot unfortunately be processed centrally due to limited resources. Research projects must therefore replace pseudo identifiers in these datasets themselves. For this purpose, link tables will be provided during the transition.

Workload

We have received extensive feedback from researchers about the scale and complexity of the task. We fully understand the frustration caused by the additional time-consuming work. Concerns about limited storage space are also valid. We are currently exploring ways to reduce the workload for research projects. We welcome ideas and feedback on this matter and apologise for the inconvenience caused.

Practical Guidance

Instructions for Changes

Link tables will be made available in FIONA for projects. With these, old identifiers can be replaced with new ones on the W-drive, after which the dataset can be transferred to the D-drive upon request by email. A separate instruction for re-pseudonymisation is available in the FIONA folder D:\keys.

Duplicate Rows in Link Tables

The shnro-hid_e link file contains about 700 hid_e identifiers that are linked to two different shnro identifiers. These are always exceptions, typically related to changes in personal id codes (hetu) that have not been updated in time. Such cases are being corrected continuously, but some pending corrections will always remain. For now, it is advisable to search for hid_e based on shnro (rather than the other way around), as this should yield only one match. We are investigating additional solutions for this issue.

Annual Foldering Brings Further Code Changes

As previously announced, the data protection project of Research Services will introduce annual foldering of ready-made datasets in spring 2026. Annual foldering means that datasets suitable for division by year will be organised into yearly folders in FIONA. This enables granting access rights only for the period relevant to the research, without additional costs to projects.

With annual foldering, the location folders of all ready-made datasets in FIONA will change, requiring adjustments in research projects’ analysis codes. In addition, some datasets previously available as continuous time series will be split into separate yearly files, which will also affect analysis codes. More detailed information on these changes and new dataset locations will be provided early in the year.

Storage Capacity

Re-pseudonymisation of datasets is carried out on the W-drive, which has limited capacity. Large datasets have therefore caused difficulties for research projects. We aim to transfer re-pseudonymised datasets quickly from the W-drive to the D-drive to free up space, and we are exploring options to increase storage capacity.

Timeline

The deadline for the pseudonymisation update is 30 April 2026. By this date, all identifiers must be converted to new ones.

Datasets protected with old shnro identifiers will no longer be produced by Research Services, meaning no new data will be delivered to FIONA’s shnro_suojattu folders.

Annual foldering is scheduled for February 2026, with a planned transition period between the old and new folder structures during spring 2026.

Tilastokeskus

Työpajankatu 13, 00580 Helsinki

Tietopalvelu: info@stat.fi, p. 029 551 2220

Tietosuojaseloste