Skip to content

Euroopan Unionin tekoälysäädöksen vaatimuksia – miten datakatalogi on avuksi?

city

Euroopan Unionin tekoälysäädöksen (EU AI Act) hyväksynnän odotetaan tapahtuvan vuoden 2023 kevään aikana, ja sen ytimessä on muun muassa datan hallinta. Luonnosvaiheessa olevan tekoälyasetuksen Artikla 12:ssa** 'Tietojen säilyttäminen' todetaan, että 'Lokitusvalmiuksilla on varmistettava sellainen tekoälyjärjestelmän toiminnan jäljitettävyyden taso koko järjestelmän elinkaaren ajan, joka on oikeassa suhteessa järjestelmän käyttötarkoitukseen'.

Datakatalogi on datan ja sitä kuvaavien ja määrittelevien metatietojen hallintaratkaisu, joka kerää, yhdistää ja hyödyntää erilaisia tietoja luodakseen informatiivisen kokonaiskuvan organisaation dataresursseista. Hyvin tehtynä datakatalogi tarjoaa eri kohderyhmille selkeän ymmärryksen datasta liiketoiminnan käsitteistä aina siihen saakka, miten ja minkälaisiin tallennusratkaisuihin nämä käsitteet rakennetaan. 

 

AIGA – AI Governance and Auditing -ohjelma

Vuoden 2022 aikana valmistunut kansallinen tekoälyn hallinnan ja auditoinnin projekti AIGA* kirkasti sen, että vastuullisen tekoälyn ytimessä on datan ymmärtäminen ja hallinnointi. Datakatalogi mahdollistaa datan ymmärtämisen, datan lähteiden dokumentoinnin ja datan laadun varmistamisen myös tekoälyratkaisulle.

Olemme huimaa vauhtia siirtymässä perinteisestä metadatan hallinnasta kohti tekoälyn vastuullisen datan hallinnointia. Yhä enemmän on tarvetta ymmärtää, mistä data tulee ja mihin käyttöön data menee – tekoälyn algoritmien opettamiseen ja testaamiseen käytetyn datan historia tulee tuntea. Meille se tarkoitti vuoden 2023 ensimmäisten viikkojen aikana Loihteen tekoälyhallintamallin käyttöönottoa, jossa yhtenä osana on datan alkuperän ja laadun varmistaminen. Datakatalogi on tärkeä mahdollistaja tekoälyn hallinnassa.

Datakatalogin tekniset ja operatiiviset metatiedot mahdollistavat esimerkiksi datan laadun varmistamisen. Katalogista löytyy myös tieto siitä, kuka on tallentanut datan, milloin, missä muodossa ja minne, ja mikä versio datasta on tällä hetkellä käytössä. Datakatalogin avulla voidaan myös kuvata käyttöoikeudet, datan käyttötarkoituksen määrittelyn kuvaukset (esimerkiksi tietosuoja tai datan lisenssi) ja sen jälkeen tarvitulle datalle voi anoa käyttöoikeudet. Datakatalogin käyttö lisää läpinäkyvyyttä ja tekemisen tehokkuutta.

Kun hyväksi havaitut datanhallinnan toimintatavat ja periaatteet on määritetty, ne on vietävä käytäntöön myös operatiiviselle tasolle tekoälyratkaisun toteutuksessa. Datakatalogi on tärkeä perusta organisaation datanhallintaan ja datanhallinnointiin tekoälyratkaisuja varten.  

Datakatalogissa itsessään voi ja tulee myös olla tekoälyä, esimerkiksi luonnollisen kielen prosessointia (Natural Language Processing). Tällöin tekoälyä hyödyntäviä toiminnallisuuksia voisivat olla vaikkapa datakatalogin sisällön tarkistus, kuvausten yhdenmukaisuuden automatisointi sekä päällekkäisyyksien ja epäloogisuuksien poistaminen – eli manuaalisen työn vähentäminen. 

  

Miksi käyttää datakatalogia tekoälyhankkeissa – datan jäljitettävyys ja laatu 

Datakatalogin metadata tukee käyttäjiä kolmessa eri dimensiossa;  

  • Tekninen: milloin data on viimeksi päivitetty, mistä lähteestä jne.
  • Operatiivinen: esimerkiksi tarkistussäännöt
  • Liiketoimintaa tukeva: esimerkiksi konteksti mistä datasta on kyse  

Datan käyttäjä pystyy datakatalogia tutkimalla arvioimaan, mitä dataa voisi parhaiten käyttää, mistä lähteestä data löytyy ja miten sitä voisi yhdistellä, kun datalähteet ovat isoja ja osin myös hajanaisia: käytetäänkö talven lämpötilojen mittaukseen celsiuksia vai fahrenheiteja? Kaikki tekijät hyötyvät siitä, että data on yhdistetty hyvin operatiiivisen järjestelmän tietoihin.

Voi esimerkiksi olla kyse datalake-ratkaisusta, jossa on erinäisiä määriä erilaisia tiedostoja, joista siirretään dataa SQL-tauluhin ja siitä edelleen käyttöön. Datakatalogi yhdistää operatiivisen liiketoiminnan maailman ja fyysisen datamaailman toisiinsa.  Jotta datan jäljitettävyys toimisi datakatalogin avulla, Data Engineer on kirjoittanut rivin koodia joka kertoo, että luodun ohjelmointirajapinnan kautta tieto datan sijainnista siirtyy datakatalogiin automaattisesti tai datakatalogi urkkii automaattisesti datan sijainnin. 

Tekoälyratkaisujen kehittämistyön ympäristöt voivat olla semi-automaattisia, jolloin data engineer konfiguroi koko datapolun tarpeen mukaan. Ne voivat olla myös automaattisia, jolloin tekoälyalusta kirjaa datapolut tekoälymallin luomisen eri vaiheissa.  

 

Miten me haluamme viedä datakatalogin käyttöä eteenpäin tekoälyn hallinnan tukena?  

Riippuen siitä, missä elinkaaren vaiheessa olet tekoälyn hyödyntämisessä, datakatalogin käyttöönoton hyödyt ja tietotarpeet vaihtelevat. Datakatalogi tekee datasta ymmärrettävää eri tavalla eri käyttäjille, ja sen merkitys on erilainen eri tekijöille. Data Scientistille se mahdollistaa juuri oikean datan löytämisen ja samalla datan vastuullisuuden kriteerien varmistamisen algoritmien luomista varten. Hankkeen liiketoiminnalliselle omistajalle se luo näkyvyyden yli tekoälyhankkeen elinkaaren, ja yrityksen vastuullisuusraportoinnista vastaava saa datakatalogin kautta tarvittavat laatukuvaukset. 

Loihde Advancen asiantuntijat auttavat sinua datakatalogivaihtoehtojen arvioinnissa ja ratkaisun käyttöönotossa.  Ota yhteyttä!

Tekstin on kirjoittanut asiantuntijamme Heidi Hämäläinen.

 

*(ABOUT AIGA / main page - front - Artificial Intelligence Governance And Auditing (ai-governance.eu) 

** Tekoälysäädös: neuvosto kehottaa edistämään perusoikeuksia kunnioittavaa turvallista tekoälyä - Consilium (europa.eu)