Hyvä Data

Tietoa asiakasdatan hyödyistä
Data In, Delight Out
Tilaa Hyvä Data-uutiskirje



HYVÄ DATA – LÖYDÖKSIÄ LYHYESTI
Erityisesti some-algoritmeihin liittyen on keskusteltu laajasti ollut kuplautumisen ja polarisoitumisen riskit. Samantapaisia ajatuksia sisältävä vahvistava kaikukammio-dynamiikka, johon liittyvä “filter bubble” -käsite on ollut esillä vuodesta 2010 lähtien. Tutkimuksissa on ilmiön äärellä havaittu eroja eri platformien välillä. Äskettäin julkaistiin mielenkiintoinen tutkimus, jossa käytettiin aitoja suosittelujärjestelmiä USA:ssa ja Saksassa maahanmuuttouutisointiin liittyen (“Putting ‘filter bubble’ effects to the test: evidence on the polarizing impact of ideology-based news recommendation from two experiments in Germany and the U.S”, Ludwig et al, 2024). Tutkimustulosten mukaan kuplautumisvaikutus oli melko vähäinen: “….impact of algorithmic content selection on polarization seems to be rather limited in total”. Tämän tärkeän aihepiirin tutkiminen erilaisilla tutkimusasetelmilla jatkuu. Platformien jatkuvat sisällön suosittelualgoritmien muutokset eivät helpota tutkimusmaastoa.
Yksilöllinen oman datan, tutkimustiedon ja AI:n yhdistämiseen perustuva hyvinvoinnin ja terveyden itsediagnostiikka on kasvava sektori. Kosmetiikan sektorilla AI, analytiikka ja asiakkaan oma data ovat vahvasti tulossa asiakkaan arkeen. Haut.ai on palveluntarjoaja, jonka AI-teknologiaa käyttävät monet teknologiabrändit. Tutkimustietoon, miljooniin datapisteisiin ja asiakkaan omaan kuvan analyysiin perustuva AI-teknologia antaa asiakkaalle henkilökohtaisia suosituksia ja hoito-ohjeita. Dovella on omia sen tuotteisiin kytkeytyviä LLM-työkaluja kuten “Dove’s Scalp + Hair Therapist”. Tällaisten “I’m your AI-powered XYZ therapist”-tyypisten työkalujen lanseeraus asettaa korkeita vaatimuksia algoritmien läpinäkyvyydelle, taustatutkimuksen laadulle, eettisyydelle ja datan asianmukaiselle käsittelylle.
CGD eli Citizen Generated Data on kansalaisten ja erilaisten yhteisöjen jäsenten tuottamaa hyötydataa, jota käytetään hyväksi mm.
- kriisi- ja katastrofitilanteiden tilannekuvan tarkentamisessa
- erityisryhmien arjen ongelmien havaitsemisessa ja kartoittamisessa
- auttaa ympäristötuhojen havainnoinnissa ja torjunnassa, esimerkiksi Australiassa ja Ghanassa vesistöjen roskaantumiseen liittyen.
Suomessa hyödynnetään mm. lintuharrastajien tuottamaa dataa (Tiira-hanke), kansalaisten sinileväraportointia sekö muuta vesistöjen havaintodataa. YK:ssa kokoontui reilu vuosi asiantuntijoita yli 100 maasta YK:n Statistical Commissionin (UNSC) kokoukseen CGD:n äärelle ja pöydällä oli “Copenhagen Framework on Citizen Data“, jonka tavoitteena on edistää CGD:n keräämistä, systematisointia, laatua ja yhdistämistä viranomaistilastointiin. Crowsourcing-konseptit ja näissä erityisesti appsien avulla tapahtuva kuva- ja videomateriaalien kerääminen tuottaa tärkeää täydentävää dataa monilla yhteiskunnan sektoreilla.
Yksi CGD:n osa-alue on Citizen Data Science, jossa kyvykkäät kansalaiset ja kansalaisyhteisöt tuottavat julkisesta datasta ymmärrettävää dataa ja sen visulisointia julkisuuteen. Tämän tyyppinen toiminta aktivoitui eri maissa esimerkiksi pandemian aikana, jolloin tällaisen toiminnan laadukkaat tulokset levisivät tehokkaasti täydentäen ja jopa korvaten viranomaisten dataviestintää. “The citizens have clearly helped underpin the government’s communication. They have influenced some of the Government’s important initiatives. Partly, because some of them worked faster than the health authorities, and partly, because some were able to point to previously uncovered perspectives (Sine Zambach, Copenhagen Business School)”.
Vuonna 2023 Vietnamissa koneoppimisen avulla saatiin datasta 94% todennäköisyys ennustaa
kakkostyypin diabetesta. USA:ssa julkaistiin 2019 saman tyyppinen tutkimus, jossa datan
syvyyksistä löytyi tärkeä elementti: Data ennusti kakkostyypin diabeteksen syntyä aiempaa selvästi paremmin myös niillä henkilöillä joilla ei ollut perinteisiä riskitekijöitä.
Vastasyntynyt kerää kirjaston verran dataa ensimmäisenä elinpäivänään
Systeeminen kehittäminen on aina nojannut dataan ja ymmärrykseen.
Tietopääomasta kumpuava tilannekuva on olennainen kaikelle kehitykselle.
Monet tekoälyn parhaat käyttötapaukset nojaavat omaan dataan.
Datan, asiakasdatan ja analytiikan hyödyt yhteiskunnalle ja yrityksille ovat valtavat.
Kyky kerätä, jalostaa ja hyödyntää yrityksen omaa dataa on kriittinen kilpailutekijä.
Meidän DNA:mme on silkkaa dataa.
Datan hyödyt jäävät usein uhkapuheen katveeseen.
“It is a capital mistake to theorize before one has data”
– Sherlock Holmes