Synteettinen data tulee – oletko valmis?

Synteettinen data on markkinatutkimuksen uusi monitoimityökalu. Mutta mitä se oikein on? Lyhyesti synteettinen data on olemassa olevan, esimerkiksi kyselytutkimuksella kerätyn aineiston kasvattamista mallinnuksen avulla.

Markkinatutkimukset perustuvat aina otokseen tutkittavasta populaatiosta – haastatellaan esim. väestöä edustavalla otoksella 1000 suomalaista, joiden vastaukset edustavat siten kaikkia suomalaisia. Mutta koska primääridata (eli alkuperäiset 1000 haastattelua) kattaa vain 1000 haastattelua, ei sitä voi pilkkoa kovin pieniin ryhmiin erillistarkastelua varten. Esim. maakuntatasoinen, puhumattakaan kuntakohtainen, tarkastelu voi osoittautua mahdottomaksi, koska sillä tarkastelutasolla primääridatassa ei ole tilastollisessa mielessä riittävästi havaintoja. Tässä kohtaa synteettinen data voi tulla avuksi. Synteettinen data yrittää mallintaa alkuperäisen datan todennäköisyysjakaumaa ja tuottaa siitä lisää “uusia” havaintoja, jotka ovat tilastollisesti samanlaisia, mutta eivät kuitenkaan samoja.

Mitä synteettinen data tekee ja mitä hyötyä siitä on?

Primääridata eli alkuperäinen kyselytutkimusaineisto on siis aina vain otos jostain tuntemattomasta todellisesta jakaumasta (asiakkaiden käyttäytyminen, ostot, preferenssit jne.). Vaikka meillä olisi haastateltu 5 000 asiakasta, emme oikeasti tunne “totuutta” kaikista 150 000 asiakkaastamme – meillä on vain valistunut arvio siitä, miltä vastausjakauma näyttää eri kysymysten kohdalla.

Synteettisen datan generointi tekee seuraavaa:

Ensin opimme mallin olemassa olevasta primääridatasta (esim. yhteydet muuttujien välillä, jakaumat, korrelaatiot, segmenttirakenteet)
Sitten arvomme lisää havaintoja perustuen em. opittuun malliin

Eli käytännössä emme kopioi dataa, vaan synnytämme uutta dataa opittuun tilastolliseen malliin perustuen. Kyse on koneoppimisesta (machine learning).

Synteettisen datan hyöty on muun muassa se, että voimme generoida lisää vastauksia alueille, joissa havaintoja on muuten liian vähän, kuitenkin säilyttäen riippuvuudet eri muuttujien välillä. Näin voi tulla mahdolliseksi nähdä ja tunnistaa ilmiöitä tai segmenttejä ko. alueilla, jotka olisivat muuten jääneet huomaamatta.

Mallinnus on aina mallinnus

Toki synteettinenkään data ei ole totuus, kuten ei ole mikään otokseen perustuva tutkimusaineisto. Generointimalli tuo mukaan rakenteellisen oletuksen datasta: oletamme, että data noudattaa jatkuvaa rakennetta ja että tietyt korrelaatiot ovat oikeita ja pysyviä. Malli ei reagoi liikaa satunnaiskohinaan, vaan oppii “yleiskuvan” datasta. Synteettinen data siis vahvistaa signaalia suhteessa kohinaan.

Emme voi luoda uutta informaatiota

Huom! Synteettinen data ei lisää oikeaa informaatiota maailmasta. Se vain pakkaa ja levittää jo olemassa olevan datan rakenteen paremmin. Samoin se toimii huonosti, jos alkuperäinen data on pahasti vinoutunutta tai siitä puuttuu kokonaisia ilmiöitä – silloin synteettinen data vahvistaa virhettä. Siksi laadukas primääridata eli hyvin tehty kyselytutkimus on erityisen tärkeä kaiken mallinnuksen taustalla.

Miksi synteettinen data toimii

Synteettinen otoskoon kasvattaminen toimii käytännössä, koska se vähentää satunnaisvaihtelua ja parantaa jakauman peittoa generoimalla lisää havaintoja opitusta tilastollisesta mallista — ei siksi, että se loisi uutta tietoa, vaan siksi että se tekee olemassa olevasta tiedosta helpommin opittavaa. Eli se generoi tutkijalle lisää tulkittavaa aineistoa silloin, kun primääridata on liian vähäistä luotettavien analyysien tekemiseksi.

Synteettinen Suomi

Synteettinen data ei perustu suoraan oikeisiin ihmisiin, vaan on tilastollisesti “oikean näköistä” dataa. Olemme Taloustutkimuksessa rakentaneet Synteettisen Suomen, mikä tarkoittaa sitä, että olemme mallintaneet jokaiselle suomalaiselle ”virtuaalisen kaksosen” perustuen moniulotteiseen kokoelmaan erilaisia tiedossa olevia muuttujia. Siksi voimme analysoida, jakaa tietoja ja testata erilaisia malleja ihan vapaasti ilman GDPR-huolia tai riskiä paljastaa henkilökohtaisia tietoja – tämä on merkittävä hyöty tutkijoille.

Primääridataa on usein vähän, tai sitä on kallista kerätä. Synteettisellä datalla voimme kasvattaa otoskokoa, tasapainottaa harvinaisia segmenttejä (esim. pienet asiakasryhmät), sekä simuloida eri skenaarioita (uudet markkinat, hintamuutokset jne.). Kun kaikkea dataa ei tarvitse kerätä oikeilta ihmisiltä asti, säästyy aikaa ja rahaa.

Synteettinen data on kuitenkin vain niin hyvää kuin primääridata, johon se perustuu. Toiseksi synteettinen data on vain niin hyvää kuin malli, joka sen tuottaa. Se ei koskaan korvaa oikeaa dataa kokonaan, mutta toimii erinomaisena täydennyksenä silloin, kun sellaista tarvitaan.

OTA YHTEYTTÄ