Autor: Marek Mühlberg • 21. mai 2018

Tähelepanu! Artikkel on enam kui 5 aastat vana ning kuulub väljaande digitaalsesse arhiivi. Väljaanne ei uuenda ega kaasajasta arhiveeritud sisu, mistõttu võib olla vajalik kaasaegsete allikatega tutvumine.

Erki Kert: suurandmete ignoreerija riskib marginaliseerumisega

Big Data Scoring juht ja kaasasutaja Erki Kert

Foto: Raul Mee

Suurandmetel põhinevat krediidiriski hindamise teenust pakkuva ettevõtte Big Data Scoring tegevjuht Erki Kert tõdeb, et ettevõtted, kes täna ignoreerivad suurandmete rakendamisega seotud võimalusi, riskivad konkurentsipositsiooni nõrgenemisega. Kerti sõnul on suurandmete analüüs võimaldanud pankadel suurendada laenuandmist kuni 30%.

Millega riskivad ettevõtted, kes täna suurandmete kogumisse, töötlemisse ja analüüsi ei panusta?

Suurandmete mõiste selle tänasel kujul kerkis esimest korda avalikkusesse veidi enam kui 10 aastat tagasi, mil ajakiri WIRED esimese põhjaliku selleteemalise loo avaldas. Seega on kahtlemata tegemist väga uue ja värske nähtusega, mille tegi võimalikuks andmetöötluse ja andmete säilitamise võimaluste plahvatuslik kasv. Kuigi tegemist on väga uue valdkonnaga andmeanalüüsis, siis turg on selle kasutuselevõtmises olnud üllatavalt kiire ning tänaseks on valdkondi, mis suurandmete analüüsist kasu lõikavad, juba väga erinevaid (alustades filmisoovitustest kuni kuritegevuse prognoosimise, turundussõnumite edastamise ja kliimamuutuste ennustamiseni).

Peamine risk suurandmete ignoreerimise juures seisneb täna ettevõtte jaoks konkurentsipositsiooni nõrgenemises. Suurandmed on rohkem või vähem jõudnud pea igasse ärivaldkonda ning nende kasutamine jätkub kiire kasvu tempol. Ettevõtted, kes selle vankriga kaasa ei lähe riskivad konkurentidele allajäämisega. Seda on juba eredalt näha kaubanduses, kus edu saavutavad need, kes kliendi soove paremini prognoosida oskavad, logistikas, kus suurandmete analüüs aitab lühendada kaupade kohaletoimetamise aega, meelelahutustööstuses, kus algoritmid inimesi kauemaks ekraanide külge naelutavad, jne. Mõnes mõttes võib suurandmete analüüsi jõulist pealetungi võrrelda ka interneti saabumisega, kus suur osa ärist on tänaseks päevaks internetti liikunud.

Millistel ettevõtetel on täna enim võita suurandmetest?

Enim on suurandmetest võita kahtlemata ettevõtetel, kelle käsutuses on suured andmehulgad. Väiksel juuksurisalongil on suurandmete kasutamine kahtlemata raskendatud, kuna paarikümne kliendi juuksemood vajalikku sisendit analüüsiks ei paku. Teisalt tuleb aga tunnistada, et ega ettevõtted isegi tihti ei adu, millised andmed ja kui palju nende valduses on. Sageli on andmed laiali mitmetes andmebaasides, asukohtades või arvutites ning hea ülevaade kõikidest olemasolevatest andmetest puudub. Seega esimese sammuna tuleks esmalt läbi viia andmete inventuur, et nende seisust ülevaade saada. Ning seejärel saab hakata mõtlema andmete kasutamise peale.

Kompetentsi osas on lood Eestis võrdlemisi keerulised, kuna häid inimesi leidub turul vähe. Inimeste vähesuse võib paljuski kirjutada selle arvele, et suurandmete analüüs on võrdlemisi uus tööstusharu ning seega pole koolidel olnud piisavalt aega veel häid spetsialiste koolitada. Samuti on põhjuseks suurandmete analüüsi interdistsiplinaarsus - ei piisa vaid statistika või IT alastest oskustest, vaid tarvis on inimesi kes on ühtviisi head nii statistikas, matemaatikas, programmeerimises kui ka kliendispetsiifilises ärivaldkonnas endas (st väga raske on leida universaalset suurandmete analüütikut, vaid seal omakorda on vajalik spetsialiseerumine turunduse, maksevõime hindamise ja muude valdkondade lõikes). Ei piisa vaid tehnilistest oskustest, vaid tarvis on aru saada ka rakendusvalkonna loogikast ja seda ümbritsevast ärist.

Mis on tüüpilised vead, mida ettevõtted teevad suurandmetega töötamise osas?

Esimesed vead saavad reeglina alguse andmete salvestamisest - andmed on laiali erinevates andmebaasides, neil puuduvad ajamärked, andmeid kirjutatakse teadmatusest üle, andmeridu on keeruline kokku viia jne. Järgmiseks sammuks on andmete töötlemine, kus peamiseks veaks on selle faasi alahindamine. Vaadates, kuidas me ehitame maksevõime hindamise mudeleid, siis tihti kulub justnimelt andmete eeltöötlemisele suurim aeg kogu analüüsist.

Paraku näeme aga paljude ettevõtete juures, et selle faasi raames tahetakse kurve sirgeks sõita. Ja viimaseks, andmete analüüsimisest rääkides, tulen tagasi varem mainitud punkti juurde, et analüüs nõuab ärivaldkonna-spetsiifilist teadmisi. Lihtsustatult võib öelda, et sisuliselt iga matemaatika või statistika lõpetanud tudeng oskab tehniliselt ehitada statistilisi mudeleid, kuid selliseid mudeleid, mis ka reaalses elus töötavad, oskavad ehitada väga vähesed. Peamine erinevus töötava ja mittetöötava mudeli vahel tulebki valdkonnaspetsiifiliste teadmiste nappusest.

Kuidas mõjutab suurandmete kogumist ja töötlemist GDPR?

Me vaatame GDPRi jõustumist üldiselt positiivsetes toonides ning on hea, et andmetöötluse valdkond saab konkreetsemad raamid. Kõige olulisemaks vast kogu GDPRi juures on inimeste informeerimine andmete kogumisest ja kasutamisest. Teisisõnu on isikuandmete kogumiseks töötlemiseks pea alati vajalik inimese varasem nõusolek. Andmete turvalisuse tagamine saab GDPRi raames samuti tähelepanu, kuid ma loodaks et ettevõtted võtsid seda valdkonda ka varem piisavalt tõsiselt, nii et uue regulatsiooni raames siin suuri muudatusi tarvis pole teha.

Kui täpselt on võimalik suurandmete abil inimese käitumist ennustada või kliente profileerida?

Suurandmete analüüsi täpsuse määrab väga suures osas ära siiski töötlemiseks kättesaadava info hulk ja kvaliteet (1000 inimese käitumise pealt tervele populatsioonile järeldusi tehes täpsete tulemusteni ei jõua). Seega peaks esmalt kriitiliselt üle vaatama andmete hulga ning selle järgi täpsuse osas realistliku ootuse kujundama. Seejärel võib modelleerimisega peale hakata. Kui andmeid on piiratud koguses, tuleb reeglina analüüsi eesmärk seada võimalikult kitsalt, et häid tulemusi saada. Kui andmeid on rohkem, on võimalik neid ka laiemalt defineeritud eesmärkide tarbeks kasutada. Oma praktikast oleme näinud, et tänu suurandmete kaasamisele on pankadel keskmiselt võimalus laenuandmist suurendada ca 30% võrra (st paljud inimesed, kes enne said pangast negatiivse krediidiotsuse, saavad tänu suurandmete kasutamisele positiivse). Samuti on pankadel lihtsam juhtida halbade laenude osakaalu.

Suurandmetel põhinevat krediidiriski hindamise teenust pakkuva ettevõtte Big Data Scoring tegevjuht Erki Kert esineb 12. juunil Äripäeva ITuudiste korraldataval parimate praktikate seminaril „Kuidas edukalt rakendada tulevikutehnoloogiaid ja nutikalt juhtida strateegilisi IT projekte?“ Registreeru sündmusele siin: http://www.ituudised.ee/ITprojektid

Hetkel kuum

Eesti IT-juht oma ühest peamisest väljakutsest: kõik tõstavad hindu

Loe, mida kliendid Eesti IT-firmadelt seoses tehisintellektiga enim küsivad

Haigla IT-juht: partnerid pole harjunud, et peame andma järele kiiruses ja tagama kvaliteedi

Uute teenuste väljatöötamine paneb Telia suures mahus värbama

Uus digilahendus näitab, kui suur on meeste ja naiste palgalõhe

Liitu ITuudiste uudiskirjaga!

Loe lisaks

IT projektide parimate praktikate seminarile saab täna veel soodushinnaga

TARGO TENNISBERG: Arendaja peaks olema professionaalne ja tellijat hoiatama, et ta endale jalga ei tulistaks

Organisatsioonide muutmine tarkvara-jurakaid ei kannata

tarkvara