Autor: ITuudised.ee • 8. veebruar 2022

Kumba keelt andmeanalüüsiks õppida – kas valida R või Python?

Andmete analüüsimiseks on väga palju võimalusi, ka andmekogumise eesmärgid on pidevas muutumises. Kuidas saada hakkama olukorras, kus andmeid tuleb koguaeg juurde?
Koolitajad Raul Nugis ja Indrek Seppo.

Nii soovitakse praegu saada aastakokkuvõtteid: mis lugu x numbrid räägivad ning miks y numbrid sellised on!? Andmespetsialistid, kes peavad ka andmemudeleid ehitama, valivad selleks mõne programmeerimiskeele. Igal keelel on omad plussid ja miinused – miks valitakse R keel või Python?

Selline küsimusepüstitus tekib pidevalt, kuna mõlemad – R ja Python – on tunnustatud analüütikute töövahendid, mis on andmeteaduse tööriistakastis ülekaalukalt levinud. Andmeanalüütikuks pürgijad esitavad seetõttu pidevalt küsimusi nende kahe kohta ja kuigi kogenud spetsialistilt oodatakse, et ta oskab kasutada mitut tööriista, kujuneb esimene valik tavaliselt kõige käepärasemaks.

Mõistagi ei ole õppija vaates kõige mõistlikum võtta mitme töövahendi õppimine korraga ette. Paras pingutus on juba ühe programmeerimiskeele omandamine – eriti, kui see on esimene. Enne valikut tuleks siis läbi mõelda, mida täpsemalt teha tahetakse ning mis keel on ettevõttes/osakonnas kasutusel.

Siin artiklis me ei ütle, kumb on õigem keel andmetega töötamiseks. Kui soovid õppida programmeerimiskeelt andmetega töötamiseks, siis nii Pythoni kui R-keel on selleks suurepärased. Toome välja mõned punktid, millele mõelda.

Python on levinud, eriti alustajate seas

Python on üks populaarsemaid programmeerimiskeeli, eriti alustajate seas. Põhjus on lihtne – selle õppimine on üsna kerge, süntaks on lihtne, mis muudab Pythoni õppimise, lugemise ja kasutamise kergemaks.

Kasutust leiab Python nii tarkvaraarenduses, veebiarenduses kuid ka andmeteaduses. Üldiselt saab Pythoniga samu ülesandeid teha nagu R keelega. Pythonit eelistatakse tihti nii masinõppemudelite ehitamisel, eriti sügavõppe (deep learning) mudelite puhul. Kuid Pythoni statistiliste meetodite teegid pole nii rikkalikud.

Mõned plussid Pythoni kasutamisel

Kel on arenduses juba kogemus olemas, siis on andmetöötluses Pythonit lihtsam rakendada.

Python pole ainult programmeerimiskeel, mida saab kasutada andmeanalüüsis, ta on programmeerimiskeelte tipus ning on valitsevaks töövahendiks väga mitmes valdkonnas. Ühelgi teisel programmeerimiskeelel pole välja arendatud nii palju tööriistu. Seetõttu saab Pythoniga teha väga erinevaid asju. Näiteks IT-inimesed saavad lahendada Pythoniga probleeme logistikas, fintech-sektoris, krüptoga kauplemisel jne.

Pyhtoni õppimine on kergem ka tänu koodi lihtsusele ja "lugemisvõimekusele".

R keelel on oma spetsiifiline tugevus

R keel ei konkureeri Pythoniga populaarsuselt, kuid erinevalt üldotstarbelisest Pythonist on see mõeldud üheks ja ainult üheks asjaks – andmete analüüsiks. R on kirjutatud andmeanalüütikute poolt andmeanalüütikutele. Nii ei ole imestada, et ka Pythoni andmeanalüüsimoodulid on tihti Ri pealt kopeeritud ja ühe keele oskus võimaldab teises – vähemalt andmeanalüüsi poole peal – lihtsalt hakkama saada.

Eriti populaarne on R just andmespetsialistide ja statistikute seas. Esiteks sellepärast, et see keelel on üks rikkamaid ökosüsteeme kümnete tuhandete teekidega. Eriotstarbelised teegid leiduvad pea kõikide andmeanalüüsiga seotud ülesannete jaoks. Seetõttu annab väga lai teekide valik R keelele eelise mitmetes valdkondades.

Ri eriliseks tugevuseks peetakse mugavaid andmegraafika võimalusi, mille abil nii andmeid uurida kui tulemusi kommunikeerida. Palju kasutatakse R Markdowni, mis võimaldab mugavalt nii raportite kui juhtimislaudade loomist.

R on teatud mõttes andmeanalüüsi avangard, kus testitakse uusi ideid, mis seejärel teistesse keeltesse (eeskätt Pythonisse) levivad. Moodsat Ri peetakse elegantseks, intuitiivseks viisiks andmeid töödelda, analüüsida ja kommunikeerida.

Arendajaid on vaja nii praegu kui tulevikus

Lisaks on sel keelel suurepärane akadeemiline tugi, mis hõlmab ülikoole, laia profiiliga teadlasi – nii andmete, statistika, kui ka näiteks sotsiaalvaldkonna alal – ning kõiki, kes piisava akadeemilisusega enda uurimistöös andmetele tuginevad.

R on laialdaselt kasutusel ka riigiametnike seas. Eesti statistikaamet kui tulevane üleriigiline andmete kompetentsikeskus on R keele võtnud de facto enda standardiks.

Riigipoolsetes n-ö krattides on R keel samuti väljapaistvalt kasutusel, see tähendab ka seda, et selle arendajaid on vaja nii praegu kui ka tulevikus.

R on algusest peale mõeldud andmeanalüüsi jaoks – kui eesmärk on peamiselt andmeanalüüs, on seda Pythonist lihtsam õppida, samas on siit saadud teadmised otse ülekantavad Pythonisse. Ka keerulisi statistilisi mudeleid saab enamasti jooksutada vaid mõne koodireaga.

Kokkuvõte – kas siis Python või R?

Eelneva tõttu võib küll teha järeldusi, et R keel on pigem asendamatuks, kui on vaja pühenduda uurimistööle ning puhtakujulisele andmemudeldamisele, olles sellega väärika analüütikute ja teadlaste community liige.

Python aga on küllalt asendamatu tööstuslik töövahend – pea kõik nutikad rakendused: otsingumootorid, kaardid, uudiste agregeerijad, isekauplevad algoritmid, vastavuskontrolli platvormid, seadmete ja sensorite juhtimiskonsoolid, pildituvastuse, kõnesünteesi ja tõlkemootorid, veebikraapijad ja "nuhid", chat- ning click-bot'id, pildituvastusprogrammid, pilvepõhised tehisintellekti teenused ning kõikvõimalikud tasuta ja tasulised teenusepõhise rakendamisvõimekusega lahendused toetavad just nimelt Pythonit.

Nii Pyhtonit kui ka R keelt on võimalik õppida IT Koolituses. Pythoni koolituse kohta saab lähemalt lugeda siit. R keele kohta saab lugeda siit.

Kimberly Remmelg (IT Koolitus), Raul Nugis (KMPG), Indrek Seppo

Jaga lugu
Ituudised.ee toetajad:
Indrek KaldITuudised.ee toimetajaTel: 511 1112
Kent-Erik SchwedeReklaamimüügi projektijuhtTel: 509 8932