Teadlased lõid pea võitmatu pokkerimängija

Aastal 1994 pidid inimesed tunnistama masinate paremust kabemängus, kolm aastat hiljem lõi Deep Blue nime kandev arvuti toonast male maailmameistrit Garry Kasparovit. Nüüd on aga asunud arvutid vallutama ka mänge, kus neil pole mängust täielikku ülevaadet. Cepheuse-nimeline algoritm lubab üks-ühele piiratud panustega mängus seljatada iga Hold'em pokkerimeistri.

„Me saame julgelt väita, et kui sa mängiksid Cepheuse vastu 70 aasta jooksul 12 tundi päevas 60 miljonit kätt ja teeksid iga kord ideaalseid otsuseid, ei saaks sa ikka öelda, et olid statistiliselt oluliselt temast parem,“ märkis algoritmi üks loojatest Michael Bowling ERR-ile antud intervjuus. See ei tähenda, et inimmängija üksikuid mänge võidaks, programm on mängijast pikema aja jooksul alati parem. Algoritmi struktuurist pole kasu vaid pokkerimängus, Bowlingi töörühma leitud lahendus võimaldaks teha potentsiaalselt paremaid otsuseid ka näiteks ravi määramisel ja välispoliitika valdkonnas, kus inimestel pole alati kõike otsuste langetamiseks vajalikku teavet käepärast.

Kabest pokkerini

„Kui vaadata tehisintellekti suuremas plaanis ja näha, kuidas liikus see kabest ja malest, kus on mängijal kogu täiuslikeks otsusteks vajalik informatsioon teada, pokkerini, kus on osa infot meie eest pidevalt peidetud, siis võime öelda, et suudame pärismaailmale omaseid probleeme paremini lahendada,“ laiendas Alberta ülikooli arvutiteadlane. Bowling lisab, et strateegiatest, mida saab kasutada male ja kabe ülesannete lahendamiseks, pole lihtsalt kasu.

Kui täiusliku informatsiooniga mängudes saab puhta arvutivõimsuse najal analüüsida, milline käik oleks antud olukorras parim, siis pokkeris pole võimalik masinal isegi öelda, mis mängu järgus täpselt ollakse, kuna arvuti ei tea mängija kaarte. „Kui oletad, et mängija hoiab juhuslikke kaarte, siis teeksid sa halbu otsuseid, sest ta ei tõsta panuseid igasuguste kaartidega, bluffides samas teatud statistilise jaotuse alusel. Üritades leida tõenäosust, mis kaardid siis tal ikkagi on, oled sa aga tagasi esimese küsimuse juures, kuidas ma antud situatsioonis käituma peaksin,“ nentis Bowling.

Hirmuäratavad väljakutsed

Isegi juhul, kui Hold'em pokkerit mängib vaid kaks mängijat ning panuste suurus ja nende tegemise hulk on piiratud, leidub erinevaid mängu lõpplahendusi 3,16x10E17, mängija saab otsuseid teha kokku 3,19x10E14 erinevas olukorras. Aukartustäratava väljakutse lahendamiseks lõi Bowling töörühma eelnevatele lahendustele toetuva õpivõimelise algoritmi. Esialgu tegi programm otsuseid juhuslikult. Ent iga mänguvooru järel analüüsis see enda tehtud otsuseid ja leidis lõpptulemi põhjal, kui palju ta neid kahetses ja kas situatsiooni oleks saanud lahendada teisiti ja paremini.

Bowling otsustas aga alates 2006. populaarsust kogunud lahendusviisi täiustada. „Küsimus on selles, et kui minevikus tehtud otsus tundus kehvana, kuid paistab antud olukorras hea, kuna mõlema mängija strateegijad olid vahepeal arenenud, siis peab programm ootama pikka aega, kuni see tema mängu mõjutab. Meie lahendus näeb aga ette strateegia väga kiiret muutmist, mis kasvatas omakorda hüppeliselt seda, kui kiiresti programm optimaalsele lahendusele lähenes,“ selgitas arvutiteadlane.

Tegu on lihtsustusega, tehnilised väljakutsed olid märksa hirmuäratavamad - kahetsusväärtusi talletav andmepagas ulatus 262 terabaidini. „Me pidime leidma viisi, kuidas seda piisavalt kokku pressida. Kuid isegi 11 terabaiti ei mahtunud töömällu ja pidime selle kettale salvestama. Nii oli vaja leida ka lahendus, kuidas seda vajadusel kiiresti kettalt töömällu saada ja lahti pakkida, algoritmi uuendada jne.,“ märkis Bowling.

Bowling kasutas pea ideaalse mängija loomiseks 4000 protsessorit. Samas lisab ta, et puhttehniliselt oleks saanud seda teha ka kümmekond aastat tagasi teadlaste käsutuses olnud arvutusvõimsusega, edu pandiks oli eeskätt algoritm. Kettal asuvate andmete kasutamine kasvatas arvutusaja pikkust vaid viie protsendi võrra, jättes selle samal ajal võrreldavaks inimmängijate poolt otsuste kaalumiseks võetava ajaga.

Unikaalne mäng

Töörühm leidis lisaks, et mängu parandamiseks üha peenekoelisemate abstraktsioonide kasutamine ei tasu ennast ära. „Mänguteooriat uurivates teadlastes ja pokkeri kogukonnas tekitab see järgnevatel aastatel kindlasti hämmastust. Mida detailsemaid abstraktsioone me kasutasime ja selle võrra perfektsele mängijale lähenesime, seda väiksemaks muutus kiirus, millega me seda tegemine. Pea ideaalse mängija loomiseks oleks pidanud abstraktsiooni suurus olema võrreldav mängu enda suurusega,“ nentis Bowling.

Häirivalt võib see tähendada, et pokkeris pole põhimõtteliselt ühtegi situatsiooni, mis on teisega täpselt võrreldav. Arvutiteadlane möönab samas, et nad ei pruukinud sobilikke lihtsustusi lihtsalt leida.

Pokkerist küberturvalisuse ja meditsiinini

Cepheust online-pokkeri lehekülgedel tulevikus ei kohta. „Kuigi oleks muidugi väga tore sellega teadustööks lisaraha teenida. Peamiselt oli meie motivatsiooniks vallutada siiski programmeerijate jaoks raske mäetipp ja öelda, et me suudame teha, misläbi on see võrreldav Deep Blue või Watsoni saavutustega. Kuid seda tehes demonstreerime me lisaks, et praegune arusaam mänguteooriast võimaldab lahendada näiteks mitmeid küberturvalisuse ja riigi julgeolekuga seonduvaid ülesandeid,“ lisas arvutiteadlane.

Tema enda töörühm on lisaks näidanud, et pokkerimängus kasutatud tehnikat saab rakendada robustsete otsuste tegemises ja tehtavatest otsustest tuleneva määramatusega silmitsi seistes. „Näiteks ei tea arstid kindlalt, kuidas teatud ravi patsientidele mõjub. Neil on muidugi mingisugused mudelid, aga nad tahaks teha robustseid otsuseid, et halva lõpptulemi võimalus oleks võimalikult väike. Tihti taanduvad sellega seonduvad probleemid liiga vähestele andmetele nagu pokkerimängus,“ laiendas Bowling.

Irooniliselt leidub Bowlingi töörühmas vaid hetkel paar inimest, kes pokkerit amatöörtasemel harrastavad. Minevikus kuulus sellesse ka kaks professionaalset mängijat, kellest üks otsustastki teadustöö pokkeri kasuks hüljata. „Üldiselt mängime me seda aga kohutavalt. See demonstreerib aga, et me ei lisa süsteemidesse inimlikku loovust. Avastasime juba aastaid tagasi, et meie enda teadmiste kasutamine muudab taolised algoritmid ainult hullemaks,“ muigas arvutiteadlane.

Cepheuse vastu saab mängida Alberta ülikooli veebilehel.

Uurimus ilmus ajakirjas Science.
Toimetas: Jaan-Juhan Oidermaa

Osale arutelus

  • Meelika Sander-Sõrmus

Toetajad

Jälgi ITuudiseid sotsiaalmeedias

RSS

Toetajad

Valdkonna töökuulutused

Derivco is looking for a SENIOR JAVASCRIPT DEVELOPER

Derivco Estonia OÜ

22. oktoober 2017

Tallink is looking for a SENIOR DEVELOPER

Tallink Grupp AS

31. oktoober 2017

Tallinna Linnakantselei otsib INFOSÜSTEEMIDE ANALÜÜTIKUT

Tallinna Linnakantselei

01. november 2017

Arvamused

Teabevara