21. mai 2007
Tähelepanu! Artikkel on enam kui 5 aastat vana ning kuulub väljaande digitaalsesse arhiivi. Väljaanne ei uuenda ega kaasajasta arhiveeritud sisu, mistõttu võib olla vajalik kaasaegsete allikatega tutvumine.

Salapolitsei purustatud toimikud taastab arvuti

Tarkvara loomise ajendiks oli vajadus taastada 45 miljonit lehekülge Ida-Saksamaa salapolitsei Stasi dokumente aastatest 1989-1990, mida hetkel 600 miljoniks tükiks rebituna kasutada ei saa, vahendas pcworldmalta.com.

Puruks rebitud dokumentide fragmendid on hetkel pakituna 16 000 kotis. Paberid on lihtsalt käsitsi puruks rebitud, sest aega nende hävitamiseks jäi väga väheks, et midagi lollikindlamat välja mõtelda. Dokumendid sisaldavad informatsiooni nii koputajate kui ka represseeritute kohta.

Alguses üritati seda hiiglaslikku 600 miljoni tükiga puzzlet käsitsi kokku panna. Vaatamata sellele, et tosin inimest on selle ülesandega juba üheksa aastat tegelenud, kuluks neil töö lõpetamisele veel ligikaudu 400 aastat.

Bertram Nickolay Fraunhoferi instituudist sattus televisiooni vahendusel nägema uudislugu sellest tohutust ülesandest ning talle tuli mõte, et nad suudaksid välja mõelda kavalama ja oluliselt kiirema lahenduse.

Nickolay ja tema meeskonna loodud süsteem läheb kasutusse niipea, kui Saksamaa valitsus kiidab heaks 40 miljoni euro eraldamise projekti finantseerimiseks. Vastavat otsust on oodata käesoleva aasta teises pooles.

Tohutu skaneerimisülesande lahendamiseks pöördus instituut Lufthansa Systems Groupi poole, kelle käsutuses on skännerid, mis saavad hakkama 10 000 värvilise ja kahepoolse lehe skaneerimisega tunnis.

Lufthansa ülesandeks on laotada neli kuni kuus dokumendifragmenti ühele lehele, lisada neile ribakood, skaneerida ja arhiveerida. Kogu arhiveeritavaks andmemahuks peaks olema umbes 100 terabaiti, mis võrdub umbes 40 000 DVD-plaadi mahuga.

Seejärel võtab tööjärje üle Fraunhoferi väljatöötatud süsteem, mis analüüsib iga fragmenti lähtudes kirjastiilist, reavahest, värvusest ja paljudest muudest tunnustest, mida on kokku 25. Programm rühmitab sarnased fragmendid ning üritab neid seejärel kokku sobitada.

Nickolay ennustab, et 100 kuni 120 arvuti ühendatud jõududega suudetakse viie aasta jooksul taastada umbes 90 protsenti dokumentidest. "Ma usun, et umbes 10 kuni 20 protsenti fragmentidest on kas puudu või ei õnnestu teistega kokku sobitada," lisas Nickolay.

Projekti läbiviimiseks kuluv aeg on paika pandud üsna optimistlikult. Eelduseks on, et kokku sobivad tükid asuvad enamasti ühes kotis. "Kui see aga nii ei ole, siis on meil vaja tunduvalt suuremat arvutusvõimsust," ütles Nickolay. Senine töö on õnneks kinnitanud, et 90 protsenti kokkusobivatest tükkidest siiski on üheskoos.

Järgmiseks väljakutseks on paberite suurus. Mõned paberid on lihtsalt pooleks tõmmatud, mõne kallal on aga keegi eriti agar töötaja suurt vaeva näinud ja dokumendi mõne millimeetri suurusteks tükkideks teinud. Selliste fragmentide kokkusobitamine võib osutuda väga keeruliseks ülesandeks ja vajab tõenäoliselt programmi edasist täiustamist.

Fraunhoferi tehnoloogia kasutamise vastu on juba huvi tundnud ka Saksamaa politsei ja USA Föderaalne Juurdlusbüroo (FBI).

Loe ka teisi Novaatori uudiseid.

Autor: ituudised.ee - Äripäeva IKT uudiste teemaveeb

Liitu ITuudiste uudiskirjaga!
Liitumisega nõustud, et Äripäev AS kasutab sinu e-posti aadressi sulle uudiskirja saatmiseks. Saad nõusoleku tagasi võtta uudiskirjas oleva lingi kaudu. Loe oma õiguste kohta lähemalt privaatsustingimustest
Indrek KaldITuudised.ee toimetajaTel: 511 1112
Anne WellsReklaami projektijuhtTel: 5880 7755