Estnltk aitab töödelda eestikeelseid tekste

Tartu Ülikooli Matemaatika-informaatikateaduskonnas on tegeletud juba mõnda aega Estnltk teegi arendamisega, millega on nüüdseks jõutud nii kaugele, et seda saab laiemale kasutajaskonnale tutvustada. Estnltk on kogumik Python 2.7/Python 3.4 teeke, mis pakuvad eestikeelsete vabatekstide töötlemiseks vajalikke baasoperatsioone.

Projekti eesmärgiks on siduda omavahel kokku mitmed olemasolevad vahendid eesti keele töötlemiseks ning võimaldada neid kasutada Pythoni programmides:

- Teksti tükeldamine sõnadeks ja lauseteks

- Morfoloogiline analüüs ja süntees

- Sõnade lemmatiseerimine / stemmimine

- Osalausestamine

- Ajaväljendite tuvastamine

- Nimeüksuste tuvastamine

- Verbiahelate tuvastamine

- Eesti Wordnet'i liidestamine.

„Nimekirjast on küll veel puudu mitmed vahendid, mida meie keeletehnoloogid on välja töötanud, aga olemasolevate baasoperatsioonide hulk on piisavalt suur, et katta suurem osa rakendustele vajalikke kasutusjuhte,“ ütleb projekti meeskonna liigeTimo Petmanson. “Teek toimib nii Linuxi kui ka Windowsiga ja töötab Python2.7 ja Python3.4 versioonidega.“

Vaata lisa:

Installijuhendid ja dokumentatsioon: http://tpetmanson.github.io/estnltk/

Lähtekood: https://github.com/tpetmanson/estnltk

Windowsi installerid: https://github.com/tpetmanson/estnltk/tree/master/dist

Soovitusi, mõtteid, leitud vigu jt ettepanekuid võib esitada Githubi lehel: https://github.com/tpetmanson/estnltk/issues

 

Osale arutelus

  • Meelika Sander-Sõrmus

Toetajad

Raadio ettevõtlikule inimesele

Hetkel eetris

Jälgi ITuudiseid sotsiaalmeedias

RSS

Toetajad

Valdkonna töökuulutused

Tallinna Linnakantselei otsib IT TEENUSTE PROJEKTIJUHTI

Tallinna Linnakantselei

09. märts 2018

Derivco is looking for a QA SPECIALIST

Derivco Estonia OÜ

01. märts 2018

Nortal is looking for a HEAD OF MARKETING

Nortal AS

28. veebruar 2018

Arvamused

Teabevara