Gépi kézírás-felismerő modell készült az Országos Széchényi Könyvtárban

Printer-friendly versionPDF version
2022/07/07

 

Megjelent az első publikus, magyar nyelvű számítógépes kézírás-felismerő modell. A HTR- (Handwritten Text Recognition-) programot az Országos Széchényi Könyvtár Digitális Bölcsészeti Központja hozta létre, és mindenki által elérhetővé tette a Transkribus nevű szoftver komponenseként. Alapját Kiss Józsefnek, a 19–20. század fordulóján élő magyar költőnek, a Nyugat előfutáraként számontartott A Hét című hetilap szerkesztőjének a szakmai és személyes levelezése képezi. 

A kézírás-felismerést mesterséges intelligencián alapuló algoritmus végzi. Ezt először be kell tanítani, hogy a különféle kézírásokat felismerje, majd a megadott minták alapján felépít egy modellt, amellyel képessé válik arra, hogy egy ismeretlen, általa még nem látott kézírásképet értelmezzen. Minél többféle anyagon tanítják, annál jobban teljesít az egyes szövegeken. A modell először Kiss József, majd a levelezőpartnerek vegyes kézírásán tanult. Az algoritmus csaknem kilencvenszázalékos pontossággal meg tudja állapítani, milyen karakterekből áll a szöveg.

Az eddig felhasznált kéziratok a Petőfi Irodalmi Múzeumban találhatók, a tanulásra felhasznált szavak száma körülbelül 75 ezer. A dokumentumok között szerepelnek borítékok, képeslapok, hagyományos és fejléces levelek, névjegykártyák is. A levélírók Kiss József és családja, illetve a századforduló írói, újságírói és művészei, mint Ady Endre, Móricz Zsigmond vagy Tömörkény István. Ez összesen 300 darab változó hosszúságú és minőségű levelet jelent, amelyeket a DBK folyamatosan közzétesz az olvasók számára. A levélváltások további kéziratai jelenleg is feldolgozás alatt állnak a Petőfi Irodalmi Múzeumban, illetve az Országos Széchényi Könyvtárban.

Az új magyar kézírás-felismerő modell megtalálható a Transkribus asztali alkalmazásban és a webes felületen is.