
Įsteigus bendrą Vilniaus universiteto Istorijos ir Filologijos fakultetų Skaitmeninės humanitarikos laboratoriją, tyrėjai istorinių dokumentų tyrimų srityje vis drąsiau naudoja šiuolaikines technologijas.
Vienas naujausių šios srities rezultatų – „Vilne-Yiddish“ modelis, skirtas ranka rašytiems jidiš kalbos tekstams atpažinti. Jį sukūrė dr. Sergii Gurbychas, VU Istorijos fakulteto Rytų Europos žydų istorijos tyrimų centro podoktorantūros stažuotojas.
Šis projektas – svarbus žingsnis siekiant padidinti žydų istorinių tekstų prieinamumą taikant dirbtinio intelekto įrankius. Naujausia „Vilne-Yiddish“ modelio versija jau viešai prieinama dr. S. Gurbycho „GitHub“ paskyroje, o kartu su pilnu duomenų rinkiniu bus įkelta į internetinę „Zenodo“ saugyklą iki projekto pabaigos 2026 m. vasarį.
Perskaityti tai, ko negalėjome anksčiau
Dr. S. Gurbycho teigimu, nors spausdintus jidiš tekstus esami įrankiai atpažįsta jau gana tiksliai, rankraščiai vis dar kelia nemažai iššūkių.
„Yra daugybė skirtingų rašysenų ir rašymo būdų, – pažymi jis. – Jie skiriasi priklausomai nuo laikotarpio, regiono ar net socialinio sluoksnio. Šiuo metu mokslininkai, dirbantys su jidiš kalbos šaltiniais, rankiniu būdu perrašo dešimtis autobiografijų, dienoraščių ir laiškų puslapių – tai labai daug laiko ir pastangų reikalaujantis procesas. Su automatinio atpažinimo modeliu šis darbas gerokai spartesnis, nes kiekvienas puslapis apdorojamas nepalyginamai greičiau. Nors modelio sugeneruotą tekstą būtina peržiūrėti ir pataisyti, vienam puslapiui atkurti prireikia daug mažiau pastangų.“
Atgaivinti tarpukario žydų balsai
„Vilne-Yiddish“ modelio mokymui buvo naudotos XX a. 4-ojo dešimtmečio autobiografijos, į Jidiš mokslo institutą (Yidisher Visnshaftlekher Institut, YIVO) susiųstos iš įvairių Rytų ir Vidurio Europos regionų.
Dauguma šių 1933–1939 m. rankraščių neseniai buvo iš naujo atrasti Lietuvos nacionalinės Martyno Mažvydo bibliotekos archyvuose ir iki šiol dar nebuvo suskaitmeninti. Kita tekstų dalis atkeliavo iš YIVO internetinių kolekcijų, suskaitmenintų vykdant Edwardo Blanko YIVO Vilniaus virtualiosios kolekcijos projektą (Edward Blank YIVO Vilna Online Collections Project).
Naudodamasis šiais rankraščių šaltiniais, dr. S. Gurbychas sukūrė duomenų rinkinį – atvaizdų ir tekstų poras, kurios leido dirbtinio intelekto modeliui perprasti jidiš rašybos struktūrą.
„Sukurtas modelis veikia maždaug 95 proc. tikslumu, t. y. dvidešimčiai kalbos ženklų tenka apie vieną klaidą. Rankraščių skaitmeninimo srityje tai geras rodiklis, ypač turint omenyje rašysenų įvairovę“, – teigia jis.

Dr. Sergii Gurbychas. VU nuotr.
Kaip mašinos mokosi skaityti
Kaip ir bet kuris kitas modelis, „Vilne-Yiddish“ geriausiai atpažįsta mokymosi metu jau „matytus“ rašysenos stilius. „Kuo rašysena labiau skiriasi nuo mokymui naudotų pavyzdžių, tuo didesnis ir klaidų skaičius, – aiškina dr. S Gurbychas. – Norint sukurti universalesnį modelį, reikėtų šimtų skirtingų rašysenos pavyzdžių – pageidautina, kelių dešimčių puslapių kiekvienam iš jų, o tam prireiktų milžiniškų kompiuterijos ir laiko išteklių.“
Tokiems atvejams jis siūlo alternatyvų metodą – individualų modelio pritaikymą (angl. fine-tuning): „Jei tyrėjas naudoja bazinį modelį ir turi prieigą prie pradinio duomenų rinkinio, modelį galima patikslinti ir pritaikyti panaudojant vos keletą tiriamos rašysenos puslapių, – sako jis. – Taip modelis išmoksta atpažinti konkrečią rašyseną itin tiksliai – ir tam prireikia gerokai mažiau pastangų bei kompiuterijos išteklių, nei mokant modelį nuo nulio.“
Pagrindinis principas – atviroji prieiga
Tokios veiklos pagrindas – atvirosios prieigos principas. „Tiek pats modelis, tiek jo mokymui skirtų duomenų rinkinys turi būti laisvai prieinami, – pabrėžia dr. S. Gurbychas. – Būtent tai šis projektas ir užtikrina. Daugumai rankraštinių hebrajų kalbos tekstų automatinio atpažinimo modeliuose taikoma ribota prieiga, o „Vilne-Yiddish“ ir jo duomenų rinkinys – laisvai prieinami. Tai reiškia, kad kiekvienas gali jais naudotis, juos modifikuoti ir plėtoti.“
Tyrėjas pažymi, kad iki šiol vienintelis panašus atvirasis projektas buvo „BiblIA“ – viduramžių hebrajų rankraščiams skaitmeninti skirtas duomenų rinkinys, sukurtas Lozanos universitete vadovaujant prof. Danieliui Stökliui Ben Ezrai. Šis internete viešai prieinamas modelis apima daugiau kaip 200 sefardų, aškenazių ir italų rankraščių puslapių.
„Dabar, – teigia dr. S. Gurbychas, – turime šį tą panašaus ir jidiš kalbai – konkrečiai tarpukario laikotarpio jidiš rankraščiams atpažinti skirtą įrankį. Jis padės istorikams ir kalbininkams analizuoti rankraštinius šaltinius, kurie anksčiau automatiniams įrankiams buvo per sudėtingi.“
Žingsnis prieinamesnės istorijos link
Anot dr. S. Gurbycho, nors iki šiol jau buvo sukurti keli jidiš rankraščių atpažinimo modeliai, jie nėra viešai prieinami ir buvo mokomi naudojant kito tipo bei laikotarpio tekstus.
Vienas iš pavyzdžių – „DYBBUK“ modelis, sukurtas vadovaujant Izraelio mokslininkei dr. Sinai Rusinek. Šis įrankis buvo mokomas pasitelkiant XIX a. pabaigos ir XX a. pradžios jidiš teatro pjesių rankraščius. Ribota prieiga prie tokių modelių neleidžia kitiems tyrėjams kurti naujų, tikslesnių jų versijų. „Tikiuosi, kad mūsų projektas prisidės prie archyvinių Rytų ir Vidurio Europos žydų istorijos tyrimų plėtros, – apibendrina jis. – Galiausiai skaitmeninės humanitarikos esmė nėra vien skaitmeninimas ar duomenų analizė – tai visų pirma kultūros prieinamumo didinimas ir pastangos praeities balsus vėl padaryti girdimus.“
Archyvarai ir bibliotekininkai galės paversti nuskaitytų rankraščių paveikslėlius į tekstinius formatus. Transkribuotus dokumentus bus galima indeksuoti, papildyti žymomis ir skelbti internete tokiu formatu, kuris leis atlikti paiešką pagal raktažodžius ir taikyti kitus automatinio apdorojimo metodus. Taip dokumentų rinkiniai, kurie iki šiol buvo pasiekiami tik kaip skenuotų puslapių vaizdai, taps prieinamais sustruktūrintais informacijos šaltiniais.
Durys, atvertos tyrimams ir mokymuisi
Tyrėjams naujai atpažintų tekstų rinkiniai atvers galimybes taikyti modernius analitinius metodus. Įrankiai, skirti, pavyzdžiui, vardams ir pavadinimams atpažinti (angl. Named Entity Recognition, NER), leis iš rankraščių sistemingai išrinkti vietovardžius, adresus ir asmenvardžius.
Užuot skaitę puslapį po puslapio, mokslininkai galės nagrinėti dėsningumus visame dokumentų tekstyne ir taip atrasti naujų istorinių įžvalgų.
Šis modelis panaikina kliūtis ir plačiajai visuomenei – norintiems susipažinti su rankraštinių šaltinių turiniu nebėra būtina mokėti jidiš kalbą. Nuo šiol bet kas galės nukopijuoti atpažintą tekstą ir pasinaudoti internetinėmis vertyklėmis. Dešimtmečius užmarštyje dūlėję laiškai, autobiografijos ir dienoraščiai taps prieinami naujoms kartoms ir ryšį su savo praeitimi siekiančioms atkurti bendruomenėms.
Dėstytojai ir studentai taip pat galės naudoti šiuos rankraščius mokymo bei mokymosi tikslais ir įgyvendinti įvairius universitetinius projektus. Darbas su autentiška archyvine medžiaga skatins aktyvų mokymąsi ir stiprins susidomėjimą žydų kultūros paveldu.
Projektą finansuoja Europos Sąjunga. Parama teikiama pagal „NextGenerationEU“ projekto programą „Naujos kartos Lietuva“.