"LORIJA" ČUVA SRPSKI JEZIK: Razvijena digitalna platforma koja stara, pisana dokumenta pretvara u mašinski čitljiv tekst (FOTO)
VEŠTAČKA inteligencija (VI) uči iz onoga što postoji na internetu, a najmoćniji jezički modeli današnjice uglavnom se obučavaju na engleskom jeziku, koji čini skoro polovinu sadržaja na mreži. Srpski, međutim, pripada grupi takozvanih nedovoljno zastupljenih jezika. Jezici koji nemaju dovoljno digitalnog materijala polako ostaju izvan nove tehnološke stvarnosti.
Jakov Simović
Upravo zato je u Srbiji razvijena "Lorija", digitalna platforma koja pisana dokumenta pretvara u mašinski čitljiv tekst, pogodan za obuku sistema veštačke inteligencije na lokalnim jezicima. Nastala je iz tehničkog rešenja koje je Matematički institut SANU razvio za Narodnu biblioteku Srbije (NBS) tokom digitalizacije arhivske građe.
Taj sistem može da "pročita" ono što klasični programi uglavnom ne umeju: stare fontove, ono što piše na oštećenom papiru, stranice na kojima se mešaju ćirilica i latinica, tekst raspoređen u više kolona, fusnote, oglase i rukopisne beleške. Program Ujedinjenih nacija za razvoj (UNDP) u tome je prepoznao mogućnost da Srbija dobije sopstveni alat za očuvanje jezika i kulturnog nasleđa u digitalnom dobu.
Jakov Simović
- Dolazi vreme u kome će mašine sve više posredovati između čoveka i znanja - kaže Vid Štimac iz UNDP. - Veštačka inteligencija srpski poznaje mnogo slabije nego velike svetske jezike, jer nema dovoljno kvalitetnih digitalnih podataka na kojima bi mogla da uči. Ako jezik nije prisutan u veštačkoj inteligenciji, vremenom će biti gurnut na marginu svega što dolazi.
Jakov Simović
I greške ispravljaju
OVA platforma nije ograničena samo na srpski jezik - kaže Štimac, dodajući da je, praktično, jezički neutralna:
- U Narodnoj biblioteci koristimo određene modele za srpske novine, ali ako bismo radili sa drugom vrstom teksta ili drugim pismom, mogli bismo da "priključimo" neke druge modele. Interfejs bi ostao isti. U Matematičkom institutu razvijene su i specifične neuronske mreže koje ispravljaju greške nastale zbog stare tipografije i arhaičnog jezika. Softver je besplatan, ali proces nije bez troškova. U Narodnoj biblioteci čitav tim se bavi digitalizacijom.
Tehničko rešenje koje je razvio Matematički institut za digitalizaciju obimne građe Narodne biblioteke, uz podršku međunarodnih partnera iz Francuske i Japana, UNDP je dalje razvio u platformu koju mogu svi da koriste. A, sve je počelo kada su u Parizu predstavljeni rezultati digitalizacije četiri kolekcije iz fonda NBS, što je bio i početak razvoja "Lorije" koji je trajao godinu dana.
Jakov Simović
- Ideja je da "Lorija" bude dostupna svima, bez ograničenja i zatvorenih dozvola, kao digitalno javno dobro, otvorenog koda i bez restriktivnih licenci, koje može da koristi svaka institucija, pojedinac ili istraživački tim - kaže Štimac.
Za srpsku platformu su se odmah zainteresovali u Iraku i Nepalu, gde se razmatra kako bi "Lorija" mogla da bude prilagođena lokalnim jezicima i arhivama. U Iraku se, na primer, testiraju modeli za mesopotamski, arapski i kurdski jezik, kao i sistemi koji bi mogli da prepoznaju specifične strukture njihovih istorijskih dokumenata.
"Nedovoljno zastupljeni jezici"
- TERMIN "nedovoljno zastupljeni jezici" se odnosi na jezike koji nemaju dovoljno kvalitetnog digitalnog teksta za obuku savremenih VI modela - kaže Štimac. - Srpski kao "nedovoljno zastupljen" deli sudbinu mnogih drugih jezika širom sveta. Arapski, primera radi, govori najmanje 400 miliona ljudi, tamilski 80 miliona, a nepalski više od 19 miliona. Grčkim se služi oko 13 miliona govornika, a gruzijskim četiri miliona. Zajedno, to su stotine miliona ljudi čiji jezici danas nisu adekvatno zastupljeni u VI sistemima. Važno je da se to promeni.
Jakov Simović
Osim Štimca, projekat su vodili i Slobodan Marković i Barbora Bromova. Softverski inženjeri Vukašin Radmanovac, Branimir Marković, Ivan Đorđević i Nebojša Milićević radili su na razvoju platforme, odnosno na tome da platforma funkcioniše kao jedinstven sistem koji korisnici mogu lako da koriste. Anđelka Zečević i Anastazija Žunić bile su zadužene za povezivanje različitih VI modela koji pomažu da se tokom digitalizacije prepoznaju slova, struktura teksta i isprave moguće greške, a Marija Milenković je uradila dizajn interfejsa aplikacije. NBS je obezbedila arhivsku građu na kojoj je alat testiran.
- "Lorija" objedinjuje čitav proces digitalizacije starih dokumenata - ističe Štimac. - U svakoj fazi mogu da se koriste različiti alati veštačke inteligencije, od besplatnih softvera otvorenog koda do modela koje su razvile naučne institucije ili komercijalne kompanije. Sistem, zapravo, prati način na koji i inače rade bibliotekari, arhivisti i stručnjaci za digitalizaciju. Prvo se sređuje skenirana stranica, popravlja se kontrast, ispravlja rotacija, uklanjaju mrlje i oštećenja. Potom sledi prepoznavanje strukture dokumenta, kada veštačka inteligencija izdvaja naslove, kolone teksta, fusnote, ilustracije i druge delove stranice. Posle toga dolazi najvažniji deo - prepoznavanje teksta, odnosno OCR tehnologija, koja "čita" slova sa skenirane stranice i pretvara ih u digitalni tekst. Na kraju, urednik proverava i ispravlja greške, uz pomoć VI alata koji označavaju delove u kojima nisu sigurni da su tekst dobro prepoznali.
Za razvoj i testiranje "Lorije" korišćena je arhivska građa Narodne biblioteke Srbije. Obrađeno je više od 16.000 stranica starih novina i časopisa, što je oko 400 gigabajta podataka iz publikacija... Stara izdanja su se pokazala kao posebno zahtevna za digitalizaciju, jer na istoj stranici često se smenjuju ćirilica i latinica, tekst je raspoređen u više kolona, prisutni su oglasi, fusnote,beleške na marginama i različiti tipovi starih slova koje klasični OCR programi teško prepoznaju.
- Biblioteka više od 20 godina digitalizuje najvredniju arhivsku građu, od srednjovekovnih rukopisa i starih knjiga do periodičnih izdanja iz 19. veka - kaže Tamara Butigan-Vučaj, načelnik Odeljenja Digitalne biblioteke NBS. - Veliki deo te građe digitalizovan je pre mnogo godina, kada su skeneri i druga tehnologija bili slabijeg kvaliteta. Mnogi dokumenti zbog toga mogli su da se pretražuju samo po nazivu, godini ili broju izdanja. Tekst nije mogao da se pretražuje. Sada je omogućeno da se to pisano nasleđe praktično "otključa" i da veliki broj starih snimaka konačno postane čitljiv i pretraživ. Ideja je da se ovaj sistem, koji se trenutno koristi za četiri publikacije, primeni na celokupnu tekstualnu građu, knjige, novine, časopise i sve druge publikacije koje čuvamo u digitalnim zbirkama.
Restoran Miya Galerija
Breakfast Buffet svakog dana od 10:00 do 12:30
ZAPRATI I REZERVIŠI SVOJE MESTORestoran Miya Galerija
Breakfast Buffet svakog dana od 10:00 do 12:30
ZAPRATI I REZERVIŠI SVOJE MESTO
RUSKI VOJNI STRUČNjAK: Jedan udar "orešnika" i "sarmata" može da uništi čitav NATO u Evropi
KOMBINOVANO lansiranje raketnih sistema „sarmat“ i „orešnik“ sposobno je da neutrališe celu vojnu infrastrukturu Severnoatlantske alijanse u Evropi, rekao je za ruske medije Aleksandar Stepanov, vojni stručnjak Instituta za pravo i nacionalnu bezbednost Ruske predsedničke akademije za nacionalnu ekonomiju i javnu upravu (RANHEGA).
13. 05. 2026. u 12:29
Srušio se avion kod glavnog grada: Poginuli svi putnici i pilot
Vazduhoplovna civilna uprava Južnog Sudana saopštila je danas da se srušio avion jugozapadno od glavnog grada Džube, pri čemu je poginulo svih 14 osoba koje su bile u letelici.
27. 04. 2026. u 16:49
"NE MOŽEMO DA POBEDIMO, PREJAKI SU!" Putinov čovek iznenadio izjavom na ruskoj državnoj televiziji
POZNATI ruski reditelj i propagandista Karen Šahnazarov rekao je da Rusija ne može da pobedi Ukrajinu, da je protivnik prejak i da je u interesu Rusije da što pre okonča rat.
11. 05. 2026. u 19:09
Komentari (0)