"ЛОРИЈА" ЧУВА СРПСКИ ЈЕЗИК: Развијена дигитална платформа која стара, писана документа претвара у машински читљив текст (ФОТО)
ВЕШТАЧКА интелигенција (ВИ) учи из онога што постоји на интернету, а најмоћнији језички модели данашњице углавном се обучавају на енглеском језику, који чини скоро половину садржаја на мрежи. Српски, међутим, припада групи такозваних недовољно заступљених језика. Језици који немају довољно дигиталног материјала полако остају изван нове технолошке стварности.
Јаков Симовић
Управо зато је у Србији развијена "Лорија", дигитална платформа која писана документа претвара у машински читљив текст, погодан за обуку система вештачке интелигенције на локалним језицима. Настала је из техничког решења које је Математички институт САНУ развио за Народну библиотеку Србије (НБС) током дигитализације архивске грађе.
Тај систем може да "прочита" оно што класични програми углавном не умеју: старе фонтове, оно што пише на оштећеном папиру, странице на којима се мешају ћирилица и латиница, текст распоређен у више колона, фусноте, огласе и рукописне белешке. Програм Уједињених нација за развој (УНДП) у томе је препознао могућност да Србија добије сопствени алат за очување језика и културног наслеђа у дигиталном добу.
Јаков Симовић
- Долази време у коме ће машине све више посредовати између човека и знања - каже Вид Штимац из УНДП. - Вештачка интелигенција српски познаје много слабије него велике светске језике, јер нема довољно квалитетних дигиталних података на којима би могла да учи. Ако језик није присутан у вештачкој интелигенцији, временом ће бити гурнут на маргину свега што долази.
Јаков Симовић
И грешке исправљају
ОВА платформа није ограничена само на српски језик - каже Штимац, додајући да је, практично, језички неутрална:
- У Народној библиотеци користимо одређене моделе за српске новине, али ако бисмо радили са другом врстом текста или другим писмом, могли бисмо да "прикључимо" неке друге моделе. Интерфејс би остао исти. У Математичком институту развијене су и специфичне неуронске мреже које исправљају грешке настале због старе типографије и архаичног језика. Софтвер је бесплатан, али процес није без трошкова. У Народној библиотеци читав тим се бави дигитализацијом.
Техничко решење које је развио Математички институт за дигитализацију обимне грађе Народне библиотеке, уз подршку међународних партнера из Француске и Јапана, УНДП је даље развио у платформу коју могу сви да користе. А, све је почело када су у Паризу представљени резултати дигитализације четири колекције из фонда НБС, што је био и почетак развоја "Лорије" који је трајао годину дана.
Јаков Симовић
- Идеја је да "Лорија" буде доступна свима, без ограничења и затворених дозвола, као дигитално јавно добро, отвореног кода и без рестриктивних лиценци, које може да користи свака институција, појединац или истраживачки тим - каже Штимац.
За српску платформу су се одмах заинтересовали у Ираку и Непалу, где се разматра како би "Лорија" могла да буде прилагођена локалним језицима и архивама. У Ираку се, на пример, тестирају модели за месопотамски, арапски и курдски језик, као и системи који би могли да препознају специфичне структуре њихових историјских докумената.
"Недовољно заступљени језици"
- ТЕРМИН "недовољно заступљени језици" се односи на језике који немају довољно квалитетног дигиталног текста за обуку савремених ВИ модела - каже Штимац. - Српски као "недовољно заступљен" дели судбину многих других језика широм света. Арапски, примера ради, говори најмање 400 милиона људи, тамилски 80 милиона, а непалски више од 19 милиона. Грчким се служи око 13 милиона говорника, а грузијским четири милиона. Заједно, то су стотине милиона људи чији језици данас нису адекватно заступљени у ВИ системима. Важно је да се то промени.
Јаков Симовић
Осим Штимца, пројекат су водили и Слободан Марковић и Барбора Бромова. Софтверски инжењери Вукашин Радмановац, Бранимир Марковић, Иван Ђорђевић и Небојша Милићевић радили су на развоју платформе, односно на томе да платформа функционише као јединствен систем који корисници могу лако да користе. Анђелка Зечевић и Анастазија Жунић биле су задужене за повезивање различитих ВИ модела који помажу да се током дигитализације препознају слова, структура текста и исправе могуће грешке, а Марија Миленковић је урадила дизајн интерфејса апликације. НБС је обезбедила архивску грађу на којој је алат тестиран.
- "Лорија" обједињује читав процес дигитализације старих докумената - истиче Штимац. - У свакој фази могу да се користе различити алати вештачке интелигенције, од бесплатних софтвера отвореног кода до модела које су развиле научне институције или комерцијалне компаније. Систем, заправо, прати начин на који и иначе раде библиотекари, архивисти и стручњаци за дигитализацију. Прво се сређује скенирана страница, поправља се контраст, исправља ротација, уклањају мрље и оштећења. Потом следи препознавање структуре документа, када вештачка интелигенција издваја наслове, колоне текста, фусноте, илустрације и друге делове странице. После тога долази најважнији део - препознавање текста, односно OCR технологија, која "чита" слова са скениране странице и претвара их у дигитални текст. На крају, уредник проверава и исправља грешке, уз помоћ ВИ алата који означавају делове у којима нису сигурни да су текст добро препознали.
За развој и тестирање "Лорије" коришћена је архивска грађа Народне библиотеке Србије. Обрађено је више од 16.000 страница старих новина и часописа, што је око 400 гигабајта података из публикација... Стара издања су се показала као посебно захтевна за дигитализацију, јер на истој страници често се смењују ћирилица и латиница, текст је распоређен у више колона, присутни су огласи, фусноте,белешке на маргинама и различити типови старих слова које класични OCR програми тешко препознају.
- Библиотека више од 20 година дигитализује највреднију архивску грађу, од средњовековних рукописа и старих књига до периодичних издања из 19. века - каже Тамара Бутиган-Вучај, начелник Одељења Дигиталне библиотеке НБС. - Велики део те грађе дигитализован је пре много година, када су скенери и друга технологија били слабијег квалитета. Многи документи због тога могли су да се претражују само по називу, години или броју издања. Текст није могао да се претражује. Сада је омогућено да се то писано наслеђе практично "откључа" и да велики број старих снимака коначно постане читљив и претражив. Идеја је да се овај систем, који се тренутно користи за четири публикације, примени на целокупну текстуалну грађу, књиге, новине, часописе и све друге публикације које чувамо у дигиталним збиркама.
Restoran Miya Galerija
Breakfast Buffet svakog dana od 10:00 do 12:30
ZAPRATI I REZERVIŠI SVOJE MESTORestoran Miya Galerija
Breakfast Buffet svakog dana od 10:00 do 12:30
ZAPRATI I REZERVIŠI SVOJE MESTO
РУСКИ ВОЈНИ СТРУЧЊАК: Један удар "орешника" и "сармата" може да уништи читав НАТО у Европи
КОМБИНОВАНО лансирање ракетних система „сармат“ и „орешник“ способно је да неутралише целу војну инфраструктуру Северноатлантске алијансе у Европи, рекао је за руске медије Александар Степанов, војни стручњак Института за право и националну безбедност Руске председничке академије за националну економију и јавну управу (РАНХЕГА).
13. 05. 2026. у 12:29
Срушио се авион код главног града: Погинули сви путници и пилот
Ваздухопловна цивилна управа Јужног Судана саопштила је данас да се срушио авион југозападно од главног града Џубе, при чему је погинуло свих 14 особа које су биле у летелици.
27. 04. 2026. у 16:49
"НЕ МОЖЕМО ДА ПОБЕДИМО, ПРЕЈАКИ СУ!" Путинов човек изненадио изјавом на руској државној телевизији
ПОЗНАТИ руски редитељ и пропагандиста Карен Шахназаров рекао је да Русија не може да победи Украјину, да је противник прејак и да је у интересу Русије да што пре оконча рат.
11. 05. 2026. у 19:09
Коментари (0)