Projekti / Programi
Tehnike vektorskih vložitev za medijske aplikacije
Koda |
Veda |
Področje |
Podpodročje |
2.07.00 |
Tehnika |
Računalništvo in informatika |
|
Koda |
Veda |
Področje |
1.02 |
Naravoslovne vede |
Računalništvo in informatika |
strojno učenje, tekstovno rudarjenje, procesiranje naravnega jezika, globoke nevronske mreže, reprezentacija dokumentov, jezikovni modeli, vektorske vložitve, spremljanje medijev
Podatki za zadnjih 5 let (citati za zadnjih 10 let) na dan
12. oktober 2025;
Podatki za izračun ocene A3 se nanašajo na obdobje
2020-2024
Podatki za razpise ARIS (
04.04.2019 - Programski razpis,
arhiv
)
Baza |
Povezani zapisi |
Citati |
Čisti citati |
Povprečje čistih citatov |
WoS |
274
|
6.424
|
5.972
|
21,8
|
Scopus |
398
|
10.266
|
9.341
|
23,47
|
Organizacije (2)
, Raziskovalci (16)
0106 Institut "Jožef Stefan"
št. |
Evidenčna št. |
Ime in priimek |
Razisk. področje |
Vloga |
Obdobje |
Štev. publikacijŠtev. publikacij |
1. |
59671 |
Jaya Caporusso |
Jezikoslovje |
Mladi raziskovalec |
2025 |
16 |
2. |
58623 |
Nikola Ivačič |
Jezikoslovje |
Raziskovalec |
2024 - 2025 |
0 |
3. |
57800 |
Boshko Koloski |
Računalništvo in informatika |
Mladi raziskovalec |
2025 |
66 |
4. |
55962 |
Taja Kuzman |
Jezikoslovje |
Raziskovalec |
2023 - 2025 |
113 |
5. |
08949 |
dr. Nada Lavrač |
Računalništvo in informatika |
Vodja |
2023 - 2025 |
893 |
6. |
36871 |
dr. Nikola Ljubešić |
Jezikoslovje |
Raziskovalec |
2023 - 2025 |
470 |
7. |
50070 |
dr. Matej Martinc |
Jezikoslovje |
Raziskovalec |
2024 - 2025 |
97 |
8. |
29539 |
dr. Vid Podpečan |
Računalništvo in informatika |
Raziskovalec |
2023 - 2025 |
114 |
9. |
31844 |
dr. Senja Pollak |
Jezikoslovje |
Raziskovalec |
2023 - 2025 |
338 |
10. |
56524 |
Marko Pranjić |
Jezikoslovje |
Raziskovalec |
2023 - 2025 |
28 |
11. |
53851 |
Matthew RJ Purver, Ph.D. |
Jezikoslovje |
Raziskovalec |
2023 - 2025 |
126 |
12. |
56348 |
Peter Rupnik |
|
Tehnični sodelavec |
2023 - 2025 |
93 |
1539 Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
št. |
Evidenčna št. |
Ime in priimek |
Razisk. področje |
Vloga |
Obdobje |
Štev. publikacijŠtev. publikacij |
1. |
55754 |
Matej Klemen |
Računalništvo in informatika |
Mladi raziskovalec |
2023 |
20 |
2. |
15295 |
dr. Marko Robnik Šikonja |
Računalništvo in informatika |
Raziskovalec |
2023 - 2025 |
473 |
3. |
50769 |
dr. Tadej Škvorc |
Računalništvo in informatika |
Raziskovalec |
2023 - 2025 |
18 |
4. |
56007 |
Aleš Žagar |
Računalništvo in informatika |
Raziskovalec |
2023 - 2025 |
35 |
Povzetek
V strojnem učenju predstavlja analiza velikih podatkov še vedno velik izziv. Izraz veliki podatki (velepodatki) označuje podatke, za katere so značilni velika količina, dinamika, negotovost in raznolikost. Predlagani projekt obravnava izziv analize jezikovno raznovrstnih in dinamičnih medijskih vsebin, ki jih v predlaganem projektu naslavljamo z uporabo naprednih metod vektorske reprezentacije tekstov (vektorske vložitve) in globokega učenja. Dnevno nastaja vedno več medijskih vsebin, od visoko kakovostnih tradicionalnih novic do manj zanesljivih vsebin na družbenih omrežjih. Spremljanje medijskih vsebin, ki vključuje združevanje člankov po vsebini, označevanje člankov z več vrstami metapodatkov, izvajanje analiz in poročanje z vidika določenih ciljnih uporabnikov pred distribucijo vsebin, mora potekati v realnem času. Agencije za kliping, kot je slovenska agencija Kliping d.o.o., ki bo sofinancirala ta industrijski projekt, se soočajo s težavno nalogo spremljanja medijskih vsebin. Agencija Kliping mora dnevno analizirati več kot 70.000 tradicionalnih člankov in več kot en milijon objav na družbenih medijih, sestaviti 1500 poročil za svoje ciljne uporabnike ter spremljati novice tako v slovenskem medijskem prostoru kot tudi v medijih drugih držav Zahodnega Balkana, pri čemer zajemajo besedila v šestih različnih jezikih (slovenščini, hrvaščini, bosanščini, srbščini, makedonščini in albanščini) in dveh pisavah (latinici in cirilici). To nalogo trenutno v veliki meri izvajajo ročno. Najnovejše metode strojnega učena za napredno računalniško procesiranje naravnega jezika, ki temeljijo na vektorski reprezentaciji tekstov in velikih prednaučenih jezikovnih modelih, omogočajo razvoj naprednih orodij za avtomatizirano obdelavo besedil, vključno s kategorizacijo besedil glede na njihovo tematiko ali sentiment ter samodejno tvorbo vsebinskih povzetkov iz več virov vsebin. Ta orodja so običajno omejena na posamezne jezike, imajo omejene zmožnosti prilagajanja potrebam končnega uporabnika ter niso zmožna obvladovanja kompleksnosti hierarhij kategorij novic in struktur metapodatkov, ki se uporabljajo v medijski industriji. V okviru projekta zato predlagamo razvoj naprednih večjezičnih orodij za analizo novic in vsebin na družbenih omrežjih, ki bodo pomagala avtomatizirati te procese in hkrati omogočala boljše razumevanje hitrega pretoka informacij, ki nas obdajajo.