Projekti / Programi
Temeljne raziskave za razvoj govornih virov in tehnologij za slovenščino
Koda |
Veda |
Področje |
Podpodročje |
6.05.00 |
Humanistika |
Jezikoslovje |
|
Koda |
Veda |
Področje |
6.02 |
Humanistične vede |
Jeziki in književnost |
govorni jezikovni viri, govorjeni jezik, raziskave govora, jezikovne tehnologije, govorne tehnologije, korpusno jezikoslovje, leksikografija
Podatki za zadnjih 5 let (citati za zadnjih 10 let) na dan
12. oktober 2025;
Podatki za izračun ocene A3 se nanašajo na obdobje
2020-2024
Podatki za razpise ARIS (
04.04.2019 - Programski razpis,
arhiv
)
Baza |
Povezani zapisi |
Citati |
Čisti citati |
Povprečje čistih citatov |
WoS |
287
|
3.716
|
3.400
|
11,85
|
Scopus |
564
|
7.249
|
6.362
|
11,28
|
Organizacije (9)
, Raziskovalci (38)
0796 Univerza v Mariboru, Fakulteta za elektrotehniko, računalništvo in informatiko
0106 Institut "Jožef Stefan"
št. |
Evidenčna št. |
Ime in priimek |
Razisk. področje |
Vloga |
Obdobje |
Štev. publikacijŠtev. publikacij |
1. |
05023 |
dr. Tomaž Erjavec |
Jezikoslovje |
Raziskovalec |
2022 - 2025 |
694 |
2. |
55962 |
Taja Kuzman |
Jezikoslovje |
Raziskovalec |
2022 - 2025 |
113 |
3. |
36871 |
dr. Nikola Ljubešić |
Jezikoslovje |
Raziskovalec |
2022 - 2025 |
470 |
4. |
56348 |
Peter Rupnik |
|
Tehnični sodelavec |
2022 - 2025 |
93 |
0581 Univerza v Ljubljani, Filozofska fakulteta
0618 Znanstvenoraziskovalni center Slovenske akademije znanosti in umetnosti
1538 Univerza v Ljubljani, Fakulteta za elektrotehniko
št. |
Evidenčna št. |
Ime in priimek |
Razisk. področje |
Vloga |
Obdobje |
Štev. publikacijŠtev. publikacij |
1. |
11805 |
dr. Simon Dobrišek |
Računalništvo in informatika |
Raziskovalec |
2022 - 2025 |
296 |
2. |
31985 |
dr. Janez Križaj |
Sistemi in kibernetika |
Raziskovalec |
2022 - 2025 |
43 |
1539 Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
št. |
Evidenčna št. |
Ime in priimek |
Razisk. področje |
Vloga |
Obdobje |
Štev. publikacijŠtev. publikacij |
1. |
16154 |
dr. Marko Bajec |
Računalništvo in informatika |
Raziskovalec |
2022 - 2025 |
501 |
2. |
21404 |
dr. Iztok Lebar Bajec |
Računalništvo in informatika |
Raziskovalec |
2022 - 2025 |
198 |
1822 Univerza na Primorskem, Fakulteta za humanistične študije
št. |
Evidenčna št. |
Ime in priimek |
Razisk. področje |
Vloga |
Obdobje |
Štev. publikacijŠtev. publikacij |
1. |
32126 |
dr. Klara Šumenjak |
Jezikoslovje |
Raziskovalec |
2022 - 2025 |
60 |
2. |
27530 |
dr. Jana Volk |
Jezikoslovje |
Raziskovalec |
2022 - 2025 |
134 |
1986 ALPINEON razvoj in raziskave, d.o.o.
št. |
Evidenčna št. |
Ime in priimek |
Razisk. področje |
Vloga |
Obdobje |
Štev. publikacijŠtev. publikacij |
1. |
12000 |
dr. Jerneja Žganec Gros |
Računalništvo in informatika |
Raziskovalec |
2022 - 2025 |
292 |
2565 Univerza v Mariboru Filozofska fakulteta
Povzetek
Govorni viri so v primerjavi s pisnimi viri redki in slabo razviti, zlasti za majhne jezike, kot je slovenščina. Da bi lahko izvajali temeljne raziskave na področju govorjenega jezika ali govornih tehnologij, ki bi imele pomemben vpliv na razvoj znanosti, je treba najprej nasloviti problem slabo razvitih govornih virov. Toda razvoj govornih virov ne pomeni samo aplikativnega zbiranja podatkov, pač pa odpira vrsto temeljnih raziskovalnih vprašanj. Ta vprašanja bomo naslovili v tem projektu, s fokusom na slovenskem jeziku.
To je predlog velikega projekta in je razdeljen v 4 delovne sklope (DS), vsak sklop pa v 2-4 aktivnosti, 14 aktivnosti skupno. 4 aktivnosti so samo jezikoslovne, 2 samo tehnični, večina aktivnosti (8) pa je interdisciplinarnih. Specifični cilji delovnih sklopov in njihovih aktivnosti so sledeči:
DS1 PRIDOBIVANJE POSNETKOV GOVORA
- Cilj 1.1: Analizirati potrebe po govornih virih v različnih jezikoslovnih in tehničnih disciplinah.
- Cilj 1.2 Analizirati prednosti in slabosti različnih tehnik snemanja, s posebnim poudarkom na množičenju kot tehniki, ki je časovno in denarno učinkovita.
- Cilj 1.3 Vrednotenje učinkovitosti modelov za razpoznavanje govora, učenih na govornih podatkih, omejenih na določeno področje in pridobljenih z nizkocenovnimi nenadzorovanimi ali delno nadzorovanimi tehnikami, v primerjavi s splošnimi podatki, pridobljenimi z visokocenovnimi tehnikami.
- Cilj 1.4 Identifikacija govornih/govorniških nalog, za katere je treba pridobiti dodatne označene govorne podatke za učenje razpoznavanja slovenskega govora.
DS2: NAREČNA VARIABILNOST
- Cilj 2.1 Jezikovnogeografska analiza izbranih fonetičnih pojavov, izdelava diahronih fonetičnih kart nestandardnega fonetičnega inventarja, izdelava predloga za standardizacijo slovenske narečne transkripcije in njeno pretvorbo v IPA (in SAMPA).
- Cilj 2.2 Izdelava sintetičnih sinhronih fonetičnih kart za določitev prostorske razširjenosti nestandardnih fonemov v slovenskih narečjih. Izdelava priporočil za izboljšanje pogovornega zapisa za slovenski govorni korpus.
- Cilj 2.3 Izdelava in testiranje diasistemskih narečno-knjižnih kontrastivnih tabel fonemov. Vzpostavitev transkripcijskih standardov za fonetično transkripcijo govornih korpusov.
- Cilj 2.4 Definicija in vrednotenje optimalnega nabora slovenskih fonemov za razpoznavanje govora (ob upoštevanju na novo definiranih narečnih fonemov), metrike podobnosti in različnih razpoložljivih govornih podatkov.
DS3: SEGMENTIRANJE IN OZNAČEVANJE GOVORA
- Cilj 3.1 Vrednotenje označevanja govornih segmentov/izjav v slovenskih govornih virih glede njihove ustreznosti kot osnovne enote za analizo govora na skladenjski in pomenski ravni.
- Cilj 3.2 Analiza različnih vrst netekočnosti v govorjenem besedilu, izdelava učnega korpusa netekočnosti in eksperimenti za avtomatsko označevanje netekočnosti.
- Cilj 3.3 Razvoj cevovoda za jezikoslovno označevanje na podlagi govornih podatkov in transkripcij (pridobljenih ročno in avtomatsko) ter jezikoslovno označevanje korpusa GOS 2.0.
- Cilj 3.4 Vrednotenje sheme za označevanje dialoških dejanj GORDAN, njena prilagoditev standardu ISO 24617-2 in izdelava učnega korpusa z oznakami dialoških dejanj.
DS4: GOVORJENA LEKSIKA
- Cilj 4.1 Vrednotenje obstoječih informacij o govorjeni slovenščini v leksikonu Sloleks in oblikovanje smernic za vključitev (nestandardnih) govorjenih podatkov v Sloleks, primerljivo s strojno berljivimi leksikoni za druge jezike.
- Cilj 4.2 Analiza obstoječih pomenskih informacij, vključenih v leksikografske vire za slovenščino z vidika govorjene slovenščine, skupaj z analizo komplementarnih podatkov govornega korpusa in raziskovanje načel vključevanja ugotovitev v leksikografske vire.