Razvili smo novo tehniko relacijskega rudarjenja podatkov, imenovano besedizacija (angl. Wordification), ki izvede prevedbo relacijskih podatkov v množico tekstovnih dokumentov (tekstovni korpus). Vhod v sistem je relacijska podatkovna baza, rezultat prevedbe pa je propozicionalna tabela, ki služi kot vhod standardnim tehnikam za podatkovno rudarjenje. Razlika med novo metodologijo in obstoječimi metodami je, da z uporabo besedizacije kreiramo enostavne opisne značilke (preproste “besede” in “pare besed” oz. bigrame), ki omogočajo boljše razumevanje in lažji vpogled v podatke. Eksperimentalna analiza na sedmih relacijskih podatkovnih bazah je pokazala, da ima v primerjavi z obstoječimi algoritmi novi pristop primerljivo klasifikacijsko točnost, hkrati pa je računsko mnogo učinkovitejši. Novo metodo in celotni postopek evalvacije smo razvili kot integriran procesni delotok v naši novi spletni platformi za podatkovno rudarjenje ClowdFlows, kar omogoča ponovljivost in primerjalno analizo razvite tehnike z obstoječimi algoritmi propozicionalizacije. Ta pristop prispeva enostavni ponovljivosti eksperimentalnih rezultatov in s tem k odprti znanosti. Razviti delotok je prosto dostopen na spletnem naslovu http://clowdflows.org/workflow/4018/.
COBISS.SI-ID: 28609575
Izdelali smo prvi leksikon in zemljevid emojijev z njihovim sentimentom (negativen, nevtralen ali pozitiven) za 751 najpogosteje uporabljenih emojijev. Sentiment emojijev je izračunan iz sentimenta tvitov v katerih so emojiji uporabljeni. Za označitev sentimenta v več kot 1.6 milijona tvitov v 13 evropskih jezikih smo angažirali 83 označevalcev. Izkaže se, da je večina emojijev pozitivnih, se posebej najbolj popularni. Porazdelitev sentimenta v tvitih z emojiji je značilno različna od tvitov brez njih. Strinjanje med označevalci je višje pri tvitih, ki uporabljajo emojije. Le-ti se praviloma pojavljajo proti koncu tvitov, njihova polarnost pa se povečuje z oddaljenostjo od začetka tvita. Med 13 evropskimi jeziki ni zaznati značilnih razlik v rangiranju emojijev.
COBISS.SI-ID: 29085223
Prispevek obravnava interdisciplinarnost znanstvenih področji na osnovi grafa sodelovanj med raziskovalci. Predlaga novo mero interdisciplinarnosti, ki upošteva vsebino in strukturo grafa. Podobnost med področji znanosti je ocenjena glede na podobnosti opisov področji. Predlagano mero smo uporabili na primeru raziskovalne skupnosti v Sloveniji. Ugotovili smo, da so biotehnične vede in naravoslovno-matematične vede najbolj interdisciplinarne. Pri opazovanju razvoja interdisciplinarnosti skozi čas opazimo v zadnjem desetletju porast pri medicinskih vedah predvsem zaradi sodelovanje naravoslovno-matematičnimi in tehničnimi vedami.
COBISS.SI-ID: 28426791
Obravnavali smo problem modeliranja nelinearnih dinamičnih sistemov z več izhodi v diskretnem času. Predlagali, implementirali in empirično ovrednotili smo tri nadgradnje mehkih dreves linearnih modelov, ki uporabljajo algoritem LoLiMoT (Local Linear Model Trees). Nadgradnje vključujejo modele z več izhodi, ansamble teh modelov in iskalno hevristiko, ki temelji na simulacijski napaki. Naredili smo empirično vrednotenje in omenjene nadgradnje primerjali na raznolikih primerih dinamičnih sistemov. Pokazali smo, da so ansambli dreves bolj uspešni pri napovedovanju kot posamezna drevesa (z enim in več izhodi). Kot splošno uporabna se je izkazala metoda bagging z več modeli LoLiMoT z enim izhodom, skupaj z iskalno hevristiko, ki temelji na simulacijski napaki.
COBISS.SI-ID: 28967207
Razširili smo spletno aplikacijo ClowdFlows do te mere, da zmore analizo podatkovnih tokov s pomočjo principa aktivnega učenja. Z uporabo platforme, ki omogoča javno objavo in deljenje delotokov, smo pokazali, da je moč označevati podatke s pomočjo množičnega zunanjega izvajanja (crowdsourcing). Omejitve platforme pri obdelavi več sočasnih podatkovnih tokov so bile ugotovljene s pomočjo stresnega testa. Vključili smo primer uporabe za ugotavljanje sentimenta s pomočjo aktivnega učenja na podatkovnih tokovih in omogočili ponovno uporabo le-tega s pomočjo spletne aplikacije. Pokazali smo tudi, da so metode za strojno učenje primerne za analizo sentimenta in da aktivno učenje izboljša točnost razvrščanja sentimenta.
COBISS.SI-ID: 28251943