出版社:Eesti Rakenduslingvistika Ühing (Estonian Association for Applied Linguistics)
摘要:This article presents a new two-step method to handle and study large closed subsets of WordNet-type dictionaries with the goal of finding possible structural inconsistencies.The notion of closed subset is explained using a WordNet tree.A novel and very fast method to order large relational systems is described and compared with some other fast methods.All the presented methods have been tested using Estonian1 and Princeton WordNet2 largest closed sets.
其他摘要:WordNet kui leksikaalsemantiline andmebaas leiab laialdast kasutust keeletehnoloogia rakendustes,mistõttu on ilmne,et tulemuse kvaliteet sõltub paljuski wordnet’i enda kvaliteedist.Varasemad uurimused on näidanud,et wordnet’i hierarhiat tekitavates puudes esineb seoseid,mis põhjustavad tema struktuuris vigu (Lohk,Võhandu 2012).Ühe võimalusena pakutakse artiklis taolisi kõrvalekaldeid uurida ja avastada kinniste alamhulkade kaudu,mida esitatakse maatriksina ja millele rakendatakse autorite pakutud uudset kahesammulist meetodit.Kinniseid alamhulki selgitati tehislikult koostatud wordnet’i puu alusel.Pakutud kahesammulist meetodit,mis sobib suurte relatsiooniliste süsteemide korrastamiseks,kõrvutati teiste kiirete varasemate meetoditega (raskuskeskme meetod ja mediaanmeetod).Jõuti järeldusele,et kahesammuline meetod pakub tulemuseks nii paremat ristumiste arvu kui ka kiiremat algoritmi kui varasemad meetodid.Meetodit testiti Eesti ja Princetoni wordnet’idel.Maatriksina saadud tulemusi soovitati koos sünohulkade nimedega konverteerida tabelarvutusprogrammi,liikuda mööda korrastatud maatriksil olevat lairiba ning uurida ridades ja veergudes olevaid sünohulkade neid kohti,kus mõisted silmatorkavalt erinevad.
关键词:thesaurus;closed set;seriation;Power Iteration Clustering (PIC);reducing number of crossings;WordNet
其他关键词:tesaurus;suletud hulgad;järjestamine;klasterdamine iteratiivse astendamisega;ristumiste arvu vähendamine;WordNet