摘要:In this paper,we try to fi nd similarities of different text documents by the self-organizing map (SOM) and k-means method. One of the main goals of these methods is to cluster a dataset. Using SOM,the similarities of documents can be observed visu_ally. Both methods can be used only for numerical information,so we analyse the different options by converting text data on to numerical in order to get better results. To estimate the SOM quality,when the classifi ed data are analysed,we propose two new measures: distances between SOM cells,correspond?ing to data items assigned to the same class,and the distance between centres of SOM cells,correspond?ing to different classes. We also analyse the results of visualization by self-organizing maps. In order to estimate the k-means quality,we calculate the sum of distances between cluster centres and class members and also we estimate assignment of the data from par?ticular classes to the clusters. The experiments have been carried out using three datasets ocquired from the document database of Seimas of the Republic of Lithuania.
其他摘要:Straipsnyje nagrinėjama dokumentų panašumų paieška naudojant du populiarius metodus: saviorganizuojančius neuroninius tinklus (SOM) ir k vidurkių metodą. Vienas iš šių metodų tikslų – suskirstyti duomenis į klasterius pagal jų panašumą. Analizuota tekstinių dokumentų matricos sudarymo fakto_rių įtaka gautiems rezultatams. SOM kokybei įvertinti pasiūlyti du nauji matai,skirti klasifi kuotiems duomenims,kurių reikšmės parodo susidariusių klasterių išsidėstymą SOM žemėlapyje. Pirmasis matas parodo,kaip gerai tos pačios klasės duomenys išsidėsto žemėlapyje vienas šalia kito,antrasis matas – kaip toli yra skirtingų klasių centrai. K vidurkių metodu gautų rezultatų kokybei įvertinti skai- čiuota suma nuo klasterio centro iki klasterio narių bei įvertintas klasių nesutapimas su klasteriais. Eksperimentiniams tyrimams atlikti pasirinkti tekstiniai dokumentai,paimti iš Lietuvos Respublikos Seimo dokumentų bazės.