Кластеризация русскоязычных рукописей на основе графа отношения особенностей

Владислав Александрович Павлов; Полина Сергеевна Дюрдева; Дмитрий Сергеевич Шалымов

Владислав Александрович Павлов СПбГУ, Санкт-Петербург, Россия
Полина Сергеевна Дюрдева СПбГУ, Санкт-Петербург, Россия
Дмитрий Сергеевич Шалымов СПбГУ, Санкт-Петербург, Россия

Ключевые слова: обработка рукописей, русскоязычные тексты, кластеризация текстов, граф отношения особенностей, фильтр Габора

Аннотация

Кластеризация документов — задача объединения текстов по группам таким образом, что все тексты в одной группе обладают некоторыми общими свойствами (принадлежат одному автору, являются текстами одного жанра и др.). Эта задача становится особенно важной по причине стремительно возрастающего количества документов в оцифрованном виде. Для решения задачи кластеризации исследована новая метрика сравнения почерков, основанная на Графах Отношения Особенностей (далее ГОО). Эта метрика успешно зарекомендовала себя при решении текстонезависимой задачи определения автора персидской рукописи на основе почерка. Особенности, основанные на локальных шаблонах, извлекаются из рукописных документов с помощью фильтров Габора и X-Габора (XGabor). Извлеченные особенности формируют ГОО. Исследуется эффективность нескольких наиболее популярных алгоритмов кластеризации для задачи обработки рукописных текстов на русском языке в пространстве ГОО. В работе приведены численные эксперименты, демонстрирующие эффективность предложенной метрики, а также результаты эффективности применения различных алгоритмов кластеризации.

Биографии авторов

Владислав Александрович Павлов, СПбГУ, Санкт-Петербург, Россия

Павлов В. А.: студент кафедры системного программирования математико-механического факультета СПбГУ

Полина Сергеевна Дюрдева, СПбГУ, Санкт-Петербург, Россия

Дюрдева П. С.: студентка кафедры информационно-аналитических систем математико-механического факультета СПбГУ

Дмитрий Сергеевич Шалымов, СПбГУ, Санкт-Петербург, Россия

Шалымов Д. С.: кандидат физико-математических наук, инженер-исследователь, математико-механический факультет СПбГУ

Литература

[1] B. Nevo, Scientific Aspects Of Graphology: A Handbook, Springfield, IL, 1986.
[2] A. Abbasi and H. Chen, “Applying authorship analysis to extremist group Web forum messages,” IEEE Intelligent Systems, vol. 20 no. 5, pp. 67‒75, 2005; doi:10.1109/MIS.2005.81
[3] G. Zhu, X. Yu, Y. Li, D. Doermann, “Language identification for handwritten document images using a shape codebook,” Pattern Recognition, vol. 42, no. 12, pp. 3184–3191, 2009; doi: 10.1016/j.patcog.2008.12.022
[4] S. D. Kulik, “Neural Network Model of Artificial Intelligence for Handwriting Recognition,” Journal of Theoretical and Applied Information Technology, vol.73, no. 2, 202‒211, 2015.
[5] N. S. Isupov and A. V. Kuchuganov, “Raspoznavanie Slitnykh Rukopisnykh Tekstov s Ispol'zovaniem Apparata Nechetkoi Logiki” [Joined-up Writing Recognition with Fuzzy Logic Application], Vestnik IzhGTU, no.1, pp. 125‒128, 2012 (in Russian).
[6] B. Helli and M. E. Moghaddam, “A text-independent Persian writer identification based on feature relation graph (FRG),” Pattern Recognition, vol. 43, no. 6, pp. 2199–2209, 2010; doi:10.1016/j.patcog.2009.11.026
[7] V. S. N. Prasad and J. Domke, “Gabor Filter Visualization, ” Tech. Rep., University of Maryland, 2005.
[8] A. Likasa, N. Vlassisb, and J. J. Verbeekb “The global k-means clustering algorithm,” Pattern Recognition, vol. 36, no. 2, pp. 451–461, 2003; doi:10.1016/S0031-3203(02)00060-2
[9] M. Ester, H.-P. Kriegel, J. Sander, and X. Xu, “A density-based algorithm for discovering clusters in large spatial databases with noise,” In Proc.of Second International Conference on Knowledge Discovery and Data Mining, AAAI Press, Portland, OR, 1996, pp. 226–231.
[10] A. P. Reynolds, G. Richards, and V.J. Rayward-Smith “The Application of K-medoids and PAM to the Clustering of Rules,” In Proc. of the Fifth International Conference on Intelligent Data Engineering and Automated Learning (IDEAL'04), LNCS, Vol. 3177, Springer, 2004, pp. 173–178; doi:10.1007/978-3-540-28651-6_25
[11] C.D. Manning, P. Raghavan, and H. Schutze Introduction to Information Retrieval, NY: Cambridge University Press, 2008.