Методы балансировки и нормализации данных для улучшения качества классификации.

  • Владимир Николаевич Никулин Вятский государственный университет, Киров, Россия
  • Илья Сергеевич Канищев Вятский государственный университет, Киров, Россия
  • Иван Владимирович Багаев Вятский государственный университет, Киров, Россия
Ключевые слова: машинное обучение, анализ данных, нейронные сети, однородное ансамблирование, несбалансированность данных, распознавание образов, метод опорных векторов

Аннотация

Очень часто непосредственное использование стандартных моделей приводит к результатам низкого качества. В статье рассмотрены два примера. Первый пример касается классификации популярных данных «Credit», полученных с платформы Kaggle. В качестве классификатора мы используем стандартную функцию nnet (нейронные сети) в программной среде R. Проблема состоит в том, что данные «Credit» являются несбалансированными, а функция nnet склонна игнорировать класс, который составляет меньшинство. В качестве решения проблемы несбалансированности мы предлагаем рассмотреть большое число относительно небольших и сбалансированных подмножеств, в которых элементы из тренировочной базы данных отбираются случайным образом. Второй пример касается широкоизвестных данных MNIST при использовании стандартной функции svm (метод опорных векторов) в среде Python. Показана необходимость нормализации исходных признаков.

Биографии авторов

Владимир Николаевич Никулин, Вятский государственный университет, Киров, Россия

Никулин В. Н.: Kандидат физико-математических наук, доцент кафедры математических методов Вятский государственный университет

Илья Сергеевич Канищев, Вятский государственный университет, Киров, Россия

Канищев И. С.: Магистрант кафедры математических методов, Вятский государственный университет.

Иван Владимирович Багаев, Вятский государственный университет, Киров, Россия

Багаев И. В.: Магистрант кафедры математических методов, Вятский государственный университет

Литература

[1] A. Maytarattanakhon and I. A. Posov, “Avtomatizatsiya provedeniya distantsionnykh sorevnovanii, osnovannykh na issledovatel'skikh syuzhetakh po matematike i informatike” [Automation of distance contests based on research problems in mathematics and informatics], Computer tools in education, no. 6, pp. 45–51, 2014 (in Russian).
[2] A. G. D'yakonov “Algoritmy dlya rekomendatel'noi sistemy: tekhnologiya LENKOR” [The algorithms for recommender systems: LENKOR technology], Business-Informatics, vol. 1, no. 19, pp. 32–39, 2012 (in Russian).
[3] V. N. Nikulin, S. A. Palesheva, D. S. Zubareva, “Ob odnorodnykh ansamblyakh pri ispol'zovanii metoda bustinga v prilozhenii k klassifikatsii nesbalansirovannykh dannykh” [On homogeneous ensembles using boosting method in the application to the classification of unbalanced data], Perm University Herald. Economy, no. 4, pp. 7–14, 2012 (in Russian).
[4] Y. Lu, H. Guo, and L. Feldkamp, “Robust neural learning from unbalanced data examples,” IEEE World Congress on Computational Intelligence, pp. 1816–1821, 1998; doi: 10.1109/IJCNN.1998.687133
[5] D. C. Cireşan, U. Meier, L. Gambardella, and J. Schmidhuber. ”Deep, Big, Simple Neural Nets for Handwritten Digit Recognition,” Neural Computation, vol. 22, no. 12, pp. 3207‒3220, 2010; doi: 10.1162/NECO_a_00052
[6] V. Nikulin, A. Bakharia, and T.-H. Huang, “On the Evaluation of the Homogeneous Ensembles with CV-passports,” in Trends and Applications in Knowledge Discovery and Data Mining. PAKDD 2013 Workshops, LNCS 7867, J. Li et al. eds., Springer, 2013, pp. 109–120.
Опубликован
2017-06-03
Как цитировать
Никулин, В. Н., Канищев, И. С., & Багаев, И. В. (2017). Методы балансировки и нормализации данных для улучшения качества классификации. Компьютерные инструменты в образовании, (3), 16-24. извлечено от http://cte.eltech.ru/ojs/index.php/kio/article/view/1398
Выпуск
Раздел
Компьютер в учебном процессе