Методы балансировки и нормализации данных для улучшения качества классификации.
Аннотация
Очень часто непосредственное использование стандартных моделей приводит к результатам низкого качества. В статье рассмотрены два примера. Первый пример касается классификации популярных данных «Credit», полученных с платформы Kaggle. В качестве классификатора мы используем стандартную функцию nnet (нейронные сети) в программной среде R. Проблема состоит в том, что данные «Credit» являются несбалансированными, а функция nnet склонна игнорировать класс, который составляет меньшинство. В качестве решения проблемы несбалансированности мы предлагаем рассмотреть большое число относительно небольших и сбалансированных подмножеств, в которых элементы из тренировочной базы данных отбираются случайным образом. Второй пример касается широкоизвестных данных MNIST при использовании стандартной функции svm (метод опорных векторов) в среде Python. Показана необходимость нормализации исходных признаков.
Литература
[2] A. G. D'yakonov “Algoritmy dlya rekomendatel'noi sistemy: tekhnologiya LENKOR” [The algorithms for recommender systems: LENKOR technology], Business-Informatics, vol. 1, no. 19, pp. 32–39, 2012 (in Russian).
[3] V. N. Nikulin, S. A. Palesheva, D. S. Zubareva, “Ob odnorodnykh ansamblyakh pri ispol'zovanii metoda bustinga v prilozhenii k klassifikatsii nesbalansirovannykh dannykh” [On homogeneous ensembles using boosting method in the application to the classification of unbalanced data], Perm University Herald. Economy, no. 4, pp. 7–14, 2012 (in Russian).
[4] Y. Lu, H. Guo, and L. Feldkamp, “Robust neural learning from unbalanced data examples,” IEEE World Congress on Computational Intelligence, pp. 1816–1821, 1998; doi: 10.1109/IJCNN.1998.687133
[5] D. C. Cireşan, U. Meier, L. Gambardella, and J. Schmidhuber. ”Deep, Big, Simple Neural Nets for Handwritten Digit Recognition,” Neural Computation, vol. 22, no. 12, pp. 3207‒3220, 2010; doi: 10.1162/NECO_a_00052
[6] V. Nikulin, A. Bakharia, and T.-H. Huang, “On the Evaluation of the Homogeneous Ensembles with CV-passports,” in Trends and Applications in Knowledge Discovery and Data Mining. PAKDD 2013 Workshops, LNCS 7867, J. Li et al. eds., Springer, 2013, pp. 109–120.
Материал публикуется под лицензией: