Предсказание оттока абонентов: сравнение методов машинного обучения

  • Святослав Александрович Арзамасцев Санкт-Петербургский государственный университет, Санкт-Петербург, Россия
  • Михаил Владимирович Бгатов Санкт-Петербургский государственный университет, Санкт-Петербург, Россия
  • Елена Николаевна Картышева Санкт-Петербургский государственный университет, Санкт-Петербург, Россия
  • Виктор Артурович Деркунский Санкт-Петербургский государственный университет, Санкт-Петербург, Россия
  • Дмитрий Николаевич Семенчиков Санкт-Петербургский государственный университет, Санкт-Петербург, Россия
Ключевые слова: анализ данных, машинное обучение, балансировка данных, обработка данных, ансамбли моделей.

Аннотация

Чтобы оставаться конкурентноспособным сегодня в телекоммуникационном бизнесе, необходимо определять клиентов, которые недовольны предоставляемыми услугами, поэтому прогнозирование оттока стало актуальной проблемой в данной сфере. В этой статье рассмотрены основные современные алгоритмы машинного обучения, которые применялись для решения этой задачи, включая дерево принятия решений (DT — Decision Trees), наивный байесовский классификатор (NB — Naive Bayes Classifier), случайный лес (RF — Random Forest), искусственные нейронные сети (NN — Artificial Neural Network), метод k-ближайших соседей (KNN — K-Nearest Neighbors), линейный дискриминантный анализ (LDA — Linear Discriminant Analysis), метод опорных векторов (SVM — Support Vector Machine) и их ансамблирование (бэггинг и бустинг) с целью продемонстрировать превосходство новой технологии CatBoost в мерах эффективности классификаторов. Для достижения цели была проведена классификация данных и выявлены конкретные преимущества метода CatBoost в сравнении с другими на основе полученных результатов. Для проведения исследования нами были проанализированы четыре базы данных: 3 датасета находятся в открытом доступе и 1 датасет, предоставленный российской мобильной компанией. Зачастую размерность этих баз данных высока, что приводит к ряду проблем (в том числе несбалансированности классов, корреляции параметров), которые решаются методом уменьшения размерности: метод главных компонент (PCA — Principal Component Analysis). Полученные результаты сравниваются между собой, а также с результатами, представленными другими исследователями на основе открытых баз данных. Эффективность классификаторов оценивается с помощью таких мер, как площадь под кривой (AUC), точность, F1-мера и время.

Биографии авторов

Святослав Александрович Арзамасцев, Санкт-Петербургский государственный университет, Санкт-Петербург, Россия

Арзамасцев Святослав Александрович, cтудент кафедры статистического моделирования математикомеханического факультета СПбГУ; 198504 Санкт-Петербург, Петергоф, Университетский пр., 28, каб. 4399, st037590@student.spbu.ru

Михаил Владимирович Бгатов, Санкт-Петербургский государственный университет, Санкт-Петербург, Россия

Бгатов Михаил Владимирович, cтудент математико-механического факультета СПбГУ, st047070@student.spbu.ru

Елена Николаевна Картышева, Санкт-Петербургский государственный университет, Санкт-Петербург, Россия

Картышева Елена Николаевна, cтудентка математико-механического факультета СПбГУ, st048188@student.spbu.ru

Виктор Артурович Деркунский, Санкт-Петербургский государственный университет, Санкт-Петербург, Россия

Деркунский Виктор Артурович, cтудент математико-механического факультета СПбГУ, st047728@student.spbu.ru

Дмитрий Николаевич Семенчиков, Санкт-Петербургский государственный университет, Санкт-Петербург, Россия

Семенчиков Дмитрий Николаевич, aспирант факультета прикладной математики — процессов управления СПбГУ, st016311@student.spbu.ru

Литература

1. Гришанов К. М., Белов Ю. С. Метод классификации K-NN и его применение в распознавании символов / Фундаментальные проблемы науки. Сборник статей Международной научнопрактической конференции 15 мая 2016 г. Ч. 3. Тюмень: НИЦ Аэтерна, 2016. С. 30–33.
2. Карякина А. А., Мельников А. В. Сравнение моделей прогнозирования оттока клиентов
интернет-провайдеров // Машинное обучение и анализ данных, 2017. Том 3, № 4. С. 250–256.
3. Пономарёв А. А. Сегментация пользователей мобильных операторов с помощью моделей
Больших Данных. СПбГУ, 2018. URL: https://dspace.spbu.ru/bitstream/11701/11992/1/vkr.docx (дата обращения 20.09.2018).
4. Чистяков C. П. Случайные леса: обзор // Труды Карельского научного центра РАН. 2013. № 1.
C. 117–136.
5. Akay M. F. Support vector machines combined with feature selection for breast cancer diagnosis //
Expert Systems with Applications. 2009. Vol. 36(2). doi:10.1.1.473.6145
6. Albadawi S., Latif K., Kharbat F. Telecom Churn Prediction Model Using Data Mining Techniques
[Bahria University Journal of Information & Communication Technologies], 2017. Vol 10. № Special
Issue. P. 8–14.
7. Dziaugyte S., Mzyk M. Churn analysis — machine learning. Bloomington, 2016.
8. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and
Prediction. N.Y.: Springer, 2009.
9. Jolliffe I.T. Principal Component Analysis / Springer Series in Statistics. N.Y.: Springer, 2002.
doi:10.1007/b98835
10. Karthik Subramanya. Enhanced feature mining and classifier models to predict customer churn for
an e-retailer / A thesis for the degree of MS. Iowa State University. Ames, 2016.
11. Keramati A., Jafari-Marandi R., Aliannejadi M., Ahmadianc I., Mozaffari M., Abbasia U. Improved
churn prediction in telecommunication industry using data mining techniques (Applied Soft
Computing), 2014. Vol. 24. P. 994–1012.
12. Kriti M. A Machine Learning Approach for Churn Prediction in Telecommunication // International
Conference on Energy, Communication, Data Analytics and Soft Computing. Chennai, India, 2017.
13. Lomax S.,Vadera S. Case Studies in Applying Data Mining for Churn Analysis [International Journal
of Conceptual Structures and Smart Applications], 2017. № 5 (2). P. 22–33.
14. Mullin M., Sukthankar R. Complete cross-validation for nearest neighbor classifiers // Proceedings of
International Conference on Machine Learning. San Francisco, CA, 2000.
15. Oates S. Churn Analysis. Sydney, 2018.
16. Prashanth R., Deepak K. High Accuracy Predictive Modelling for Customer Churn Prediction
in Telecom Industry // Machine Learning and Data Mining in Pattern Recognition. N.Y., 2017.
doi:10.1007/978-3-319-62416-7_28
17. Scott F.-R. Accurately Measuring Model Prediction Error, 2012. URL: http://scott.fortmannroe.com/docs/MeasuringError.html
18. Sowmya V. Using Linear Discriminant Analysis to Predict Customer, 2018. URL: https://www.
datascience.com/blog/predicting-customer-churn-with-a-discriminant-analysis
19. Viola P., Jones M. Rapid Object Detection using a Boosted Cascade of Simple Features, in Accepted
Conference on Computer Vision and Pattern Recognition, 2001.
20. Luqi Yao. Customer Churn Prediction, USA, 2016. URL: http://rpubs.com/LuqiYao/churn (дата обращения 20.09.2018).
Опубликован
2018-10-30
Как цитировать
Арзамасцев, С. А., Бгатов, М. В., Картышева, Е. Н., Деркунский, В. А., & Семенчиков, Д. Н. (2018). Предсказание оттока абонентов: сравнение методов машинного обучения. Компьютерные инструменты в образовании, (5), 5-23. https://doi.org/10.32603/2071-2340-2018-3-5-23
Выпуск
Раздел
Инженерия программного обеспечения