Д.А. Гнатюк, аспірант
Черкаський національний університет ім. Богдана Хмельницького
Україна, 18031, Черкаси, б-р Шевченка, 81
e-mail:
Èlektron. model. 2025, 47(6):11-33
https://doi.org/10.15407/emodel.47.06.011
АНОТАЦІЯ
Проаналізовано застосування методів машинного навчання для виявлення аномалій у серверних програмних системах, що функціонують у режимі реального часу. Зокрема LSTM для аналізу журналів подій та XGBoost для класифікації структурованих ознак подій. Проведено систематизацію сучасних методів моніторингу та аналізу журналів подій на основі застосування методів машинного навчання. Визначено переваги та недоліки окремих методів, а також обґрунтовано ефективність їх комбінованого для визначення аномалій у серверних програмних системах. Особливу увагу приділено оптимізації методів машинного навчання для виявлення нестандартних подій при журналюванні. В них застосовано механізми уваги, кешування даних та способи автоматизованого визначення ознак, що дозволяє забезпечити оперативний аналіз потоку подій у режимі реального часу. Результати аналізу підтверджують високий потенціал гібридних моделей для підвищення стабільності, надійності та продуктивності серверних програмних систем, дозволяючи окреслити перспективні напрямки для подальших досліджень у сфері виявлення аномалій.
КЛЮЧОВІ СЛОВА:
методи моніторингу аномалій, журнали подій, комбінований підхід для виявлення аномалій, кешування, високонавантажені середовища.
СПИСОК ЛІТЕРАТУРИ
- Data-centric artificial intelligence: a survey / D. Zha et al. 2023. P. 38. URL: https:// doi.org/10.48550/arXiv.2303.10158 (date of access: 18.03.2025).
- Provatas N., Konstantinou I., Koziris N. A survey on parameter server architecture: approaches for optimizing distributed centralized learning. 2025. URL: https://doi.org/10.1109/ACCESS.2025.3535085 (date of access: 18.03.2025).
- Anomaly detection in virtual machine logs against irrelevant attribute interference / H. Zhang et al. 2025. URL: https://doi.org/10.1371/journal.pone.0315897 (date of access: 18.03.2025).
- Anomaly detection using system logs: a deep learning approach / R. Sinha et al. 2022. URL: https://doi.org/10.4018/IJISP.285584 (date of access: 18.03.2025).
- Гнатюк Д.А. Особливості навчання моделей для ефективного аналізу даних і виявлення аномалій в серверних програмних системах. Information modeling technologies, systems and applications. 2024. P. 85. URL: https://fotius.cdu.edu.ua/wp-content/uploads/ 2024/05/Book_IMTCK_2024.pdf (date of access: 18.03.2025).
- Zhang X., Zhang Q. Short-Term traffic flow prediction based on lstm-xgboost combination model. Cmes. 2020. Vol. 125, no. 1. P. 95—109. URL: https://doi.org/10.32604/cmes. 2020.011013 (date of access: 18.03.2025).
- Attention-based CNN-LSTM and XGBoost hybrid model for stock prediction / Z. Shi et al. Journal of latex class files. 2023. Vol. 14, no. 8. URL: https://doi.org/10.48550/arXiv.2204.02623 (date of access: 18.03.2025).
- Vervaet A. MoniLog: an automated log-based anomaly detection system for cloud computing infrastructures. 2023. P. 5. URL: https://arxiv.org/pdf/2304.11940 (date of access: 18.03.2025).
- DEEPCASE: semi-supervised contextual analysis of security events / T.V. Ede et al. IEEE symposium on security and privacy (SP). 2022. P. 522—539. URL: https://doi.org/10.1109/SP46214.2022.9833671 (date of access: 18.03.2025).
- Torres L., Barrios H., Denneulin Y. Evaluation of computational and energy performance in matrix multiplication algorithms on CPU and GPU using MKL, cuBLAS and SYCL. 2024. P. 14. URL: https://doi.org/10.48550/arXiv.2405.17322 (date of access: 18.03.2025).
- Guo H., Yuan S., Wu X. LogBERT: log anomaly detection via BERT. 2021. P. 13. URL: https://doi.org/10.48550/arXiv.2103.04475 (date of access: 18.03.2025).
- Attention is all you need / A. Vaswani et al. 2017. P. 15. URL: https://doi.org/10.48550/arXiv.1706.03762 (date of access: 18.03.2025).
- DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter / V. Sanh et al. 2019. P. 5. URL: https://doi.org/10.48550/arXiv.1910.01108 (date of access: 18.03.2025).
- ALBERT: A lite BERT for self-supervised learning of language representations / Z. Lan et al. 2020. P. 17. URL: https://doi.org/10.48550/arXiv.1909.11942 (date of access: 18.03.2025).
- Alizadeh N., Castor F. Green AI: A preliminary empirical study on energy consumption in DL models across different runtime infrastructures. 2024. P. 6. URL: https://doi.org/10.48550/arXiv.2402.13640 (date of access: 06.05.2025).
- Pierson R., Moin A. Automated bug report prioritization in large open-source projects. 2025. P. 10. URL: https://doi.org/10.48550/arXiv.2504.15912 (date of access: 06.05.2025).
- Kingma D.P., Welling M. Auto-Encoding variational bayes. 2013. P. 14. URL: https://doi.org/10.48550/arXiv.1312.6114 (date of access: 18.03.2025).
- Zhao S., Song J., Ermon S. Towards deeper understanding of variational autoencoding models. 2017. P. 14. URL: https://doi.org/10.48550/arXiv.1702.08658 (date of access: 18.03.2025).
- Široký F. Anomaly detection using deep sparse autoencoders for CERN particle detector data. 2019. 39 p. URL: https://is.muni.cz/th/ljgxi/BcPraceSiroky.pdf (date of access: 18.03.2025).
- Dohi K. Variational autoencoders for jet simulation. URL: https://doi.org/10.48550/arXiv.2009.04842 (date of access: 06.05.2025).
- Application of deep generative models for anomaly detection in complex financial transactions / T. Tang et al. URL: https://doi.org/10.48550/arXiv.2504.15491 (date of access: 06.05.2025).
- Learning phrase representations using RNN encoder-decoder for statistical machine translation / K. Cho et al. URL: https://doi.org/10.48550/arXiv.1406.1078 (date of access: 18.03.2025).
- Gers F. Recurrent nets that time and count. 2016. P. 7. URL: https://doi.org/10.1109/IJCNN.2000.861302 (date of access: 18.03.2025).
- HyTGraph: gpu-accelerated graph processing with hybrid transfer management / Q. Wang et al. URL: https://doi.org/10.48550/arXiv.2208.14935 (date of access: 06.05.2025).
- Jayanth R., Gupta N., Prasanna V. Benchmarking edge AI platforms for high-performance ML inference. URL: https://doi.org/10.48550/arXiv.2409.14803 (date of access: 06.05.2025).
- Detecting spacecraft anomalies using lstms and nonparametric dynamic thresholding / K. Hundman et al. URL: https://doi.org/10.48550/arXiv.1802.04431 (date of access: 18.03.2025).
- A deep learning approach to anomaly detection in high-frequency trading data / Q. Bao et al. URL: https://doi.org/10.48550/arXiv.2504.00287 (date of access: 06.05.2025).
- Mäntylä M., Varela M., Hashemi S. Pinpointing anomaly events in logs from stability testing-n-grams vs. deep-learning. URL: https://doi.org/10.48550/arXiv.2202.09214 (date of access: 18.03.2025).
- Hochreiter S. Long Short-Term Memory. 1997. P. 32. URL: https://doi.org/10.1162/neco.1997.9.8.1735 (date of access: 18.03.2025).
- A survey on anomaly detection for technical systems using LSTM networks / B. Lindemann et al. URL: https://doi.org/10.48550/arXiv.2105.13810 (date of access: 18.03.2025).
- Van Houdt G., Mosquera C., Nápole G. A review on the long short-term memory model. Artificial intelligence review. 2020. Vol. 53, no. 1. P. 14. URL: https://link.springer.com/article/10.1007/s10462-020-09838-1 (date of access: 18.03.2025).
- Do RNN and LSTM have Long Memory? / J. Zhao et al. URL: https://doi.org/10.48550/arXiv.2006.03860 (date of access: 18.03.2025).
- Prater R., Hanne T., Dornberger R. Generalized Performance of LSTM in Time-Series Forecasting. Journal of forecasting. 2024. P. 20. URL: https://doi.org/10.1080/08839514.2024.2377510 (date of access: 18.03.2025).
- Dai J., Liao M., Guo X. Research on the application of improved LSTM model in time series problems. 2023 international conference on electronics, automation, and computer science (ICEACE). 2023. P. 1544—1548. URL: https://doi.org/10.1109/ICEACE60673.2023.10442927 (date of access: 18.03.2025).
- Long short-term memory (LSTM) recurrent neural network for muscle activity detection / M. Ghislieri et al. Journal of NeuroEngineering and Rehabilitation. 2021. P. 15. URL: https://jneuroengrehab.biomedcentral.com/articles/10.1186/s12984-021-00945-w (date of access: 18.03.2025).
- Sennhauser L., Berwick R.C. Evaluating the ability of lstms to learn context-free grammars. Proceedings of the 32nd conference on neural information processing systems (neurips). 2018. P. 115—124. URL: https://doi.org/10.48550/arXiv.1811.02611 (date of access: 18.03.2025).
- Karpathy A., Johnson J., Fei-Fei L. Visualizing and understanding recurrent networks. URL: https://doi.org/10.48550/arXiv.1506.02078 (date of access: 18.03.2025).
- Patient Subtyping via Time-Aware LSTM Networks / I.M. Baytas et al. Proceedings of the 2017 ACM international conference on bioinformatics, computational biology, and health informatics. 2017. P. 65—74. URL: https://dl.acm.org/doi/10.1145/3097983.3097997 (date of access: 18.03.2025).
- LogAnomaly: unsupervised detection of sequential and quantitative anomalies in unstructured logs / W. Meng et al. Proceedings of the 28th international joint conference on artificial intelligence (IJCAI-19). 2019. P. 7. URL: https://doi.org/10.24963/ijcai.2019/658 (date of access: 18.03.2025).
- Self-Supervised learning with data augmentations provably isolates content from style / J. von Kügelgen et al. 2022. P. 32. URL: https://doi.org/10.48550/arXiv.2106.04619 (date of access: 18.03.2025).
- Farzad A., Gulliver T.A. Log message anomaly detection and classification using auto-b/lstm and auto-gru. 2019. P. 18. URL: https://arxiv.org/abs/1911.08744 (date of access: 18.03.2025).
- Lundberg S., Lee S.-I. A unified approach to interpreting model predictions. 2017. P. 10. URL: https://doi.org/10.48550/arXiv.1705.07874 (date of access: 18.03.2025).
- Chen T., Guestrin C. XGBoost: a scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016. P. 13. URL: https://arxiv.org/abs/1603.02754 (date of access: 18.03.2025).
- Benchmarking and optimization of gradient boosting decision tree algorithms / A. Anghel et al. 2018. P. 7. URL: https://doi.org/10.48550/arXiv.1809.04559 (date of access: 18.03.2025).
- XGBoost: everything you need to know. URL: https://neptune.ai/blog/xgboost-everything-you-need-to-know (date of access: 18.03.2025).
- Optimization and application of xgboost logging prediction model for porosity and permeability based on k-means method / J. Zhang et al. 2024. P. 18. URL: https://doi.org/10.3390/app14103956 (date of access: 18.03.2025).
- Practical guidelines for the use of gradient boosting for molecular property prediction / D. Boldini et al. 2023. P. 13. URL: https://doi.org/10.1186/s13321-023-00743-7 (date of access: 18.03.2025).
- Harnessing LSTM and XGBoost algorithms for storm prediction / A. Frifra et al. 2024. P. 13. URL: https://www.nature.com/articles/s41598-024-62182-0 (date of access: 18.03.2025).
- Performance-preserving event log sampling for predictive monitoring / M. Fani Sani et al. J intell inf syst. 2023. P. 53—82. URL: https://doi.org/10.1007/s10844-022-00775-9 (date of access: 18.03.2025).
- Wang X., Lu X. A host-based anomaly detection framework using xgboost and LSTM for iot devices. 2020. P. 12. URL: https://doi.org/10.1155/2020/8838571 (date of access: 18.03.2025).
- Лобачев І.М. Моделі та методи підвищення ефективності розподілених трансдюсерних мереж на основі машинного навчання та периферійних обчислень. 2021. 174 с. URL: https://op.edu.ua/sites/default/files/publicFiles/dissphd/dysertaciya_lobachev_122.pdf (дата звернення: 18.03.2025).
- XGBoost parameters. URL: https://xgboost.readthedocs.io/en/stable/parameter.html (date of access: 18.03.2025).
- Putatunda S., Rama K. A modified bayesian optimization based hyper-parameter tuning approach for extreme gradient boosting. 2020. P. 6. URL: https://doi.org/10.48550/arXiv.2004.05041 (date of access: 18.03.2025).
- XGBoost. URL: https://www.nvidia.com/en-us/glossary/xgboost/ (date of access: 18.03.2025).
- Kukkala V.K., Thiruloga S.V., Pasricha S. LATTE: LSTM self-attention based anomaly detection in embedded automotive platforms. 2021. P. 24. URL: https://doi.org/10.48550/arXiv.2107.05561 (date of access: 18.03.2025).
- AutoML for XGBoost. URL: https://microsoft.github.io/FLAML/docs/Examples/AutoML- for-XGBoost/ (date of access: 18.03.2025).
- An automated machine learning (automl) method for driving distraction detection based on lane-keeping performance / C. Chai et al. 2021. P. 11. URL: https://doi.org/10.48550/arXiv.2103.08311 (date of access: 18.03.2025).
- Elastic stack. URL: https://www.elastic.co/elastic-stack (date of access: 18.03.2025).
ГНАТЮК Дмитро Анатолійович, аспірант Черкаського національного університету ім. Богдана Хмельницького, який закінчив у 2020 р. Область наукових досліджень — розробка інтелектуальних систем моніторингу та аналізу стабільності серверних програмних систем.