Повышение качества мониторинга с использованием автокодировщика с регрессией для обнаружения аномалий во временных рядах
В статье рассматривается проблема повышения качества мониторинга серверного программного обеспечения в условиях динамической IT-инфраструктуры. Предложен подход к обнаружению аномалий во временных рядах метрик на основе гибридной модели AER (Auto-encoder with Regression), объединяющей автокодировщик и регрессионную компоненту. Приведены результаты апробации разработанной системы, подтверждающие эффективность предложенного метода для предиктивной аналитики.
Надёжность серверного ПО - критически важный элемент современной IT‑инфраструктуры, от которого зависит стабильность работы всех цифровых сервисов. Эффективное выявление сбоев возможно только в условиях развитой системы мониторинга, обеспечивающей достаточную прозрачность процессов [1, с. 2]. Традиционные методы, опирающиеся на жёстко заданные пороговые значения, не справляются с динамикой распределённых систем: частыми изменениями конфигурации кластеров и резкими колебаниями нагрузки. В таких условиях особую актуальность приобретают технологии машинного обучения для обнаружения отклонений в потоках метрик временных рядов [2, с. 2].
Современные алгоритмы выявления аномалий делятся на два основных класса:
- предсказательные (prediction‑based) - прогнозируют будущие значения и сравнивают их с реальными;
- реконструктивные (reconstruction‑based) - восстанавливают входные данные из сжатого представления [3, с. 2].
Предсказательные методы обучаются на исторических данных и фиксируют расхождения между прогнозом и фактическими показателями. Они хорошо выявляют точечные аномалии, но часто дают ложные срабатывания на начальных участках временных рядов и плохо реагируют на повторяющиеся паттерны [4, с. 388].
Реконструктивные методы, в свою очередь, используют автокодировщики для сжатия и восстановления данных. Аномалии, как редкие события, хуже поддаются реконструкции. Этот подход эффективен для обнаружения контекстных и коллективных отклонений, но может пропускать точечные аномалии [5, с. 3].
Сравнительный анализ показывает, что оба метода дополняют друг друга, что обосновывает целесообразность их объединения в единой системе [6, с. 2].
Гибридная архитектура AER: концепция и реализация
Для преодоления ограничений существующих решений предложена гибридная модель AER (Auto‑encoder with Regression) [6, с. 5]. Её ключевая особенность - использование двунаправленных LSTM‑сетей для одновременного прогнозирования и реконструкции временных рядов.
Архитектура модели:
- Вход: временной ряд длиной n=100 с d каналами данных.
- Кодирующий блок: двунаправленная LSTM‑сеть с 30 нейронами, формирующая латентное представление размерностью 2b (где b - число LSTM‑элементов).
- Декодирующий блок: аналогичная сеть, восстанавливающая последовательность с двумя дополнительными элементами.
На выходе модель генерирует три компонента:
- Ретроспективный прогноз (на один шаг назад).
- Реконструированную последовательность.
- Перспективный прогноз (на один шаг вперёд) [6, с. 6].
Такой подход позволяет извлекать как предсказательные, так и реконструктивные признаки, что отличает AER от аналогов.
Оптимизация и оценка аномальности
Обучение модели основано на комбинированной целевой функции, объединяющей ошибки прогнозирования и реконструкции:
Loss= 2γ ⋅Vpred(ti−1,ri−1)+2γ ⋅Vpred(ti+n,fi+n )+(1−γ)⋅Vrec (ti:i+n−1 ,yi:i+n−1),
где:
Vpred - среднеквадратичная ошибка прогноза;
Vrec - среднеквадратичная ошибка реконструкции;
γ=0,5 - коэффициент балансировки [6, с. 6].
Для оценки аномальности разработан многоуровневый скоринг:
- PRED‑скор - основан на ошибках прямого и обратного прогнозирования с учётом краевых эффектов.
- REC‑скор - вычисляется через метод динамической трансформации времени (DTW) для учёта фазовых сдвигов [3, с. 7].
- Комбинированные скоры:
- SUM - выпуклая комбинация PRED и REC;
- MULT - поэлементное произведение скоров (показал лучшие результаты на большинстве данных) [6, с. 8].
Постобработка и интеграция
Для повышения точности результатов применяются следующие техники:
- Маскирование - замена первых m индексов минимальным значением скора для устранения ложных срабатываний.
- EWMA (экспоненциально взвешенное скользящее среднее) - подавление шумовых выбросов [4, с. 390].
- Адаптивная пороговая обработка - пороговое значение устанавливается на уровне четырёх стандартных отклонений от среднего в скользящем окне. Аномальные наблюдения объединяются в интервалы с отсечением малозначимых последовательностей [4, с. 391].
Подсистема предиктивного анализа реализована как микросервис с асинхронной архитектурой и координацией через Apache ZooKeeper. Ключевые компоненты:
- кластерный координатор (распределение нагрузки);
- менеджер моделей (жизненный цикл ML‑моделей);
- менеджер хранилищ (поддержка разнородных данных);
- планировщик задач (обучение и инференс) [2, с. 5].
Процесс обнаружения аномалий в реальном времени
Алгоритм работы включает несколько этапов:
- Сбор данных: агенты мониторинга (node_exporter, process_exporter) получают метрики загрузки CPU, памяти, дисковых операций, сетевого трафика и специализированные показатели для распределённых систем [1, с. 7].
- Формирование выборки: AER запрашивает данные за последние 10 минут (инференс) и 1 день (обучение), выполняет нормализацию и оконное разбиение.
- Применение моделей: последовательно задействуются Isolation Forest, One‑Class SVM и AER для комплексного анализа.
- Вычисление скоров: индивидуальные оценки комбинируются мультипликативным способом.
- Постобработка и визуализация: результаты сохраняются в хранилище и отображаются в системах мониторинга [3, с. 5].
Результаты апробации
Тестирование проводилось на тестовом полигоне, имитирующем промышленную среду:
- 600+ физических и виртуальных серверов;
- нагрузка до 15 000 метрик/сек;
- пиковая транзакционная нагрузка до 100 000 операций/сек;
- продолжительность - 30 дней [6, с. 8].
Ключевые результаты:
- предсказание инцидентов за 5–7 минут до их возникновения;
- средняя F1‑мера: 0,777 (на 21,6 % выше ARIMA и на 8,2 % выше LSTM‑DT) [6, с. 8];
- время инференса - менее 60 секунд;
- точность выросла с 0,62 до 0,79, полнота - с 0,58 до 0,76, F1‑мера - с 0,60 до 0,77;
- сокращение ложных срабатываний на 67 % (с 12 до 4 в день) [6, с. 9].
Экономический эффект:
- снижение времени простоя критических сервисов на 35 %;
- уменьшение нагрузки на DevOps‑инженеров на 25 %;
- экономия за счёт использования open‑source решений [1, с. 31].
Операционные преимущества:
- выявление скрытых проблем, не фиксируемых традиционными методами;
- сокращение времени диагностики на 40 %;
- исключение ошибок ручной настройки порогов;
- масштабируемость архитектуры [2, с. 7].
Выводы и перспективы
Гибридный подход AER существенно повышает качество мониторинга за счёт объединения предсказательных и реконструктивных методов. Модель обеспечивает высокую точность обнаружения аномалий и позволяет перейти от реактивного к проактивному управлению инцидентами [1, с. 32].
Перспективные направления исследований:
- автоматический подбор гиперпараметров для разных типов сервисов;
- применение трансферного обучения для быстрой адаптации к новым данным;
- интеграция с системами автоматического реагирования для замкнутого цикла управления инцидентами [6, с. 9].
- Альнегеймиш С., Лю Д., Сала С. и др. Sintel: структура машинного обучения для извлечения информации из сигналов // Международная конференция ACM SIGMOD по управлению данными. 2022. С. 387–395.
- Гайгер А., Лю Д., Альнегеймиш С. и др. TadGAN: обнаружение аномалий временных рядов с использованием генеративных состязательных сетей // препринт arXiv arXiv:2009.07769. 2020. 12 с.
- Хундман К., Константину В., Лапорт С. и др. Обнаружение аномалий космических аппаратов с использованием LSTM и непараметрического динамического порогового значения // Международная конференция ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных. 2018. С. 387–395.
- Парк Д., Хоши Й., Кемп К.К. Многомодальный детектор аномалий для роботизированного кормления с использованием вариационного автокодировщика на основе LSTM // Препринт arXiv arXiv:1711.00614. 2017. 8 с.
- Вонг Л., Лю Д., Берти-Экилл Л. и др. AER: Автокодировщик с регрессией для обнаружения аномалий во временных рядах // Препринт arXiv arXiv:2212.13558. 2022. 10 с.
- Ву Р., Кеог Э. Существующие эталонные тесты обнаружения аномалий во временных рядах несовершенны и создают иллюзию прогресса // IEEE Transactions on Knowledge and Data Engineering. 2021. 14 с.



