Повышение качества мониторинга с использованием автокодировщика с регрессией для обнаружения аномалий во временных рядах
Журнал Научные высказывания

Повышение качества мониторинга с использованием автокодировщика с регрессией для обнаружения аномалий во временных рядах

В статье рассматривается проблема повышения качества мониторинга серверного программного обеспечения в условиях динамической IT-инфраструктуры. Предложен подход к обнаружению аномалий во временных рядах метрик на основе гибридной модели AER (Auto-encoder with Regression), объединяющей автокодировщик и регрессионную компоненту. Приведены результаты апробации разработанной системы, подтверждающие эффективность предложенного метода для предиктивной аналитики.

временные ряды
обнаружение аномалий
автокодировщик
регрессия
предиктивная аналитика
мониторинг

Надёжность серверного ПО - критически важный элемент современной IT‑инфраструктуры, от которого зависит стабильность работы всех цифровых сервисов. Эффективное выявление сбоев возможно только в условиях развитой системы мониторинга, обеспечивающей достаточную прозрачность процессов [1, с. 2]. Традиционные методы, опирающиеся на жёстко заданные пороговые значения, не справляются с динамикой распределённых систем: частыми изменениями конфигурации кластеров и резкими колебаниями нагрузки. В таких условиях особую актуальность приобретают технологии машинного обучения для обнаружения отклонений в потоках метрик временных рядов [2, с. 2].

Современные алгоритмы выявления аномалий делятся на два основных класса:

  • предсказательные (prediction‑based) - прогнозируют будущие значения и сравнивают их с реальными;
  • реконструктивные (reconstruction‑based) - восстанавливают входные данные из сжатого представления [3, с. 2].

Предсказательные методы обучаются на исторических данных и фиксируют расхождения между прогнозом и фактическими показателями. Они хорошо выявляют точечные аномалии, но часто дают ложные срабатывания на начальных участках временных рядов и плохо реагируют на повторяющиеся паттерны [4, с. 388].

Реконструктивные методы, в свою очередь, используют автокодировщики для сжатия и восстановления данных. Аномалии, как редкие события, хуже поддаются реконструкции. Этот подход эффективен для обнаружения контекстных и коллективных отклонений, но может пропускать точечные аномалии [5, с. 3].

Сравнительный анализ показывает, что оба метода дополняют друг друга, что обосновывает целесообразность их объединения в единой системе [6, с. 2].

Гибридная архитектура AER: концепция и реализация

Для преодоления ограничений существующих решений предложена гибридная модель AER (Auto‑encoder with Regression) [6, с. 5]. Её ключевая особенность - использование двунаправленных LSTM‑сетей для одновременного прогнозирования и реконструкции временных рядов.

Архитектура модели:

  • Вход: временной ряд длиной n=100 с d каналами данных.
  • Кодирующий блок: двунаправленная LSTM‑сеть с 30 нейронами, формирующая латентное представление размерностью 2b (где b - число LSTM‑элементов).
  • Декодирующий блок: аналогичная сеть, восстанавливающая последовательность с двумя дополнительными элементами.

На выходе модель генерирует три компонента:

  • Ретроспективный прогноз (на один шаг назад).
  • Реконструированную последовательность.
  • Перспективный прогноз (на один шаг вперёд) [6, с. 6].

Такой подход позволяет извлекать как предсказательные, так и реконструктивные признаки, что отличает AER от аналогов.

Оптимизация и оценка аномальности

Обучение модели основано на комбинированной целевой функции, объединяющей ошибки прогнозирования и реконструкции:

Loss= 2γ​ Vpred(ti−1,ri−1)+2γ​ Vpred(ti+n,fi+n )+(1−γ)Vrec (ti:i+n−1 ,yi:i+n−1),

где:

Vpred  - среднеквадратичная ошибка прогноза;

Vrec  - среднеквадратичная ошибка реконструкции;

γ=0,5 - коэффициент балансировки [6, с. 6].

Для оценки аномальности разработан многоуровневый скоринг:

  • PRED‑скор - основан на ошибках прямого и обратного прогнозирования с учётом краевых эффектов.
  • REC‑скор - вычисляется через метод динамической трансформации времени (DTW) для учёта фазовых сдвигов [3, с. 7].
  • Комбинированные скоры:
  • SUM - выпуклая комбинация PRED и REC;
  • MULT - поэлементное произведение скоров (показал лучшие результаты на большинстве данных) [6, с. 8].

Постобработка и интеграция

Для повышения точности результатов применяются следующие техники:

  • Маскирование - замена первых m индексов минимальным значением скора для устранения ложных срабатываний.
  • EWMA (экспоненциально взвешенное скользящее среднее) - подавление шумовых выбросов [4, с. 390].
  • Адаптивная пороговая обработка - пороговое значение устанавливается на уровне четырёх стандартных отклонений от среднего в скользящем окне. Аномальные наблюдения объединяются в интервалы с отсечением малозначимых последовательностей [4, с. 391].

Подсистема предиктивного анализа реализована как микросервис с асинхронной архитектурой и координацией через Apache ZooKeeper. Ключевые компоненты:

  • кластерный координатор (распределение нагрузки);
  • менеджер моделей (жизненный цикл ML‑моделей);
  • менеджер хранилищ (поддержка разнородных данных);
  • планировщик задач (обучение и инференс) [2, с. 5].

Процесс обнаружения аномалий в реальном времени

Алгоритм работы включает несколько этапов:

  • Сбор данных: агенты мониторинга (node_exporter, process_exporter) получают метрики загрузки CPU, памяти, дисковых операций, сетевого трафика и специализированные показатели для распределённых систем [1, с. 7].
  • Формирование выборки: AER запрашивает данные за последние 10 минут (инференс) и 1 день (обучение), выполняет нормализацию и оконное разбиение.
  • Применение моделей: последовательно задействуются Isolation Forest, One‑Class SVM и AER для комплексного анализа.
  • Вычисление скоров: индивидуальные оценки комбинируются мультипликативным способом.
  • Постобработка и визуализация: результаты сохраняются в хранилище и отображаются в системах мониторинга [3, с. 5].

Результаты апробации

Тестирование проводилось на тестовом полигоне, имитирующем промышленную среду:

  • 600+ физических и виртуальных серверов;
  • нагрузка до 15 000 метрик/сек;
  • пиковая транзакционная нагрузка до 100 000 операций/сек;
  • продолжительность - 30 дней [6, с. 8].

Ключевые результаты:

  • предсказание инцидентов за 5–7 минут до их возникновения;
  • средняя F1‑мера: 0,777 (на 21,6 % выше ARIMA и на 8,2 % выше LSTM‑DT) [6, с. 8];
  • время инференса - менее 60 секунд;
  • точность выросла с 0,62 до 0,79, полнота - с 0,58 до 0,76, F1‑мера - с 0,60 до 0,77;
  • сокращение ложных срабатываний на 67 % (с 12 до 4 в день) [6, с. 9].

Экономический эффект:

  • снижение времени простоя критических сервисов на 35 %;
  • уменьшение нагрузки на DevOps‑инженеров на 25 %;
  • экономия за счёт использования open‑source решений [1, с. 31].

Операционные преимущества:

  • выявление скрытых проблем, не фиксируемых традиционными методами;
  • сокращение времени диагностики на 40 %;
  • исключение ошибок ручной настройки порогов;
  • масштабируемость архитектуры [2, с. 7].

Выводы и перспективы

Гибридный подход AER существенно повышает качество мониторинга за счёт объединения предсказательных и реконструктивных методов. Модель обеспечивает высокую точность обнаружения аномалий и позволяет перейти от реактивного к проактивному управлению инцидентами [1, с. 32].

Перспективные направления исследований:

  • автоматический подбор гиперпараметров для разных типов сервисов;
  • применение трансферного обучения для быстрой адаптации к новым данным;
  • интеграция с системами автоматического реагирования для замкнутого цикла управления инцидентами [6, с. 9].
Список литературы
  1. Альнегеймиш С., Лю Д., Сала С. и др. Sintel: структура машинного обучения для извлечения информации из сигналов // Международная конференция ACM SIGMOD по управлению данными. 2022. С. 387–395.
  2. Гайгер А., Лю Д., Альнегеймиш С. и др. TadGAN: обнаружение аномалий временных рядов с использованием генеративных состязательных сетей // препринт arXiv arXiv:2009.07769. 2020. 12 с.
  3. Хундман К., Константину В., Лапорт С. и др. Обнаружение аномалий космических аппаратов с использованием LSTM и непараметрического динамического порогового значения // Международная конференция ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных. 2018. С. 387–395.
  4. Парк Д., Хоши Й., Кемп К.К. Многомодальный детектор аномалий для роботизированного кормления с использованием вариационного автокодировщика на основе LSTM // Препринт arXiv arXiv:1711.00614. 2017. 8 с.
  5. Вонг Л., Лю Д., Берти-Экилл Л. и др. AER: Автокодировщик с регрессией для обнаружения аномалий во временных рядах // Препринт arXiv arXiv:2212.13558. 2022. 10 с.
  6. Ву Р., Кеог Э. Существующие эталонные тесты обнаружения аномалий во временных рядах несовершенны и создают иллюзию прогресса // IEEE Transactions on Knowledge and Data Engineering. 2021. 14 с.
международный научный журнал

Научные высказывания #94

Предоставляем бесплатную справку о публикации, препринт статьи — сразу после оплаты.
Прием материалов
с 08 апреля по 22 апреля
Осталось 8 дней до окончания
Размещение электронной версии
06 мая
Загрузка в eLibrary
07 мая
ISSN № 2782-3121
eLibrary № 302-10/2021
СМИ ЭЛ № ФС77-79727