МЕТОДЫ ОБНАРУЖЕНИЯ ИНСАЙДЕРСКИХ УГРОЗ: ОБЗОР ПОДХОДОВ ПОВЕДЕНЧЕСКОГО АНАЛИЗА ДЕЙСТВИЙ ПОЛЬЗОВАТЕЛЕЙ

В статье представлен обзор методов обнаружения инсайдерских угроз на основе анализа поведения пользователей. Основное внимание уделено ключевым подходам, таким как машинное и глубокое обучение, применяемым для идентификации аномальной активности сотрудников. Проводится подробный анализ моделей, включая рекуррентные нейронные сети с долгой краткосрочной памятью (LSTM), автоэнкодеры, изолирующий лес (Isolation Forest), а также гибридные методы, сочетающие статистический и последовательный анализ. Представлены результаты экспериментов на реальных и синтетических данных, подтверждающие эффективность рассмотренных методов в улучшении точности обнаружения и снижении уровня ложных тревог.

поведенческий анализ

глубокое обучение

аномалии

анализ данных

LSTM

UEBA

машинное обучение

кибербезопасность

Авторы

Цура Данил Викторович

Научные руководители

Сомова Марина Валериевна

Рубрика

Информационные технологии

Журнал

Научные высказывания № 21 (68), декабрь 2024

Библиографическое описание

Цура Д. В., Сомова М. В. МЕТОДЫ ОБНАРУЖЕНИЯ ИНСАЙДЕРСКИХ УГРОЗ: ОБЗОР ПОДХОДОВ ПОВЕДЕНЧЕСКОГО АНАЛИЗА ДЕЙСТВИЙ ПОЛЬЗОВАТЕЛЕЙ // Научные высказывания. 2024. №21 (68). С. 23-27. URL: https://nvjournal.ru/article/METODY_OBNARUZhENIJa_INSAJDERSKIH_UGROZ_OBZOR_PODHODOV_POVEDENChESKOGO_ANALIZA_DEJSTVIJ_POLZOVATELEJ

№ 21 декабрь 2024

Инсайдерские угрозы представляют значительную сложность для современных организаций, поскольку исходят от лиц, обладающих законным доступом к конфиденциальной информации. Это могут быть сотрудники, подрядчики или иные доверенные субъекты. Выявление таких угроз затруднительно, так как злоумышленники осведомлены о внутренних процессах компании и используют свои привилегии для совершения вредоносных действий.

Методы поведенческого анализа помогают решать данную проблему. Текущие действия пользователя сопоставляются с профилем нормального поведения для выявления отклонений.

В работе [1] выделяются четыре основных типа инсайдерских угроз:

Неумышленный инсайдер: сотрудники, непреднамеренно нарушающие правила безопасности вследствие невнимательности или недостаточного знания.
Злонамеренный инсайдер: лица, сознательно использующие свои привилегии для нанесения вреда организации.
Недовольный сотрудник: работники, испытывающие недовольство своей ролью в компании и склонные к действиям, вредящим интересам работодателя.
Подрядчики: внешние специалисты, имеющие доступ к конфиденциальной информации и системам, которые могут злоупотреблять этими данными в своих интересах.

Рассмотрим основные модели машинного обучения обнаружения инсайдерских угроз.

Исследование [2] описывает организацию работы фреймворка LADOHD (LSTM-based Anomaly Detector Over High-dimensional Data) для обнаружения инсайдерских угроз с использованием рекуррентных нейросетей LSTM. Данный подход позволяет моделировать нормальное поведение системы и выявлять отклонения, указывая на потенциальные угрозы. Важной особенностью LSTM является возможность учета краткосрочных и долгосрочных зависимостей между событиями, что критично для выявления длительных атак.

Исследователи доказали, что увеличение длины анализируемых последовательностей улучшает точность классификации аномальных событий. Это подтверждает эффективность применения LSTM для анализа временных рядов, однако метод сталкивается с проблемой ложных срабатываний, обусловленной недостатком данных и новыми типами событий.

Процесс машинного обучения, представленный в работе [1], базируется на архитектуре LSTM-Autoencoder для выявления аномалий во временных рядах данных. Модель учитывает как краткосрочные, так и долгосрочные зависимости, что делает ее эффективной для анализа последовательных процессов.

На этапе извлечения признаков данные о различных событиях (например, входы в систему, веб-запросы) объединяются в общий набор. Из них выбираются ключевые признаки, такие как временные метки, идентификаторы пользователей, их роли, подразделения и типы действий. После нормализации и преобразования в числовой формат данные анализируются не по фиксированным временным окнам, а в контексте пользовательских сессий, включающих все действия от входа до выхода, что обеспечивает целостное понимание поведения.

Обучение проводится на нормальных данных без аномалий, минимизируя ошибку реконструкции (Mean Squared Error). Эксперимент показал низкую частоту ложных срабатываний (FPR = 9%), что свидетельствует о высокой точности модели в обнаружении реальных угроз.

В работе [3] предлагается метод BGMM, расширяющий классическую модель гауссовских смесей (GMM) за счет использования байесовских принципов для анализа аудиторных данных. Метод предназначен для их кластеризации, особенно в случаях, когда количество кластеров заранее неизвестно.

На этапе обучения применяется модель BGMM. Она анализирует вектора дневной активности пользователей и формирует кластеры, соответствующие различным типам нормального поведения. Отличительной чертой BGMM является автоматический выбор оптимального числа кластеров для каждого пользователя посредством распределения Дирихле, что важно ввиду индивидуальных особенностей поведения сотрудников.

После обучения модель оценивает вероятность принадлежности нового дня пользователя к одному из кластеров нормального поведения. Авторы работы демонстрируют высокую точность метода BGMM в сравнении с другими подходами для обнаружения инсайдерских угроз благодаря его адаптивности и учету индивидуальных характеристик поведения.

Метод Isolation Forest, рассмотренный в статье [4], основывается на концепции изоляции для идентификации аномалий как редких случаев, отличающихся от основного распределения данных. Этот подход эффективен в условиях значительного дисбаланса классов.

Деревья изоляции строятся методом рекурсивного разбиения данных. Каждый узел дерева представляет собой меру, оцениваемую как длина пути, то есть количество шагов, необходимых для изоляции объекта. Короткая длина пути указывает на большую вероятность того, что объект является аномалией.

Алгоритм демонстрирует высокую эффективность в условиях дисбаланса данных благодаря своей архитектуре. Аномальные объекты, составляющие меньшую часть данных, быстрее изолируются в деревьях решений, что повышает точность их обнаружения.

В исследовании [5] предложен метод, основанный на анализе динамического поведения пользователя с мышью и использовании глубокого обучения (Mouse Dynamics and Deep Learning). Основная цель – предотвращение несанкционированных действий, таких как кража данных или использование системы под чужим аккаунтом. Подход объединяет биоповеденческий анализ движений мыши с современными технологиями машинного обучения.

Ключевая новаторская идея заключается в использовании всех базовых операций мыши (перемещений, кликов, перетаскиваний, прокруток и задержек) для создания уникального набора данных, отражающего индивидуальные особенности поведения пользователя. В отличие от традиционных методов, где признаки извлекаются и отбираются вручную, здесь последовательность действий преобразуется в двумерные изображения, сохраняющие детализированную информацию о движениях мыши.

Метод, представленный в статье [6], основан на анализе поведения пользователей и сущностей (User and Entity Behavior Analytics, UEBA) с применением машинного обучения и анализа временных рядов. Исходные данные включают журналы активности сотрудников: входы в систему, использование внешних устройств, работу с файлами, веб-активность, отправку электронной почты и психометрические показатели.

Для снижения количества ложных срабатываний используется постобработка результатов, при которой аномалия подтверждается только при совпадении нескольких признаков. Этот ансамбль методов машинного обучения, анализа временных рядов и постобработки данных обеспечивает масштабируемость, интерпретируемость и высокую эффективность в выявлении инсайдерских угроз.

Рассмотрим некоторые комбинированые и гибридные подходы обнаружения инсайдерских угроз.

Работа [7] описывает комбинированный подход, использующий методы машинного обучения (ML) и глубокого обучения (DL) для анализа данных, обнаружения аномалий и интеграции различных алгоритмов. На начальном этапе собираются данные пользователей (системные журналы, сетевых запросов и др.). Предварительная обработка этих данных необходима для устранения шума и избыточности.

Основой метода является объединение результатов ML- и DL-моделей через слой слияния (Fusion Layer), что компенсирует недостатки одного подхода преимуществами другого, повышая точность выявления угроз. Важной составляющей также является механизм непрерывного обучения, позволяющий моделям адаптироваться к новым данным и изменениям в типах угроз.

Эксперименты подтвердили высокую эффективность гибридного метода, показав точность 98,5% и снижение ложноположительных срабатываний до 1,5%. Такой результат делает этот подход универсальным и применимым для анализа больших объемов данных в различных организациях, сочетающим интерпретируемость ML с мощью глубоких нейронных сетей.

Статья [8] предлагает гибридную модель глубокого обучения для анализа внутренних угроз с использованием метода генерации данных (Similarity Principal Component Analysis Generative Adversarial Network, SPCAGAN). SPCAGAN представляет собой модификацию архитектуры GAN, которая генерирует синтетические данные, интегрируя изучение многообразий и новую функцию потерь, сравнивающую реальные и сгенерированные данные. Этот метод улучшает репрезентацию данных, решает проблему дисбаланса классов и повышает устойчивость моделей к атакам.

Представленная методология комбинирует генерацию высококачественных синтетических данных с глубокими моделями, что способствует более точному обнаружению внутренних угроз и устойчивости к возможным атакам.

В статье [9] описан метод CATE (Convolutional Attention and Transformer Encoder), который совмещает статистический и последовательный анализы пользовательских данных. Этот подход объединяет преимущества обоих методов для более точного анализа поведения пользователей внутри организации.

Традиционные методы либо фокусируются на статистическом анализе для выявления характерных особенностей данных, либо используют последовательный анализ для учета временных зависимостей. Однако первый подход игнорирует временной контекст, а второй может сталкиваться с нехваткой данных и сложностями их обработки. Метод CATE устраняет эти ограничения, интегрируя оба подхода, что значительно повышает эффективность обнаружения внутренних угроз и обеспечивает более глубокое понимание поведения пользователей.

В работе [10] рассматриваются методы на основе глубоких нейронных сетей (Deep Neural Networks) для обнаружения внутренних угроз. Традиционно используемые подходы ориентированы либо на сеть, либо на хосты, что ограничивает их эффективность в выявлении угроз, связанных с действиями внутренних пользователей. Предлагаемый метод объединяет анализ поведения на уровнях сети и хостов в одну систему.

Основой метода являются глубокие нейронные сети, такие как автокодировщики (AE) и вариационные автокодировщики (VAE). Входные данные предварительно обрабатываются и подаются в модели. Автокодировщик сжимает данные до компактного представления (энкодер) и восстанавливает их обратно (декодер). При наличии аномалий увеличивается ошибка реконструкции, что помогает выявить отклонения от нормы.

Вариационный автокодировщик добавляет вероятностное моделирование, делая модель более устойчивой к шуму и способной лучше распознавать сложные закономерности.

Эксперименты показывают, что совместное использование сетевых и хостовых данных значительно улучшает точность обнаружения аномалий, вызванных внутренними угрозами, такими как атаки социальной инженерии. Так, применение только сетевых данных дает точность 77.3%, тогда как добавление данных с хостов увеличивает точность до 88.3%.

В заключение отметим, что инсайдерские угрозы остаются одной из самых сложных проблем в сфере информационной безопасности, требующей комплексного подхода к выявлению и предотвращению потенциальных рисков. Традиционные средства защиты, ориентированные на выявление внешних атак, зачастую оказываются неэффективными перед лицом злоумышленников с законным доступом к данным. В связи с этим применение методов машинного обучения, предоставляет новые возможности для анализа поведения пользователей и обнаружения аномалий. Данные подходы демонстрируют высокую точность и способны эффективно справляться с изменяющимися моделями угроз, учитывая как краткосрочные, так и долгосрочные зависимости в данных.

Результаты проводимых исследований подтверждают, что использование поведенческого анализа в сочетании с современными архитектурами машинного обучения может значительно повысить уровень защиты организаций от инсайдерских угроз. Однако для дальнейшего улучшения этих моделей необходимо проводить дополнительные исследования, направленные на снижение ложных срабатываний и адаптацию алгоритмов к новым типам инсайдерских атак.

Список литературы

Behavioral Based Insider Threat Detection Using Deep Learning / Rida Nasir, Mehreen Afzal, Rabia Latif, Waseem Iqbal // IEEE Access. 2021. С. 143266 – 143274.
Hunting for Insider Threats Using LSTM-Based Anomaly Detection / Miguel Villarreal -Vasquez, Gaspar Modelo-Howard, Simant Dube, Bharat Bhargava // IEEE Transactions on Dependable and Secure Computing. 2023. С. 451 – 462.
Simon Bertrand, Josée Desharnais, Nadia Tawbi. Unsupervised User-Based Insider Threat Detection Using Bayesian Gaussian Mixture Models // 2023 20th Annual International Conference on Privacy, Security and Trust (PST). 2023. C. 1-10
Insider Threat Detection Model Using Anomaly Based Isolation Forest Algorithm / Taher Al-Shehari, Muna Al-Razgan, Taha Alfakih, Rakan A. Alsowail, Saravanan Pandiaraj // IEEE Access. 2023. С. 118170 – 118185.
An Insider Threat Detection Approach Based on Mouse Dynamics and Deep Learning / Teng Hu, Weina Niu, Xiaosong Zhang, Xiaolei Liu, Jiazhong Lu, Yuan Liu // Security and Communication Networks. 2019. С. 1-12.
M. Zunair Ahmed Khan, M. Mubashir Khan, J. Arshad. Anomaly Detection and Enterprise Security using User and Entity Behavior Analytics (UEBA) // 2022 3rd International Conference on Innovations in Computer Science & Software Engineering (ICONICS). 2022. С. 1 – 9.
Detecting Insider Threats in Cybersecurity Using Machine Learning and Deep Learning Techniques / D. Sridevi, L. Kannagi, Vivekanandan G, S. Revathi. 2023 International Conference on Communication, Security and Artificial Intelligence (ICCSAI). 2023. С. 871 – 875.
Gayathri R.G., Atul Sajjanhar, Yong Xiang. Hybrid deep learning model using SPCAGAN augmentation for insider threat analysis [Электронный ресурс] // arXiv. URL: https://arxiv.org/pdf/2203.02855 (дата обращения: 15.10.24)
Haitao Xiao, Yan Zhu, Bin Zhang, Zhigang Lu, Dan Du, Yuling Liu. Unveiling shadows: A comprehensive framework for insider threat detection based on statistical and sequential analysis [Электронный ресурс] // ScienceDirect URL: https://www.sciencedirect.com/science/article/abs/pii/S0167404823005758?via%3Dihub (дата обращения: 03.10.24)
M. Zewdie, A. Girma, T. M. Sitote. Deep Neural Networks for Detecting Insider Threats and Social Engineering Attacks // International Conference on Electrical, Computer and Energy Technologies (ICECET). 2024. С. 1 – 8.

международный научный журнал

Научные высказывания #81

Предоставляем бесплатную справку о публикации, препринт статьи — сразу после оплаты.

Прием материалов

с 31 июля по 31 августа

Осталось 13 дней до окончания

Размещение электронной версии

15 сентября

МЕТОДЫ ОБНАРУЖЕНИЯ ИНСАЙДЕРСКИХ УГРОЗ: ОБЗОР ПОДХОДОВ ПОВЕДЕНЧЕСКОГО АНАЛИЗА ДЕЙСТВИЙ ПОЛЬЗОВАТЕЛЕЙ

Похожие статьи

Другие статьи из раздела «Информационные технологии»

Научные высказывания #81