Обнаружение фишинговых атак с использованием машинного обучения: методы, подходы и перспективы
Журнал Научные высказывания

Обнаружение фишинговых атак с использованием машинного обучения: методы, подходы и перспективы

В работе рассматриваются современные подходы для выявления фишинговых атак на основе машинного обучения. Анализируются алгоритмы, методы отбора признаков, а также проблемы интерпретируемости и точности моделей.

классификация
интерпретируемость моделей
фишинг
обнаружение атак
машинное обучение
информационная безопасность

Фишинговые атаки на протяжении последних десятилетий сохраняют статус одного из наиболее опасных и распространённых видов киберугроз. Основываясь на принципах социальной инженерии, злоумышленники используют поддельные веб-сайты, электронные письма и интерфейсы, имитирующие легитимные ресурсы, с целью получения конфиденциальной информации – логинов, паролей, банковских реквизитов и другой чувствительной информации. По данным различных аналитических агентств, количество фишинговых инцидентов ежегодно увеличивается, а формы атак становятся всё более изощрёнными.

Классические методы противодействия фишингу, включая статические правила фильтрации, чёрные списки доменов и эвристические алгоритмы, обладают рядом ограничений. Они требуют постоянного обновления и зачастую неэффективны против новых, ранее неизвестных форм атак. В этой связи возрастает интерес к использованию алгоритмов машинного обучения (МО), которые обладают способностью к обучению на больших объёмах данных и способны выявлять скрытые закономерности, недоступные традиционным подходам.

В работе [1] предложен метод автоматического обнаружения фишинговых веб-сайтов, основанный на применении алгоритмов машинного обучения. Использовался открытый датасет, содержащий 88 647 записей, каждая из которых представляет собой веб-сайт, помеченный как фишинговый либо легитимный. Признаковое пространство включало 112 параметров, отражающих различные характеристики URL, домена, поведения сайта, а также данные из внешних источников (например, PageRank, Alexa Rank, WHOIS и др.). Все признаки были числовыми, без пропущенных значений, что упрощало этап предобработки.

В целях повышения эффективности модели была выполнена стандартизация данных, а также устранены константные признаки, не несущие информации (всего 13 признаков с нулевой дисперсией). Такая фильтрация позволила сократить размерность признакового  пространства и уменьшить вычислительные затраты. Учитывая несбалансированность исходного набора данных (фишинговых сайтов было существенно меньше), применялась техника балансировки классов SMOTEENN, сочетающая синтетическое увеличение меньшего класса (SMOTE) с очисткой сомнительных примеров из обеих категорий (ENN). Это позволило выровнять соотношение классов и тем самым повысить устойчивость моделей к смещению в сторону доминирующего класса.

В качестве алгоритмов классификации рассматривались шесть моделей: логистическая регрессия, метод k ближайших соседей (kNN), наивный байесовский классификатор, случайный лес (Random Forest), метод опорных векторов (SVM) и градиентный бустинг (XGBoost). Обучение проводилось с использованием метода 10-кратной кросс-валидации (10-fold cross-validation), при этом 80 % данных использовалось для обучения, а 20 % – для тестирования. Для каждой модели осуществлялся подбор ключевых гиперпараметров, что обеспечило повышение точности предсказаний. Также проводились эксперименты по снижению размерности пространства признаков с применением методов PCA (Principal Component Analysis) и LDA (Linear Discriminant Analysis). Несмотря на некоторое ускорение выполнения моделей, было установлено, что отказ от снижения размерности обеспечивает наилучшие результаты по точности, особенно для ансамблевых методов.

Наиболее высокие показатели были достигнуты с использованием XGBoost, обученного на сбалансированном датасете с предварительно удалёнными константными признаками и без применения методов уменьшения размерности. В данной конфигурации модель продемонстрировала точность 99,1 %. Время предсказания составило порядка 1,5 секунды, что делает предложенный подход пригодным как для оффлайн-анализа, так и для задач реального времени, включая построение чёрных списков, интеграцию в браузеры или системы защиты корпоративной почты.

Ключевым аспектом практического применения алгоритмов МО в сфере информационной безопасности становится вопрос интерпретируемости. В условиях, когда системы принимают решения, влияющие на безопасность пользователей, крайне важно понимать, на основе каких признаков модель делает выводы. В работе [2] предлагается объяснимый подход к отбору признаков для задачи обнаружения фишинговых веб-сайтов с использованием машинного обучения. Разработанный метод, обозначаемый как SLA-FS (SHAP and LIME Aggregated Feature Selection), сочетает глобальный и локальный анализ важности признаков, опираясь на современные методы объяснимого искусственного интеллекта – SHAP и LIME. Целью SLA-FS является формирование устойчивого и информативного подмножества признаков, которое одновременно обеспечивает высокую точность классификации и повышает интерпретируемость модели.

Первым этапом предложенного подхода является вычисление глобальной важности признаков с использованием метода SHAP (SHapley Additive exPlanations). SHAP основывается на теоретико-игровой концепции значений Шепли и позволяет количественно оценить вклад каждого признака в предсказания модели по всему обучающему набору данных. Используемая в работе реализация SHAP применима к произвольным алгоритмам машинного обучения, а в качестве базовой модели для оценки важности признаков использовался алгоритм случайного леса, как обладающий хорошим балансом между точностью и вычислительной эффективностью. Полученные значения важности ранжируются, и выделяется множество признаков с наибольшим вкладом в распознавание целевого класса – фишинговых сайтов.

Однако глобальные методы интерпретации могут игнорировать локальные вариации, особенно важные в контексте фишинговых атак, которые отличаются высокой степенью разнообразия. Для учета таких локальных различий в SLA-FS дополнительно применяется метод LIME (Local Interpretable Model-agnostic Explanations), который строит локальные приближённые модели в окрестности каждого отдельного примера. В данной работе LIME применяется к случайной подвыборке (50 %) объектов из исходного датасета; для каждого объекта оценивается локальная важность признаков, а затем производится агрегирование значений по всей подвыборке. Это позволяет получить среднюю оценку локального влияния каждого признака.

Окончательный выбор признаков осуществляется путем пересечения множеств, полученных по SHAP и агрегированным значениям LIME. Таким образом, в итоговый набор входят только те признаки, которые признаны значимыми как в глобальной, так и в локальной перспективе. Данный способ объединяет преимущества обоих подходов и снижает риск включения признаков, чья важность может быть обусловлена шумом или случайными закономерностями.

Для определения оптимального количества признаков, сохраняемых после отбора, был проведён эмпирический анализ с использованием различных порогов отсечения. Эксперименты показали, что использование 56 признаков (около 64 % от полного набора) обеспечивает наилучший баланс между точностью и скоростью предсказания. Итоговый набор был использован для обучения и тестирования моделей машинного обучения, включая Random Forest, XGBoost и kNN. Полученные результаты продемонстрировали, что SLA-FS не только увеличивает точность классификации на 0,65 % для Random Forest (97,41 %) и 0,41 % для XGBoost (97,21 %) по сравнению с полным набором признаков, но и ускоряет обработку за счёт сокращения размерности входных данных.

Предложенный подход SLA-FS обеспечивает интерпретируемый, адаптивный и эффективный механизм отбора признаков для задач кибербезопасности, особенно в условиях, где характеристики атак могут меняться, а требования к объяснению решений алгоритма становятся всё более актуальными.

Описанный авторами статьи [3] метод представляет собой гибридный ансамблевый подход к отбору признаков (Hybrid Ensemble Feature Selection, HEFS), направленный на повышение эффективности систем обнаружения фишинга с использованием алгоритмов машинного обучения. Ключевая особенность подхода заключается в сочетании алгоритма CDF-g (Cumulative Distribution Function gradient), основанного на градиенте функции накопленного распределения, с методами возмущения данных и функций, что позволяет достичь высокой точности классификации при существенном снижении размерности исходного пространства признаков.

Алгоритм CDF-g используется для автоматического определения так называемого порога отсечения (cut-off rank), позволяющего отделить значимые признаки от нерелевантных. Он основан на численном дифференцировании функции накопленного распределения, построенной на основе значений фильтрующих мер важности признаков. Вычисление градиента функции позволяет обнаружить резкий излом в распределении значений, который интерпретируется как оптимальная граница между информативными и слабо информативными признаками. Признаки, располагающиеся за пределами этой границы, отбрасываются, что позволяет существенно сократить объём данных без потери качества классификации.

После первичного отбора признаков с использованием CDF-g метод HEFS формирует устойчивые подмножества признаков путём ансамблирования различных техник фильтрации на множестве случайных подвыборок исходного датасета. Таким образом, обеспечивается устойчивость к переобучению и повышается обобщающая способность модели. Применение методов как функциональным (function perturbation), так и выборочным (data perturbation) возмущениям позволяет выявить признаки, проявляющие устойчивое поведение при различных конфигурациях входных данных.

Эффективность предложенного подхода была подтверждена экспериментально: при сравнении с традиционными алгоритмами метод HEFS в сочетании с CDF-g демонстрирует наивысшую точность классификации – до 96,8 %, превосходя альтернативные решения по всем основным метрикам (точность, полнота, специфичность, F-мера). Дополнительным преимуществом является низкая вычислительная сложность, что делает возможным внедрение метода в ограниченных по ресурсам средах, включая одноплатные вычислительные устройства () и встраиваемые сенсоры для сетевой фильтрации фишинговых .

В рамках исследования [4] был разработан и реализован метод обнаружения фишинговых атак на основе ансамблевого машинного обучения, ориентированный на классификацию веб-сайтов по признаку легитимности. Авторы предложили использование ансамбля моделей, который объединяет предсказания трёх различных алгоритмов: случайного леса Random Forest, XGBoost и многослойного перцептрона (MLP). Такой подход позволяет учесть сильные стороны каждой из моделей и тем самым повысить точность и устойчивость классификации.

В качестве исходных данных использовались два датасета с открытого ресурса Kaggle, содержащие 11 055 и 10 000 записей соответственно. Признаки в датасетах охватывают различные аспекты веб-страниц: от структуры URL и наличия IP-адресов до параметров сертификатов безопасности и поведения элементов JavaScript. В процессе подготовки данных была применена нормализация с использованием MinMaxScaler, приводящая численные признаки к диапазону от 0 до 1, что способствовало улучшению сходимости обучаемых моделей.

Каждая из моделей, входящих в ансамбль, была предварительно обучена и оптимизирована. Алгоритм случайного леса был настроен с числом деревьев, равным 100, и критерием расщепления Gini. XGBoost использовал 100 деревьев с параметром скорости обучения 0,1. Для нейросетевой модели MLP применялась одна скрытая слойная структура с функцией активации ReLU и оптимизатором L-BFGS. Объединение предсказаний осуществлялось по принципу «жёсткого голосования» (hard voting), при котором итоговая метка класса определяется на основе большинства голосов.

Проведённые эксперименты показали, что предложенный ансамблевый метод превосходит по точности все индивидуальные модели при работе с первым датасетом, демонстрируя значения точности 97,8 %. При этом на втором датасете все алгоритмы, за исключением MLP, достигли максимально возможных значений по всем метрикам, что может свидетельствовать либо о высокой однородности данных, либо об их избыточной обучаемости.

Предложенный ансамбль сочетает в себе высокую обобщающую способность бустинговых моделей с нелинейной выразительностью нейросетевых подходов и стабильностью случайного леса. Это позволило значительно снизить количество ложноположительных и ложноотрицательных срабатываний по сравнению с существующими решениями. Таким образом, метод оказался особенно эффективным в задачах бинарной классификации фишинговых сайтов и может быть применён в системах обеспечения информационной безопасности как модуль автоматического анализа ссылок и поведения веб-ресурсов.

Современные подходы к обнаружению фишинга с применением машинного обучения демонстрируют высокую эффективность в условиях разнообразия и изменчивости угроз. Ключевыми направлениями повышения качества моделей являются:

  • формирование сбалансированных и представительных обучающих выборок;
  • интерпретируемый отбор признаков с учётом глобальных и локальных факторов;
  • применение ансамблевых стратегий для повышения устойчивости и точности.

Комбинация мощных моделей классификации и устойчивых методов отбора признаков делает возможным внедрение данных решений как в масштабируемые корпоративные системы, так и в ресурсоограниченные устройства.

Внедрение предложенных методов в реальные системы информационной безопасности, такие как браузерные расширения, почтовые фильтры или корпоративные системы защиты, позволит существенно снизить риск успешных фишинговых атак. Дальнейшие исследования могут быть направлены на разработку гибридных систем, сочетающих машинное обучение с традиционными методами защиты, а также на адаптацию алгоритмов к новым видам угроз и платформам (например, мобильные устройства и социальные сети).

Список литературы
  1. Bahaghighat, M., Ghasemi, M., Ozen, F. (2023). A high-accuracy phishing website detection method based on machine learning. Journal of Information Security and Applications, 77, 103553. DOI: https://doi.org/10.1016/j.jisa.2023.103553
  2. Shafin, S. S. (2024). An Explainable Feature Selection Framework for Web Phishing Detection with Machine Learning. Data Science and Management. DOI: https://doi.org/10.1016/j.dsm.2024.08.004
  3. Jayaraj, R., et al. (2024). Intrusion detection based on phishing detection with machine learning. Measurement: Sensors, 31, 101003. DOI: https://doi.org/10.1016/j.measen.2023.101003
  4. Innab, N., Osman, A. A. F., Ataelfadiel, M. A. M., Abu-Zanona, M., Elzaghmouri, B. M., Zawaideh, F. H., & Alawneh, M. F. (2024). Phishing attacks detection using ensemble machine learning algorithms. Computers, Materials & Continua, 80(1), 1326–1345. DOI: https://doi.org/10.32604/cmc.2024.051778
международный научный журнал

Научные высказывания #77

Предоставляем бесплатную справку о публикации, препринт статьи — сразу после оплаты.
Прием материалов
с 19 мая по 31 мая
Сегодня - последний день приёма статей
Размещение электронной версии
16 июня
Следующий выпуск
с 31 мая по 14 июня