МЕТОДОЛОГИЧЕСКИЕ АСПЕКТЫ И ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ АЛГОРИТМОВ КЛАССИФИКАЦИИ И КЛАСТЕРИЗАЦИИ В ЗАДАЧАХ BIG DATA

1. Введение

Данная работа сосредоточена на сопоставлении и программной имплементации алгоритмов машинного обучения, предназначенных для работы с масштабными массивами информации. Исследование включает в себя анализ трех методик классификации - метрической, ансамблевой и оптимизационной, а также основных способов кластеризации, таких как итерационные, графовые и иерархические.

Проведена всесторонняя оценка алгоритмов с использованием разработанной системы показателей, охватывающих временные и ресурсные затраты, точность результатов и удобство использования. По итогам сравнительного анализа установлено, что для задач, характеризующихся высокой размерностью данных, наибольшую эффективность демонстрируют стохастический градиентный спуск (SGD) и алгоритм-means.

Итогом исследования стало создание программного инструментария на языке Python. Данный комплекс способен автоматизировать этапы предварительной обработки данных и обеспечивать гибкий выбор аналитических методов. Представленные решения обладают значительной практической ценностью для области бизнес-аналитики и разработки интеллектуальных систем, способных к масштабированию.

классификация

кластеризация

метод ближайших соседей

стохастический градиентный спуск

метод k-средних

случайный лес

интеллектуальный анализ данных

эффективность алгоритмов

машинное обучение

большие данные

Авторы

Ратненко Вячеслав Владимирович

Рубрика

Информационные технологии

Журнал

Научные высказывания № 7 (94), апрель 2026

Библиографическое описание

Ратненко В. В. МЕТОДОЛОГИЧЕСКИЕ АСПЕКТЫ И ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ АЛГОРИТМОВ КЛАССИФИКАЦИИ И КЛАСТЕРИЗАЦИИ В ЗАДАЧАХ BIG DATA // Научные высказывания. 2026. №7 (94). С. 30-32. URL: https://nvjournal.ru/article/METODOLOGIChESKIE_ASPEKTY_I_PRAKTIChESKAJa_REALIZATsIJa_ALGORITMOV_KLASSIFIKATsII_I_KLASTERIZATsII_V_ZADAChAH_BIG_DATA

№ 7 апрель 2026

Современное состояние внедрения нейросетевых технологий в образовательный процесс высших учебных заведений Российской Федерации демонстрирует значительный потенциал для формирования метацифровой компетентности у студентов [2]. Применение искусственного интеллекта позволяет создавать индивидуализированные траектории обучения, соответствующие требованиям информатизации образования, что способствует более эффективному усвоению знаний и навыков [3]. Однако, внедрение этих инноваций сталкивается с определенными сложностями, обусловленными ведомственными требованиями и необходимостью обеспечения высокого уровня подготовки специалистов. Эти факторы накладывают ограничения на процессы цифровизации и требуют внимательного подхода при разработке и применении нейросетевых технологий в образовании. Тем не менее, дальнейшее развитие и адаптация ИИ-технологий в учебном процессе остаются перспективными направлениями, способными существенно улучшить качество образования и подготовку специалистов в условиях цифровизации.

Несмотря на значительное количество инициатив в области цифровизации, интеграция технологий в образовательный процесс зачастую осуществляется фрагментарно, без учёта уровня цифровой грамотности педагогов, без формирования системной среды, поддерживающей применение обучающих цифровых инструментов [1]. Актуальной задачей становится формирование такой информационной системы, которая бы учитывала специфику образовательных программ, когнитивные особенности студентов и уровень методической подготовки преподавателей.

2. Математические модели классификации

В этой работе подробно рассмотрены три основных подхода к классификации, каждый из которых имеет свои особенности масштабирования:

Метрический подход (k-NN): Алгоритм основан на расчете евклидова расстояния между объектами по формуле d E (x,y)= √∑ i (x i −y i ) 2 . Этот метод классификации не создает модель заранее, а вычисляет данные непосредственно при запросе. Модификация - взвешенный k-NN - позволяет учитывать расстояние до ближайших точек, что повышает устойчивость к отклонениям.

Ансамблевый подход (Random Forest): Алгоритм создает набор деревьев решений на основе случайных подвыборок (бэггинг). При построении каждого узла выбирается m≈ √ M случайных признаков, где M - общее число признаков. Преимущество состоит в том, что нет необходимости в нормализации данных и обеспечивается высокая точность. Оптимизационный подход (SGD): Метод стохастического градиентного спуска уменьшает функцию потерь L(a,y) путем многократного обновления вектора весов w на основе каждого отдельного примера обучения. Это обеспечивает низкую емкостную сложность и быструю сходимость на очень больших наборах данных.

Графовые и иерархические методы кластеризации

Изучение алгоритмов кластеризации включает как итерационные, так и структурные подходы:

Алгоритм k-means: Процесс разделения на k кластеров путем уменьшения суммы квадратов ошибок E между центрами m i и объектами кластера. Метод имеет линейную вычислительную сложность относительно числа записей.

Алгоритм Борувки: Алгоритм поиска минимального остовного дерева (MST) в графе. Основан на параллельном сжатии ребер минимального веса, подходящих для каждой вершины. Временная сложность составляет O(ElogV), что делает его подходящим для связных структур.

Иерархическая кластеризация: Изучена формула Ланса-Уильямса для агломеративных методов, которая позволяет обобщать различные способы определения расстояний между кластерами. В этой работе метод Уорда рассматривается как наиболее точный инструмент для отображения структуры кластеров в виде дендрограмм.

3.Сравнение и оценка

Для выбора подходящих инструментов была разработана система критериев (по 3-балльной шкале): приспособление, временная и емкостная сложность, точность и простота применения.

В области классификации: Самый высокий общий балл (12) получили метод ближайших соседей и метод стохастического градиента. SGD опережает по параметру емкостной сложности, а k-NN - по простоте применения.

В области кластеризации: k-means признан предпочтительным для работы с большими табличными данными из-за умеренного потребления ресурсов, в то время как иерархические методы (метод Уорда) рекомендуются для задач, требующих глубокого структурного анализа.

Программная реализация системы

В ходе работы было разработано программное обеспечение на языке Python в среде PyCharm. Выбор этих инструментов обусловлен наличием развитых библиотек для интеллектуального анализа данных и эффективных средств отладки. Программа выполняет предварительную обработку, классификацию и кластеризацию, предоставляя пользователю возможность выбора алгоритма в зависимости от характеристик входных данных.

4. Заключение

Проведенное исследование систематизирует подходы к анализу больших данных и предлагает конкретные решения для бизнес-аналитики. Комбинация алгоритмов SGD (для быстрой классификации) и k-means (для масштабируемой кластеризации) в рамках разработанного программного обеспечения позволяет эффективно обрабатывать большие объемы данных, обеспечивая высокую точность прогнозов и стабильность системы.

Список литературы

Дюран, Б. Кластерный анализ [Текст] / Б. Дюран, П. Оделл ; пер. с англ. Е. З. Демиденко. — Москва : Статистика, 1977. — 128 с.
Загоруйко, Н. Г. Прикладные методы анализа данных и знаний [Текст] / Н. Г. Загоруйко. — Новосибирск : ИМ СО РАН, 1999. — 270 с.
Лялин, В. Е. Статистические методы интеллектуального анализа данных [Текст] : учебное пособие / В. Е. Лялин. — Ижевск : Изд-во ИжГТУ, 2019. — 212 с.
Николенко, С. И. Глубокое обучение [Текст] / С. И. Николенко, А. А. Кадурин, Е. О. Архангельская. — Санкт-Петербург : Питер, 2018. — 480 с.
Чубукова, И. А. Data Mining [Текст] : учебное пособие / И. А. Чубукова. — Москва : Интернет-Университет Информационных Технологий, 2020. — 382 с.

Другие статьи из раздела «Информационные технологии»

Сомова Марина Валериевна

Воног Марк Евгеньевич

Атаки через LLM-интерфейсы к базам данных: новый вектор эксплуатации естественного языка и меры противодействия

Сомова Марина Валериевна

Колодезный Богдан Владимирович

Дипфейк в цифровую эпоху: анализ и обнаружение с помощью нейронных сетей

Винокуров Евгений Владимирович

Устройство центрального процессора персонального компьютера

Цура Данил Викторович

Сомова Марина Валериевна

МЕТОДЫ ОБНАРУЖЕНИЯ ИНСАЙДЕРСКИХ УГРОЗ: ОБЗОР ПОДХОДОВ ПОВЕДЕНЧЕСКОГО АНАЛИЗА ДЕЙСТВИЙ ПОЛЬЗОВАТЕЛЕЙ

Макаренко Кирилл Евгеньевич

Безопасность и управление доступом в эпоху интернета вещей: многоуровневые подходы и инновационные решения

МЕТОДОЛОГИЧЕСКИЕ АСПЕКТЫ И ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ АЛГОРИТМОВ КЛАССИФИКАЦИИ И КЛАСТЕРИЗАЦИИ В ЗАДАЧАХ BIG DATA

Похожие статьи

Другие статьи из раздела «Информационные технологии»

Научные высказывания #99