МЕТОДОЛОГИЧЕСКИЕ АСПЕКТЫ И ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ АЛГОРИТМОВ КЛАССИФИКАЦИИ И КЛАСТЕРИЗАЦИИ В ЗАДАЧАХ BIG DATA
1. Введение
Данная работа сосредоточена на сопоставлении и программной имплементации алгоритмов машинного обучения, предназначенных для работы с масштабными массивами информации. Исследование включает в себя анализ трех методик классификации - метрической, ансамблевой и оптимизационной, а также основных способов кластеризации, таких как итерационные, графовые и иерархические.
Проведена всесторонняя оценка алгоритмов с использованием разработанной системы показателей, охватывающих временные и ресурсные затраты, точность результатов и удобство использования. По итогам сравнительного анализа установлено, что для задач, характеризующихся высокой размерностью данных, наибольшую эффективность демонстрируют стохастический градиентный спуск (SGD) и алгоритм-means.
Итогом исследования стало создание программного инструментария на языке Python. Данный комплекс способен автоматизировать этапы предварительной обработки данных и обеспечивать гибкий выбор аналитических методов. Представленные решения обладают значительной практической ценностью для области бизнес-аналитики и разработки интеллектуальных систем, способных к масштабированию.
Современное состояние внедрения нейросетевых технологий в образовательный процесс высших учебных заведений Российской Федерации демонстрирует значительный потенциал для формирования метацифровой компетентности у студентов [2]. Применение искусственного интеллекта позволяет создавать индивидуализированные траектории обучения, соответствующие требованиям информатизации образования, что способствует более эффективному усвоению знаний и навыков [3]. Однако, внедрение этих инноваций сталкивается с определенными сложностями, обусловленными ведомственными требованиями и необходимостью обеспечения высокого уровня подготовки специалистов. Эти факторы накладывают ограничения на процессы цифровизации и требуют внимательного подхода при разработке и применении нейросетевых технологий в образовании. Тем не менее, дальнейшее развитие и адаптация ИИ-технологий в учебном процессе остаются перспективными направлениями, способными существенно улучшить качество образования и подготовку специалистов в условиях цифровизации.
Несмотря на значительное количество инициатив в области цифровизации, интеграция технологий в образовательный процесс зачастую осуществляется фрагментарно, без учёта уровня цифровой грамотности педагогов, без формирования системной среды, поддерживающей применение обучающих цифровых инструментов [1]. Актуальной задачей становится формирование такой информационной системы, которая бы учитывала специфику образовательных программ, когнитивные особенности студентов и уровень методической подготовки преподавателей.
2. Математические модели классификации
В этой работе подробно рассмотрены три основных подхода к классификации, каждый из которых имеет свои особенности масштабирования:
Метрический подход (k-NN): Алгоритм основан на расчете евклидова расстояния между объектами по формуле d E (x,y)= √∑ i (x i −y i ) 2 . Этот метод классификации не создает модель заранее, а вычисляет данные непосредственно при запросе. Модификация - взвешенный k-NN - позволяет учитывать расстояние до ближайших точек, что повышает устойчивость к отклонениям.
Ансамблевый подход (Random Forest): Алгоритм создает набор деревьев решений на основе случайных подвыборок (бэггинг). При построении каждого узла выбирается m≈ √ M случайных признаков, где M - общее число признаков. Преимущество состоит в том, что нет необходимости в нормализации данных и обеспечивается высокая точность. Оптимизационный подход (SGD): Метод стохастического градиентного спуска уменьшает функцию потерь L(a,y) путем многократного обновления вектора весов w на основе каждого отдельного примера обучения. Это обеспечивает низкую емкостную сложность и быструю сходимость на очень больших наборах данных.
Графовые и иерархические методы кластеризации
Изучение алгоритмов кластеризации включает как итерационные, так и структурные подходы:
Алгоритм k-means: Процесс разделения на k кластеров путем уменьшения суммы квадратов ошибок E между центрами m i и объектами кластера. Метод имеет линейную вычислительную сложность относительно числа записей.
Алгоритм Борувки: Алгоритм поиска минимального остовного дерева (MST) в графе. Основан на параллельном сжатии ребер минимального веса, подходящих для каждой вершины. Временная сложность составляет O(ElogV), что делает его подходящим для связных структур.
Иерархическая кластеризация: Изучена формула Ланса-Уильямса для агломеративных методов, которая позволяет обобщать различные способы определения расстояний между кластерами. В этой работе метод Уорда рассматривается как наиболее точный инструмент для отображения структуры кластеров в виде дендрограмм.
3.Сравнение и оценка
Для выбора подходящих инструментов была разработана система критериев (по 3-балльной шкале): приспособление, временная и емкостная сложность, точность и простота применения.
В области классификации: Самый высокий общий балл (12) получили метод ближайших соседей и метод стохастического градиента. SGD опережает по параметру емкостной сложности, а k-NN - по простоте применения.
В области кластеризации: k-means признан предпочтительным для работы с большими табличными данными из-за умеренного потребления ресурсов, в то время как иерархические методы (метод Уорда) рекомендуются для задач, требующих глубокого структурного анализа.
Программная реализация системы
В ходе работы было разработано программное обеспечение на языке Python в среде PyCharm. Выбор этих инструментов обусловлен наличием развитых библиотек для интеллектуального анализа данных и эффективных средств отладки. Программа выполняет предварительную обработку, классификацию и кластеризацию, предоставляя пользователю возможность выбора алгоритма в зависимости от характеристик входных данных.
4. Заключение
Проведенное исследование систематизирует подходы к анализу больших данных и предлагает конкретные решения для бизнес-аналитики. Комбинация алгоритмов SGD (для быстрой классификации) и k-means (для масштабируемой кластеризации) в рамках разработанного программного обеспечения позволяет эффективно обрабатывать большие объемы данных, обеспечивая высокую точность прогнозов и стабильность системы.
- Дюран, Б. Кластерный анализ [Текст] / Б. Дюран, П. Оделл ; пер. с англ. Е. З. Демиденко. — Москва : Статистика, 1977. — 128 с.
- Загоруйко, Н. Г. Прикладные методы анализа данных и знаний [Текст] / Н. Г. Загоруйко. — Новосибирск : ИМ СО РАН, 1999. — 270 с.
- Лялин, В. Е. Статистические методы интеллектуального анализа данных [Текст] : учебное пособие / В. Е. Лялин. — Ижевск : Изд-во ИжГТУ, 2019. — 212 с.
- Николенко, С. И. Глубокое обучение [Текст] / С. И. Николенко, А. А. Кадурин, Е. О. Архангельская. — Санкт-Петербург : Питер, 2018. — 480 с.
- Чубукова, И. А. Data Mining [Текст] : учебное пособие / И. А. Чубукова. — Москва : Интернет-Университет Информационных Технологий, 2020. — 382 с.



