МЕТОДОЛОГИЧЕСКИЕ АСПЕКТЫ И ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ АЛГОРИТМОВ КЛАССИФИКАЦИИ И КЛАСТЕРИЗАЦИИ В ЗАДАЧАХ BIG DATA
Журнал Научные высказывания

МЕТОДОЛОГИЧЕСКИЕ АСПЕКТЫ И ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ АЛГОРИТМОВ КЛАССИФИКАЦИИ И КЛАСТЕРИЗАЦИИ В ЗАДАЧАХ BIG DATA

1. Введение

Данная работа сосредоточена на сопоставлении и программной имплементации алгоритмов машинного обучения, предназначенных для работы с масштабными массивами информации. Исследование включает в себя анализ трех методик классификации - метрической, ансамблевой и оптимизационной, а также основных способов кластеризации, таких как итерационные, графовые и иерархические.

Проведена всесторонняя оценка алгоритмов с использованием разработанной системы показателей, охватывающих временные и ресурсные затраты, точность результатов и удобство использования. По итогам сравнительного анализа установлено, что для задач, характеризующихся высокой размерностью данных, наибольшую эффективность демонстрируют стохастический градиентный спуск (SGD) и алгоритм-means.

Итогом исследования стало создание программного инструментария на языке Python. Данный комплекс способен автоматизировать этапы предварительной обработки данных и обеспечивать гибкий выбор аналитических методов. Представленные решения обладают значительной практической ценностью для области бизнес-аналитики и разработки интеллектуальных систем, способных к масштабированию.

машинное обучение
классификация
большие данные
кластеризация
метод ближайших соседей
стохастический градиентный спуск
метод k-средних
случайный лес
интеллектуальный анализ данных
эффективность алгоритмов

Современное состояние внедрения нейросетевых технологий в образовательный процесс высших учебных заведений Российской Федерации демонстрирует значительный потенциал для формирования метацифровой компетентности у студентов [2]. Применение искусственного интеллекта позволяет создавать индивидуализированные траектории обучения, соответствующие требованиям информатизации образования, что способствует более эффективному усвоению знаний и навыков [3]. Однако, внедрение этих инноваций сталкивается с определенными сложностями, обусловленными ведомственными требованиями и необходимостью обеспечения высокого уровня подготовки специалистов. Эти факторы накладывают ограничения на процессы цифровизации и требуют внимательного подхода при разработке и применении нейросетевых технологий в образовании. Тем не менее, дальнейшее развитие и адаптация ИИ-технологий в учебном процессе остаются перспективными направлениями, способными существенно улучшить качество образования и подготовку специалистов в условиях цифровизации.

Несмотря на значительное количество инициатив в области цифровизации, интеграция технологий в образовательный процесс зачастую осуществляется фрагментарно, без учёта уровня цифровой грамотности педагогов, без формирования системной среды, поддерживающей применение обучающих цифровых инструментов [1]. Актуальной задачей становится формирование такой информационной системы, которая бы учитывала специфику образовательных программ, когнитивные особенности студентов и уровень методической подготовки преподавателей.

          2. Математические модели классификации

 В этой работе подробно рассмотрены три основных подхода к классификации, каждый из которых имеет свои особенности масштабирования:

 Метрический подход (k-NN): Алгоритм основан на расчете евклидова расстояния между объектами по формуле d E ​ (x,y)= √∑ i  (x i  −y i  ) 2 ​ . Этот метод классификации не создает модель заранее, а вычисляет данные непосредственно при запросе. Модификация - взвешенный k-NN - позволяет учитывать расстояние до ближайших точек, что повышает устойчивость к отклонениям.

Ансамблевый подход (Random Forest): Алгоритм создает набор деревьев решений на основе случайных подвыборок (бэггинг). При построении каждого узла выбирается m≈ √ M ​ случайных признаков, где M - общее число признаков. Преимущество состоит в том, что нет необходимости в нормализации данных и обеспечивается высокая точность. Оптимизационный подход (SGD): Метод стохастического градиентного спуска уменьшает функцию потерь L(a,y) путем многократного обновления вектора весов w на основе каждого отдельного примера обучения. Это обеспечивает низкую емкостную сложность и быструю сходимость на очень больших наборах данных.

Графовые и иерархические методы кластеризации

 Изучение алгоритмов кластеризации включает как итерационные, так и структурные подходы:

 Алгоритм k-means: Процесс разделения на k кластеров путем уменьшения суммы квадратов ошибок E между центрами m i ​ и объектами кластера. Метод имеет линейную вычислительную сложность относительно числа записей.

 Алгоритм Борувки: Алгоритм поиска минимального остовного дерева (MST) в графе. Основан на параллельном сжатии ребер минимального веса, подходящих для каждой вершины. Временная сложность составляет O(ElogV), что делает его подходящим для связных структур.

Иерархическая кластеризация: Изучена формула Ланса-Уильямса для агломеративных методов, которая позволяет обобщать различные способы определения расстояний между кластерами. В этой работе метод Уорда рассматривается как наиболее точный инструмент для отображения структуры кластеров в виде дендрограмм.

             3.Сравнение и оценка

Для выбора подходящих инструментов была разработана система критериев (по 3-балльной шкале): приспособление, временная и емкостная сложность, точность и простота применения.

В области классификации: Самый высокий общий балл (12) получили метод ближайших соседей и метод стохастического градиента. SGD опережает по параметру емкостной сложности, а k-NN - по простоте применения.

 В области кластеризации: k-means признан предпочтительным для работы с большими табличными данными из-за умеренного потребления ресурсов, в то время как иерархические методы (метод Уорда) рекомендуются для задач, требующих глубокого структурного анализа.

 Программная реализация системы

В ходе работы было разработано программное обеспечение на языке Python в среде PyCharm. Выбор этих инструментов обусловлен наличием развитых библиотек для интеллектуального анализа данных и эффективных средств отладки. Программа выполняет предварительную обработку, классификацию и кластеризацию, предоставляя пользователю возможность выбора алгоритма в зависимости от характеристик входных данных.

4. Заключение

Проведенное исследование систематизирует подходы к анализу больших данных и предлагает конкретные решения для бизнес-аналитики. Комбинация алгоритмов SGD (для быстрой классификации) и k-means (для масштабируемой кластеризации) в рамках разработанного программного обеспечения позволяет эффективно обрабатывать большие объемы данных, обеспечивая высокую точность прогнозов и стабильность системы.  

Список литературы
  1. Дюран, Б. Кластерный анализ [Текст] / Б. Дюран, П. Оделл ; пер. с англ. Е. З. Демиденко. — Москва : Статистика, 1977. — 128 с.
  2. Загоруйко, Н. Г. Прикладные методы анализа данных и знаний [Текст] / Н. Г. Загоруйко. — Новосибирск : ИМ СО РАН, 1999. — 270 с.
  3. Лялин, В. Е. Статистические методы интеллектуального анализа данных [Текст] : учебное пособие / В. Е. Лялин. — Ижевск : Изд-во ИжГТУ, 2019. — 212 с.
  4. Николенко, С. И. Глубокое обучение [Текст] / С. И. Николенко, А. А. Кадурин, Е. О. Архангельская. — Санкт-Петербург : Питер, 2018. — 480 с.
  5. Чубукова, И. А. Data Mining [Текст] : учебное пособие / И. А. Чубукова. — Москва : Интернет-Университет Информационных Технологий, 2020. — 382 с.
международный научный журнал

Научные высказывания #95

Предоставляем бесплатную справку о публикации, препринт статьи — сразу после оплаты.
Прием материалов
с 25 апреля по 09 мая
Осталось 5 дней до окончания
Размещение электронной версии
23 мая
Загрузка в eLibrary
24 мая