Классификация данных методом K-ближайших соседей (KNN) |
Метод K-ближайших соседей (KNN) - это тип контролируемого алгоритма ML.
К - ближайший сосед - это тот для которого наименьшее расстояние.
KNN использует “сходство признаков” для прогнозирования значений новых точек данных и присваивания значений, основанное насколько близко она соответствует точкам в обучающем наборе. Чтобы понять его работу определим шаги действий:
Шаг 1 - Загружаем обучающий и тестовый dataset.
Шаг 2 - Выбираем значение K, то есть ближайшие точки данных. Оно может быть любым целым числом.
Шаг 3 - Вычисляем расстояние между тестовыми данными и каждой строкой обучающих данных с помощью любого из методов. Наиболее часто используемый метод вычисления расстояния - евклидов.
Шаг 4- Отсортировываем в порядке возрастания, основываясь на значении расстояния.
Шаг 5 - Алгоритм выбирает верхние K строк из отсортированного массива.
Шаг 6 - Назначаем класс контрольной точке на основе наиболее частого класса этих строк.
Рассмотрим пример для понимания концепции K и работы алгоритма KNN
Задача классификатора определить связь между признаками переменной Х и целевой переменной у, которую предсказываем. Х —> у
В примере будем использовать готовый датасет с координатами точек 2-х классов (фиолетовый и желтый). Необходимо отделить точки.
Читать далееhttps://habr.com/ru/post/685014/?utm_source=habrahabr&utm_medium=rss&utm_campaign=685014
Комментировать | « Пред. запись — К дневнику — След. запись » | Страницы: [1] [Новые] |