Косинусное сходство в машинном обучении
Косинусное сходство – это метод, используемый при создании приложений машинного обучения, таких как рекомендательные системы. Это – метод поиска сходства между двумя документами. В этой статье я познакомлю вас с косинусным сходством в машинном обучении и его реализацией с использованием Python.
Косинусное сходство в машинном обучении
Косинусное сходство используется для поиска сходства между двумя документами. Он работает, вычисляя оценку сходства между векторами, что достигается путем нахождения углов между ними. Диапазон сходства составляет от 0 до 1. Если значение показателя сходства между двумя векторами равно 1, это означает, что существует большое сходство между двумя векторами.
С другой стороны, если значение оценки сходства между двумя векторами равно 0, это означает, что между двумя векторами нет никакого сходства. Когда показатель подобия равен 1, угол между двумя векторами равен 0, а когда показатель сходства равен 0, угол между двумя векторами составляет 90 градусов.
В приложениях машинного обучения этот метод в основном используется в системах рекомендаций, чтобы найти сходство между описанием двух продуктов, чтобы мы могли рекомендовать пользователю самый похожий продукт, чтобы обеспечить лучший пользовательский опыт. В этом разделе ниже я расскажу, как вычислить косинусное сходство с помощью Python.
Косинусное сходство с использованием Python
Я надеюсь, что вы поняли, что концепция косинусного сходства заключается в вычислении сходства между двумя документами. Теперь давайте посмотрим, как реализовать это с помощью Python. Чтобы реализовать это с помощью Python, мы можем использовать метод «cosine_similarity», предоставляемый scikit-Learn.
Идея заключается в том, чтобы создать два массива, а затем реализовать метод «cosine_similarity», предоставленный в библиотеке Scikit-Learn, чтобы найти сходство между ними. Ниже показано, как рассчитать косинусное сходство с помощью Python:
import numpy as np import pandas as pd from sklearn.metrics.pairwise import cosine_similarity a = np.array([10, 5, 15, 7, 5]) b = np.array([5, 10, 17, 5, 3]) cosine = cosine_similarity(a.reshape(1, -1), b.reshape(1, -1)) print(cosine)
Результат:
[[0.92925111]]
Таким образом, оценка сходства, полученная между двумя массивами (a и b), составляет 0,92 (приблизительно), что близко к 1. Таким образом, мы можем сказать, что массивы в большой степени похожи.
Резюме
Итак, нам нужно рассчитать оценку сходства, чтобы найти сходство между двумя документами. В машинном обучении косинусное сходство – один из методов поиска сходства между двумя документами. Надеюсь, вам понравилась эта статья о концепции поиска косинусных сходств в машинном обучении и ее реализации с использованием Python.