文章相似度python

要計算兩個文章之間的相似度,可以使用Python中的自然語言處理庫,如NLTK(Natural Language Toolkit)或gensim。這些庫提供了許多算法來計算文本之間的相似度,例如餘弦相似度、Jaccard相似度、編輯距離等。

以下是一個使用gensim庫計算兩個文章相似度的簡單示例代碼:

```python

from gensim.models import KeyedVectors

from gensim.models.word2vec import LineSentence

import numpy as np

# 載入預訓練的詞向量模型

model = KeyedVectors.load_word2vec_format('path/to/pretrained/model', binary=True)

# 讀取文章

article1 = 'This is the first article.'

article2 = 'This is the second article.'

# 將文章轉換為詞向量列表

vec1 = [model[word] for word in article1.split()]

vec2 = [model[word] for word in article2.split()]

# 計算兩個文章之間的餘弦相似度

similarity = np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

print('Similarity:', similarity)

```

在這個示例中,我們使用預訓練的詞向量模型來將文章轉換為詞向量列表,並使用餘弦相似度來計算兩個文章之間的相似度。請注意,這只是一個簡單的示例,實際套用中可能需要使用更複雜的算法和模型來計算文本相似度。

以上就是【文章相似度python】的相關內容,敬請閱讀。