文章相似度python
要計算兩個文章之間的相似度,可以使用Python中的自然語言處理庫,如NLTK(Natural Language Toolkit)或gensim。這些庫提供了許多算法來計算文本之間的相似度,例如餘弦相似度、Jaccard相似度、編輯距離等。
以下是一個使用gensim庫計算兩個文章相似度的簡單示例代碼:
```python
from gensim.models import KeyedVectors
from gensim.models.word2vec import LineSentence
import numpy as np
# 載入預訓練的詞向量模型
model = KeyedVectors.load_word2vec_format('path/to/pretrained/model', binary=True)
# 讀取文章
article1 = 'This is the first article.'
article2 = 'This is the second article.'
# 將文章轉換為詞向量列表
vec1 = [model[word] for word in article1.split()]
vec2 = [model[word] for word in article2.split()]
# 計算兩個文章之間的餘弦相似度
similarity = np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))
print('Similarity:', similarity)
```
在這個示例中,我們使用預訓練的詞向量模型來將文章轉換為詞向量列表,並使用餘弦相似度來計算兩個文章之間的相似度。請注意,這只是一個簡單的示例,實際套用中可能需要使用更複雜的算法和模型來計算文本相似度。
以上就是【文章相似度python】的相關內容,敬請閱讀。