Python字符串相似性的几种度量方法

甜果果Blog

博学之审问之慎思之明辨之笃行之

首页

项目实践

学论文

论文翻译

知识点

资源分享

归档

链接

留言板

搜索

🗒️Python字符串相似性的几种度量方法

2024-9-25

| 2024-9-25

字数 522阅读时长≈ 2 分钟

type

status

data

slug

summary

Python字符串相似性的几种度量方法

字符串的相似性比较应用场合很多，像拼写纠错、文本去重、上下文相似性等。

评价字符串相似度最常见的办法就是：把一个字符串通过插入、删除或替换这样的编辑操作，变成另外一个字符串，所需要的最少编辑次数，这种就是编辑距离（edit distance）度量方法，也称为Levenshtein距离。海明距离是编辑距离的一种特殊情况，只计算等长情况下替换操作的编辑次数，只能应用于两个等长字符串间的距离度量。

其他常用的度量方法还有 Jaccard distance、J-W距离（Jaro–Winkler distance）、余弦相似性（cosine similarity）、欧氏距离（Euclidean distance）等。

python-Levenshtein 使用

使用 pip install python-Levenshtein 指令安装 Levenshtein

输出：

原文链接