🗒️Python字符串相似性的几种度量方法
2024-9-25
| 2024-9-25
字数 522阅读时长 2 分钟
type
status
data
slug
summary
tags
category
password
icon

Python字符串相似性的几种度量方法

字符串的相似性比较应用场合很多,像拼写纠错、文本去重、上下文相似性等。
评价字符串相似度最常见的办法就是:把一个字符串通过插入、删除或替换这样的编辑操作,变成另外一个字符串,所需要的最少编辑次数,这种就是编辑距离(edit distance)度量方法,也称为Levenshtein距离。海明距离是编辑距离的一种特殊情况,只计算等长情况下替换操作的编辑次数,只能应用于两个等长字符串间的距离度量。
其他常用的度量方法还有 Jaccard distance、J-W距离(Jaro–Winkler distance)、余弦相似性(cosine similarity)、欧氏距离(Euclidean distance)等。
python-Levenshtein 使用
使用 pip install python-Levenshtein 指令安装 Levenshtein
输出:
  • Python
  • 自然语言处理
  • nohup命令输出到指定文件常用数学符号的LaTeX表示方法
    Loading...