做视频素材哪个网站好,南充阆中网站建设,网站制作 连云港,小程序源码在哪个平台购买句子关系判断是指判断句子是否相似#xff0c;是否包含#xff0c;是否是问答关系等#xff0c;常应用在文本去重、检索#xff08;用户输入和文档的相关性#xff09;、推荐#xff08;和用户喜好文章是否相似#xff09;等场景中。
3.0、文本相似度计算
3.0.0 传统机…句子关系判断是指判断句子是否相似是否包含是否是问答关系等常应用在文本去重、检索用户输入和文档的相关性、推荐和用户喜好文章是否相似等场景中。
3.0、文本相似度计算
3.0.0 传统机器学习判断句子相似度
首先将句子对转换成向量参考第零章节给出的方法。
其次计算句子间的距离计算距离的常用方式
1欧式距离 2曼哈顿距离 3切比雪夫距离 4余弦相似度 5Jaccard系数词袋模型适用 6皮尔逊相关系数 以下是计算示例
两个向量X [80, 85, 90, 75, 95]
Y [70, 75, 85, 60, 90]
平均分
meanX (80 85 90 75 95) / 5 85
meanY (70 75 85 60 90) / 5 76
协方差
Cov(X, Y) [(80-85)*(70-76) (85-85)*(75-76) (90-85)*(85-76) (75-85)*(60-76) (95-85)*(90-76)] / 5(-5 * -6 0 * -1 5 * 9 -10 * -16 10 * 14) / 5 75
标准差
σX √[((80-85)^2 (85-85)^2 (90-85)^2 (75-85)^2 (95-85)^2) / 5]√[(25 0 25 100 100) / 5]√[50] ≈ 7.07
σY √[((70-76)^2 (75-76)^2 (85-76)^2 (60-76)^2 (90-76)^2) / 5]√[(36 1 81 256 196) / 5]√[114] ≈ 10.68
皮尔逊相关系数
r Cov(X, Y) / (σX * σY) 75 / (7.07 * 10.68) ≈ 1.06
7汉(海)明距离需要基于one-hot编码
就是对两个向量中每一位进行异或xor运算并计算出异或运算结果中1的个数。例如[1,1,0]和[0,1,1]这两个向量对它们进行异或运算其结果是110⊕011101海明距离即为2
8编辑距离
Levenshtein距离是指两个字串之间由一个转成另一个所需的最少编辑加词、减词、移词操作次数如果它们的距离越大说明它们越是不同。RD最常见的算法题之一。
9SimHash
一种搜索常用的相似度算法【深度好文】simhash文本去重流程
3.0.1 深度模型判断句子相似度
总的可以分为单塔和双塔模型。
单塔模型先将输入文本合并然后输入到单一的神经网络模型。在单塔模型下我们需要把两句文本通过[SEP]进行拼接将拼接好的数据喂给模型通过output中的[CLS] token做一个二分类任务。准确率高计算慢。因为有多少对相似的句子就需要拼接多少次。 双塔模型对输入文本分别进行编码成固定长度的向量通过文本的表示向量进行交互计算计算方式可参考少一节1中的内容得到文本之间的关系也可训练自己的分类器如LR/GBDT/SVM等等进行进一步的分类。图中的brt可以换成ernie等其他模型计算的快工业界常用的方式但准确率不如单塔。 其余方法可参考21个经典深度学习句间关系模型
3.1 语义关系推理
任务描述从前提句中推理得到假设句子通常推理包括蕴含、中立和矛盾。
常用方法单塔和双塔模型和相似度判断类似可参考3.0的内容只需将相似的二分类判断改为三分类即可。
3.2 问答对判断等
方法与句子关系判断类似。