Shingle和Simhash算法的实现方法与原理和实现进行介绍

1970-01-01 08:00:00

Shingle和Simhash算法是用于计算文本相似度的两种常用算法，下面对它们的原理和实现进行介绍。

一、Shingle算法

Shingle算法是一种基于词组的相似度计算算法。它将文本分成若干个词组（n-gram），也就是将文本转成连续的词组序列。这些词组通常是由相邻的单词组成，其中n代表词组的长度。例如，当n为3时，文本“Hello World”将被转换成三个词组：“Hel”，“ell”，“llo”词语相似度计算方法，“lo ”，”o W”，“ Wo”，“Wor”，“orl”，“rld”。

接下来，将每个词组用哈希函数进行映射，得到一个唯一的标识符，然后将这些标识符组成一个向量。通过计算两个向量的余弦相似度，即可得到文本的相似度。

二、Simhash算法

Simhash算法是一种基于哈希函数的相似度计算算法。它将文本转成一个固定长度的二进制码，可以是32位或64位。相似的文本将有类似的二进制表示，不相似的文本二进制码则有较大的差异。

Simhash算法的实现方法如下：

1. 将文本转为特征向量：比如，将文本转为词袋模型，划分成固定大小的shingle，并用hash值来表示每个shingle。

2. 对特征向量做加权处理：对于每个特征词语相似度计算方法，统计它在整个数据集中的出现频率，并通过一定的公式进行归一化，得到权重。

3. 按照特征权重将特征向量映射到64位的签名向量：对于每个特征，按照它的权重对其hash值进行加权，然后累加起来，最后对结果做正负向判断，得到二进制码的每一位。

4. 按位统计签名向量的哈希值：统计签名向量每一位哈希值为1的个数，然后根据是否大于一半，对签名向量进行正负向判断。

5. 通过哈希函数得到最终的Simhash值：由于Simhash算法产生的二进制码可能会存在哈希冲突，为了解决这个问题，可以使用Murmurhash或MD5等哈希函数对签名向量进行二次哈希，得到最终的Simhash值。

三、实现

下面是Shingle和Simhash算法的Python实现：

Shingle算法实现：

```

import hashlib

def shingle(text, n=3):

shingles = []

words = text.split()

for i in range(len(words) - n + 1):

shingle = ' '.join(words[i:i+n])

shingles.append(hashlib.sha256(shingle.encode('utf-8')).hexdigest())

return shingles

def similarity(a, b):

a = set(a)

b = set(b)

return len(a & b) / len(a | b)

```

Simhash算法实现：

```

import hashlib

def simhash(text, n=3):

shingles = []

for i in range(len(text) - n + 1):

shingle = text[i:i+n]

shingles.append(hash(shingle))

vector = [0] * 64

for s in shingles:

for i in range(64):

mask = 1 = 0:

simhash |= 1

语文课文词语造句参考

2024年12月22日

语文课文词语造句参考【幼稚】你已经长大了，还这么幼稚，头脑还这么简单!【含糊】做事要一丝不苟，丝毫含糊不得。【娱乐】再往前走，就有好几个娱乐场所。【轻易】不能办的事，不要轻易答应人家。【恐怖】小孩不宜看恐怖电影。【一拥而入】门被踢开了，几个鬼子一拥而入。【怒气冲冲】看到他怒气冲冲的'样子，我吓得倒退了几步。【严峻】大雪过后，修复工程的形式很严峻。...

用【】造句例子,【】例句

2024年12月22日

声明:本网站大部分资源来源于用户创建编辑，上传，机构合作，自有兼职答题团队，如有侵犯了你的权益，请发送邮箱到feedback@deepthink.net.cn本网站将在三个工作日内移除相关内容,刷刷题对内容所造成的任何后果不承担法律上的任何义务或责任...

必学3词汇造句短文(参考版)

2024年12月22日

【正文】thenearlyshellfishdeveloped.Nextgreenplantsbegantogrowonland,andtheywerefollowedintimebylandanimalssuchasinsectsand...

小学生必备：超全常用词造句大全，让学习更轻松！

2024年12月22日

在小学语文学习中，造句是最基础，同时也是最重要的环节之一。这不仅帮助孩子们掌握词汇的使用更为准确，也能增强他们的语言表达能力。本文将为家长和学生提供一份超全的常用词造句汇总，供大家在学习中参考和练习，助力孩子们在语文学习的旅程中走得更远。造句的基本结构种类繁多，常见的有“连……都……”、“好像……就像……”、“虽然……但是……”等。通过这些结构的学习和练习，孩子们能够更加灵活地运用词汇，...

词组造句

2024年12月22日

关键词：高中生；英语写作能力；目标高中阶段，能写出连贯且结构完整的短文，是高考英语书面表达部分的要求，也是现行高中英语新课程的目标要求之一。相当一部分的高中生由于对语言要素综合应用的能力较弱，写出的东西往往是句不达意，或是杂乱无章，或是不符合英语表达习惯的“中文式英语”。因此，教师在教学中，培养学生的英语...

“词汇”造句

2024年12月22日

2024年06月27日03:41:53马尔先生使用了大量苏格兰特有的词汇。MrMarrmakesextensiveuseofexclusivelyScottishwords.他说话很幼稚，使用的词汇有限。Hisspeechisimmature,hisvocabularylimited.他的词汇丰富，语法也很精通。Hisv...

好词好句造句

2024年12月22日

凡是经过考验的朋友，就应该把他们紧紧地团结在你的周围。共同的事业，共同的斗争，可以使人们产生忍受一切的力量。好词好句军民团结如一人，试看天下谁能敌。看到我在书上圈圈点点,儿子看课外书时,也把一些好词好句都画下来,抄写在自己的本子上,还取了个名字叫“采蜜本”。这孩子黑虎头似的脸上，长着一对铜铃一般的大眼睛，十分精神。好词好句。...

中国文化的精粹：成语

成语文化是中国传统文化经典中的精粹之一。成语是汉语中经过长期使用、锤炼而形成的固定短语，简洁精辟，多由四字组成，如“有声有色”；也有三字或四字以上的，如“桃李满天下”、“有志者事竟成”等，反映、表现出缤纷多彩的人文世界，人们从中可以了解到天文、地理、历史、文学、艺术...

2024年12月22日

成语大全四字成语来历(成语大全四字成语来历是什么)

2024年12月22日

本文将介绍四字成语的来历，四字成语作为汉语中的重要组成部分，承载了丰富的文化内涵和智慧。通过对具体成语的起源、含义和用法进行详细解读，旨在帮助读者更好地理解和运用这些成语，同时满足搜索引擎SEO的要求。四字成语是中国古代的一种语言表达方式，它由四个汉字组成，通常具有深刻的文化内涵和智慧。这些成语来源于古代文献、典故、历史事件等，每个成语都有其...

成语成语的意思成语是什么意思成语的近义词成语的解释

2024年12月22日

chéngyǔㄔㄥˊㄩˇ名词谚语◎chéngyǔ[idiom;setphrase]汉语词汇中特有的一种长期相沿习用的固定短语。来自于古代经典或著名著作历史故事和人们的口头,意思精辟,往往隐含于字面意义之中,不是其构成成分意义的简单相加,具有意义的整体性。它结构紧密,一般不能任意变动词序,抽换或增减其中的成分,具有结构的凝固性。其形式以四字格居多,也有少量三字格和多字格的...

成语成语的意思成语是什么意思成语的近义词成语的解释

四字好词500个：四字成语500个都有哪些？