信息检索与文本挖掘的常用计算方法

1970-01-01 08:00:00

TF-IDF学习笔记什么是 TF-IDF？

TF-IDF 是一种用于信息检索与文本挖掘的常用加权技术。它采用一种统计方法，根据字词的在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。

TF-IDF 的思想很简单：如果某个单词或短语在一篇文章中出现的频率 TF 高，并且在其他文章中很少出现，那么认为这个词或者短语具有很好的区分能力，适合用来对这篇文章进行分类。

如何计算 TF-IDF？

TF-IDF 由两部分组成：TF 和 IDF。下面分别介绍这两个部分的计算方法。

计算 TF

TF（Term Frequency，词频）指的是某一个给定的词语在该文件中出现的次数。它可以简单地表示为：

TF(t) = (词语 t 在文档中出现的次数) / (文档中词语总数)

也就是说，TF(t) 表示在文档中词语 t 出现的频率。

计算 IDF

IDF（Inverse Document Frequency词语相似度计算方法，逆文档频率）的主要思想是，如果包含词条 t 的文档越少，则说明词条具有很好的类别区分能力。IDF 的定义为：

IDF(t) = log_e(文档总数 / 包含词语 t 的文档数)

其中 e 为自然常数，文档总数指的是语料库中文档的总数。如果某个词语只出现在一个文档中，那么该词语的 IDF 值为 log_e(文档总数)，即它的权重非常高；如果某个词语在所有的文档中都出现过，那么它的 IDF 值为 log_e(1)=0，即它在这个语料库中没有任何区分能力。

计算 TF-IDF

将 TF 和 IDF 相乘，得到 TF-IDF：

TF-IDF(t) = TF(t) * IDF(t)

TF-IDF(t) 表示词语 t 在文档中的重要程度，是 TF 和 IDF 的乘积。值得注意的是，TF-IDF 的值越大，表示词语 t 在该文档中越重要。

TF-IDF 的应用

TF-IDF 在文本挖掘中被广泛应用，常见的应用场景包括：

文章关键词提取

可以统计文章中每个词语的 TF-IDF 值，选取 TF-IDF 值最高的几个词语作为关键词。

文章分类

可以使用多个文章对应的词语的 TF-IDF 值构成一个向量，再使用分类算法对文章进行分类。

相似文章检索

可以使用文章对应的词语的 TF-IDF 值计算文章之间的相似度，找出和当前文章相似的文章。

网页搜索引擎

可以使用搜索关键词所对应的词语的 TF-IDF 值计算网页的相关度词语相似度计算方法，将相关度高的网页排在搜索结果的前面。

总结

TF-IDF 是一种常用的文本挖掘技术，它可以提取文章的关键词、分类文章、检索相似文章以及网页搜索等。掌握 TF-IDF 技术，有助于我们更好地进行文本挖掘和信息检索工作。

# 计算词频TF
def calc_tf(word, doc):
    return doc.count(word) / len(doc)
# 计算逆文档频率IDF
def calc_idf(word, docs):
    return math.log(len(docs) / (sum(1 for doc in docs if word in doc)))
# 计算TF-IDF
def calc_tfidf(word, doc, docs):
    return calc_tf(word, doc) * calc_idf(word, docs)

语文课文词语造句参考

2024年12月22日

语文课文词语造句参考【幼稚】你已经长大了，还这么幼稚，头脑还这么简单!【含糊】做事要一丝不苟，丝毫含糊不得。【娱乐】再往前走，就有好几个娱乐场所。【轻易】不能办的事，不要轻易答应人家。【恐怖】小孩不宜看恐怖电影。【一拥而入】门被踢开了，几个鬼子一拥而入。【怒气冲冲】看到他怒气冲冲的'样子，我吓得倒退了几步。【严峻】大雪过后，修复工程的形式很严峻。...

用【】造句例子,【】例句

2024年12月22日

声明:本网站大部分资源来源于用户创建编辑，上传，机构合作，自有兼职答题团队，如有侵犯了你的权益，请发送邮箱到feedback@deepthink.net.cn本网站将在三个工作日内移除相关内容,刷刷题对内容所造成的任何后果不承担法律上的任何义务或责任...

必学3词汇造句短文(参考版)

2024年12月22日

【正文】thenearlyshellfishdeveloped.Nextgreenplantsbegantogrowonland,andtheywerefollowedintimebylandanimalssuchasinsectsand...

小学生必备：超全常用词造句大全，让学习更轻松！

2024年12月22日

在小学语文学习中，造句是最基础，同时也是最重要的环节之一。这不仅帮助孩子们掌握词汇的使用更为准确，也能增强他们的语言表达能力。本文将为家长和学生提供一份超全的常用词造句汇总，供大家在学习中参考和练习，助力孩子们在语文学习的旅程中走得更远。造句的基本结构种类繁多，常见的有“连……都……”、“好像……就像……”、“虽然……但是……”等。通过这些结构的学习和练习，孩子们能够更加灵活地运用词汇，...

词组造句

2024年12月22日

关键词：高中生；英语写作能力；目标高中阶段，能写出连贯且结构完整的短文，是高考英语书面表达部分的要求，也是现行高中英语新课程的目标要求之一。相当一部分的高中生由于对语言要素综合应用的能力较弱，写出的东西往往是句不达意，或是杂乱无章，或是不符合英语表达习惯的“中文式英语”。因此，教师在教学中，培养学生的英语...

“词汇”造句

2024年12月22日

2024年06月27日03:41:53马尔先生使用了大量苏格兰特有的词汇。MrMarrmakesextensiveuseofexclusivelyScottishwords.他说话很幼稚，使用的词汇有限。Hisspeechisimmature,hisvocabularylimited.他的词汇丰富，语法也很精通。Hisv...

好词好句造句

2024年12月22日

凡是经过考验的朋友，就应该把他们紧紧地团结在你的周围。共同的事业，共同的斗争，可以使人们产生忍受一切的力量。好词好句军民团结如一人，试看天下谁能敌。看到我在书上圈圈点点,儿子看课外书时,也把一些好词好句都画下来,抄写在自己的本子上,还取了个名字叫“采蜜本”。这孩子黑虎头似的脸上，长着一对铜铃一般的大眼睛，十分精神。好词好句。...

中国文化的精粹：成语

成语文化是中国传统文化经典中的精粹之一。成语是汉语中经过长期使用、锤炼而形成的固定短语，简洁精辟，多由四字组成，如“有声有色”；也有三字或四字以上的，如“桃李满天下”、“有志者事竟成”等，反映、表现出缤纷多彩的人文世界，人们从中可以了解到天文、地理、历史、文学、艺术...

2024年12月22日

成语大全四字成语来历(成语大全四字成语来历是什么)

2024年12月22日

本文将介绍四字成语的来历，四字成语作为汉语中的重要组成部分，承载了丰富的文化内涵和智慧。通过对具体成语的起源、含义和用法进行详细解读，旨在帮助读者更好地理解和运用这些成语，同时满足搜索引擎SEO的要求。四字成语是中国古代的一种语言表达方式，它由四个汉字组成，通常具有深刻的文化内涵和智慧。这些成语来源于古代文献、典故、历史事件等，每个成语都有其...

成语成语的意思成语是什么意思成语的近义词成语的解释

2024年12月22日

chéngyǔㄔㄥˊㄩˇ名词谚语◎chéngyǔ[idiom;setphrase]汉语词汇中特有的一种长期相沿习用的固定短语。来自于古代经典或著名著作历史故事和人们的口头,意思精辟,往往隐含于字面意义之中,不是其构成成分意义的简单相加,具有意义的整体性。它结构紧密,一般不能任意变动词序,抽换或增减其中的成分,具有结构的凝固性。其形式以四字格居多,也有少量三字格和多字格的...

成语成语的意思成语是什么意思成语的近义词成语的解释

四字好词500个：四字成语500个都有哪些？