IF-IDF(词频-逆文档频率)是用来评估一个词在文档中重要性的统计方法。它由词频(TF)和逆文档频率(IDF)组成,能够衡量词对文档的代表性。TF反映词在文档中的频繁程度,而IDF则衡量该词在整个语料库中出现的稀有程度。IF-IDF广泛应用于信息检索和文本分类等任务中。
BM25(最佳匹配25)是对IF-IDF的改进,特别适用于文档排名。它引入了两个参数(k1和b),通过对词频进行非线性调整,避免长文档的过度影响,并考虑文档长度的影响。BM25通常比IF-IDF表现更好,尤其在大规模文档检索中。