查询扩展和关键字提取¶

概述

whoosh提供了计算一组文档的“关键术语”的方法。对于这些方法,“关键术语”基本上是指在给定的文档中频繁出现的术语,但在整个索引集合中相对较少出现。

由于这是一个纯粹的统计操作,而不是自然语言处理或人工智能功能,因此结果的质量将根据内容、文档集合的大小以及提取关键字的文档数而变化。

这些方法对于向用户提供以下功能非常有用:

使用

扩展模型

这个 ExpansionModel 中的子类 whoosh.classify 模块为关键词实现不同的权重功能。这些模型从Terrier的原始Java实现转换为Python。