正确答案
文本聚类是指利用计算机将文献按其属性相似度聚集成不同的类,生成聚类文件和提供聚类检索。它不同于传统的文献分类。因为它不是基于某种预定的类表,而是基于文献,即先有文献后有类。类的内涵和外延以及整个类体系完全由系统内的文献决定,类的性质时刻与本类文献相一致。
类的形成过程也不同。传统的文献分类通常按自上而下的顺序一次完成,而聚类则按照自下而上的顺序生成类,且不是一次完成。文献聚类有助于提高检索效率,使属于某一给定类的全部文献在一次文档访问中就可以检出。它可以节省提问处理时间,使检索时不必逐词逐篇的一一比较,只在有关类内部进行比较。