正确答案
Web文本挖掘指从大量非结构化、异构的Web文档的集合中发现有效的、新颖的潜在可用的及最终可理解的知识的过程。
文本挖掘与文本检索是两种不同的技术,表现在以下方面
1)目的不同。文本检索的目的在于帮助用户发现资源;文本挖掘的目的是为了揭示文档中隐含的知识;2)评价手段不同。文本检索一般使用查全率和查准率评价其效果,要求返回尽可能多的相关文档,同时不相关的文档尽可能的少;而文本挖掘采用收益、置信度、简洁性等来衡量所发现知识的有效性、可用性和可理解性;
3)方法论不同。信息检索是目标驱动的,用户需要明确提出查询要求;而文本挖掘的结果独立于用户的信息需求,也是用户所无法预知的;
4)使用场合不同。有时信息检索系统返回太多的结果以致用户无法一一浏览,有时用户没有明确的信息需求,有时用户希望发现文档集合中所具有的结构、趋势、含义,在这些场合下,就需要使用挖掘技术。