这一周我阅读了一篇论文——《Information filtering and information retrieval: Two sides of the same coin? 》。这篇在1992年由 Nicholas J. Belkin 和 W. Bruce Croft共同完成的论文深刻揭示了信息过滤和信息检索之间的关系。其中对信息过滤的预言一直到26年后的今天仍然能给我们带来很多启示。
过滤和检索是相辅相成的,可以理解为信息过滤是建立在信息检索的基础上进行的更高级别的操作。
过滤是基于对个人或群体信息偏好的描述,或者是通常表示长期兴趣的概要文件。
过滤还意味着从流入的流中删除数据,而不是在流中查找数据;
过滤是基于对个人或群体信息偏好的描述,通常称为概要文件。这种概况通常代表长期利益;
过滤通常意味着要从流入的流中删除数据,而不是在该流中查找数据;
概要文件不仅可以表达人们想要的内容,还可以表达他们不想要的东西。
上面的这段话让我有了很强烈的共鸣。人类正在通过日新月异的信息技术将历史上曾经生产的种种媒介内容融入比特之海,同时以史无前例的速度继续生产内容。而且,以往的信息生产和传递过程,主要遵循“先过滤后发布”的原则,大众媒体、高校、专家权威等扮演了把关人和过滤器的角色;如今,越发普遍的却是信息的“先发布后过滤”。在这个“人人都是自媒体”的时代,每个人都可以将自己的想法和见解上传到互联网中。本来,人们将“消除不确定性”作为信息的定义,但浩如烟海的信息似乎又增加了不确定性和人内心的焦虑。因此,信息过滤机制在我们的时代变得空前重要。
来到个人的层面上,信息过滤也越来越成为我们应该掌握的能力。信息的搜集与筛选是必不可少的,信息的搜集是多元化的,当我们将信息检索出来时,如何才能更加有效的将我们想要搜索出的信息呢?我认为,在检索之初就缩小范围,尽可能的准确有效的指向我们的目标文件。这就对我们在信息的筛选方面,有了较高的要求。在搜索时,根据自己的需求,挑选适合目标的网站,即对搜索工具进行首次筛选,其次,将自己的目标,尽可能准确且有重点的输入搜索栏,挑选较有重点的关键词,拒绝尽可能多的无关信息。这样搜索结果便可以相对有效了。
信息检索系统和信息过滤系统在本质上是相同的,两者都关心如何向需要的人提供信息,而且两者都关心的是相同的环境。此外,大多数出现在信息过滤中唯一的问题,实际上都是信息检索(IR)问题的专门化。
信息检索系统的目标是让用户从知识资源中获取信息,出于他问题管理的目的。
团体和个人都可以以这样的目标为特征。这样就会导致常规的信息兴趣(例如,保持最新的主题),随着时间的推移,随着条件、目标和知识的改变,可能会慢慢改变。这样的信息兴趣使人们参与到相对被动的信息寻求行为中,比如让他们注意到文本。这是通过将信息兴趣表示为概要文件或查询来实现的,可以将其放入过滤系统中。这些概要文件通常被理解为对信息利益的良好规范。
信息检索系统(IR)在定义明确的特定领域中研究了定义良好的用户组,主要是在科学和技术领域。这些用户在他们的信息搜索行为中几乎总是有很强的动机。然而,过滤通常涉及到非常不明确的用户社区,比如在家里寻求娱乐的人,以及各种各样的领域。另外,过滤环境中的动机也不能总是被假定。
我们不能够要求所有使用搜索引擎的用户都是绝对专业的用户,他们不完全是在某一领域的专家学者。绝大多数的用户还是目的不明确地、使用不规范的自然语言进行搜索的普通用户。如何向这些并不专业的用户提供较为准确地信息将是未来信息过滤系统(或者说“进化了的”信息检索系统)应该做的主要工作。
一般来说,过滤可以定义为确定哪些概要文件有很高的可能性,从传入的流中得到特定对象的满意程度。对于特定概要文件的概率较低的对象,将从指向与该概要文件关联的用户的对象流中删除。如果这对于应用程序来说是合适的,那么该流中的对象可以按顺序排列并按排序顺序显示。
研究表明,用户输入与初始查询中提到的概念相关的概念,以及它们的相对重要性,可以显著提高检索效率。相反,其他的实验表明,通过让用户从系统推荐的列表中选择额外的概念来扩展查询通常是无效的。通过鼓励用户使用更加具体的问题描述进行检索,可以提高相关性反馈,可以提高信息过滤的效率。
总之,IR和IF是相辅相成的,绝对不能割裂。读过本篇论文得到的结论是:信息检索和信息过滤实际上是一枚硬币的两面。他们一起工作,帮助人们获取完成任务所需的信息。
当然,目前搜索引擎还存在一些问题,比如:用户在使用搜索引擎检索信息时,经常会搜索出一些毫不相干的内容,大大降低了信息资源的可利用度;信息分类不规范;搜索范围较小,数据库更新慢,查询交叉类目时容易遗漏等等。这都需要IR和IF紧密结合,一起解决上述的问题。