信息检索与信息过滤——硬币的两面

这一周我阅读了一篇论文——《Information filtering and information retrieval: Two sides of the same coin? 》。这篇在1992年由 Nicholas J. Belkin 和 W. Bruce Croft共同完成的论文深刻揭示了信息过滤和信息检索之间的关系。其中对信息过滤的预言一直到26年后的今天仍然能给我们带来很多启示。


过滤和检索是相辅相成的,可以理解为信息过滤是建立在信息检索的基础上进行的更高级别的操作。

过滤是基于对个人或群体信息偏好的描述,或者是通常表示长期兴趣的概要文件。
过滤还意味着从流入的流中删除数据,而不是在流中查找数据;
过滤是基于对个人或群体信息偏好的描述,通常称为概要文件。这种概况通常代表长期利益;
过滤通常意味着要从流入的流中删除数据,而不是在该流中查找数据;
概要文件不仅可以表达人们想要的内容,还可以表达他们不想要的东西。

上面的这段话让我有了很强烈的共鸣。人类正在通过日新月异的信息技术将历史上曾经生产的种种媒介内容融入比特之海,同时以史无前例的速度继续生产内容。而且,以往的信息生产和传递过程,主要遵循“先过滤后发布”的原则,大众媒体、高校、专家权威等扮演了把关人和过滤器的角色;如今,越发普遍的却是信息的“先发布后过滤”。在这个“人人都是自媒体”的时代,每个人都可以将自己的想法和见解上传到互联网中。本来,人们将“消除不确定性”作为信息的定义,但浩如烟海的信息似乎又增加了不确定性和人内心的焦虑。因此,信息过滤机制在我们的时代变得空前重要。

来到个人的层面上,信息过滤也越来越成为我们应该掌握的能力。信息的搜集与筛选是必不可少的,信息的搜集是多元化的,当我们将信息检索出来时,如何才能更加有效的将我们想要搜索出的信息呢?我认为,在检索之初就缩小范围,尽可能的准确有效的指向我们的目标文件。这就对我们在信息的筛选方面,有了较高的要求。在搜索时,根据自己的需求,挑选适合目标的网站,即对搜索工具进行首次筛选,其次,将自己的目标,尽可能准确且有重点的输入搜索栏,挑选较有重点的关键词,拒绝尽可能多的无关信息。这样搜索结果便可以相对有效了。


信息检索系统和信息过滤系统在本质上是相同的,两者都关心如何向需要的人提供信息,而且两者都关心的是相同的环境。此外,大多数出现在信息过滤中唯一的问题,实际上都是信息检索(IR)问题的专门化。

信息检索系统的目标是让用户从知识资源中获取信息,出于他问题管理的目的。
团体和个人都可以以这样的目标为特征。这样就会导致常规的信息兴趣(例如,保持最新的主题),随着时间的推移,随着条件、目标和知识的改变,可能会慢慢改变。这样的信息兴趣使人们参与到相对被动的信息寻求行为中,比如让他们注意到文本。这是通过将信息兴趣表示为概要文件或查询来实现的,可以将其放入过滤系统中。这些概要文件通常被理解为对信息利益的良好规范。
信息检索系统(IR)在定义明确的特定领域中研究了定义良好的用户组,主要是在科学和技术领域。这些用户在他们的信息搜索行为中几乎总是有很强的动机。然而,过滤通常涉及到非常不明确的用户社区,比如在家里寻求娱乐的人,以及各种各样的领域。另外,过滤环境中的动机也不能总是被假定。

我们不能够要求所有使用搜索引擎的用户都是绝对专业的用户,他们不完全是在某一领域的专家学者。绝大多数的用户还是目的不明确地、使用不规范的自然语言进行搜索的普通用户。如何向这些并不专业的用户提供较为准确地信息将是未来信息过滤系统(或者说“进化了的”信息检索系统)应该做的主要工作。

一般来说,过滤可以定义为确定哪些概要文件有很高的可能性,从传入的流中得到特定对象的满意程度。对于特定概要文件的概率较低的对象,将从指向与该概要文件关联的用户的对象流中删除。如果这对于应用程序来说是合适的,那么该流中的对象可以按顺序排列并按排序顺序显示。

研究表明,用户输入与初始查询中提到的概念相关的概念,以及它们的相对重要性,可以显著提高检索效率。相反,其他的实验表明,通过让用户从系统推荐的列表中选择额外的概念来扩展查询通常是无效的。通过鼓励用户使用更加具体的问题描述进行检索,可以提高相关性反馈,可以提高信息过滤的效率。


总之,IR和IF是相辅相成的,绝对不能割裂。读过本篇论文得到的结论是:信息检索和信息过滤实际上是一枚硬币的两面。他们一起工作,帮助人们获取完成任务所需的信息。
当然,目前搜索引擎还存在一些问题,比如:用户在使用搜索引擎检索信息时,经常会搜索出一些毫不相干的内容,大大降低了信息资源的可利用度;信息分类不规范;搜索范围较小,数据库更新慢,查询交叉类目时容易遗漏等等。这都需要IR和IF紧密结合,一起解决上述的问题。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,580评论 18 139
  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 31,893评论 2 89
  • 以上原始手动解档归档代码下载地址如下 runtime实现归档解档代码下载地址如下可以直接拉入项目使用 为什么我们要...
    雷鸣1010阅读 419评论 0 2
  • 昆明是云南的首府,有“春城”的美誉。这次云南之行,第一站就放在了这里。红土地、梯田、强烈的紫外线、永远优秀的PM2...
    谷呵呵是谷禾禾阅读 856评论 13 12
  • 很多事,不是我想,就能做到的。很多东西,不是我要,就能得到的。很多人,不是我留,就能留住的。早该明白,总有一天,你...
    简单就幸福阅读 250评论 1 0