一个图像很难用文本注释或关键字来描述,尽管后者在某种程度上与语义相关。原则上,通过对图像数据库的广泛调查,可以获得一组涵盖广泛语义属性的特定关键字(Cox E.A.,2000)。该集合意味着定义一般类别的一组附加关键字,例如,特定属性“horse”生成要显示的类别属性“animal”。
目前,大多数流行的多媒体搜索引擎,包括所有第一代视觉信息,或图像检索(IR)系统,仍然是文本的,即使 Web 现在是一个基于多媒体的存储库,具有各种音频、视频、图像和文本格式。 针对不同媒体类型的一些流行格式如下(Chang e.a,2001) :
在基于文本或关键字的搜索中,用户指定关键字,并检索与这些关键字相关的多媒体。这种检索强烈依赖于由文本字符串、关键字或完整脚本表示的元数据(Shih,2002)。 一些最近开发和部署的高效商业多媒体搜索引擎,如谷歌图像搜索、 AltaVista 照片搜索、 Lycos Pictures and Sounds、 yahoo! Image Surfer 和 Lycos Fast MP3 Search,利用文本或基于关键字的检索。 它需要一个描述多媒体内容的倒排文件索引,并允许获得快速的查询响应。 建立索引是基于关键词的多媒体信息检索的核心部分。
另一种索引技术是将多媒体内容划分为类别,用户可以通过这些分类浏览与类别关键字相匹配的感兴趣的图像,并使用围绕多媒体内容嵌入的文本作为识别其内容的一种方式。 但是关键字和文本只是隐式地与图像 / 视频 / 音频内容相关,如果可以直接检查这样的内容,搜索结果可以显著改进。