搜索项目报告—中国节
一. 项目简介
1.1 项目背景
中国作为一个统一的多民族国家,有着丰富的民族节日文化遗产,它们已成为中国传统节日乃至中国传统文化的重要组成部分。各民族传统节日是民族传统文化的缩影,是民族精神的写照。然而,在民族传统节日文化方面的教育还有不足。因此,弘扬和传承民族节日对于中华民族以及国家文化建设具有深远意义。节日是各民族传统文化的重要载体,它是对民族文化内涵的诠释和认同的表征。如今群众对民族节庆的知识性、参与性、娱乐性的追求十分迫切。
我们希望通过该项目能改善传播民族文化欠缺的问题。节日同时也是非物质文化遗产的重要载体和表现形式,对各民族节日的保护,就是对民族非物质文化遗产的保护。
1.2 名称和LOGO
名称:中国节
1.3 项目内容
“中国节”是一个针对中国各民族传统节庆信息搜索的垂直搜索引擎,拥有查询词条和图片的功能。
词条中可查询56个民族的相关信息,包括名称、分布地区、人口、宗教信仰、语言、文字、历法、节日信息。此外,还可查询各民族节日的相关信息,包括名称、别称、民族、地区、时间、性质、简介、起源、活动及风俗、传承与发展、资料来源信息。
图片中可查询到与民族或节日相关的图片及图片的描述信息和来源网站。
1.4创新点
提供一个展示民族文化的重要平台,传播少数民族传统节日文化,在传承与保护传统节日文化的时候,对民族文化的内涵有更清楚的认知;
提供一个有条理、较为全面丰富的民族传统节日的垂直搜索;
搜索便捷性、搜索个性化、以及提供预设搜索。
二. 搜索场景分析
2.1
小新是一名汉族学生,最近,他被少数民族丰富且多彩的文化深深吸引着,每天都想要了解各种各样有关少数民族的知识,可以说成为了不折不扣的少数民族文化爱好者。同时,小新总是在电视里看到不同的少数民族庆祝着他们独特的节日,例如维吾尔族同学的古尔邦节,傣族朋友的泼水节等等,小新很想全面地了解各个少数民族的各种节日以及与节日有关的一些习俗。
2.2
小明是四川大学旅游管理系在读本科生,在上旅游文化学研究这门课时,老师要求同学们去分析民族文化与旅游文化之间的联系,小明发现各个民族庆祝的节日都十分丰富且独具特色,而且在各个民族欢庆佳节期间能吸引大量游客旅游,因此,他需要系统的查找各个民族节日的由来、简介以及发展现状并进行学术性研究。
2.3
小丽在六月底计划去四川旅游,作为一个精致女孩,做好充分的旅游攻略是临行前必备的工作,由于旅游地有藏族、羌族聚居地——九寨沟,彝族聚居地——大凉山。恰巧6月24日是彝族的火把节,小丽认为自己有体验与彝族居民一起庆祝火把节的机会,因此为了旅游时可以很好的参与庆祝,也为了不触犯彝族的一些禁忌,她很想详细的了解这个节日的流程、习俗等内容,同时想观看欢庆节日的视频或图片。
三. 搜索受众分析
搜索项目需要建立在用户的基本需求之上,用户的需求来源于用户的自我满足感的缺乏。用户的需求应该如何被满足,如何确定目标用户群来帮助明确、细化搜索产品的概念和功能。
对用户在搜索引擎中的搜索的行为进行分析,大致可以将用户分为以下几种:
①.兴趣型:对传统节日及文化感兴趣但并不十分了解的用户。这类目标用户年龄范围较为广泛,他们会由于兴趣使然会对少数民族的节日文化进行搜索,搜索时需要寻找各种与节日相关的信息来满足其需求。在了解民族传统节日文化的过程中,他们在搜索引擎中会有很多的搜索点击,是占比较大的目标用户群体。
②.学习型:需要对民族传统节日及文化进行学习或研究的用户。这类用户在文化学习方面的能力普遍较高,其搜索的目标较为明确。他们需要大量的客观全面系统性的节日资料来满足自己的需求。在搜索过程中他们更多的会关注在节日的形成、发展变迁、风俗、形式、象征等方面的信息。
③.简单的资料查找型:需要查找民族节日相关资料的用户。这一类的用户希望从搜索引擎上查找特定的信息,例如某个民族的某个节日的来历资料、风俗、丰富的图片和视频资料等,因此对他们来说,导航搜索相比于关键词搜索会更加让他们满意。
四. 搜索需求分析
①.用户年龄范围较为广泛,他们对各民族传统节日搜索出于兴趣爱好,在了解民族传统节日文化的过程中,对他们来说他们的需求就是搜索引擎能提供各民族丰富的与节日相关的信息来满足其需求,显然这类用户在搜索引擎中会有很多的搜索点击行为。
②.用户出于文化学习而进行搜索,其搜索的目标较为明确。他们需要客观系统性的节日资料来满足自己的需求。在搜索过程中他们会更加注重搜索的效率和质量。
③.用户希望从搜索引擎上查找特定的信息来满足其需求,例如某个民族的某个节日的来历资料、风俗、丰富的图片和视频资料等,同时对他们来说,导航搜索相比于关键词搜索会更加让他们满意
五. 竞品分析
将“中国节”与其它同类型网站进行比较。
六. 典型搜索任务定义
6.1 搜索流程
6.2 功能定义
6.3 目标
用户满意度:提高答案质量,减少用户重复搜索过程的几率。
查全率:提高答案信息丰富度,避免搜索无结果的情况。
查准率:丰富词条信息,提供权威的答案。
七. 典型搜索场景举例
小新是一名汉族学生,最近,他被少数民族丰富且多彩的文化深深吸引着,每天都想要了解各种各样有关少数民族的知识,可以说成为了不折不扣的少数民族文化爱好者。同时,小新总是在网里看到不同的少数民族庆祝着他们独特的节日,例如场面壮观的泼水节等等,小新想了解泼水节,于是打开电脑,在“中国节”网站上输入泼水节进行搜索。
在成都到大凉山的列车上,源源对自己即将前往大凉山与彝族同胞共度火把节兴奋不已,为了更好的融入当地,她打开手机在“中国节”搜索网站上输入“彝族火把节”进行搜索。
八. 元数据描述方案
具体元数据文档见附录1:元数据
九. 数据采集
9.1 数据来源
二十四节气网、日历网、百度百科、360百科
9.2 数据采集
①编写scrapy代码爬取百度图片中的相关节日图片各五张,同时包含图片长度、宽度、url等信息。
②编写scrapy代码爬取百度百科中的五十六个民族的信息,包括民族的居住地、人口数量、宗教信仰、语言文字、历法、节日、资料来源等信息。
③编写scrapy代码爬取360百科、百度百科中各个节日的信息,由于二十四节气网和日历网中信息结构杂乱,无法编写能全面爬取数据的代码,因此数据由小组成员手动收集,包括的数据有节日别名、地区、时间、类型、简介、起源、活动和习俗、传承与发展、资料来源等。
具体代码见附录2:数据采集
9.3 数据清洗与整理
由于爬取数据的来源不统一,为保证数据的完整性、一致性,必须将数据进行清洗和整理,我们采用人工手动清洗数据的方式。
数据清洗的内容包括:
1.补足不完整的数据:在数据收集过程中部分数据有遗漏,例如节日的习俗、节日的发展等,在清洗数据过程中我们将这些信息重新爬取收集。
2.纠正错误数据:例如拼写错误、数据存储的类型错误等。
3.统一数据规格:有些多值字段需要将数据的表达形式整理规范,各个字段排列的先后顺序也需统一。
具体数据见附录3:项目数据
十. 索引构建
Solr的配置
10.1 Managed-schema设计
(1) 字段类型
根据获取到的项目数据进行字段类型的定义,首先配置中文分词包mmseg4j,并设置同义词、停用词以及自定义词词典;定义字段类型为text_mmseg4j_complex如下:
由于在solr-7.3.1版本中mmseg4j不支持多值,另外配置一个中文分词包IK,设置同义词、停用词以及自定义词词典;字段类型定义为text_ik,定义情况如下图:
(2)字段的定义
项目数据有民族、节日、图片,民族和图片为节日放入辅助数据项;所有的项目数据的字段均定义为可索引可存储;
①对民族进行定义时;其中的url定义为string类型,由于民族的节日可以有多个值则使用text_ik类型进行定义,且属于多值字段,其他的字段均定义为text_mmseg4j_complex类型。
②对节日进行定义时;其中的url定义为string类型,由于节日的别名、节日举办时间、举办地区均为多值字段则使用text_ik类型进行定义,且multiValue为true,其他的字段均定义为text_mmseg4j_complex类型。
③对图片进行定义时;其中的url定义为string类型,原图的宽和高定义为pint类型其他的字段均定义为text_mmseg4j_complex类型。
具体的字段定义如下图:
(3)复制字段的定义
text字段应用于复制字段,属于多值字段;在复制字段的定义时,将项目中需要支持检索的多个不同的字段应用于text;查询时使用text字段将匹配以下多个不同的字段中内容,复制字段的定义如下:
(4) 停用词、同义词及自定义词典
为了提高检索效率,在配置分词包时将项目中反复出现但又不太具有搜索意义的词添加到了停用词文件中;同时也设置了同义词以增强搜索体验,例如“云南=>滇”;由于项目数据中有很多是不常用的词,中文分词包对这些词的分词效果不太理想,因此添加了自定义词典以提高收索效率和提升搜索体验。
停用词、同义词及自定义词典相关文件见附录4:词典文档
具体的managed-schema设计详见附录5:managed-schema
10.2 Solrconfig.xml相关设置
在Solr中solrconfig.xml文件是影响Solr本身参数最多的配置文件之一,solrconfig.xml文件的配置会影响到很多搜索功能的使用。
(1)Browse使用的配置
Browse是一个基于 VelocityResponseWriter的示例搜索界面;在小组对solr进行包装之前使用到了browse,因此对browse做了部分配置: 将复制字段text设置为检索时默认的字段,高亮设置,以及对民族和节日的性质做了分面设置,设置情况如下图:
Browse的界面展示如下图:
(2)权重设置
未进行字段权重设置时,影响solr查询返回结果是score,并且默认采用score进行排序,有时排序结果不太好,为有更好的搜索效果结合项目的主题——节日,对各个字段进行了权重设置,通过改变字段的权重值来影响排序结果,各字段的静态权重设置如下:
(3)搜索建议
进行查询时我们希望能提供搜索建议;solr的搜索建议的设置也需要在solrconfig.xml文件中进行设置,suggest的设置如下:
更新索引后,在solr的查询(query)界面中进行搜索建议测试如下,当输入“七月”时solr提供的搜索建议有两条。
具体的solrconfig.xml配置详见附录6:solrconfig.xml
具体索引文件见附录7:index
十一. 搜索功能设计
搜索前:在首页置入搜索框搜索和导航搜索,以及可供用户选择的搜索分类项。
搜索时:提供搜索筛选,搜索建议
搜索后:在搜索结果页上,搜索结果按照solr默认的权重排序算法排序后显示,并且将检索词高亮显示,搜索结果分页显示。
十二. 搜索交互界面原型
首页
导航页
结果页
搜索结果详情页
网站链接:http://118.24.37.184/zhongguojie/index/
具体网页代码见附录8:网页源代码
十三. 搜索体验评价
内容:检索结果查全率较高,为用户提供了搜索推荐
技术:检索准确度较高、搜索结果可以分类显示、检索词能高亮显示
界面交互:界面设计简洁美观,信息展示方式友好
服务:搜索结果与提问式相关,快速响应提问,快速提供搜索结果
十四. 项目不足与下一步工作
14.1 第一阶段
①不足:
搜索结果不够丰富,没有视频、音频等多媒体搜索结果;
检索方式较单一,只提供了文字搜索,没有语音搜索;
搜索结果数量较少,每个节日只有一条相关信息;
资料来源不够丰富,仅从少数网站爬取信息。
②下一步工作:
优化搜索导航及排序方式;
搜索时为用户提供搜索建议,如检索词纠错、检索词自动补充、同义词建议等;
进一步进行信息整理和补充,提高信息的质量等;
完善界面之间的交互和相关功能。
14.2 第二阶段
对上一阶段不足进行以下几点改进:
美化导航页面和结果页面的界面;
添加了搜索结果详情页面;
添加了部分同义词词典;
对时间和节日的性质提供筛选,如下图:
提供搜索建议,如下图:
十五. 小组分工
彭顺铭
参与讨论搜索项目开题;
参与讨论项目元数据方案;
参与讨论项目json数据样例设计;
在linux服务器上进行了python版本的升级;
在项目数据的爬取过程中,主要负责从百度百科上爬取民族的信息,协助完成节日信息的爬取;
在数据的整理和清洗过程中,主要负责民族信息的整理和节日信息的第一次整理清洗工作;
主要负责openjdk的安装和solr基础搭建与mmseg4j中文分词包配置;
参与讨论schame设计与索引的构建;
在网页的包装制作上,协助完成首页的设计,主要完成导航页的制作。陶含蕊:
参与讨论搜索项目开题;
项目元数据方案设计;
参与讨论项目json数据样例设计;
项目原型设计;
数据采集过程中负责使用scrapy代码采集图片数据,手动采集节日数据;
数据清洗与整理过程中负责节日数据以及图片数据的清洗;
参与schema的设计;
协助录入项目数据及索引构建;
网页设计过程中负责界面设计及交互设计;
结题报告的海报制作;
结题报告的海报制作;
项目文档的编写及汇总。荣誉婷:
参与讨论搜索项目开题;
Linux服务器搭建及配置;
Scrapy安装及配置;
开题PPT制作;
元数据方案设计;
数据采集(手动采集,编写scrapy爬虫采集);
数据清洗与整理(图片、节日);
Httpd服务器搭建(Apache+php);
Ik分词包配置(停用词、自定义词典);
Schema设计(字段类型、字段、复制字段定义);
项目数据录入及索引构建;
Solrconfig设置(browse分面及高亮、搜索建议suggest、字段权重);
网站包装—结果页和详情页(高亮、搜索建议、分页、筛选);
项目文档编写。庞柳:
参与讨论搜索项目开题;
项目元数据方案设计;
参与讨论项目json数据样例设计;
项目原型设计;
数据采集过程中负责使用scrapy代码采集图片数据,手动采集节日数据;
数据清洗与整理过程中负责节日数据以及图片数据的清洗;
参与讨论schame的设计;
网页设计过程中负责界面设计及交互设计;
结题报告的海报制作;
结题报告的海报制作;