对于搜索引擎而言,用户算法的核心价值是用户体验,包括搜索内容的相关性、内容质量及时效性等,其中内容质量是前置步骤,既可以用于优质内容源筛选,又可以作为搜索召回结果排序因素,是决定高质量搜索结果前提。
内容质量主要有两个维度。第一,EAT 分数,主要取决于文档的来源和作者。EAT是专业性(expertise)、权威性(authoritativeness)、可信赖(trustworthiness)三个词的首字母缩写;第二,文字和图片质量,包括文本质量和图片质量(参考:https://toutiao.io/posts/izme1z1/preview,https://cloud.tencent.com/developer/news/490036)等。
爬虫采集到了作者编号(account_id),作者昵称(master_name),作者领域(master_property),文章编号(pid),文章内容(doc),文章类目(category),文章发布时间(publish_time),浏览量(view_num),收藏量(collect_num),一共12w行。通过 作者编号(account_id),作者昵称(master_name),作者领域(master_property),通过作者发文时间等字段,及计算作者创作年龄(span_date)汇总为author.csv数据,通过编号(account_id),作者昵称(master_name)文章编号(pid),文章内容(doc),文章类目(category),文章发布时间(publish_time),浏览量(view_num),收藏量(collect_num)汇总为works.csv数据。
作者权重及排序
我们希望通过对作者进行打分,获得‘’大师、专家‘’列表,用于在文章权威性评价指标。由于是初始阶段我们无法获得大师名单列表,甚至作者名单都不全,因此需要先对爬虫数据结构有一定了解。
我们根据auther.csv数据,将作者排序因素分类为作者影响力水平(eindex)、作者领域专业度(pindex)、作者流行性度(h index)等,其中:
(1)作者影响力水平评价:以作者作品浏览量和收藏数的H Index加权和作为影响力排序指标;
(2)作者领域专业度评价:分别计算作者行业作品浏览率与行业平均浏览率占比和作者行业作品收藏率与行业平均收藏率占比,然后求两项加权和作为评判作者在行业领域内的专业度;
(3)作者流行性度:以作者月平均产出作品数、月平均作品浏览量、月平均作品收藏量、月平均主页访问量、月平平粉丝数加权和作为作者流行度评价指标。
通过对多个因子进行组合和筛选,可以看到部分因子和作者权重有较好的一致性。
作者权重score分布及分级:
作品权重及排序
我们根据works.csv数据,选取以作品认可度(avalue)、作品影响力(ivalue)、作品流行度(hvalue)、作品内容分数(cvalue)等为指标进行排序,其中:
(1)作品认可度:作品评分 * 认可率,作品评分通过浏览量、收藏量进行均值计算,认可度通过浏览量、收藏量做权重占比分布计算;
(2)作品影响力:以月评价文章浏览量、收藏量为特征项,分别计算与行业同类别文章月平均值比率的加权和作为排序指标;
(3)作品流行度:以文章浏览量、收藏量和发布时间为特征项计算文章热度值,作为文章受欢迎的评判指标;
(4)作品内容分:作者权重 + 文、图质量分数 + 惩罚分数;
因子筛选组合:
作品分级:
通过以上处理,我们可以初步拿到作者和作品的打分结果和排序结果,并作为初步把关的标准之一。
#paperclub