“使用新奇但谨慎的形式不仅是一种一场冲击,也是一种必要,通过高频率的极限冲击,我们帮助读者增加可视化词汇量。”
——《不只是美》
数据新闻报道从策划到实现,往往需要较长的时间投入和往复的试错调整,因此,长线选题往往是实践过程中比较重要的一部分。长线选题往往不能保证时效性,而更多的追求对于常规的公共议题与流行现象的新解读。同时,为了避免“撞题”,对于数据分析的把握至关重要。Pudding网站在前年发布的《The Language of Hip Top》就属于这一类选题。
Part1:开篇——群像
作品的起始由美国嘻哈歌手们的头像排布而成,点击会显示歌手的名字并放大图片。作者针对308位嘻哈歌手的音乐内容进行统计,并通过对乐曲中的核心词汇进行统计,按照其中交叠的情况设定歌手的位置。这里的设计并不能说明什么具体的问题,但将整篇作品的研究对象一目了然地铺排出来,设计的风格很吸引人,截取头像的方法也比较贴合这个流行音乐的主题类型。
下滑后会出现两个例子:“skrrt”是这一个单词同时出现在Migos, Kodak Black, and Lil Yachty三位歌手的用词top10之中;而“Wu-Tang”这一美国黑人嘻哈乐队的新老成员中用词的相似度非常高。
Part2:什么词汇最“嘻哈”?
作者首先介绍了文章的数据来源——Billboard嘻哈排行榜上前500名艺人歌曲中的2600万字的歌词以及275905首其他类型歌曲的歌词。通过对这些数据的分析,先用一条数轴体现出嘻哈歌曲中的四个高频词汇“悲伤、挣扎、游戏和爱”,再生成纵轴,体现出这四个词汇在其他歌曲中的出现频率,由两者之间的差异引出所有词汇在这个坐标系中的分布情况。
在这个图片中,蓝色部分为在“嘻哈”中经常出现,而在其他歌曲中并不常见的歌词词汇,红色相反,灰色词汇的呈现情况持平。随后,作者着重列举了一些更为特殊的词汇——只出现在嘻哈中的、几乎从未出现在嘻哈中的,在这里并没有仅凭借两者的比值下结论,而是同时摆出了不同词汇出现的数量,有些数值虽然出现的比例低但次数并不少,这样呈现更为客观。坐标系中加入了tooltip,鼠标滑过每个词汇时都会出现它在嘻哈歌曲(或其他种类)出现的倍数、在两类歌曲中每万个词中出现的频率。
这个排名里“微笑、叹息、破碎、心脏、孤独”这种倾向于表达个人情绪(往往是负面)的词汇在嘻哈歌曲里出现的比较少,反之,“真实”、“兄弟”、“脱衣舞”这类相对有些粗鲁的词语几乎只出现在嘻哈歌曲里。此外,统计中还出现了一些只出现于嘻哈歌曲中的“俚语”,这些特殊的词汇也是嘻哈文化的表征之一。而读者也可以搜索自己感兴趣的词语,查看它在两者之间的出现频率状况。
Part3:对于特定艺术家,是什么样子?
NWA歌曲中使用警察这个词汇的频率远高于这个流派中的其他歌手——作者从这一现象引出第三部分。分析发现,所有歌手都会在歌词里用到警察,只不过NWA的频率更高,而他在用词过程中更为极端的是 “康普顿”这个城市名称——其余75%歌手从未使用过这个词汇,作者基于这一特征将“康普顿”作为概括歌手风格特征的一个因素。
作者举这个例子,是为了引出对于这些嘻哈歌手的群像分析——体现出对于数据集中500位歌手独特的用词特征。文中提到,作者使用tf-idf(term frequency–inverse
document frequency,一种用于信息检索与数据挖掘的常用加权技术)对语料进行分析,主要通过“使用情况超过平均值”和“罕见词汇”两个维度进行评判,得出了每一位嘻哈歌手的十个核心词汇。歌手按照首字母和年代进行分类。
由此,作者回到了文章最开端的嘻哈歌手群像,并解释了画出这个图的依据——每位歌手的中心词。同时,作者不仅完整的排布出每一位歌手的词汇使用情况,还对每两位嘻哈歌手用词详尽程度进行比较并量化,使用t-分布领域嵌入算法将这些歌手进行分组。在此基础上绘制出这个网络。在鼠标悬浮时,图中会出现与匹配度最高的另一位歌手的连线,同时也实现了首尾呼应。文章结束后,作者还邀请机器学习和数据科学领域的专家致信提供建议。
这个数据报道着眼于人们感兴趣的嘻哈文化,运用数据统计和机器学习的技术,单纯通过文本分析展开内容,用一种全新的方式展示数据,则必须包含对其分布情况的解释,新鲜、独特,并且会让人在阅读之后对嘻哈歌手的文化形态有更直观的感受。虽然在一定程度上缺乏新闻价值,但用《Truthful Art》中提及的“表现可靠信息、拥有引人注意的视觉元素、适当延伸、保持真实、清晰与深度”的标尺来衡量,这无疑是一件优秀的视觉化作品。