[人工智能]
用研整编文章
机器人新闻写作(Robot Journalism或Automated Writing),其实是一个拟人化的说法,确切地说,是指运用算法对输入或搜集的数据自动进行加工处理,从而自动生成完整新闻报道的一整套计算机程序。
机器新闻写作:基于算法的新闻内容生产
编辑和写作,就其所需要的人工智能程度而言,显然写作更具挑战性。在机器新闻生产的语境中,机器编辑通常主要指对已有新闻作品的选择和推荐、聚合,很少涉及对成稿的修改;而机器新闻写作,则仍是不折不扣的从无到有的“创作”。
2014年6月30日,美联社公关主管科福在美联社博客平台发表了一篇随后引起广泛关注和报道的博文《季度营收报道方面的一大飞跃》,介绍了美联社将从当年7月开始,在关于公司季度财务情况的新闻报道方面,全面采用机器新闻写作,其文章撰写软件由一家名叫Automated Insights的公司开发。
按照美联社商业新闻主管Lou Ferrara的说法,采用基于算法的机器新闻写作后,在无须增加新的人手的情况下,美联社的商业新闻中关于企业季度经营状况的报道量,将增加10多倍,即从原先每季度300篇上升到4400篇,而与此同时将能把之前用于此类报道的记者“解放”出来,让其可以从事更具有创造性和挑战性的新闻策划和新闻源拓展工作。
把机器或者程序能做的交给机器和程序,从而把人力解放出来,去从事具有创新要求和需要发挥想象力的工作,这是自工业革命以来自动化革命的基本理念。关于机器新闻写作,美联社的看法是,这将让记者“能做回新闻的本职工作,而不是忙于数据处理”,因此,机器新闻写作的引入,并不意味着记者编辑工种的消亡。
但显然并非所有类型的新闻都适合机器写作,至少目前来看是如此。就美联社的实践而言,其此前已经在用自动化手段提供各种数据式的体育“报道”,但此前主要是整合、综合关于运动员、赛事的各种实时数据,而此次的企业季度经营状况报道则是不折不扣的新闻报道了。尽管如此,可以看出,适合通过机器或算法进行的新闻写作,一般是以各种数据、图表的引用和分析为基础的硬新闻,新闻的主体来源于对数据的引用、解释和分析,具有明显的“数据处理”色彩,可看作是目前方兴未艾的“数据新闻学”的一个分支。
事实上,在2014年3月,机器新闻就已经露了一手,令新闻界刮目相看。美国时间3月17日早上6时25分,洛杉矶遭遇一次地震冲击,洛杉矶时报在地震发生3分钟后在其网站上发布了第一条新闻,是所有新闻媒体中最先发布的突发新闻报道,而这条新闻是机器人撰就的。以下为该条机器新闻的内容:
根据美国地质勘探局的消息,星期一早上,在距加州韦斯特伍德约5英里地区,发生了震级为4.7级的浅表地震。地震发生时间是太平洋时间早上6时25分,震中约深5英里。据地质勘探局的数据,本次地震震中距离加州贝弗利山庄约6英里,距离加州环球影城约7英里,距离加州Santa Monica约7英里,距离加州Sacramento约348英里。在过去10天,在该地区附近,并无监测到任何震级达到或超过3.0级的地震。
此消息来自美国地质勘探局的地震通报服务。本条内容是由作者所写的算法自动产生的。这里的“作者”,指的是洛杉矶时报的记者兼程序员Ken Schwencke,他所创建的这个名为Quakebot(地震机器人)的算法程序,在地震当天早上他被震醒时,已经自动根据其所收集到的信息,把上面这条新闻写好了。Schwencke所需要做的,是大致审阅后,按下“出版”命令。于是一条新闻就在地震发生后的3分钟内发布了。
像Quakebot这样的机器人程序,大多是为特定类型的新闻而写作,通常而言是为突发性的短新闻而量身定制的,需要和一些重要的信源或数据平台实时相连,一旦某些条件符合或具备,程序就会自动产生一条新闻,并且可以随着相关数据的累积,持续补充、修改已生成的新闻作品,或者产生一条新的新闻,作为系列作品的一部分。以Quakebot为例,它是专为报道本地的地震警报和犯罪杀人事件类突发新闻而编写的。因此,程序会持续关注、收集相关动态数据,但具体写什么主题、什么角度、什么重点的报道,通常仍需要记者或编辑对程序以输入指令的方式进行关键决策。正是在这个意义上说,机器新闻并不能完全脱离开人工干预。它无法完全替代人工写作,并且主要适用于特定主题、类型、风格的新闻的写作。
机器写作的工作机理
下面以Automated Insights公司开发并已经被诸多品牌公司,包括像美联社这样的通讯社采用的自动写作平台Wordsmith为例,简单介绍一下其工作原理与过程。Wordsmith平台的任何一篇“自动生成”的作品的写作流程分以下几个步骤:
1.获取数据。首先需要消化关于所服务的客户,即报道对象的各种形式的数据和资料,包括以APIs、XML、CSVs以及各种字处理图表等形式的数据,以及第三方(如Google Analytics)提供的相关客户的各种数据(运营、业绩、报道、评价、引述等)。作为一个以数据处理为基础工作的写作平台,Wordsmith可以处理“几乎任何形式或格式的数据”。
2.分析数据。这里涉及到对各种数据的解析以及内在关联的勾勒,并把它们放在历时性的演变背景中来进行解读。
3.提炼观点。通过对目标客户各种数据中所呈现的模式和趋势的揭示,并把它们纳入到更大的行业或社会、国家的背景中来解读其意义,从而通过这样的参考和比对,得出一些具有可操作性的意见和建议。
4.结构和格式。Wordsmith平台需要用其自然语言生成功能对此前的分析和提炼得到的观点进行故事化叙述,并按照需要生成各种形式的文本:长文、短新闻、可视化图表为主的内容、推文、标题导语等等。
5.出版。Wordsmith平台能够将所生成的文章,通过多种方式,实时发布到客户指定的平台上。
系统可以根据不同的组织、个人的具体情况和需要,提供个性化内容,涵盖员工表现评估、企业绩效分析报告、行业分析、企业竞争态势分析等,尤其擅长进行客户的财务情况分析和客户的运动、健身情况分析,因为两者都可以实时收集各种动态数据。综合我们对机器新闻各种软件和平台的了解,迄今为止,机器新闻或内容写作,使用最广泛的四大领域是财经、体育、气象地质和健康。支撑诸如Wordsmith这样的自动写作平台有效工作的基础性系统,就是直接来自所报道的组织或个体的各种监测资料、第三方提供的各种监测资料,以及连接到动态更新的云端数据库。没有大数据采集和挖掘、分析系统的支撑,机器自动新闻写作就成了无源之水、无本之木。
社会的信息传播基础设施和环境发展到今天,随着各种随身通讯设备,如智能手机和各种可穿戴式健康监测设备的普及,加上无处不在的上网条件和实时定位系统,使得我们可以对所关注的个体、群组、组织、行业等,进行多角度的信息收集和描述。社会正变得越来越透明,这是机器自动内容写作风行的前提。
当然,从数据到文章,这中间仍有很大的一个鸿沟需要跨越。人工智能研究的进展,正在不断为这样的跨越提供可能。一些前沿创新公司如Automated Insights,已经在这个全新的领域取得了令人瞩目的进展,其机器写作平台的采用客户,包括美联社、雅虎、三星、微软等著名品牌。据Automated Insights公司介绍,WordSmith在2013年生产了3亿篇各类形式的报告,平均每秒钟生产9.5篇,报告的类型超过100种,预计2014年报告的产量将超过10亿篇/条,通过Wordsmith平台,为超过2000个移动应用提供源源不断的内容产品。正如Wordsmith平台所宣称的,旧式出版模式,是为千百万人生产同一内容产品;新的出版模式下,则是为每一个单一的客户,无论个人还是集体,提供个性化的定制内容产品。新闻传播领域的自动化革命已经开始。
当前,在国内,主要是腾讯Dreamwriter写稿机器人,今日头条xiaomingbot、第一财经DT稿王(背后是阿里巴巴)、百度Writing-bots形成四强争霸格局
2015年11月6日,中国国家通讯社新华社正式推出机器人写稿项目:“快笔小新”,目前供职于新华社体育部、经济信息部和中国证券报,可以写体育赛事中英文稿件和财经信息稿件。
腾讯的Dreamwriter在奥运期间产出内容达3600余篇。目前在“财经”加“科技”领域,其产出内容达到每天2000篇,体育领域目前达到每天500篇。若以总数来看,Dreamwriter半年产出30万篇内容,字数超过600万。眼下,腾讯新闻、天天快报等组成的腾讯资讯类产品矩阵中,可能出现新的角色,这也意味着腾讯内部仍在试图尝试孵化出新的资讯类产品市场挑战者。但新产品能否成功,取决于其能否抓住用户需求,并形成足够的差异化。
据了解,腾讯正在研发代号为DreamRead的资讯应用,定位于提供实时重要资讯的个人助手。随后,腾讯将基于 Dreamwriter 搭建出一个全新的App,这款产品特点在于语音交互,兼具文字阅读。目前腾讯方面已经在智能撰文技术、内容抽取技术、要闻萃取技术积累相应专利。上述三个领域被视为腾讯“机器人写作”的核心支撑技术。以内容抽取技术为例,该技术旨在将1000字至2000字的文章概括成数百字。DreamRead更像是一款语音播放重要新闻的App,不同之处在于,其播放内容本身来自机器人抓取和写作。
DreamRead会成为腾讯在资讯类产品市场的变量么?对于一款仍未上线的产品而言,这种讨论显得为时过早。但无疑,腾讯正尝试在资讯市场重塑一个新平台:其核心是机器学习,用的是和目前玩家截然不同的逻辑。
今日头条的写稿机器人“张小明”在2016年里约奥运会期间一战成名,里约奥运会开赛一周,它通过对接奥组委的数据库信息,实时撰写新闻稿件,以跟电视直播几乎同时的速度发布稿件,6天共生成超200篇简讯和资讯,用户阅读数据惊人。
而在众多内容生产者之中,还有一位特殊的“作者”也显得格外引人瞩目——那就是在去年上线的百度智能写作机器人(Writing-bots)。据了解,目前百度智能写作文章可涵盖社会、财经、娱乐等15 个大类,并可实现体育新闻、热点新闻等多领域全机器创作。(注:本次周报第三篇文章对Writing-bots进行了详细介绍)。
目前每个主打“机器写稿”能力的平台基本都拥有各自的技术团队,但难度在于对数据的解读和认知。类似的挑战还在于,如何在体育方面写出带有个人感情色彩的文章,以及尝试让内容更加精彩。
有朝一日,人工智能终将能够代替我们写作,机器写稿的时代即将到来,这是一个不可避免的趋势。从早期的活字印刷术,到后来人工设定模板机器打印,再到深度学习改良机器大脑模拟人类,写稿机器人本身在不断的变化。
在当下诸多新兴媒体崛起的时代,机器人写作技术的引入,一定程度上弥补了传统媒体新闻时效性不足的劣势。但随着这项技术的普及,新闻同质化现象也将出现。新闻媒体的品牌打造,以及新闻产品的品质保障,最终还得依靠传统新闻从业者通过个性化的劳动和艺术性的创作来支撑和实现,机器人写作不能“包治百病”。传统新闻从业者应用其之长,补其之短,通过自身转型,更好地实现“人机配合”,以在更为激烈的媒体竞争中立于不败。