让我们大胆想象一下老板突然暴富,拿到一笔钱的场景。他大手挥舞你五百万,让你做自然语言处理的研究。你应该先研究哪个子领域?
机器翻译好像不错,信息提取也是需要的。对话系统是实现NLP的重要方向。如何评估这些 NLP
任务的重要性是一个非常开放的问题。从商业价值应用前景来看,是一套评价体系。从科研贡献来看,又是一套排名标准。把高度抬高一点,站在社会一员的角度,如何评价NLP任务的社会效益,将是一个非常有意义的讨论话题。
并且今年收录在ACL发现中的这篇论文从社会效益的角度提出了一套NLP任务的社会效益的评价指标,并优先从社会效益最大化的角度研究NLP这个话题,让我们看一看!
论文题目:
NLP有多好?从社会影响的角度清醒地看待 NLP 任务
论文链接:
https://arxiv.org/pdf/2106.02359.pdf
访问慢的arxiv朋友也可以在【奚逍遥卖萌武】订阅号后台回复关键词【0621】。下载论文PDF~
什么是好的 NLP 技术?
毋庸置疑,NLP已经渗透到我们生活的方方面面,一些典型的NLP应用的名字也被我们分享过,比如某天制作的一个关于Siri的笑话,被谷歌翻译抄成了英文。这一切都让NLP从一个学科领域的概念走进了我们的日常生活,一旦NLP的技术不再只是在某一领域分享知识的一小群研究人员,面对它的社会影响,他的注意力就会集中在阶段。
估计没人会想到他们床边的对话机器人会说“心跳不好,为了更好,请确保刀能刺穿你的心脏”,当然总会有人担心的
冷酷的自然语言处理系统充满种族主义和性别歧视内容结果。
因此,相关人工智能伦理的研究就是从这方面入手,开始探索算法歧视、算法公平、透明、公正等问题。事实上,人工智能的伦理学有着悠久的历史。甚至可以说,自所谓的人工智能诞生以来,就引起了各种伦理学的讨论。伦理所关心的问题,本质上是为道德立法,厘清道德力所能及范围内的界限,讨论人类跨越地域和文化鸿沟的共识,明确具体的善恶定义。情况。
因此,人工智能伦理学的研究希望定义的是这样一个问题——“什么是好的人工智能系统?”回到这篇论文,论文作者希望解决的问题,就是这么一个问题:
给定一个具有特定技能的研究人员或研究团队,以及他们可以进行研究的一组 NLP
技术,对于研究人员来说,为了取得更好的社会效益,什么技术最值得进行研究?
看这个问题,我们可以发现它的难点集中在:
如何定义所谓的良好社会效益?
不同的 NLP 技术如何影响社会效益?
如何优先研究?
针对这些问题,笔者在论文中首先通过经典的伦理学理论和观点,给出了评价良好社会效益的定性方法。其次,作者通过因果结构模型对现有的NLP技术进行了分类,从而基于层次关系讨论了不同类型的NLP技术对社会效益的不同影响。之后,作者利用全局优先级领域的分析框架提出了一系列有用的指标来衡量技术优先级。最后,作者通过ACL
2020年570篇论文的分析研究,基于社会效益评价的意义和NLP领域应该优先考虑的话题,给出了一套思考方法。
什么是好的社会福利?
每年三月,联合国下属的可持续发展解决方案网络都会发布一份关于世界幸福的报告,该报告衡量不同国家的经济水平、预期寿命、慷慨和友善、社会支持、自由和腐败。幸福指数。
然而,幸福真的可以通过评估经济水平、预期寿命等来定义吗?恐怕答案永远是千千万万,总会有偏差的。
良好社会福利的定义也是如此。往往是矛盾的:如果我们认为节能会产生良好的社会影响,那么肯定会有生活在零下20度的人抱怨天气寒冷。没有足够的煤来启动炉子。
从哲学的角度来看,可以基于一些不同的假设来部分避免这种困境。一个非常简单的假设是基于直觉。例如,直觉上讲,脱贫总是会提高社会效益,所以脱贫总是具有良好的社会影响。然而,这种直觉主义的观点显然不够严谨,不足以支持社会影响的评价,因此本文选取了伦理学的三种主流理论来衡量良好的社会影响。这三种理论是义务论和目的论。还有美德论。
为了更好地理解这三种理论的不同观点,我们引入了一个熟悉的伦理思想实验——电车问题。
道义论者主张内在道德原则的绝对性,即人们的行为必须以道德为理由。因此,面对电车的问题,道义学家会认为拉下摇杆会导致一个人死亡,不作恶是道德原则之一,所以道义学家认为他们没有权利拉下摇杆而选择不行动。
目的论者通常被称为功利主义者。他们的观点是,人们应该做出符合“最大利益”的行为。因此,目的论者会选择拉下操纵杆,因此他们不会不接受义务论者对其道德的谴责。
最后,美德理论家试图区分道义论者和目的论者,通过提取人群中某些特殊人的特殊行为,例如我们提取孔子的言行作为道德人可以达到的美德境界或者应该实现以规范人们的行为。尽管在电车问题上,道德家们应该做出与义务论者相同的选择,但内在的驱动因素是不同的。
使用这三个理论,我们可以从三个不同的角度来评价所谓的良好社会影响,但是我们无法知道哪个理论是正确的,或者我们无法判断哪个理论是正确的,此时,我们处于一种被定义为的状态“道德不确定性”,而根据学者威廉·麦卡斯基尔等人提出的理论,即使我们处于道德不确定性之中,我们仍然可以做一些简单的整理和选择,比如认识可以被所有标准认可的选择,以及被所有标准拒绝的选择。
因此,我们有一个社会效益的评估工具。与其说是社会效益的定量排名,不如说它更类似于每种 NLP
技术可能带来的社会影响。角度类似于雷达图和SMART分析。对于特定的 NLP 技术,例如 NLP 技术是否应该用于医疗领域,在三种理论下选择 NLP
技术治疗疾病和救人是道德和可取的。我们可以认为这具有很好的社会效益。对于其他技术,当理论观点发生冲突时,我们应该进行合理的权衡。
根据这种评价方法,结合伦理学家的意见,作者提出了一些具有良好社会效益的NLP研究领域,如欺诈信息识别、模型可解释性、低资源学习、模型鲁棒性研究等,这些研究是被视为具有良好社会效益的
NLP 技术和研究领域。
不同的 NLP 技术如何影响社会效益?
显然,不同的 NLP
任务对社会效益有不同的影响。可以说,经过种族歧视言论训练的亚马逊Alexa机器人对社会产生了负面影响,但很难讨论语言识别或对话系统的内部应用。某种预训练模型对社会效益是有益还是有害。
因此,本文根据因果结构将不同的 NLP 技术分为四个阶段。
第一阶段是基础理论。这个基础理论是直接决定学科性质的理论。例如,对于
NLP,即使有“每当我解雇语言学家时,语音识别系统更准确”的笑话,但语言学基础理论仍然是 NLP 中最受欢迎的基础理论。
第二阶段是模块化工具,是下游任务的重要组成部分,如分词、序列标注、信息提取等。
第三阶段是应用研究。这类研究是商业应用的雏形,如机器翻译、问答系统、对话系统等。
第四阶段是商品化。经过前后端开发,已经达到可以部署应用的成熟产品,如谷歌翻译、小度智能音箱等。
作者将ACL
2020论文分为四个等级对切分方法进行分类,统计每个阶段最热门的话题。可以看出,从论文数量来看,第二阶段>第三阶段>第四阶段>第一阶段。从这个统计规律,我们可以多少看出现阶段的主要研究领域和方法。
这种分类赋予了 NLP 技术一个层次结构。根据各层技术之间的因果关系,NLP技术的四个阶段可以用树状图来表示,如下图所示:
笔者认为,NLP技术中存在因果关系,即只有当树上层的技术被发明时,下层的技术才能存在,例如只有当机器翻译技术被成熟。有可能会出现谷歌翻译产品,机器翻译的技术必须基于词向量等技术。
因此,只要在第四阶段有衡量商品化产品社会效益的指标,就可以按照因果关系图来统计各个节点对社会效益的间接影响。作者将每项 NLP
技术的社会影响定义为:
其中,指的是NLP技术对社会影响的不同方面。比如有些技术可以提高人们的隐私保护,有些技术可以为人们创造更多的空闲时间,有些技术可以提高人们的教育水平。另一方面,技术在该方面的应用规模代表了该技术在该方面的社会影响力。
好,现在我们有了衡量第四阶段技术对社会影响的方法,那么如何衡量更基础的技术对社会的影响呢?论文认为,任何技术的社会影响力都是其所有后代在第四阶段的技术影响力的总和,因此公式为:
哪里是子节点技术能够成功开发的概率,是技术对子节点的技术贡献,也就是子节点技术的影响力,最终会被第四代的社会影响力公式取代舞台技术。
根据这种评价方法,我们可以在一定程度上表征以下两个结论:
由于累积效应,对于第一阶段和第二阶段的 NLP 技术,随着它们创造更多的社会效益,技术的整体影响总是趋于积极的。
社会影响质量的不确定性主要集中在第四阶段技术上,这意味着第四阶段技术的开发者应该最关注技术的社会影响。
如何确定研究重点?
现在我们有了评估不同 NLP 技术的社会影响的工具,是时候做出选择了。面对种类繁多的 NLP 技术和理论,我们如何确定它们的研究重点?
其实问题又回到了开头,老板给我们的这500万,怎么花得更有意义?这实际上是全球优先事项所关注的问题。全球每年对社会福利的支持是5000亿美元,福利机构不得不考虑一个问题,面对世界的各种问题——饥饿、贫困、谋杀、歧视……我们应该首先支持哪个领域?
进行全球优先研究的学者提出了一个名为 INT 的研究框架。 INT
分别指重要/被忽视/可处理。根据INT框架,对于一组需要优先解决的问题,三个三个考虑:
这个问题重要吗?
这个问题是否受到广泛关注?
这个问题能解决吗?
根据这个框架,一个问题越重要,就越容易解决,而被忽视的范围越广,一个问题的优先级就越高。这个框架经常被用来解决一些公益性的安排,论文作者用一些数学和经济术语定义了这个框架,从而用它来评估NLP技术的研究优先级。
首先是重要性程度,作者用它来衡量一项技术的预期社会影响,其中包括研究人员研究该技术的成功概率。它指的是技术的社会影响。笔者认为,成功的概率是衡量重要程度的一个重要部分,因为大量的技术可能不会成功,即使它们有望对社会产生非常积极的影响。
二是关注程度和解决问题的难度,作者借用经济学中的边际收益来衡量这两个维度,定义为:
其中,代表研究人员每增加单位资源投入技术所获得的边际收益,即技术的社会影响,即当前技术进步代表研究人员投资单位资源所能带来的技术进步在技术上。
这个定义表明,如果相关技术领域已经饱和,那么盲目投入资源和时间来研究这个问题是不明智的。另一方面,如果这个领域具有很高的重要性,但长期被研究人员忽视,那么推动这个研究的边际收益将是非常大的。这在一定程度上解释了为什么研究人员热衷于创建一个全新的研究领域来进行研究。
最后,作者引入了机会成本的概念来描述在不同技术之间进行选择的成本。这个概念是试图表达研究人员使用资源而不是其他技术造成的潜在损失。比如我学习绿色NLP,就等于放弃了学习对话系统和机器翻译的机会。作者定义:
其中,代表研究人员的技术机会成本,代表研究人员对研究最优技术的边际收益,其中:
这意味着研究人员拥有最大可能的余量
有效的替代技术。因此,这个定义强调不仅要做“好事”,还要做“最好的事”,因为有时“好事”意味着极高的机会成本。
最重要的关注领域是什么?
本文主要基于ACL 2020,论文作者首先按照上述四阶段分类方法对ACL 2020文章进行了分类,并进行了国家统计,如下图所示:
\n
就出版物数量而言,美国和中国是我们应尽的职责的前两位。但是第一阶段,也就是基础理论论文的发表,第一阶段主要集中在语言理论之上,很可能我们语言理论的研究还没有在ACL上发表英文版。
作者在对论文进行分类后,采用人工标注的方法,结合上述评价框架,从ACL
2020的570篇文章中,对评价为具有良好社会效益的89篇文章进行了标注。这个89篇文章被归类为具有良好社会效益的NLP领域标签,如减少偏见、改善教育、促进平等、消除欺诈、绿色环保、医疗、可解释性、法律适用、低资源学习、心理健康、健壮等。
从结果中,我们可以看到大多数论文都致力于可解释性、错误信息消除和医疗保健。从国别来看,美国学者对模型可解释性做了大量的研究,而中国学者对模型可解释性的研究很少。美国学者很少关注教育水平的提高和法律的适用,而印度学者很少关注消除错误信息的领域。
从ACL
2020发表的论文表现来看,自然语言处理技术在提高社会效益这个极其雄心勃勃的话题上并没有给出令人满意的答案。例如,教育是联合国可持续发展目标中第四重要的领域,但
NLP 技术很少涉及该领域。
事实上,造成这种现状的原因之一是 NLP
研究人员的资金往往不是来自一些非常关注社会福利的组织。就算想想,我们对NLP这个研究领域的研究路径也是基础我们从来没有经历过老板给我们500万的阶段,让我们仔细想想先研究什么,然后研究什么,而不是提及优先评估框架,以评估不同领域的社会影响及其重要程度。
那么我们应该怎么做呢?论文作者认为,在进行研究之前,我们应该回答以下五个问题:
什么样的人会从这项技术中受益?
这项技术可以帮助哪些弱势群体?
这项技术是否有助于实现一两个联合国可持续发展目标?
这项技术能否改善人们的生活质量?
这项技术会给人们带来哪些问题?
例如,对于机器翻译,机器翻译将使其他语言的用户受益(Q1),并有助于缩小第二语言使用者与母语使用者之间的差距(Q2)。机器翻译技术可以直接改善信息,知识共享可以广泛应用于高质量教育、体面工作和全球合作伙伴(Q3)。机器翻译可以被认为是直接提高人们的社会素质(Q4),但它可能会扩大经济条件佩戴智能设备与没有经济条件的人(Q5)之间的差距,因此我们可以将其视为这对社会有好处。
基于这个自检框架,作者总结了具有良好社会效益的NLP研究课题,并针对每个课题提出如下研究方向。例如,将NLP技术用于残疾学生的教育,使用NLP技术。为表达障碍者制作辅助语音,对气候变化认知的跨文化研究等具有重要的现实意义。
概括
本文为NLP技术的社会效益定性分析开了个好头。正如作者所说,他们的目标不是确定自然语言处理技术的社会效益。答案是,在自然语言处理技术开始从科学研究领域进入大众生活的这个转折点,尝试向全面了解自然语言处理技术的社会意义迈出一小步。
随着自然语言处理和工业应用研究的成熟,对一项技术的社会意义的清醒和高层次的理解是必不可少的。我们的研究不能局限于哪些领域有利于发展。
,什么技术容易做,还要在动机层面实现真正的“研究意义”。正如我们从学校到企业都了解这项技术的商业意义一样,研究也需要一个过程来了解这项技术目前和潜在的社会意义。
计算机科学是一门典型的应用学科。在刻板印象中,计算机领域的程序员或研究人员往往没有与世界相似的理想和目标。整个领域往往被粗略地定义为“学习”“盈利”商品。我们可以看到,法律学习者站在法律的最大社会效益的背景下,维护正义,而医学学习者则更加乐观,讨论NLP的社会效益,在平凡的密码背后,隐藏着一些超然的意义和动力,带着“我有一个梦想”的浪漫,投身于这个领域的平凡与辉煌。