同行推荐一篇文章,觉得不错,稍微花了点时间翻译成中文供交流。
时间精力有限,若有错误,欢迎指正。
原文地址:patentdocs
原标题:How to Draft Patent Claims for Machine Learning Inventions
原作者:Michael Borella
引言
现在似乎大家都在讨论人工智能,特别是其中的机器学习。虽然有些讨论是由人力被机器人或算法取代的恐慌而引发的,但是人们也提出了更可靠也更合理的分析,即:机器学习是一个平台,这个平台会带来科学、技术、医药和生活方式上的巨大变化。
不夸张地说,从产业到商业部门,机器学习代表了问题解决方式上的根本性变化。在不久的将来,就像之前的网络和数据库一样,机器学习库可能会成为所有计算机的标准配置。
对于大多数现存的计算机而言,开发者写出函数,这些函数根据一些输入来产生所需要的输出。机器学习逆转了这个定式,先获取一个数据集(在实践中通常需要很大),这个数据集包含了输入和每个输入所对应的输出之间的映射关系。将这个数据集输入一机器学习算法(例如,神经网络、决策树、支持向量机等)中,这个机器学习算法训练一个模型来“学习”一个能以足够高的精确度生成这些映射关系的函数。换句话说,如果我们给计算机足够大的输入和输出集,这个机器学习算法将为我们求出这个函数。并且,这个函数甚至能够为训练时没有出现过的输入生成正确的输出。开发者(现在有个时髦的称谓——“数据科学家”)们准备映射关系、选取和调整机器学习算法并估算目标模型的性能。一旦模型在测试数据上足够精确,就可以发布该模型以供实际使用。
人们目前已经在使用这些模型——这些模型提出我们可能会想要购买的产品、可能感兴趣的电影和音乐方面的建议。它们还默默地提升了我们的数字相机所拍摄照片的质量、协助机场和体育场的安检工作、检测经济诈骗和优化我们的在线检索结果。然而,机器学习在真实世界中的适用性尚未达到最佳。
很自然地,跟任何其他工业领域的创新者一样,机器学习领域的创新者们希望用专利来保护他们的工作成果。事实上,特别是在美国,与人工智能和机器学习相关的专利申请数量近几年正在急速增长。然而,发明人、申请人甚至专利律师在涉及机器学习的权利要求的撰写策略上却经常遇到困难。
撰写此类权利要求时应采取的策略,当然应取决于发明的特点,以及机器学习与之结合的方式。因此,并不存在什么特别的类似“杀手锏”的解决方式。然而,通过若干指导原则,我们在撰写权利要求时就能尽量为客户争取最大的利益。
简言之,这些指导原则包括关注机器学习类发明中创新最有可能出现的几个方面:(i) 模型的结构;(ii) 训练过程;(iii) 输入数据的准备过程;(iv) 输入数据和模型之间的映射关系;以及(v) 模型输出数据的后期处理及解释。除了这五条“积极”的规则以外,还有不建议去做的两条“消极”的规则:(i) 不要将训练阶段和执行阶段混在同一个权利要求中;以及(ii) 谨慎处理仅仅是常规地将已有的模型套用在已有的数据上的发明。
下面会依次说明这些原则。但是在整个讨论中,须谨记细节的重要性。就像大多数的发明一样,机器学习过程的权利要求必须为读者(例如专利审查员或法官)提供足够多的细节,从而说服读者这件发明确应被授权。上位的或者模糊的权利要求难以满足新颖性和非显而易见性(注:创造性)的要求,因而主题的适格性会弱得多。
要求保护模型的结构
如果发明包含一个新的或者不常见的模型结构,这个方面就很适于撰写权利要求。比如说,获得所需结果的关键是一个具有特殊的层结构或者每层的神经元个数,还是并联或串联的多重神经网络?更进一步地,某些问题的已知解决方案集成了两个或更多的模型。如果我们的问题可以用一个集成模块来完整描述,并且这个集成模块的结构是新的,那么就可以从这一点出发来撰写权利要求。
要求保护训练过程
特别是在使用非常规的模型的时候,这个模型的训练过程可能也是非常规的。这就提供了撰写权利要求的另一途径。比方说,是用输入数据的特定子集训练模型的每个部分,还是分阶段训练这个模型?训练的过程是否采用了精心设计的并行进程从而减少了训练时间?不论如何,如果模型训练的执行过程(例如输入数据的应用)是以规范的方式实现的,那么训练的过程更容易得到保护,故应仔细推敲。另一方面,一旦模型训练结束而投入商用,检测训练阶段的侵权将会很困难。
要求保护训练数据的准备过程
数据科学家花费大量的时间准备训练数据,用来生成一个模型。真实世界的数据杂乱无章而通常需要进行归一化、转换、移除离群值或者进行其他处理,从而有助于通过数据特征得到有用的结果。通常而言,这是个试错过程,数据科学家尝试多种不同的方式才能找到合适的处理方式。例如,有些自然语言处理模型可能采用字数统计,但是可能从计数中移除诸如“与”“该”“其”(注:“and”, “the”, “it”)等常用词,以使模型聚焦在跟描述的问题更接近且具有上下文含义的词语上。
要求保护输入和模型的映射关系
一旦我们选择好模型并准备好数据,我们就要把输入数据映射到模型的输入。因为选用的模型和输入数据的准备方式要匹配,所以这常常是一个固有的操作。尽管如此,这种映射关系仍然很有意思。比如,一个用来区分黑白照片的各部分的神经网络可能有64个输入,其中每个输入对应于一幅图像中的一个8×8的区域中的一个像素。每个输入可以是代表相应的像素的强度(亮度)的数值。如果这种映射能达到创新的程度,那么这就可以用来写权利要求。
要求保护模型输出数据的后期处理及解释
即便因为一个模型会提供一个结果,甚至是理想的结果,整个机器学习的过程也未必就已经结束了。某些情况下,模型的原始的输出需要转换、归一化或者输入另一个算法中,以获得有用的输出数据。在另一些情况下,如上所述,一个模型的输出可能(在或未在中间处理后)被用作另一模型的输入。对于某些模型来说,模型自身的某些部分就是输出——可能一个神经网络的某个特殊层是输入的语义的编码。
不要将训练阶段和执行阶段混在同一个权利要求中
一个机器学习模型首先需要经过训练,才能投入生产应用。因此,很有可能训练一个模型的实体和使用该模型的实体是不同的。相应地,同时将涉及训练和使用模型的步骤或特征记载于一条权利要求中,将导致这些实体对权利要求进行共同侵权。相反,应为训练阶段和使用阶段分开撰写独立权利要求。在使用阶段部分可能因没有足够的实质内容而无法独立存在的情况下,训练阶段的细节可通过被动分句(注:passive clauses)的形式进行限定(例如,“其中该模型通过将随机像素输入和图像分类标注数据进行比较的方式训练……”)。
不要撰写仅将已有模型常规套用于已有数据的权利要求
如同任何技术领域一样,有些技术方案比其他技术方案的可专利性要弱。如果正在处理的发明申请将现成的模型以常规的方式应用于已有的数据集,并且与以上所述的任一“积极”的规则都没有关联,那么我们可能不应将精力放在机器学习方面。就算机器学习有新颖性,那么至少将任一一般模型应用于一个数据集的总体概念也是显而易见的。因此,应关注发明的其他可以保护的创新。
结语
尽管机器学习在接下来几年中仍将几乎无疑是一个活跃的领域,寻求机器学习发明的有效保护的道路上依然坑坑洼洼。尽管上面的指导原则并不详尽,遵循这些指导原则也将避开大多数显见的陷阱。
最后,提醒各位尝试跨入机器学习领域的专利代理人和专利律师:做好功课。不要将机器学习作为一个可以事后补入权利要求中的黑盒子技术(注:笔者理解此处的修改是针对审查过程的)。相反,(应该)自主学习为什么机器学习可以工作,以及机器学习是如何运作的。采取任何可用的手段,例如阅读报刊和书籍、看视频、参加课程、做一些编程。这样做可以大大增强我们撰写涉及这些技术的有效权利要求(以及专利申请的其他部分)的能力。
译文转载请联系作者并注明出处。