文·HCY崇远
01 写在之前
2017年11月08号,腾讯全球合作伙伴大会2017在成都举行,别误会,俺不在现场,虽然我也很想去看看,当时的我在大深圳某个旮旯里打代码。但通过一个貌似亲临现场的朋友的资料转发,所以我几乎在第一时间里拿到了这份腾讯全球合作伙伴大会2017的资料,又名《2017互联网科技创新白皮书》。
当时的我只是好奇翻开浏览了几页,结果深深不能自拔,在我还尚未看完的情况下,急急转发到了好几个群里,我认为,好东西应该分享。
作为中国数一数二的科技公司,腾讯终于继百度ALL IN AI,阿里宣布全面进入大数据时代之后,宣布其AI开放战略,在我看来其实并不算意外,迟早要玩的嘛。在我看来,现在言谈AI威胁论、言及AI时代尚为时过早,但是,如果此时不上车,那就是为时已晚了。
所以,在这次的技术白皮书中,必然涉及了大量的AI相关的信息,而整个白皮书总共200多页,可谓是制作精良。诚然,由于PR需求,书中必然会夹带着腾讯的私货,但并不妨碍我们摘取其中有用的部分,特别是一些AI发展的方向,技术的趋势。
这点在我看来,尤为需要重视,这是为什么呢?我曾不止在一篇文中提到过,大数据以及AI想要达到产业变革性的地步,唯有走向线下、走向传统,而拥有将互联网贯通线下线下,打通线上线下数据的,只有国内一线的大公司、也唯有一线的大公司,诸如BAT、甚至包括类似京东顺丰这样的企业。
那么,以这个逻辑看,他们的技术导向,也将决定了国内大部分的领先技术的走向、AI落地的节奏等等,所以,腾讯这次提供的技术白皮书对于那些想要对AI发展趋势一窥的朋友来说,值得一观。
说完写这个系列的缘由,我们再来说说,为什么第一篇写“内容IGC”,原因很简单,利益相关,我们正在做类似的事情,所以感触颇大,就拿出来先说说事了。
02 AI能创作吗?
说IGC之前,先来聊一个话题,不知道大家对机器人写作持什么样的观点。你认为通过AI手段,机器真的能帮助我们创作吗?注意,是创作,不是简单的写出来就好了。
或许我们从一些其他途径或多或少听过机器创作的一些例子,比如,腾讯机器人Dreamwriter实现机器写稿,最早出现是2016年里约奥运会写冠军简报的时候,这个腾讯在白皮书中也有着重提到过。这算AI创作吗?
又比如,之前《锦绣未央》火起来之后,被十多位作家联名状告抄袭,之后又随之报道出《写作神器,日更3万,抄300本书不是梦》。网络小说写作神器,随之大火。小说写作神器,这算AI创作吗?
又比如,早一段时间,微软小冰又放大招了,小冰更名为了“少女诗人小冰”,额,是的,小冰会写诗了,上传一张图片,小冰会根据图片进行诗歌创作,还像模像样的。这算AI创作吗?
在我看来,这都不算创作,我不记得有谁说过来着,在未来,AI能替代人类很大一部分工作,但有一种工作很难替代,那就是艺术的创作。在我理解,不止是艺术,只要是能够称得上创作的东西,对于AI来说,很难,最起码目前阶段很难。
以腾讯的Dreamwriter来说,目前它已经写出了XX字的稿件的了,这没毛病,但是在我看来阿D写的那些财经简讯以及体育简讯,最多就算写作,离创作这个词远着呢。那些东西,目前也就是仅仅能够做到快速进行资讯浏览、达到获取信息的目的而已,离艺术、离声情并茂、离风格个性还远着呢,你让它写个像我这篇潇洒的文字试试?(哈哈,脸不红)
而所谓的网络小说写作神器,那就更不堪了,依托于大量的素材库,以及素材打标,设置好的桥段写作模板,通过完善的标签体系以及规则模型,输出各种小说套路情节,实在难以把它论之为AI创作,不细谈。
少女诗人小冰,看似是最像AI创作的东西了,写诗嘛,诗都不算艺术,难道你打的代码是艺术?小冰写诗的核心逻辑是,通过深度学习学习了1920年以来519位诗人的作品,反复迭代训练了10000多次。但实际上,小冰写的东西虽然偶有“佳作”,但很多时候写出来所谓的“诗”,也仅仅只是表面押韵、对仗工整,但细究却狗屁不是。
为什么会出现这种情况,因为本质来说,少女诗人小冰的输出依然不是它自己的东西,只是那519位诗人作品的重组再输出而已,他圈子里很难脱离这个范围,原则上依然是个经验学习的过程,与阿D写财经体育简讯并没有什么本质的区别。而外在区别在于简讯的信息解构、以及信息的重组会更简单,诗就没这么容易了。所以,在我看来,不是付诸于情感、艺术、以及个性化的文化输出,AI很难做到创作,最起码目前很难做到。
03 什么是内容IGC?
回到内容IGC的话题,既然AI难以做到创作,那么正如白皮书中所说的,算法完全介入内容生产可能是个伪命题。那么AI在内容生产的维度上是不是就无计可施了呢?
不是的,正是本文核心想要表达的,人机协作IGC(Intelligence-generated Content)生产模式。
人和机器协同生产的状态,可以归为两种方式:
一是机器替代人类部分工作,将重复性、规范写作和客观数据聚合类劳动用机器替代,致力于帮助内容创作者减少重复性劳动,节省更多精力去撰写更加优质的内容。
二是机器服务人类生产内容,人工智能可以通过语料、素材与数据的搜集处理与高效率加工等完成内容生产工作,内容生产者在基础上充分发挥人类的演绎、推理和联想的能力,从而完成更深层次的内容处理工作。
通过这两种模式能够将机器和人有机的结合起来,使得内容生产流程和组织结构更加的灵活高效。
以上为摘自引用部分解释,摘自腾讯白皮书。我认为写的很落地,事儿也很明白,AI创作从目前看真的还有点距离,那么退而求其次,通过AI来辅助创作,这事是可以的,并且是可以落地的。
比如,上面说的第一种情况,其实就是腾讯的阿D正在做的事,那些体育、财经类的简讯其实就是规范写作、以及客观的进行数据聚合。那么,有意义吗?屁话,当然有意义了,机器能够实时监控海量数据源,然后识别有意义的信息,快速进行重组再输出,形成简讯,让你以最快的速度了解到事情的过程。
那么,这个简讯看着刻板吗?好像是有点。那么简讯的信息有有用吗?好像是有的。那不就得了,你试试人工盯着几十个数据源网站,然后实时的判断信息对平台是否有用,如果有用,快速的进行简讯报道,这事儿你玩的过机器吗?所以,是有用的。
而对于第二种情况来说,那就是我带领我们数据团队在做的一个事儿了。
04 数据、算法辅助人类高效进行创作
首先说一下简单背景,我们是SEE,提供微信生态中电商服务、知识付费服务,以及数据服务。
撇开电商跟知识付费不说,对于微信生态中,数据能提供什么服务呢?或者说我们的数据能提供什么服务呢?2017年6月30,槽边往事的和菜头曾推了一篇文章《也谈公众号的衰落》,提到过。
选题是个技术问题,而不再是经验问题。
没有数据支撑的选题,再多的经验也没用。
内容创作同样需要升级,尤其是在微信公众号的领域内,需要理科生,尤其是技术人员的卷入,需要他们提供新的生产工具,需要他们提供新的创造方式。
其实在我看来,和菜头的这个观点,与当前时代的基于AI的IGC思维是一样的,在人的经验逐渐被压缩的情况下,依赖于数据、依赖于算法进行内容的生产创作,这事是可行的,也是有市场的。
由于我司是做微信自媒体商业变现的嘛,所以或多或少的与不少公众号自媒体聊过,其中不乏篇篇10万+的大号,目前他们遇到了一个很大的难题就是,选题,以及围绕选题的素材获取,行文如何组织等等,为此,甚至很多自媒体团队养了一大推兼职,成天就在网上荡,收集热点素材,最后统一加工整理。繁琐、低效,而且还未必好使。
而我们团队现在正在为微信自媒体们做的一个事就是,捕获微信生态的热点、预测热点的走势,解构热点的组成、各种要素,还原事件,提供精准的素材以及自动化的创作策略。是的,我们不提供AI创作,但是通过数据、算法提供你创作所需要的一切,让你能够在最快最合适的点,以最合适的姿势切入,吸引粉丝的注意。
基于词,我特地使用内部的系统工具,来证明及时捕获热点,是比较容易打造爆款文章的,为此还写了一篇有理有据的理科生文章《数据化自媒体决策,告别拍脑袋的时代》。
对于创作,追逐热点是所有粉丝的天性,这也就是为何现在很多自媒体很喜欢蹭热点,蹭热点没毛病,但是你需要蹭对热点,以及在合适的时机蹭,以及怎么蹭都是学问,数据+算法能够解决一部分这些问题,从而帮助自媒体提升创作的效率。
我有幸,能够带着团队做这件有意义并且更落地的事情,而为数据找到落地着陆点,是我们每一个大数据从业者需要思考的问题,我们需要做大数据的布道者、推动者,推动时代往数据时代转变!