登录注册写文章

2021-04-19

2021-04-19

博人眼球的270亿究竟是啥？没有具体介绍

体验了一下，可能是打开方式不对，总感觉没那么带感，测试截图如下：
背景：今日，阿里巴巴达摩院发布中文社区最大规模预训练语言模型PLUG，其参数规模达270亿。近期将开源阿里巴巴深度语言模型体系大部分重要模型。PLUG全名为Pre-training for Language Understanding and Generation，集语言理解与生成能力于一身，在小说创作、诗歌生成、智能问答等长文本生成领域表现突出。
1、网站：https://nlp.aliyun.com/portal#/BigText_chinese
下午2点左右点击3次都超时，试用还挺火爆

image.png

晚上11点再测了一下，感觉结果生硬，关键字搜索结果凑的

image.png

阿里响应还挺快，下午还没有红字提醒访问量大的问题，晚上就有提醒

2、情感偏向，不怎么准

image.png

3、行业的词汇待添加，目前电商用语较完整
分词的行业词汇还没有添加，估计只对电商的词分的比较准

image.png

4、词性标注也有问题，1季度居然是其他名词，不识别
同一个时间，自己分词为年，居然有中文的不识别为时间

image.png

image.png

5、中心词提取更诡异

image.png

6、文本纠错逗到不行

image.png

我感觉离真正能够使用还有很久
当然，现在80%的概率认为ok,不能苛刻要求全对，但重要的就是那20%,总之，中文的识别分析自动化目前还有提高空间
我在想：
是否是因为阿里这么多文本，不是标准的高质量的文本，再多也不够？
难道学习方向上应该按标准的字词句篇组成形式来学习？
现在是按实际使用的文本来学习概率，因为没有标准，参差不齐？
还是说本来厉害的标准用语的使用人群没那么多时间逛淘宝，喜欢长时间刷淘宝的可能用语都比较随意？
用比较随意的语言文本，再多，会不会也很难做标准的高雅的拿得出手的创作（小说创作、诗歌生成毕竟还是有审美门槛的）？

它山之石可以攻玉
我就想问：
这个中文最大规模预训练模型之于我们，可不可用？什么场景使用？怎么使用？

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

2021-04-19
阅读是人们获取信息最常用的手段，也是英语教学重要技能之一。随着上海市课程改革的推进和深化，阅读教学在中学阶段日益突...
MK_efe7阅读 206评论 0赞 0
李元豪成长会：人生如何持续精进？成为自己，活出自己独特的人生意义2021-04-19
千里之行，始于足下。刻意练习加一万小时理论永远是人生成功的不二法门，努力每天的去学习，去坚持输入和输出，你会成为那...
李元豪成长会阅读 419评论 0赞 0

2021-04-19笔记
MVC:Model 模型view视图Controller控制器数据的流转过程正向的过程：view==》cont...
陈湘江阅读 167评论 0赞 0
你说
夜莺2517阅读 128,210评论 1赞 9
送你一个晚安故事
我是黑夜里大雨纷飞的人啊 1 “又到一年六月，有人笑有人哭，有人欢乐有人忧愁，有人惊喜有人失落，有的觉得收获满满有...
陌忘宇阅读 8,879评论 28赞 54

友情链接更多精彩内容

赞1赞

赞赏

手机看全文