博人眼球的270亿究竟是啥?没有具体介绍
- 体验了一下,可能是打开方式不对,总感觉没那么带感,测试截图如下:
- 背景:今日,阿里巴巴达摩院发布中文社区最大规模预训练语言模型PLUG,其参数规模达270亿。近期将开源阿里巴巴深度语言模型体系大部分重要模型。PLUG全名为Pre-training for Language Understanding and Generation,集语言理解与生成能力于一身,在小说创作、诗歌生成、智能问答等长文本生成领域表现突出。
1、网站:https://nlp.aliyun.com/portal#/BigText_chinese
下午2点左右点击3次都超时,试用还挺火爆
image.png
晚上11点再测了一下,感觉结果生硬,关键字搜索结果凑的
image.png
阿里响应还挺快,下午还没有红字提醒访问量大的问题,晚上就有提醒
2、情感偏向,不怎么准

image.png
3、行业的词汇待添加,目前电商用语较完整
分词的行业词汇还没有添加,估计只对电商的词分的比较准

image.png
4、词性标注也有问题,1季度居然是其他名词,不识别
同一个时间,自己分词为年,居然有中文的不识别为时间

image.png

image.png
5、中心词提取更诡异

image.png
6、文本纠错逗到不行

image.png
我感觉离真正能够使用还有很久
当然,现在80%的概率认为ok,不能苛刻要求全对,但重要的就是那20%,总之,中文的识别分析自动化目前还有提高空间
我在想:
是否是因为阿里这么多文本,不是标准的高质量的文本,再多也不够 ?
难道学习方向上应该按标准的字词句篇组成形式来学习?
现在是按实际使用的文本来学习概率,因为没有标准,参差不齐?
还是说本来厉害的标准用语的使用人群没那么多时间逛淘宝,喜欢长时间刷淘宝的可能用语都比较随意?
用比较随意的语言文本,再多,会不会也很难做标准的高雅的拿得出手的创作(小说创作、诗歌生成毕竟还是有审美门槛的)?
它山之石可以攻玉
我就想问:
这个中文最大规模预训练模型之于我们,可不可用?什么场景使用?怎么使用?

