3.23.一些玩大模型的记录

调用api平台:智谱清言

模型

一、一些我觉得有价值的东西:
1.SEO撰写(帮你快速撰写营销号软文!)


问题

答案

2.知识库问答:


只允许用给的东西来回答问题

3.场景模拟+角色扮演(游戏npc的ai化):


问题,包含对角色、信息的描述,以及注意事项

回答

4.提取信息并输出json格式


问题

回答

我想把结果处处成为表格形式并且保存成csv

5.很强的概括总结能力(这是我最喜欢的!)


把这段条例总结成易懂的行动指南

总结

二、配置api并完成一些任务
1.通用LLM
2.图像大模型CogView


运行这个代码

生成的图像

3.embedding模型

embedding模型的用途很多啊,我参考了《chatgpt原理应用与开发》这本人民邮电出版社的书的第二章 ,在此总结和笔记,并结合我的研究方向进行一些思考:

(1)embedding是什么?
在自然语言处理领域中,简单来说就是把字/词/句子/段落......(语言基本单位)你想要的任何长度的文本表示成一个向量。这套技术(算法)就叫embedding。这里面的“字/词/句子/段落”是基本单位。称为“粒度”,要处理词就都处理词,而且所有词的向量维度需要统一。
比如说你想要把中文的所有词表示成向量,那就把常用的xxxx个词抽出来,设计一套转化成向量的算法,常用的模型包括Word2Vec、GloVe、FastText等。
不在自然语言处理领域,可以理解embedding为一种将离散的数据,如词语、物品、用户等,转换为连续的向量的技术。这种技术可以将高维、离散的数据映射到低维、连续的向量空间中。
比如在推荐系统领域内,Item Embedding是一种将物品映射为实数向量的技术,它能够捕捉物品的相似性和用户的兴趣偏好。Item Embedding的典型代表是YouTube推荐系统中的深度学习模型,它通过用户的历史行为数据学习物品的向量表示。
(2)相似匹配——原理介绍
其实就是比较两个向量的相似度。那么有什么相似度范式呢?比如余弦相似度cosine,可以在sklearn中直接调用。
举个例子,你让你的算法计算“我喜欢你”和“我爱你”和“我不喜欢你”的相似度。由于“我喜欢你”和“我不喜欢你”长得像,模型可能会判断他俩的相似度大于“我喜欢你”和“我爱你”的。那么如果你是希望机器理解感情色彩的话,这就算是一个bad case了。你就需要根据你的需求明确告诉模型,让他进行修改。那其实就会对embedding生成的向量进行修改了。
(3)应用:
第一个应用就是匹配啦。思想也很简单,我给了模型一个大数据库,里面有n个文本,模型对他们进行embedding的生成。然后,来一个新的文本,把这些新文本和这些文本进行对比,输出最相似的,或者top-p,在前p(动态的)个最相似的里面随机输出一个。
数据库比较小的时候,可以直接加载到内存里进行运算。但是数据比较大的时候,就可以使用一些语义检索工具了,比如redis等。
第二个应用是聚类。无监督的。本质就是对于embendding计算出的向量进行聚类(可以使用k-means)等算法。如果觉得embedding的向量维度太大,还可以PCA进行降维,甚至可以画三维空间里进行观察。
我的方向是知识图谱中的挖掘,就完全可以对知识图谱结构进行映射到向量空间中,然后进行挖掘聚类等

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容