3.23.一些玩大模型的记录

调用api平台：智谱清言

模型

一、一些我觉得有价值的东西：
1.SEO撰写（帮你快速撰写营销号软文！）

问题

答案

2.知识库问答：

只允许用给的东西来回答问题

3.场景模拟+角色扮演（游戏npc的ai化）：

问题，包含对角色、信息的描述，以及注意事项

回答

4.提取信息并输出json格式

问题

回答

我想把结果处处成为表格形式并且保存成csv

5.很强的概括总结能力（这是我最喜欢的！）

把这段条例总结成易懂的行动指南

总结

二、配置api并完成一些任务
1.通用LLM
2.图像大模型CogView

运行这个代码

生成的图像

3.embedding模型

embedding模型的用途很多啊，我参考了《chatgpt原理应用与开发》这本人民邮电出版社的书的第二章，在此总结和笔记，并结合我的研究方向进行一些思考：

（1）embedding是什么？
在自然语言处理领域中，简单来说就是把字/词/句子/段落......（语言基本单位）你想要的任何长度的文本表示成一个向量。这套技术（算法）就叫embedding。这里面的“字/词/句子/段落”是基本单位。称为“粒度”，要处理词就都处理词，而且所有词的向量维度需要统一。
比如说你想要把中文的所有词表示成向量，那就把常用的xxxx个词抽出来，设计一套转化成向量的算法，常用的模型包括Word2Vec、GloVe、FastText等。
不在自然语言处理领域，可以理解embedding为一种将离散的数据，如词语、物品、用户等，转换为连续的向量的技术。这种技术可以将高维、离散的数据映射到低维、连续的向量空间中。
比如在推荐系统领域内，Item Embedding是一种将物品映射为实数向量的技术，它能够捕捉物品的相似性和用户的兴趣偏好。Item Embedding的典型代表是YouTube推荐系统中的深度学习模型，它通过用户的历史行为数据学习物品的向量表示。
（2）相似匹配——原理介绍
其实就是比较两个向量的相似度。那么有什么相似度范式呢？比如余弦相似度cosine，可以在sklearn中直接调用。
举个例子，你让你的算法计算“我喜欢你”和“我爱你”和“我不喜欢你”的相似度。由于“我喜欢你”和“我不喜欢你”长得像，模型可能会判断他俩的相似度大于“我喜欢你”和“我爱你”的。那么如果你是希望机器理解感情色彩的话，这就算是一个bad case了。你就需要根据你的需求明确告诉模型，让他进行修改。那其实就会对embedding生成的向量进行修改了。
（3）应用：
第一个应用就是匹配啦。思想也很简单，我给了模型一个大数据库，里面有n个文本，模型对他们进行embedding的生成。然后，来一个新的文本，把这些新文本和这些文本进行对比，输出最相似的，或者top-p，在前p（动态的）个最相似的里面随机输出一个。
数据库比较小的时候，可以直接加载到内存里进行运算。但是数据比较大的时候，就可以使用一些语义检索工具了，比如redis等。
第二个应用是聚类。无监督的。本质就是对于embendding计算出的向量进行聚类（可以使用k-means）等算法。如果觉得embedding的向量维度太大，还可以PCA进行降维，甚至可以画三维空间里进行观察。
我的方向是知识图谱中的挖掘，就完全可以对知识图谱结构进行映射到向量空间中，然后进行挖掘聚类等

3.23.一些玩大模型的记录

3.23.一些玩大模型的记录

调用api平台：智谱清言

相关阅读更多精彩内容

友情链接更多精彩内容