调用api平台:智谱清言

一、一些我觉得有价值的东西:
1.SEO撰写(帮你快速撰写营销号软文!)


2.知识库问答:

3.场景模拟+角色扮演(游戏npc的ai化):


4.提取信息并输出json格式



5.很强的概括总结能力(这是我最喜欢的!)


二、配置api并完成一些任务
1.通用LLM
2.图像大模型CogView


3.embedding模型
embedding模型的用途很多啊,我参考了《chatgpt原理应用与开发》这本人民邮电出版社的书的第二章 ,在此总结和笔记,并结合我的研究方向进行一些思考:
(1)embedding是什么?
在自然语言处理领域中,简单来说就是把字/词/句子/段落......(语言基本单位)你想要的任何长度的文本表示成一个向量。这套技术(算法)就叫embedding。这里面的“字/词/句子/段落”是基本单位。称为“粒度”,要处理词就都处理词,而且所有词的向量维度需要统一。
比如说你想要把中文的所有词表示成向量,那就把常用的xxxx个词抽出来,设计一套转化成向量的算法,常用的模型包括Word2Vec、GloVe、FastText等。
不在自然语言处理领域,可以理解embedding为一种将离散的数据,如词语、物品、用户等,转换为连续的向量的技术。这种技术可以将高维、离散的数据映射到低维、连续的向量空间中。
比如在推荐系统领域内,Item Embedding是一种将物品映射为实数向量的技术,它能够捕捉物品的相似性和用户的兴趣偏好。Item Embedding的典型代表是YouTube推荐系统中的深度学习模型,它通过用户的历史行为数据学习物品的向量表示。
(2)相似匹配——原理介绍
其实就是比较两个向量的相似度。那么有什么相似度范式呢?比如余弦相似度cosine,可以在sklearn中直接调用。
举个例子,你让你的算法计算“我喜欢你”和“我爱你”和“我不喜欢你”的相似度。由于“我喜欢你”和“我不喜欢你”长得像,模型可能会判断他俩的相似度大于“我喜欢你”和“我爱你”的。那么如果你是希望机器理解感情色彩的话,这就算是一个bad case了。你就需要根据你的需求明确告诉模型,让他进行修改。那其实就会对embedding生成的向量进行修改了。
(3)应用:
第一个应用就是匹配啦。思想也很简单,我给了模型一个大数据库,里面有n个文本,模型对他们进行embedding的生成。然后,来一个新的文本,把这些新文本和这些文本进行对比,输出最相似的,或者top-p,在前p(动态的)个最相似的里面随机输出一个。
数据库比较小的时候,可以直接加载到内存里进行运算。但是数据比较大的时候,就可以使用一些语义检索工具了,比如redis等。
第二个应用是聚类。无监督的。本质就是对于embendding计算出的向量进行聚类(可以使用k-means)等算法。如果觉得embedding的向量维度太大,还可以PCA进行降维,甚至可以画三维空间里进行观察。
我的方向是知识图谱中的挖掘,就完全可以对知识图谱结构进行映射到向量空间中,然后进行挖掘聚类等