笔记汇总
- 机器理解世界从语言入手——The limits of my language mean the limits of my world.
- 具身智能:人的学习能力很大部分来源于身体的感知能力,所以尝试让机器也具身化
- Elon Musk:人类必须成为机器人才能避免被机器统治。因此他鼓励推进脑机接口,让人类和机器互联
- 人相较于其他物种,之所以“成功”,凭借的是多元智能
- 认知智能:现在还需要人去校对机器是否准确;突破点在于底层的限制,比如材料学等技术瓶颈
一些重要基础概念/认知
Transformer架构
Transformer架构最主要解决的问题:
梯度消失、梯度爆炸、并行计算效率低
- 自注意力机制:使得模型在处理序列数据时,每个位置的输入直接和整个序列的其他位置产生联系,避免了长距离依赖问题
- 残差连接:在网络层之间,梯度直接通过短路连接反向传播
分布式假设
很重要的一个前提,就是基于“分布式假设”:出现在相同上下文(context)下的词意思应该相近。
所有学习word embedding的方法,都是在用数学的方法建模词和context之间的关系。
RAG的“七宗罪”
RAG seven failure points
- missing content
- missed the top ranked content
- not in the context-consolidation strategy limitations
- not extracted
- wrong format
- incorrect specifity
- incomplete
Scaling Law
模型的最终性能主要与【计算量】、【模型参数量】、【数据大小(token数)】相关,与具体结构(层数、深度、宽度)无关
一种推测思想:随着模型大小、数据集大小和用于训练的计算浮点数的增加,模型的性能会提高
构建AI应用的五层基石理论
Seednapse AI创始人提出了构建AI应用的五层基石理论,包括Models、Prompt Templates、Chains、Agent和Multi-Agent
两次大的技术革命
- 01 :图形交互 【eg. Wins操作系统,Excel,……】
- 02 :自然语言交互 【ChatGPT,……】
一些常见的NLP方法
TF-IDF
TF-IDF是一种统计方法:用以评估一个词对于一篇文章的重要性
TF(Term Frequency):
文章里该词的数量/文章的总词数
TF(word in a document)= Number of occurrences of that word in document / Number of words in documentIDF(Inverse Document Frequency):
log(文章总数/包含该单词的文章数)
IDF(word in a corpus)=log(number of documents in the corpus / number of documents that include the word)
Tokenizers:Word2Vec 和 GLoVE
-
Word2vec:使用【神经网络】
包括两部分:- CBOW(continuous bag of words):通过上下文来预测目标词
- Skip-Gram:通过目标词来预测上下文
GLoVE:使用【共现概率矩阵】
共现:单词i出现在单词j的上下文中(论文给的环境是以j为中心的左右10个单词区间)
一些值得留意的其他模型
LaMda
Google推出的针对对话应用的模型框架Sparrow
麻雀模型,生成多种回答让用户选择最好的,基于用户反馈训练对应的Reward模型,用训练好的Reward模型再去优化Sparrow的生成结果InstructGPT
在GPT3的基础上微调,目的是训练一个为人类服务的通用的多任务模型text-davinci-002
Davinci的一个渲染模型