整理了技术知识
一.数据库、数据仓库知识
1.关系型数据库:Mysql
2.NoSQL:HBase,MongoDB,Redis
3.数据仓库:ClickHouse,Hive
4.NewSQL:TiDB
二.数据结构与算法
三.JVM知识
JVM,多线程,并发
四.架构知识
Nginx,Spring,SpringBoot,SpringCloud,Zookeeper
ELK:ElasticSearch,Logstash,Kibana:数据存储分析
Kafka,RabbitMQ,RocketMQ:分布式消息中间件
mycat,sharding-jdbc:分表分库
redis,mongodb
Docker,K8S
Druid:数据库连接池
五.大数据
Hadoop:MR + HDFS
Hive(sql:底层MR),Impala,HUE(图形化操作界面)
Zookeeper
Kafka(MQ)
Flume,Sqoop,canal,maxwell[binlog](数据同步工具)
Spark(SparkSql离线/SparkStreaming(微批)流式),Flink(批流),Storm(流式)
HBase,ClickHouse(数据仓库)
Mysql,MongoDB,Redis(数据库)
ELK:ElasticSearch,Logstash,Kibana
Oozie,Azkaban(任务调度器)
六.机器学习算法
ML&DL(机器学习与深度学习)
监督学习
无监督学习
半监督学习
工具:Sk-Learn:基于 SciPy 进行延伸的机器学习工具包,包含大量的机器学习算法模型,有 6 大基本功能:分类、回归、聚类、数据降维、模型选择和数据预处理。
Python数据科学库
Numpy:Python 语言扩展程序库,支持大量的维度数组与矩阵运算。
Pandas:数据分析工具包,它基于 NumPy 构建,纳入了大量的库和标准数据模型。
Matplotlib:专门用来绘图的工具包,可以使用它来进行数据可视化。
Seaborn:专门用来绘图的工具包,可以使用它来进行数据可视化。
特征工程
标准化
归一化
评测指标:标准差,方差
算法
基础:准确率,精确率,召回率,F1,ROC
梯度下降法:批量梯度下降法(BGD),随机梯度下降法(SGD),小批量梯度下降法(MBGD)
欧式距离,杰卡德距离,余弦相似度
正则化(L1、L2),损失函数,交叉验证
KNN
KMeans
Linear Regression
Logistic Regression
Bayes
SVM
CF MF SVD ALS
Embedding(特征组合)
FM FFM DeepFM DeepFFM GBDT+LR wide&deep
Ensemble(集成学习)
DT GBDT RandomForest Adaboost XGBoost LightGBM
Item2Vec
NLP:TF-IDF,textrank,jieba,one-hot,Word2Vec,Bert
TensorFlow,Keras,PyTorch
DF:CNN,DNN,RNN
应用:Recommendation System
1.Recall:多路召回
2.Rank:LR、LR+GBDT
3.策略
3.1 去重规则
展示数量去重:同一物品推荐展示后______条内不重复
展示时间去重:同一物品推荐展示后______天内不重复
点击数量去重:同一物品推荐点击后______条内不重复
点击时间去重:同一物品推荐点击后______天内不重复
3.2 比例规则
文章______% + 视频______% +... = 100%