技术知识库查询

整理了技术知识

一.数据库、数据仓库知识

1.关系型数据库:Mysql

2.NoSQL:HBase,MongoDB,Redis

3.数据仓库:ClickHouse,Hive

4.NewSQL:TiDB

二.数据结构与算法

三.JVM知识

  JVM,多线程,并发

四.架构知识

Nginx,Spring,SpringBoot,SpringCloud,Zookeeper

ELK:ElasticSearch,Logstash,Kibana:数据存储分析

Kafka,RabbitMQ,RocketMQ:分布式消息中间件

mycat,sharding-jdbc:分表分库

redis,mongodb

Docker,K8S

Druid:数据库连接池

五.大数据

  Hadoop:MR + HDFS

  Hive(sql:底层MR),Impala,HUE(图形化操作界面)

  Zookeeper

  Kafka(MQ)

  Flume,Sqoop,canal,maxwell[binlog](数据同步工具)

  Spark(SparkSql离线/SparkStreaming(微批)流式),Flink(批流),Storm(流式)

  HBase,ClickHouse(数据仓库)

  Mysql,MongoDB,Redis(数据库)

  ELK:ElasticSearch,Logstash,Kibana

  Oozie,Azkaban(任务调度器)


六.机器学习算法

  ML&DL(机器学习与深度学习)

    监督学习

    无监督学习

    半监督学习

    工具:Sk-Learn:基于 SciPy 进行延伸的机器学习工具包,包含大量的机器学习算法模型,有 6 大基本功能:分类、回归、聚类、数据降维、模型选择和数据预处理。

    Python数据科学库

      Numpy:Python 语言扩展程序库,支持大量的维度数组与矩阵运算。

  Pandas:数据分析工具包,它基于 NumPy 构建,纳入了大量的库和标准数据模型。

  Matplotlib:专门用来绘图的工具包,可以使用它来进行数据可视化。

  Seaborn:专门用来绘图的工具包,可以使用它来进行数据可视化。

    特征工程

      标准化

      归一化

      评测指标:标准差,方差

    算法

      基础:准确率,精确率,召回率,F1,ROC

          梯度下降法:批量梯度下降法(BGD),随机梯度下降法(SGD),小批量梯度下降法(MBGD)

          欧式距离,杰卡德距离,余弦相似度

  正则化(L1、L2),损失函数,交叉验证

      KNN

      KMeans

      Linear Regression

      Logistic Regression

      Bayes

      SVM

      CF MF SVD ALS

      Embedding(特征组合)

      FM FFM DeepFM DeepFFM GBDT+LR wide&deep

      Ensemble(集成学习)

      DT GBDT RandomForest Adaboost XGBoost LightGBM

      Item2Vec

      NLP:TF-IDF,textrank,jieba,one-hot,Word2Vec,Bert

      TensorFlow,Keras,PyTorch

      DF:CNN,DNN,RNN


应用:Recommendation System

    1.Recall:多路召回

    2.Rank:LR、LR+GBDT

    3.策略

3.1 去重规则

展示数量去重:同一物品推荐展示后______条内不重复

展示时间去重:同一物品推荐展示后______天内不重复

点击数量去重:同一物品推荐点击后______条内不重复

点击时间去重:同一物品推荐点击后______天内不重复

3.2 比例规则

文章______% + 视频______% +... = 100%

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。