240 发简信
IP属地:北京
  • 120
    浅谈MySQL的B树索引与索引优化

    MySQL的MyISAM、InnoDB引擎默认均使用B+树索引(查询时都显示为“BTREE”),本文讨论两个问题: 为什么MySQL等主流数据库选择B+树的索引结构? 如何基...

  • 120
    从cart决策树到XGBoost

    一. cart决策树简述 我们知道决策树算法有ID3、C4.5和cart三种,ID3和C4.5是基于信息增益和信息增益比率做特征选择的,存在大量的log对数运算,而且只支持分...

  • 120
    Flask+gunicorn+nginx部署python

    1. 目标 由于Flask是一个轻量级的Web框架,自带app.run()方法能够提供http接口服务,测试环境下测试非常方便,但是如果在生产环境上单纯使用Flask还是会有...

  • @烫烫烫烫烫烫烫烫烫烫_58e4 用的还是该类下全部样本向量的均值

    大量短文本聚类效果优化:余弦相似度,Spark,Mini Batch Kmeans

    1. 背景 1.1 问题概述 有10万+条短文本,均是用户反馈的问题(每条文本长度大概在200字左右),需要对这些文本进行主题聚类,看下用户反馈的问题都集中在哪些方面。 1....

  • 120
    Spark2.0.0与Elasticsearch6.5的jar包冲突问题

    1. 问题 在工作中,多次遇到了jar包冲突的情况,就以这个为例,整理下解决思路。 现有某Spark程序,从Elasticsearch中读取数据进行后续的各种分析。当Spar...

  • spark程序jar与spark lib jar冲突,加载顺序

    用户编写的spark程序打包成jar后提交到yarn执行时,经常会遇到jar包中明显存在某个类,但任务提交到yarn运行时却找不到类或方法(java.lang.NoSuchM...

  • 120
    大量短文本聚类效果优化:余弦相似度,Spark,Mini Batch Kmeans

    1. 背景 1.1 问题概述 有10万+条短文本,均是用户反馈的问题(每条文本长度大概在200字左右),需要对这些文本进行主题聚类,看下用户反馈的问题都集中在哪些方面。 1....

  • 120
    【火炉炼AI】机器学习011-分类模型的评估:准确率,精确率,召回率,F1值

    【火炉炼AI】机器学习011-分类模型的评估:准确率,精确率,召回率,F1值 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scik...

  • 采用栈解析包含&|()的关键词规则表达式

    1. 需求 例如用户给定一个包含与或关系的关键词匹配规则: (G20&中国&(互联网|人工智能|AI)&(腾讯|阿里|阿里巴巴|百度|京东)) 需要基于这个规则采集相关信息,...

  • 120
    SimHash文档去重

    1. 首先SimHash的算法生成图如下图所示: 生成步骤如下: 对于每篇文章,选择分词作为该篇文章的特征,获取去掉噪音的词做为文档特征,为每个词赋予一个权重,该权重可以使用...

  • TF-IDF笔记

    1. TFIDF介绍 1.1 基本概念 TF(Term Frequency):代表词频,表示词在某篇文章中出现的频次,一般情况下词频越大,代表该词在本篇文章中重要度比较高(此...

  • 120
    我是如何从一个英语哑巴成为英语达人的

    我的职业生涯有几次重要的转折和机遇,现在想来很大程度上都是沾了英语好的光。 第一次就是大学毕业的第一份正式工作。当时同时拿到了A公司和另外一家知名日企的offer,两家公司的...