240 发简信
IP属地:宁夏回族自治区
  • scrapy(三)setting

    在settings.py配置文件中开启下载中间件的功能,默认是关闭的 简单使用了一下如何使用scrapy爬取网站的方法,但其他都没有设置,这样很容易被反爬机制发现,所以在sc...

  • scrapy-setting实用配置

    scrapy提升篇之配置 scrapy 是一个异步爬虫框架,使用它,可以屏蔽很多复杂的底层设计,只需要解析下载下来的页面,更多了我们需要关注的是目标网站/页面爬取的难易程度,...

  • 120
    多元线性回归模型的特征压缩:岭回归和Lasso回归

    多元线性回归模型中,如果所有特征一起上,容易造成过拟合使测试数据误差方差过大;因此减少不必要的特征,简化模型是减小方差的一个重要步骤。除了直接对特征筛选,来也可以进行特征压缩...

  • 120
    线性回归/局部加权线性回归/岭回归/前向逐步回归算法学习笔记-Python

    大家早安、午安、晚安,一起来学习机器学习算法中回归部分的方法啦,每次都是满满的干货,大家看的时候多喝水哈,正文开始! 回归分析(Regression Analysis)-定义...

  • 120
    为什么我做每件事都可以坚持,你却不行

    周围的朋友都知道,我是一个很能坚持的人。 (一)每天会做的: 001 阅读。每天都会有一个阅读的时间,要么早起、要么睡前,包里随手都有一本书。从14年10月15日开始做这件事...

  • (课程)基于Spark的机器学习经验

    这篇内容基于我去年的一些感悟写的,但是今年才在Stuq 的微信群做的分享。从技术角度而言,对Spark的掌握和使用还是显得很手生的。但是今天一位做数据分析相关的朋友说,受这篇...

  • 求教,十亿笔数据的两个表,每笔有50字节左右,做比对,用R 能行吗?或者Python ,或者sqlite ?扩展内存到16G ,哪个能跑?
    还是只能直接用spark?
    没有那个配置的条件呀!只有台式电脑可用。

    (课程)基于Spark的机器学习经验

    这篇内容基于我去年的一些感悟写的,但是今年才在Stuq 的微信群做的分享。从技术角度而言,对Spark的掌握和使用还是显得很手生的。但是今天一位做数据分析相关的朋友说,受这篇...