240 发简信
IP属地:北京
  • 为Scrapy项目提供多个Spider

    为Scrapy项目提供多个Spider 在终端输入上述命令后,会根据生成一个完整的爬虫项目此时的项目树如下 可以看到默认会生成一个名为spider.py的文件供我们编写spi...

  • Python 多线程

    线程和进程 计算机,用于计算的机器。计算机的核心是CPU,在现在多核心的电脑很常见了。为了充分利用cpu核心做计算任务,程序实现了多线程模型。通过多线程实现多任务的并行执行。...

  • Spark 基础(下篇)

    上篇介绍了spark的突出特点以及基本框架,下面给大家介绍下spark的基本数据结构、spark任务调度的详细流程以及spark中stage的划分。 5. spark的基本数...

  • 分布式概述

    1. 分布式与集群的区别: 分布式是把一个业务拆分成多个子业务,然后各个子业务部署在不同的服务器上。而集群是同一个业务部署多个服务器上。 2. 分布式环境遇到的问题 1)通信...

  • 我所理解的分布式调度

    对于规模以上的应用来说,调度系统已经是必不可少的组成部分,尤其在基于数据分析的后台应用大量增长的今天,健壮的调度任务管理已经是非常重要的一环,因此多花些时间来分析研究调度系统...

  • 120
    Spark基本概念快速入门

    Spark集群 一组计算机的集合,每个计算机节点作为独立的计算资源,又可以虚拟出多个具备计算能力的虚拟机,这些虚拟机是集群中的计算单元。Spark的核心模块专注于调度和管理虚...

  • 120
    一个简明的Mapreduce 原理分析

    1. mapreduce 简介 mapreduce源自google的一篇文章,将海量数据处理的过程拆分为map和reduce。mapreduce 成为了最早的分布式计算框架,...

  • 120
    专栏:012:没时间解释了,快使用sqlalchemy

    用理工科思维看待这个世界 系列爬虫专栏 崇尚的学习思维是:输入,输出平衡,且平衡点不断攀升。 今天的主题是:sqlalchemy的使用(这是一篇没有真正实战的博文) 0:框架...