IP属地:四川
RPC体系结构 spark1.6中的RPC体系结构大致如下: RpcEnv相当于容器,有host、port已及注册其中的RpcEndpoint,...
之前一段时间通过SparkStreaming+Kafka处理上网日志数据的一些记录,做个备忘。 KafkaUtils.createDirectS...
运行监控对系统的重要性不言而喻,尤其是分布式环境中,程序运行是否正常,在哪些节点上运行,每个节点处理的数据量是否均匀,每个任务的处理时间是否大致...
算法描述 朴素贝叶斯算法是监督学习中分类算法中的一种。需要先通过学习一批分类正确的训练数据集得出模型才能进行分类,算法大致如下: 假设待分类的数...
概要 目前Spark官方提供Java,Scala,Python三种语言的API。因为Spark是用Scala开发,而Scala本身是基于JVM的...