240 发简信
IP属地:广东
  • 【大数据】PySpark 使用 FileSystem 操作 HDFS

    需求:spark 可以直接使用 textFile 读取 HDFS,但是不能判断 hdfs 文件是否存在,不过 pyspark 可以调用 java...

  • 【Python】插入记录并获取其自增ID(PyMysql)

    需求:一次插入多条,获取每条记录的自增 ID 注意:获取 ID 必须在 commit 之前,否则获取为 0

  • 【Linux】根据进程 ID 查找进程文件地址

    需求:服务器近几日多次因为运存不足导致重启,找到相应程序运行地址

  • 【大数据】使用队列复制 Hadoop 文件

    使用队列资源拷贝 HDFS 文件:

  • 【大数据】Spark 递归读取 HDFS

    HDFS 若有子目录,Spark 是不能递归读取子目录,需要在 spark-submit 中配置以下参数:

  • 【Python】遍历字典的同时删除某个 key

    需求:遍历字典时,删除某个 key 正常情况下是不能直接删除的,需要借助其他方式: 优化后:

  • 基于某种规则对一个list-dict进行排序|Python

    需求:有数据 urls、data_list,现在需要根据 urls 的顺序来排序,最终输出的结果 html_list、url_list 是相对应...

  • es 写入 refresh 导致集群全局索引刷新

    es_client.indices.refresh(index=index_name),若不指定 index会导致全局刷新

  • spark 读取 ES(es.resource配置)

    es.resource 可配置为: ES 别名 单个索引名/doc_type 索引1,索引2,索引3

个人介绍
微信公众号:Rovingalone
微信:q982562616
骨子里是个阳光的人
爱好爬山、徒步,偶尔也写几篇生活随笔