pandas读取大文件json

首先,更换一个64位python(推荐3.6版本63位的Anaconda)和较大内存的工作站。

  • 使用库:
    pandas
    json
  1. 如果json中有中文字符,则以utf-8格式读取为字符串
dataopen = open(path,'r',encoding='utf-8').read()
  1. 键值中有非法控制符号如\n\t则采用strict=False参数读取,将字符串读取为dict字典结构
dataj = json.loads(dataopen,strict=False)

3.适当清洗数据

del dataf['com_id']
del dataf['id']
del dataf['page_url']
  1. 使用pandas库将数据字典转换为DataFrame数据帧格式

  2. 单元键值过长出现with link or location/anchor > 255 characters since it exceeds Excel's limit for URLS force_unicode(url))问题,使用ExcelWriter设置不要将strings转换成urls

writer = pd.ExcelWriter(r'WebHireExcel.xlsx', engine='xlsxwriter',options={'strings_to_urls': False})
  1. 再次转换,参数设置为ExcelWriter转换器
dataf.to_excel(writer)
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,981评论 19 139
  • 第2章 基本语法 2.1 概述 基本句法和变量 语句 JavaScript程序的执行单位为行(line),也就是一...
    悟名先生阅读 4,207评论 0 13
  • 昨天接到妈妈打给我的电话说叔叔不在了明天要火化。此刻我的心情沉重地一落千丈,眼泪止不住的总在眼眶里打转,脑子里一直...
    丽媛阅读 2,070评论 1 3
  • 都说现在养个孩子不容易,不是经济上的,主要是精神上的。确实,我们都想把最好的给孩子,在钱上没有什么吝啬的,看看遍地...
    处处1阅读 598评论 0 0
  • 当我不知道怎么生活的时候,我就会把自己想象成《一个陌生女人的来信》中的女主角,只是卑微的爱着一个不可得的东西,把自...
    鸭蛋不咸阅读 432评论 2 1