读写csv、pdf,doc文件

导入csv模块以后

读csv文件

需要调用csv.reader(),读谁括号里传谁。

import csv
path1 = r'/Users/miraco/PycharmProjects/untitled/titanic_data.csv'

with open(path1,'r') as f:
    reader = csv.reader(f)   #一锅端了
    for row in reader:
        print(row)
>>>['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']
['1', '0', '3', 'Braund, Mr. Owen Harris', 'male', '22', '1', '0', 'A/5 21171', '7.25', '', 'S']
['2', '1', '1', 'Cumings, Mrs. John Bradley (Florence Briggs Thayer)', 'female', '38', '1', '0', 'PC 17599', '71.2833', 'C85', 'C']
['3', '1', '3', 'Heikkinen, Miss. Laina', 'female', '26', '0', '0', 'STON/O2. 3101282', '7.925', '', 'S']
['4', '1', '1', 'Futrelle, Mrs. Jacques Heath (Lily May Peel)', 'female', '35', '1', '0', '113803', '53.1', 'C123', 'S']
['5', '0', '3', 'Allen, Mr. William Henry', 'male', '35', '0', '0', '373450', '8.05', '', 'S']
['6', '0', '3', 'Moran, Mr. James', 'male', '', '0', '0', '330877', '8.4583', '', 'Q']

这里每一行都是一个list列表

写入csv文件

调用csv.writer(),读谁括号里传谁

path2 = r'/Users/miraco/PycharmProjects/untitled/titanic_test.csv'

with open(path2,'w') as f:   
#使用‘w’模式打开文件,之前的东西会被删除
#如果想保留之前数据,请用'a'模式。
    writer = csv.writer(f)  
    writer.writerow([1,2,3,4,5,6])   #按行写的,再写一次自动换行
运行结果

读pdf 输出txt

import sys
import importlib
importlib.reload(sys)

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed


path = r'/Users/miraco/PycharmProjects/untitled/mobility0415.pdf'

def readpdf(filepath):
    fp = open(filepath,'rb')
    parser = PDFParser(fp)  #
    doc = PDFDocument()
    #让解析器和文档相互关联
    parser.set_document(doc)
    doc.set_parser(parser)

    doc.initialize() #(self,password)
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed
    else:
        rsrcmgr = PDFResourceManager()
        laparams = LAParams()
        device = PDFPageAggregator(rsrcmgr,laparams = laparams)

        interprete = PDFPageInterpreter(rsrcmgr,device)
        for page in doc.get_pages():
            interprete.process_page(page)
            layout = device.get_result()

            for x in layout:
                if isinstance(x,LTTextBoxHorizontal):
                    with open(r'/Users/miraco/PycharmProjects/untitled/mobility0415.txt','a') as f:
                        results = x.get_text()
                        f.write(results + '\n')

readpdf(path)

读取docx

#读取docx中的文本代码示例
import docx
#获取文档对象
file=docx.Document("xxxx.docx")
print("段落数:"+str(len(file.paragraphs)))#段落数为13,每个回车隔离一段

#输出每一段的内容
for para in file.paragraphs:
    print(para.text)

#输出段落编号及段落内容
for i in range(len(file.paragraphs)):
    print("第"+str(i)+"段的内容是:"+file.paragraphs[i].text)

MacOS 读取doc或docx

准备工作,python的textract模块想要用,需要你先装上antiword、swig,这个如果是Linux环境可以使用
brew install swig
brew install antiword
pip3 install textract
import textract
text = textract.process(" 老子想弄的文件.doc")
print(text.decode('utf-8'))

运行结果是带空格的,保持了相对位置

超级6

附件
                       2017年度政府信息公开情况统计表

|统  计  指  标                          |单位 |统计数 |备注        |
|一、主动公开情况                        |--   |--     |            |
|    主动公开政府信息数                  |条   |5490   |            |
|(不同渠道和方式公开相同信息计1条)     |     |       |            |
|其中:主动公开规范性文件数              |条   |90     |            |
|制发规范性文件总数                      |件   |123    |            |
|(二)通过不同渠道和方式公开政府信息的情|--   |--     |            |
|况                                      |     |       |            |
|  1.政府公报公开政府信息数              |条   |136    |            |
|  2.政府网站公开政府信息数              |条   |5490   |            |
|  3.政务微博公开政府信息数              |条   |2034   |            |
|  4.政务微信公开政府信息数              |条   |1240   |            |
|二、依申请公开情况                      |--   |--     |            |
|    (一)收到申请数                    |件   |1993   |            |
|          1.当面申请数                  |件   |18     |            |
|          2.传真申请数                  |件   |1      |            |
|          3.网络申请数                  |件   |1423   |            |
|          4.信函申请数                  |件   |551    |            |
|统  计  指  标                          |单位 |统计数 |备注        |
|(二)申请办结数                        |件   |1989   |4件因征求第 |
|                                        |     |       |三方意见延期|
|                                        |     |       |未办结      |
|       1.按时办结数                     |件   |1829   |其中2件撤销/|
|                                        |     |       |无效        |
|      2.延期办结数                      |件   |158    |            |
|(三)申请答复数                        |件   |1988   |            |
|     1.属于已主动公开范围数             |件   |151    |            |
|     2.同意公开答复数                   |件   |285    |            |
|     3.同意部分公开答复数               |件   |167    |            |
|     4.不同意公开答复数                 |件   |11     |            |
|       其中:涉及国家秘密               |件   |2      |            |
|                 涉及商业秘密           |件   |0      |            |
|                 涉及个人隐私           |件   |0      |            |
|                                        |件   |0      |            |
|危及国家安全、公共安全、经济安全和社会稳|     |       |            |
|定                                      |     |       |            |
|                                        |件   |9      |            |
|不属于《条例》所指应公开的政府信息        |     |       |            |
|         5.不属于本行政机关公开数       |件   |118    |            |

|统  计  指  标                          |单位 |统计数 |备注        |
|      6.申请信息不存在数                |件   |331    |            |
|       7.告知作出更改补充数             |件   |57     |            |
|      8.不属于《条例》调整范围的数        |件   |840    |            |
|      9.不重复答复的数                  |件   |27     |            |
|三、行政复议数量                        |件   |6      |            |
|(一)维持具体行政行为数(含驳回复议申请|件   |6      |            |
|)                                      |     |       |            |
|(二)被依法纠错数                      |件   |0      |            |
|(三)其他情形数                        |件   |0      |            |
|四、行政诉讼数量                        |件   |9      |            |
|                                        |件   |9      |            |
|(一)维持具体行政行为或者驳回原告诉讼请|     |       |            |
|求数                                    |     |       |            |
|    (二)被依法纠错数                  |件   |0      |            |
|    (三)其他情形数                    |件   |0      |            |
|五、投诉举报数量                        |件   |0      |            |
|六、依申请公开信息收取的费用            |万元 |0      |            |

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,254评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,875评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,682评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,896评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,015评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,152评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,208评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,962评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,388评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,700评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,867评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,551评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,186评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,901评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,689评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,757评论 2 351

推荐阅读更多精彩内容

  • 一、基础知识:1、JVM、JRE和JDK的区别:JVM(Java Virtual Machine):java虚拟机...
    杀小贼阅读 2,373评论 0 4
  • 前一篇知道改变一个视图的位置有两种方法。修改自己的frame2.修改SuperView的bounds的origin...
    ashura_阅读 218评论 1 0
  • 这几天各大媒体头条,被28岁男星乔任梁刷屏了。 他还很年轻,就这样离开了我们,表示惋惜和心痛。 究竟是什么夺走了他...
    现实主义鼻祖阅读 331评论 3 4
  • 今天翼翼和烁烁闹着玩的时候,不小心把烁烁头上磕了一个包,虽然敷了冷水,但是头上还是起了一个小疙瘩。本来还担心烁...
    loverewards阅读 146评论 0 1
  • 人最大的“任性”就是不顾一切坚持做自己喜欢做的事只有这样 人才可以说,我这一生不虚此行 ...
    影之叁少阅读 583评论 0 2