往"某度文库"上传资源之前,请先做好这些...

先讲个相关的故事:匿名黑客的"复仇行动"

2010年12月10日，黑客组织匿名者发布了一条消息，解释了他们发起最近一次代号为”复仇行动”的攻击的大致动机(Prefect,2010)。由于被那些放弃支持维基解密网站的公司所激怒，匿名者组织号召要通过对涉及的一些机构进行分布式拒绝服务攻击(DDoS)以实现报复。这个稿子上既没有签名，也没有标注消息来源，只是以PDF(Portable Document Format，便携式文档格式)文件的形式被发布出来。

这是当时的文件,为了满足好奇心，被我刨出来了...

PDF原文件第一页

PDF原文件第二页

虽然没有署名,但用脚本很快查到了文档的元数据(这里演示的ANONOPS_The_Press_Release.pdf就是真实的原文件,文件的元数据还被保留着...)

查看元数据

几天后，希腊警方逮捕Alex Tapanaris 先生...

Alex Tapanaris 先生的"复仇行动"提前结束了

这个例子告诉我们，就算技术不好,也不要让别人知道,是你做的种子...

在当下，敏感元数据,在国内资源网站依然大量存在

以博主从国内各大资源网站下载到的技术类书籍资源为例:

(不要问我资源是哪里来的,作为程序员,对于获取资源的套路还是懂一些的...)

为避免小伙伴们在 "某度文库" 发"资源"赚积分的时候成为第二个Alex Tapanaris先生,下面放出博主刚完成的批量清除pdf元数据的脚本,以及使用方法:

快速清除PDF元数据

清除后的效果

批量获取文档元数据(查别人):

import PyPDF2
from PyPDF2 import PdfFileReader
import sys
import os
import re

#获取目录下所有的pdf文件目录
def getFiles():

    files = os.listdir()

    # 如果输入了单个pdf文件,则只输出单个pdf元数据
    try:
        if sys.argv[1]:
            files = [sys.argv[1]]
    except:
        pass

    pdf_files = list()

    for file_name in files:
        try:
            result = re.match(r".*\.pdf$", file_name)
            
            if result:
                pdf_files.append(file_name)
        except Exception as e:
            pass


    return pdf_files


# 打印文件的元信息
def printMeta(files):
        for filename in files:
            try:
                pdfFile= PdfFileReader(open(filename, "rb"))
                docInfo = pdfFile.getDocumentInfo()
                print ("===文件%s的元信息为:"%filename)
                for metaItem in docInfo:
                    print(metaItem,":",docInfo[metaItem])
            except Exception as e:
                print("---文件%s元数据无法读取,已经跳过!"%filename)

if __name__ == "__main__":
    filenames = getFiles()
    printMeta(filenames)

清除源信息(藏自己):

import sys
import os
import re
from PyPDF2 import PdfFileReader, PdfFileWriter

#获取目录下所有的pdf文件
def getFiles():
    files = os.listdir()
    pdf_files = list()

    for file_name in files:
        try:
            result = re.match(r".*\.pdf$", file_name)
            
            if result:
                pdf_files.append(file_name)
        except Exception as e:
            pass

    return pdf_files


def get_page_num(file_name):
    #获取一个pdfFileReader对象
    my_pdf = PdfFileReader(open(file_name,"rb"))

    # 获取页数
    page_num = my_pdf.getNumPages()
    print("PDF文件%s的页数为%s"%(file_name, page_num))
    return page_num

    

def create_new_pdf(file_names):
    try:
        os.mkdir("./pure")
    except Exception as e:
        pass
    
    for file_name in file_names:

        try:
            # 获取原pdf的信息
            my_pdf = PdfFileReader(open(file_name,"rb"))

            # 创建一个PdfFileWriter对象
            new_pdf = PdfFileWriter()
            
            for i in range(0, get_page_num(file_name)):
                
                page_info = my_pdf.getPage(i)

                new_pdf.addPage(page_info)

            new_pdf.write(open("./pure/%s"%file_name, "wb"))
            print("文件%s已清除元数据!"%file_name)
        except Exception as e:
            print("文件%s编码有问题,已自动跳过!"%file_name)



if __name__ == "__main__":
    create_new_pdf(getFiles());

想到一句好玩的话:知道是你干的，只是懒得抓你!

如果你喜欢python,喜欢故事,请点赞或关注我!您的支持是对作者最大的鼓励！

最后编辑于：2017.12.10 07:44:33

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 213,752评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,100评论 3赞 387
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 159,244评论 0赞 349
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,099评论 1赞 286
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,210评论 6赞 385
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,307评论 1赞 292
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,346评论 3赞 412
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,133评论 0赞 269
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,546评论 1赞 306
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,849评论 2赞 328
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,019评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,702评论 4赞 337
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,331评论 3赞 319
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,030评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,260评论 1赞 267
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,871评论 2赞 365
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,898评论 2赞 351

往"某度文库"上传资源之前,请先做好这些...

先讲个相关的故事:匿名黑客的"复仇行动"

这是当时的文件,为了满足好奇心，被我刨出来了...

虽然没有署名,但用脚本很快查到了文档的元数据(这里演示的ANONOPS_The_Press_Release.pdf就是真实的原文件,文件的元数据还被保留着...)

几天后，希腊警方逮捕Alex Tapanaris 先生...

Alex Tapanaris 先生的"复仇行动"提前结束了

这个例子告诉我们，就算技术不好,也不要让别人知道,是你做的种子...

在当下，敏感元数据,在国内资源网站依然大量存在

以博主从国内各大资源网站下载到的技术类书籍资源为例:

为避免小伙伴们在 "某度文库" 发"资源"赚积分的时候成为第二个Alex Tapanaris先生,下面放出博主刚完成的批量清除pdf元数据的脚本,以及使用方法:

快速清除PDF元数据

清除后的效果

批量获取文档元数据(查别人):

清除源信息(藏自己):

想到一句好玩的话:知道是你干的，只是懒得抓你!

如果你喜欢python,喜欢故事,请点赞或关注我!您的支持是对作者最大的鼓励！

推荐阅读更多精彩内容