Java使用tika工具类检查文件真实类型,防止文件伪造后缀名进行攻击

背景

服务器对上传文件一般进行文件类型的严格限制,防止有恶意文件上传至服务器。
一般使用“后缀名”方式去鉴别上传文件类型,但是该种方式有可能被绕过。
恶意攻击者通过将非法文件修改为合法的后缀名方式提交文件至服务器,从而调用恶意脚本。

e.g.
通过将.jsp后缀运行文件更改后缀名为.jpg方式伪装为图片提交至服务器,因为服务端对于图片格式文件允许运行,
则导致恶意.jsp源文件得以运行造成影响

解决办法

服务器不仅仅需要对文件后缀名进行校验,同时需要对文件内容进行检测,确保文件类型是该后缀名标注的类型!

文件MimeType类型与后缀名参照表,如下:
http://svn.apache.org/repos/asf/httpd/httpd/trunk/docs/conf/mime.types

tika中参照xml,如下:
https://github.com/apache/tika/blob/master/tika-core/src/main/resources/org/apache/tika/mime/tika-mimetypes.xml

工具使用

我们使用apache提供的tika工具进行文件内容的检测工作,tika不仅仅可以作为文件内容检测工具,同时其还是一款高效的内容提取工具。

1.maven引入tika的检测jar

<!-- tika核心包 -->
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>x.x.x</version>
</dependency>

2.示例代码

/**
 * 通过tika工具检测文件实际类型
 *
 * @throws IOException       IO异常
 * @throws MimeTypeException MimeType异常
 */
@Test
public void getMimeTypeTest() throws IOException, MimeTypeException {
    // 获取文件
    File gifFile = ResourceUtils.getFile("classpath:files/test.gif");
    File jpgFile = ResourceUtils.getFile("classpath:files/test.jpg");
    File pngFile = ResourceUtils.getFile("classpath:files/test.png");
    File xlsFile = ResourceUtils.getFile("classpath:files/test.xls");
    File xlsxFile = ResourceUtils.getFile("classpath:files/test.xlsx");
    File docFile = ResourceUtils.getFile("classpath:files/test.doc");
    File docxFile = ResourceUtils.getFile("classpath:files/test.docx");
    File sqlFile = ResourceUtils.getFile("classpath:files/test.sql");

    // 使用tika提供的外观工具,进行检测
    Tika tika = new Tika();
    // 此处检测文件内容,返回文件MimeType名称
    String detect = tika.detect(docFile);
    System.out.println("MimeType:" + detect);

    // 获取tika提供的默认参照表
    // 可以进行自定义,参照https://stackoverflow.com/questions/13650372/how-to-determine-appropriate-file-extension-from-mime-type-in-java
    MimeTypes allTypes = MimeTypes.getDefaultMimeTypes();
    // 根据MimeType名称获取MimeType类型
    MimeType mimeType = allTypes.forName(detect);
    // 根据MimeType类型获取对应的后缀名
    String extension = mimeType.getExtension();
    System.out.println(extension);
}
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,793评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,567评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,342评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,825评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,814评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,680评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,033评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,687评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,175评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,668评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,775评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,419评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,020评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,206评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,092评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,510评论 2 343

推荐阅读更多精彩内容

  • 前言 文件上传是一个在开发中很常见的需求场景,通常出于安全考虑,我们会对上传的文件进行类型校验,其中常见的有后缀名...
    攻城狮Jozz阅读 1,440评论 1 0
  • 0x00 漏洞原理与危害 网站web应用程序都有一些文件上传功能,比如文档、图片、头像、视频上传,当上传功能的实现...
    Z1ng3r阅读 1,572评论 0 1
  • 原文地址:https://xz.aliyun.com/t/6357 1. 文件上传漏洞 1.1 漏洞简介 ​ 文件...
    这是什么娃哈哈阅读 1,683评论 0 0
  • 真的很基础! 不懂得:9、11 大体思路 抓包绕过前端检测 修改MIME类型绕过服务器检测 对于黑名单 遍历后缀名...
    Arklight阅读 219评论 0 0
  • 文件上传漏洞是指用户上传了一个可执行的脚本文件,并通过此脚本文件获得了执行服务器端命令的能力。这种攻击方式是最为直...
    付出从未后悔阅读 1,120评论 0 4