背景
服务器对上传文件一般进行文件类型的严格限制,防止有恶意文件上传至服务器。
一般使用“后缀名”方式去鉴别上传文件类型,但是该种方式有可能被绕过。
恶意攻击者通过将非法文件修改为合法的后缀名方式提交文件至服务器,从而调用恶意脚本。
e.g.
通过将.jsp后缀运行文件更改后缀名为.jpg方式伪装为图片提交至服务器,因为服务端对于图片格式文件允许运行,
则导致恶意.jsp源文件得以运行造成影响
解决办法
服务器不仅仅需要对文件后缀名进行校验,同时需要对文件内容进行检测,确保文件类型是该后缀名标注的类型!
文件MimeType类型与后缀名参照表,如下:
http://svn.apache.org/repos/asf/httpd/httpd/trunk/docs/conf/mime.types
tika中参照xml,如下:
https://github.com/apache/tika/blob/master/tika-core/src/main/resources/org/apache/tika/mime/tika-mimetypes.xml
工具使用
我们使用apache提供的tika工具进行文件内容的检测工作,tika不仅仅可以作为文件内容检测工具,同时其还是一款高效的内容提取工具。
1.maven引入tika的检测jar
<!-- tika核心包 -->
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-core</artifactId>
<version>x.x.x</version>
</dependency>
2.示例代码
/**
* 通过tika工具检测文件实际类型
*
* @throws IOException IO异常
* @throws MimeTypeException MimeType异常
*/
@Test
public void getMimeTypeTest() throws IOException, MimeTypeException {
// 获取文件
File gifFile = ResourceUtils.getFile("classpath:files/test.gif");
File jpgFile = ResourceUtils.getFile("classpath:files/test.jpg");
File pngFile = ResourceUtils.getFile("classpath:files/test.png");
File xlsFile = ResourceUtils.getFile("classpath:files/test.xls");
File xlsxFile = ResourceUtils.getFile("classpath:files/test.xlsx");
File docFile = ResourceUtils.getFile("classpath:files/test.doc");
File docxFile = ResourceUtils.getFile("classpath:files/test.docx");
File sqlFile = ResourceUtils.getFile("classpath:files/test.sql");
// 使用tika提供的外观工具,进行检测
Tika tika = new Tika();
// 此处检测文件内容,返回文件MimeType名称
String detect = tika.detect(docFile);
System.out.println("MimeType:" + detect);
// 获取tika提供的默认参照表
// 可以进行自定义,参照https://stackoverflow.com/questions/13650372/how-to-determine-appropriate-file-extension-from-mime-type-in-java
MimeTypes allTypes = MimeTypes.getDefaultMimeTypes();
// 根据MimeType名称获取MimeType类型
MimeType mimeType = allTypes.forName(detect);
// 根据MimeType类型获取对应的后缀名
String extension = mimeType.getExtension();
System.out.println(extension);
}