`

文件类型检查工具:jmimemagic源码解析

 
阅读更多

在开发中,经常会有上传文件的需求,为了安全起见,防止上传恶意文件,需要对文件类型进行检查。网上一般有两种方式:

1、对文件扩展名进行检查,符合指定扩展名的文件才可以上传成功

2、对文件头进行检查,文件头的魔数符合预期(每种文件的魔数都是已知的),才可以上传成功

第1种方式有明显的缺陷,用户可以通过修改扩展名来通过检查,

第2种方式可以满足绝大多数场景,但是也有缺点,它不去判断文件扩展名

 

jmimemagic就是利用文件头中的魔数来判断文件类型的开源工具。

其地址见:https://github.com/arimus/jmimemagic.git

 

其获取文件类型流程如下:

 


说明:

1、整个过程中,涉及几个重要的类:

   a、Magic:jmimeMagic工具对外交互接口类,类中方法都是static方法。主要的方法有:getMagicMatch(File, boolean)、getMagicMatch(File, boolean, boolean)

   b、MagicParser:magic.xml文件解析类,将magic.xml中的数据解析为内部对象,底层解析使用到SAXParse。

   c、MagicMatch:magic.xml文件中match标签对应的对象

   d、MagicMatcher:将文件和MagicMatch关联起来的工具类

 

2、左侧虚线框主要加载解析magic.xml文件,解析的结果就是MagicMatcher列表和hintMap列表

   a、 magic.xml的代码片段如下:

     <match>

<mimetype></mimetype>

<extension></extension>

<description>b, 32 kBits</description>

<property name="bitrate" value="32"/>

<test type="byte" offset="2" length="" bitmask="0xf0" comparator="=">0x10</test>

</match>

    每一个match标签对解析后得到一个MagicMatch对象,一个MagicMatch对象存放在MagicMatcher对象中。

  b、类MagicMacth的属性如下:

       private String mimeType = null;

       private String extension = null;

       private String description = null;

       private ByteBuffer test = null;

       private int offset = 0;

       private int length = 0;

 

       // possible types:

       //     byte, short, long, string, date, beshort, belong, bedate, leshort,

       //     lelong, ledate, regex

       private String type = "";

       private long bitmask = 0xFFFFFFFFL;

       private char comparator = '\0';

       private List<MagicMatch> subMatches = new ArrayList<MagicMatch>(0);

       private Map<String,String> properties;

 

3、右侧的虚线框主要是根据文件获取MagicMatch

    a、如果传入方法Magic#getMagicMatch的参数extHints=true,那么优先使用文件扩展名去获取MagicMatch,只有根据文件扩展名获取不到MagicMatch的情况下,才会遍历整个matchers去获取对应的MagicMatch。因此,一般extHints的入参值为true。

   b、特殊情况下,获取不到MagicMatch,就会抛出异常。

 

4、测试代码:

public class TestMagic {

 

    public static void main(String[] args) {

        MagicMatch magicMatch;

        try {

            magicMatch = Magic.getMagicMatch(new File("/home/yangjianzhou/document/123456.png"), false);

        } catch (Exception exp) {

            exp.printStackTrace();

            return;

        }

        String mimeType = magicMatch.getMimeType();

        System.out.println("file mime type is : " + mimeType);

    }

 

}

 

总结:

jmimeMagic是一个很好的获取文件mimeType的工具类,对于大多数文件来说,都可以判断出其文件mimeType,如果不能判断,则可以对magic.xml进行扩展使其满足要求。但是,如果在文件尾部人为写入一些内容,可以躲过该工具的检测。

 

在本文开始提到过,可以使用扩展名或者文件头来判断文件类型,但是各有优劣,我们可以联合两种方式来判断:首先判断扩展名,在扩展名满足要求的情况下,再检测文件头,如果文件头检测通过,即使文件中被写入恶意代码,这些恶意代码也不会执行。

  • 大小: 150.6 KB
分享到:
评论

相关推荐

    Java获取MIME开源类库jmimemagic-0.1.2.jar

    在Http请求中,有时需要知道Content-Type类型,尤其是上传文件时,更为重要,虽然有些办法可以解决,但都不太准确或者繁琐.jMimeMagic是一个用来检测文件或者数据流的 MIME 类型的 Java 类库。 最新版本是V 0.1.2。...

    MagicMatch.7z

    导入jmimemagic.jar,import net.sf.jmimemagic.Magic; import net.sf.jmimemagic.MagicMatch;返回文件类型

    Java Mime Magic Library-开源

    jMimeMagic 是一个 Java 库,用于确定文件或流的 MIME 类型。 来源:https://github.com/arimus/jmimemagic

    Magic MagicMatch

    jmimemagic-0.1.0.jar 图片类型自动识别

    安装NumPy教程-详细版

    附件是安装NumPy教程_详细版,文件绿色安全,请大家放心下载,仅供交流学习使用,无任何商业目的!

    语音端点检测及其在Matlab中的实现.zip

    语音端点检测及其在Matlab中的实现.zip

    C#文档打印程序Demo

    使用C#完成一般文档的打印,带有页眉,页脚文档打印,表格打印,打印预览等

    DirectX修复工具-4-194985.zip

    directx修复工具 DirectX修复工具(DirectX repair)是系统DirectX组件修复工具,DirectX修复工具主要是用于检测当前系统的DirectX状态,若发现异常情况就可以马上进行修复,非常快捷,使用效果也非常好。

    Python手动实现人脸识别算法

    人脸识别的主要算法 其核心算法是 欧式距离算法使用该算法计算两张脸的面部特征差异,一般在0.6 以下都可以被认为是同一张脸 人脸识别的主要步骤 1 获得人脸图片 2 将人脸图片转为128D的矩阵(这个也就是人脸特征的一种数字化表现) 3 保存人脸128D的特征到文件中 4 获取其他人脸转为128D特征通过欧式距离算法与我们保存的特征对比,如果差距在0.6以下就说明两张脸差距比较小

    全国大学生信息安全竞赛知识问答-CISCN 题库.zip

    ciscn 全国大学生信息安全竞赛知识问答-CISCN 题库.zip

    JAVA+SQL离散数学题库管理系统(源代码+LW+外文翻译).zip

    JAVA+SQL离散数学题库管理系统(源代码+LW+外文翻译)JAVA+SQL离散数学题库管理系统(源代码+LW+外文翻译)JAVA+SQL离散数学题库管理系统(源代码+LW+外文翻译)JAVA+SQL离散数学题库管理系统(源代码+LW+外文翻译)JAVA+SQL离散数学题库管理系统(源代码+LW+外文翻译)JAVA+SQL离散数学题库管理系统(源代码+LW+外文翻译)JAVA+SQL离散数学题库管理系统(源代码+LW+外文翻译)JAVA+SQL离散数学题库管理系统(源代码+LW+外文翻译)JAVA+SQL离散数学题库管理系统(源代码+LW+外文翻译)JAVA+SQL离散数学题库管理系统(源代码+LW+外文翻译)JAVA+SQL离散数学题库管理系统(源代码+LW+外文翻译)JAVA+SQL离散数学题库管理系统(源代码+LW+外文翻译)JAVA+SQL离散数学题库管理系统(源代码+LW+外文翻译)JAVA+SQL离散数学题库管理系统(源代码+LW+外文翻译)

    strcmp函数应用.zip

    strcmp函数应用.zip

    蓝桥杯单片机第十一届国赛设计题试做

    蓝桥杯单片机第十一届国赛设计题试做

    基于MATLAB的pca人脸识别.zip

    基于MATLAB的pca人脸识别.zip

    520.html

    520.html

    JAVA在线考试管理系统(源代码+LW+开题报告+外文翻译+英文文献+答辩PPT).zip

    JAVA在线考试管理系统(源代码+LW+开题报告+外文翻译+英文文献+答辩PPT)

    STR710的定时器编程C语言例子,开发环境为IAR EWARM。.zip

    STR710的定时器编程C语言例子,开发环境为IAR EWARM。.zip

    基于物品的协同过滤推荐算法(Python).zip

    协同过滤算法(Collaborative Filtering)是一种经典的推荐算法,其基本原理是“协同大家的反馈、评价和意见,一起对海量的信息进行过滤,从中筛选出用户可能感兴趣的信息”。它主要依赖于用户和物品之间的行为关系进行推荐。 协同过滤算法主要分为两类: 基于物品的协同过滤算法:给用户推荐与他之前喜欢的物品相似的物品。 基于用户的协同过滤算法:给用户推荐与他兴趣相似的用户喜欢的物品。 协同过滤算法的优点包括: 无需事先对商品或用户进行分类或标注,适用于各种类型的数据。 算法简单易懂,容易实现和部署。 推荐结果准确性较高,能够为用户提供个性化的推荐服务。 然而,协同过滤算法也存在一些缺点: 对数据量和数据质量要求较高,需要大量的历史数据和较高的数据质量。 容易受到“冷启动”问题的影响,即对新用户或新商品的推荐效果较差。 存在“同质化”问题,即推荐结果容易出现重复或相似的情况。 协同过滤算法在多个场景中有广泛的应用,如电商推荐系统、社交网络推荐和视频推荐系统等。在这些场景中,协同过滤算法可以根据用户的历史行为数据,推荐与用户兴趣相似的商品、用户或内容,从而提高用户的购买转化率、活跃度和社交体验。 未来,协同过滤算法的发展方向可能是结合其他推荐算法形成混合推荐系统,以充分发挥各算法的优势。

    JAVA文件传输(lw+源代码).zip

    FTP(File Transfer Protocol)是文件传输协议的简称。 FTP的主要作用,就是让用户连接上一个远程计算机(这些计算机上运行着FTP服务器程序)查看远程计算机有哪些文件,然后把文件从远程计算机上拷到本地计算机,或把本地计算机的文件送到远程计算机去。 目前FTP服务器软件都为国外作品,例如Server_U、IIS,国内成熟的FTP服务器软件很少,有一些如(Crob FTP Server),但从功能上看来远不能和那些流行的服务器软件媲美。

    python项目源码-深度学习tensorflow的滚动轴承故障诊断方法源码(高分大作业).rar

    本项目基于深度学习TensorFlow框架,针对滚动轴承故障诊断方法进行研究。项目采用了卷积神经网络(CNN)对轴承振动信号进行特征提取和分类,实现了对滚动轴承不同故障类型的自动诊断。 在技术实现上,项目利用TensorFlow搭建了一个高效的CNN模型,通过多层卷积、池化操作以及全连接层,自动学习轴承振动信号中的故障特征。同时,采用交叉熵损失函数优化模型参数,提高故障识别率。此外,项目还集成了数据预处理、模型训练、测试评估等功能模块,方便用户快速上手并进行实验研究。 经过运行测试,该项目代码运行稳定,诊断效果良好,可广泛应用于滚动轴承故障诊断领域。对于计算机相关专业的在校学生、老师或企业员工来说,该项目是一份难得的高分大作业资源,同时也是小白学习和实际项目借鉴的优秀参考资料。请放心下载使用,为您的学习和工作提供帮助!

Global site tag (gtag.js) - Google Analytics