欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Java進(jìn)行文件格式校驗的方案詳解

 更新時間:2025年04月02日 10:25:56   作者:剛正的熱帶野豬  
這篇文章主要為大家詳細(xì)介紹了Java中進(jìn)行文件格式校驗的相關(guān)方案,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下

一、背景

異常現(xiàn)象

很長一段時間以來,前后端都是根據(jù)擴(kuò)展名判斷文件類型,但近期發(fā)現(xiàn)用戶上傳的.jpg格式圖片存在解析異常的問題。拿到原圖后測試發(fā)現(xiàn):

  • Windows 10 原生圖片查看器提示文件損壞
  • 主流瀏覽器(Chrome/Firefox)可正常渲染
  • Windows 11 原生查看器正常顯示

原因排查

這不禁讓筆者感到好奇,于是打開二進(jìn)制格式檢查了下文件頭,發(fā)現(xiàn)這些文件的 Magic Number 對應(yīng)的并不是 JPEG 格式,而是 AVIF (文件頭:6674797061766966),一種較新的圖片格式。

用戶的無心之過

從用戶視角來看,用戶上傳.avif圖片時發(fā)現(xiàn)系統(tǒng)不支持上傳,于是手動修改圖片后綴為.jpg(用戶以為改了擴(kuò)展名就相當(dāng)于改了文件格式),繞過了前端校驗,而且由于瀏覽器強(qiáng)大的兼容能力,用戶上傳后發(fā)現(xiàn)在瀏覽器上能正常預(yù)覽圖片,便認(rèn)為自己的操作是合理的。而后,后端解碼失敗。這些用戶并非惡意攻擊者,而是因系統(tǒng)未兼容新型圖片格式采取的無奈之舉。

二、解決方案

除了判斷文件擴(kuò)展名之外,還可以進(jìn)行文件頭校驗和內(nèi)容特征解析

Magic Number判斷

魔數(shù)指的是文件開頭的一串特定的字節(jié)序列,相較于文件擴(kuò)展名,魔數(shù)更能有效識別文件類型。魔數(shù)沒有固定長度,大部分文件類型的魔數(shù)不同,但也有少量文件類型有相同魔數(shù)

文件類型文件頭文件尾
jpeg(jpg)FF D8FF D9
png89 50 4E 47 0D 0A 1A 0A
bmp42 4d
gif47 49 46 38 39 61
tiff4d 4d 或 49 49
zip/xlsx/pptx/docx50 4B 03 04

少量文件類型的判斷,可以直接校驗文件頭。比如若只允許用戶上傳jpg/png格式的圖片,實現(xiàn)如下:

@Getter
public enum MimeTypeEnum {

    IMAGE_JPEG("image/jpeg", "FFD8", "FFD9"),
    IMAGE_PNG("image/png", "89504E470D0A1A0A", null),
    IMAGE_BMP("image/bmp", "424D", null),
    ;

    private final String mimeType;
    private final byte[] header; // 文件頭
    private final byte[] footer; // 文件尾

    MimeTypeEnum(String mimeType, String header, String footer) {
        this.mimeType = mimeType;
        this.header = header == null ? null : DatatypeConverter.parseHexBinary(header);
        this.footer = footer == null ? null : DatatypeConverter.parseHexBinary(footer);
    }

    public static final Set<MimeTypeEnum> whiteList = Sets.newHashSet(IMAGE_JPEG, IMAGE_PNG);
}
public static void test(MultipartFile mFile) throws Exception {
    MimeTypeEnum mimeType = detectMimeType(mFile);

    Assert.isTrue(MimeTypeEnum.whiteList.contains(mimeType), "不支持文件類型:" + mimeType);
}

public static MimeTypeEnum detectMimeType(MultipartFile multipartFile) throws IOException {
    try (InputStream inputStream = multipartFile.getInputStream()) {
        byte[] header = new byte[8]; // 讀取前 8 個字節(jié)
        byte[] footer = new byte[2];// 讀取后 2 個字節(jié)
        inputStream.read(header);
        inputStream.skip(multipartFile.getSize() - 2 - 8);
        inputStream.read(footer);

        for (MimeTypeEnum mimeTypeEnum : MimeTypeEnum.values()) {
            if (matchMagicNumber(header, footer, mimeTypeEnum)) {
                return mimeTypeEnum;
            }
        }
    }
    return null;
}


private static boolean matchMagicNumber(byte[] header, byte[] footer, MimeTypeEnum mimeType) {
    // 檢查文件頭
    if (!Arrays.equals(mimeType.getHeader(), Arrays.copyOf(header, mimeType.getHeader().length))) {
        return false;
    }

    // 檢查文件尾
    if (mimeType.getFooter() != null) {
        return Arrays.equals(mimeType.getFooter(), footer);
    }
    return true;
}

注意,zip/xlsx/pptx/docx的魔數(shù)都是相同的,無法用魔數(shù)精確分辨。具體方法后面說

主流檢測庫對比

常見的文件類型極多,手動維護(hù)魔數(shù)判斷繁瑣,目前已有許多文件類型校驗庫,沒必要重復(fù)造輪子了

庫名稱格式覆蓋文件類型明細(xì)
Tika>1korg/apache/tika/mime/tika-mimetypes.xml
JMimeMagic>100src/main/resources/magic.xml

Tika的使用

Tika支持的文件類型最多,由Apache維護(hù)并跟進(jìn)最新文件格式。在 tika-mimetypes.xml 中有筆者需要的.avif格式

<mime-type type="image/avif">
    <!-- According to https://github.com/libvips/libvips/pull/1657
      older avif used to use the the heif 'ftypmif1' as well -->
    <_comment>AV1 Image File</_comment>
    <acronym>AVIF</acronym>
    <tika:link>https://en.wikipedia.org/wiki/AV1#AV1_Image_File_Format_(AVIF)</tika:link>
    <magic priority="60">
      <match value="ftypavif" type="string" offset="4"/>
    </magic>
    <glob pattern="*.avif"/>
</mime-type>

引入pom依賴后,通過detect方法判斷出mimeType,示例代碼如下:

public void test(MultipartFile file) {                                                                                                           
    String mimeType = new Tika().detect(file.getInputStream());

    log.info(mimeType) // image/avif
}

tika返回的mimeType(Multipurpose Internet Mail Extensions),用于標(biāo)識互聯(lián)網(wǎng)上傳輸?shù)奈募愋秃透袷?,常見的mimeType如下:

擴(kuò)展名MIME 類型
.jpeg, .jpgimage/jpeg
.pngimage/png
.avifimage/avif
.gifimage/gif
.mp4video/mp4
.pdfapplication/pdf
.pptapplication/vnd.ms-powerpoint
.pptxapplication/vnd.openxmlformats-officedocument.presentationml.presentation
.docapplication/msword
.docxapplication/vnd.openxmlformats-officedocument.wordprocessingml.document
.xlsapplication/vnd.ms-excel
.xlsxapplication/vnd.openxmlformats-officedocument.spreadsheetml.sheet

區(qū)分zip/xlsx/pptx/docx

由于xlsx/pptx/docx魔數(shù)相同,都是ooxml(Office Open XML File Formats),Tika只能識別為application/x-tika-ooxml,因此需要額外讀取實際內(nèi)容判斷其類型。如果將文件修改擴(kuò)展名為zip,就可以發(fā)現(xiàn)Excel的實際文件目錄如下,我們可以通過workbook.xml識別其為excel。其他格式同理。

│   [Content_Types].xml

│───_rels
│      .rels

├───docProps
│       app.xml
│       core.xml

└───xl
   │   sharedStrings.xml
   │   styles.xml
   │   workbook.xml
   │
   ├───_rels
   │      workbook.xml.rels
   │
   └───worksheets
          sheet1.xml

檢測代碼如下:

/* 文件類型白名單 */
public static List<String> mimeTypeWhiteList = Arrays.asList(
    "image/jpeg", 
    "image/png");

public  void test(MultipartFile multipartFile) throws Exception {
    String mimeType = new Tika().detect(file.getInputStream());
    
    if ("application/x-tika-ooxml".equals(mimeType)) {
        mimeType = detectOOXML(file);
    }
    log.info(mimeType);

    Assert.isTrue(mimeTypeWhiteList.contains(mimeType), "不支持文件類型:" + mimeType);
}

/**
 * 解析ooxml(Office Open XML File Formats)
 */
private String detectOOXML(File file) throws IOException {
    try (ZipFile zipFile = new ZipFile(file)) {
        if (zipFile.getEntry("word/document.xml") != null) {
            return "application/vnd.openxmlformats-officedocument.wordprocessingml.document";
        }
        if (zipFile.getEntry("xl/workbook.xml") != null) {
            return "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet";
        }
        if (zipFile.getEntry("ppt/presentation.xml") != null) {
            return "application/vnd.openxmlformats-officedocument.presentationml.presentation";
        }
    }
    return "application/zip";
}

區(qū)分xls/ppt/doc

xls/ppt/doc是Microsoft Office的早期版本,使用二進(jìn)制文件格式,讀取文件內(nèi)容可以進(jìn)行大致識別。

private static String detectMsOffice(InputStream inputStream) throws Exception {
    byte[] buffer = new byte[1024 * 10];

    while (inputStream.read(buffer) != -1) { // todo 滑動窗口優(yōu)化
        if (containsSubArray(buffer, "Excel".getBytes())) {
            return "application/vnd.ms-excel";
        }
        if (containsSubArray(buffer, "PowerPoint".getBytes())) {
            return "application/vnd.ms-powerpoint";
        }
        if (containsSubArray(buffer, "Office Word".getBytes())) {
            return "application/msword";
        }
    }
    return "unknown";
}

然而讀取文件內(nèi)容進(jìn)行識別并不一定準(zhǔn)確,如下圖,假如在excel中輸入"PowerPoint"就可能被識別為ppt。所以目前三者之間并沒有精確識別的辦法。

三、總結(jié)

文件擴(kuò)展名校驗雖然不夠準(zhǔn)確,但實現(xiàn)起來簡單,能滿足大部分情況(畢竟修改擴(kuò)展名的用戶只是極少數(shù)),適合作為短期方案。但長期來看還是推薦組合校驗(擴(kuò)展名+魔數(shù)+內(nèi)容),能更精確識別文件類型。

到此這篇關(guān)于Java進(jìn)行文件格式校驗的方案詳解的文章就介紹到這了,更多相關(guān)Java文件格式校驗內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • SpringBoot多環(huán)境開發(fā)與日志小結(jié)

    SpringBoot多環(huán)境開發(fā)與日志小結(jié)

    這篇文章主要介紹了SpringBoot多環(huán)境開發(fā)與日志,下面給大家說一下如何基于多環(huán)境開發(fā)做配置獨立管理,務(wù)必掌握,需要的朋友可以參考下
    2022-08-08
  • 一文看懂RabbitMQ消息丟失如何防止

    一文看懂RabbitMQ消息丟失如何防止

    這篇文章主要介紹了RabbitMQ消息丟失的場景,以及如何保證信息不丟失,看完這篇文章一定可以幫助你RabbitMQ有更深的理解,需要的朋友可以參考下
    2023-03-03
  • 基于Java類的加載方式

    基于Java類的加載方式

    這篇文章主要介紹了基于Java類的加載方式,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2023-07-07
  • Spring Boot集成Spring Cloud Eureka進(jìn)行服務(wù)治理的方法

    Spring Boot集成Spring Cloud Eureka進(jìn)行服務(wù)治理的方法

    本文通過詳細(xì)的步驟和代碼示例,介紹了如何在Spring Boot中集成Spring Cloud Eureka進(jìn)行服務(wù)治理,通過這種方式,可以有效地管理和維護(hù)微服務(wù)架構(gòu)中的服務(wù),感興趣的朋友跟隨小編一起看看吧
    2024-11-11
  • springboot 配置DRUID數(shù)據(jù)源的方法實例分析

    springboot 配置DRUID數(shù)據(jù)源的方法實例分析

    這篇文章主要介紹了springboot 配置DRUID數(shù)據(jù)源的方法,結(jié)合實例形式分析了springboot 配置阿里DRUID數(shù)據(jù)源的具體步驟與相關(guān)操作技巧,需要的朋友可以參考下
    2019-12-12
  • java?String到底有多長?String超出長度該如何解決

    java?String到底有多長?String超出長度該如何解決

    在Java中,由于字符串常量池的存在,String常量長度限制取決于String常量在常量池中的存儲大小,下面這篇文章主要給大家介紹了關(guān)于java?String到底有多長?String超出長度該如何解決的相關(guān)資料,需要的朋友可以參考下
    2023-01-01
  • JAVA多線程搶紅包的實現(xiàn)示例

    JAVA多線程搶紅包的實現(xiàn)示例

    這篇文章主要介紹了JAVA多線程搶紅包的實現(xiàn)示例,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2021-03-03
  • java簡單實現(xiàn)自定義日歷

    java簡單實現(xiàn)自定義日歷

    這篇文章主要為大家詳細(xì)介紹了java簡單實現(xiàn)自定義日歷,文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2022-05-05
  • Springboot中spring-boot-starter-quartz的使用及說明

    Springboot中spring-boot-starter-quartz的使用及說明

    這篇文章主要介紹了Springboot中spring-boot-starter-quartz的使用及說明,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2022-12-12
  • Hadoop環(huán)境配置之hive環(huán)境配置詳解

    Hadoop環(huán)境配置之hive環(huán)境配置詳解

    這篇文章主要介紹了Hadoop環(huán)境配置之hive環(huán)境配置,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2021-12-12

最新評論