使用Java 壓縮文件打包tar.gz 包的詳細(xì)教程

更新時(shí)間：2021年05月13日 10:52:20 作者：異常編程

本文帶領(lǐng)大家學(xué)習(xí)如何使用Java 壓縮文件打包tar.gz 包，主要通過(guò) Apache compress 工具打包，通過(guò)示例代碼給大家介紹的非常詳細(xì)，感興趣的朋友跟隨小編一起看看吧

一、背景

最近，小哈主要在負(fù)責(zé)日志中臺(tái)的開發(fā)工作, 等等，啥是日志中臺(tái)？

俺只知道中臺(tái)概念，這段時(shí)間的確很火，但是日志中臺(tái)又是用來(lái)干啥的？

這里小哈盡量地通俗的說(shuō)下日志中臺(tái)的職責(zé)，再說(shuō)日志中臺(tái)之前，我們先扯點(diǎn)別的？

相信大家對(duì)集中式日志平臺(tái) ELK 都知道一些，生產(chǎn)環(huán)境中, 稍復(fù)雜的架構(gòu)，服務(wù)一般都是集群部署，這樣，日志就會(huì)分散在每臺(tái)服務(wù)器上，一旦發(fā)生問(wèn)題，想要查看日志就會(huì)非常繁瑣，你需要登錄每臺(tái)服務(wù)器找日志，因?yàn)槟悴淮_定請(qǐng)求被打到哪個(gè)節(jié)點(diǎn)上。另外，任由開發(fā)人員登錄服務(wù)器查看日志本身就存在安全隱患，不小心執(zhí)行了 rm -rf * 咋辦？

通過(guò) ELK , 我們可以方便的將日志收集到一處（Elasticsearch 集群）來(lái)進(jìn)行多維度的分析。

但是部署高性能、高可用的 ELK 是有門檻的，業(yè)務(wù)組想要快速的擁有集中式日志分析的能力，往往需要經(jīng)過(guò)前期的技術(shù)調(diào)研，測(cè)試，踩坑，才能將這個(gè)平臺(tái)搭建起來(lái)。

日志中臺(tái)的使命就是讓業(yè)務(wù)線能夠快速擁有這種能力，只需傻瓜式的在日志平臺(tái)完成接入操作即可。

臭嗨！說(shuō)了這么多，跟你這篇文章的主題有啥關(guān)系？

額，小哈這就進(jìn)入主題。

既然想統(tǒng)一管理日志，總得將這些分散的日志采集起來(lái)吧，那么，就需要一個(gè)日志采集器，Logstash 和 Filebeat 都有采集日志的能力，但是 Filebeat 相較于 Logstash 的笨重, 它更輕量級(jí)，幾乎零占用服務(wù)器系統(tǒng)資源，這里我們選型 Filebeat。

業(yè)務(wù)組在日志平臺(tái)完成相關(guān)接入流程后，平臺(tái)會(huì)提供一個(gè)采集器包。接入方需要做的就是，下載這個(gè)采集器包并扔到指定服務(wù)器上，解壓運(yùn)行，即可開始采集日志，然后，就可以在日志平臺(tái)的管控頁(yè)面分析&搜索這些被收集的日志了。

這個(gè) Filebeat 采集器包里面，包含了采集日志文件路徑，輸出到 Kafka 集群，以及一些個(gè)性化的采集規(guī)則等等。

怎么樣？是不是感覺很棒呢？

二、如何通過(guò) Java 打包文件？

2.1 添加 Maven 依賴

<dependency>
  <groupId>org.apache.commons</groupId>
  <artifactId>commons-compress</artifactId>
  <version>1.12</version>
</dependency>

2.2 打包核心代碼

通過(guò) Apache compress 工具打包思路大致如下：

①：創(chuàng)建一個(gè) FileOutputStream 到輸出文件（.tar.gz）文件。

②：創(chuàng)建一個(gè)GZIPOutputStream，用來(lái)包裝FileOutputStream對(duì)象。

③：創(chuàng)建一個(gè)TarArchiveOutputStream，用來(lái)包裝GZIPOutputStream對(duì)象。

④：接著，讀取文件夾中的所有文件。

⑤：如果是目錄，則將其添加到 TarArchiveEntry。

⑥：如果是文件，依然將其添加到 TarArchiveEntry 中，然后還需將文件內(nèi)容寫入 TarArchiveOutputStream 中。

接下來(lái)，直接上代碼：

import org.apache.commons.compress.archivers.tar.TarArchiveEntry;
import org.apache.commons.compress.archivers.tar.TarArchiveOutputStream;
import org.apache.commons.io.IOUtils;

import java.io.*;
import java.util.zip.GZIPOutputStream;

/**
 * @author 犬小哈 (公眾號(hào)： 小哈學(xué)Java)
 * @date 2019-07-15
 * @time 16:15
 * @discription
 **/
public class TarUtils {

    /**
     * 壓縮
     * @param sourceFolder 指定打包的源目錄
     * @param tarGzPath 指定目標(biāo) tar 包的位置
     * @return
     * @throws IOException
     */
    public static void compress(String sourceFolder, String tarGzPath) throws IOException {
        createTarFile(sourceFolder, tarGzPath);
    }

    private static void createTarFile(String sourceFolder, String tarGzPath) {
        TarArchiveOutputStream tarOs = null;
        try {
            // 創(chuàng)建一個(gè) FileOutputStream 到輸出文件（.tar.gz）
            FileOutputStream fos = new FileOutputStream(tarGzPath);
            // 創(chuàng)建一個(gè) GZIPOutputStream，用來(lái)包裝 FileOutputStream 對(duì)象
            GZIPOutputStream gos = new GZIPOutputStream(new BufferedOutputStream(fos));
            // 創(chuàng)建一個(gè) TarArchiveOutputStream，用來(lái)包裝 GZIPOutputStream 對(duì)象
            tarOs = new TarArchiveOutputStream(gos);
            // 若不設(shè)置此模式，當(dāng)文件名超過(guò) 100 個(gè)字節(jié)時(shí)會(huì)拋出異常，異常大致如下：
            // is too long ( > 100 bytes)
            // 具體可參考官方文檔： http://commons.apache.org/proper/commons-compress/tar.html#Long_File_Names
            tarOs.setLongFileMode(TarArchiveOutputStream.LONGFILE_POSIX);
            addFilesToTarGZ(sourceFolder, "", tarOs);
        } catch (IOException e) {
            e.printStackTrace();
        }finally{
            try {
                tarOs.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }

    public static void addFilesToTarGZ(String filePath, String parent, TarArchiveOutputStream tarArchive) throws IOException {
        File file = new File(filePath);
        // Create entry name relative to parent file path
        String entryName = parent + file.getName();
        // 添加 tar ArchiveEntry
        tarArchive.putArchiveEntry(new TarArchiveEntry(file, entryName));
        if (file.isFile()) {
            FileInputStream fis = new FileInputStream(file);
            BufferedInputStream bis = new BufferedInputStream(fis);
            // 寫入文件
            IOUtils.copy(bis, tarArchive);
            tarArchive.closeArchiveEntry();
            bis.close();
        } else if (file.isDirectory()) {
            // 因?yàn)槭莻€(gè)文件夾，無(wú)需寫入內(nèi)容，關(guān)閉即可
            tarArchive.closeArchiveEntry();
            // 讀取文件夾下所有文件
            for (File f : file.listFiles()) {
                // 遞歸
                addFilesToTarGZ(f.getAbsolutePath(), entryName + File.separator, tarArchive);
            }
        }
    }

    public static void main(String[] args) throws IOException {
        // 測(cè)試一波，將 filebeat-7.1.0-linux-x86_64 打包成名為 filebeat-7.1.0-linux-x86_64.tar.gz 的 tar 包
        compress("/Users/a123123/Work/filebeat-7.1.0-linux-x86_64", "/Users/a123123/Work/tmp_files/filebeat-7.1.0-linux-x86_64.tar.gz");
    }

}

至于，代碼每行的作用，小伙伴們可以看代碼注釋，說(shuō)的已經(jīng)比較清楚了。

接下來(lái)，執(zhí)行 main 方法，測(cè)試一下效果，看看打包是否成功：