快捷導(dǎo)航

使用Go語(yǔ)言實(shí)現(xiàn)找出兩個(gè)大文件中相同的記錄

更新時(shí)間：2024年10月21日 14:14:20 作者：Ai編碼助手

這篇文章主要為大家詳細(xì)介紹了使用Go語(yǔ)言實(shí)現(xiàn)找出兩個(gè)大文件中相同的記錄的相關(guān)知識(shí),文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下

思路

讀文件：按行逐行讀取兩個(gè)文件中的記錄，假設(shè)每個(gè)文件的每一行代表一條記錄。
使用哈希集合（Set）：因?yàn)楣＜夏軌蚩焖倥袛嗄硞€(gè)記錄是否存在，所以我們可以將第一個(gè)文件中的記錄放入集合中，之后讀取第二個(gè)文件時(shí)逐行判斷該記錄是否也存在于集合中。如果存在則是相同的記錄。
性能優(yōu)化：
- 如果文件非常大，避免一次性全部加載到內(nèi)存中，而是逐行處理。
- 如果文件非常大且存在重復(fù)數(shù)據(jù)，可以先對(duì)文件中的數(shù)據(jù)去重。

代碼實(shí)現(xiàn)

package main

import (
    "bufio"
    "fmt"
    "os"
    "log"
)

// 從文件中讀取數(shù)據(jù)并返回一個(gè)map，記錄每一行的出現(xiàn)次數(shù)
func readFileToSet(filename string) (map[string]bool, error) {
    file, err := os.Open(filename)
    if err != nil {
        return nil, err
    }
    defer file.Close()

    recordSet := make(map[string]bool)
    scanner := bufio.NewScanner(file)
    for scanner.Scan() {
        line := scanner.Text()
        recordSet[line] = true
    }

    if err := scanner.Err(); err != nil {
        return nil, err
    }

    return recordSet, nil
}

// 找出兩個(gè)文件中相同的記錄
func findCommonRecords(file1, file2 string) ([]string, error) {
    // 讀取第一個(gè)文件到Set
    recordSet, err := readFileToSet(file1)
    if err != nil {
        return nil, err
    }

    // 打開(kāi)第二個(gè)文件并逐行讀取
    file, err := os.Open(file2)
    if err != nil {
        return nil, err
    }
    defer file.Close()

    var commonRecords []string
    scanner := bufio.NewScanner(file)
    for scanner.Scan() {
        line := scanner.Text()
        if recordSet[line] {
            commonRecords = append(commonRecords, line)
        }
    }

    if err := scanner.Err(); err != nil {
        return nil, err
    }

    return commonRecords, nil
}

func main() {
    file1 := "file1.txt"
    file2 := "file2.txt"

    commonRecords, err := findCommonRecords(file1, file2)
    if err != nil {
        log.Fatalf("Error finding common records: %v", err)
    }

    fmt.Println("Common Records:")
    for _, record := range commonRecords {
        fmt.Println(record)
    }
}