統(tǒng)計字符串的時候，可以通過位運算來壓縮hashmap的key的大小。由于只用了 'A' 'C' 'G' 'T' 四個字符，我們可以用兩位二進制來標記每種類型。長度為10的字符串一共需要20位二進制表示，用一個int即可標記出來。
滑動窗口，不用從每個位置開始往后數(shù)十個位置來統(tǒng)計字符串。由于前面已經用了位運算映射字符串到int，我們可以直接通過<<和|操作即可實現(xiàn)窗口內字符串映射的改變。

class Solution {
    static final int L = 10;
    public List<String> findRepeatedDnaSequences(String s) {
        List<String> ans = new ArrayList<String>();
        Map<String, Integer> cnt = new HashMap<String, Integer>();
        int n = s.length();
        for (int i = 0; i <= n - L; ++i) {
            String sub = s.substring(i, i + L);
            cnt.put(sub, cnt.getOrDefault(sub, 0) + 1);
            if (cnt.get(sub) == 2) {
                ans.add(sub);
            }
        }
        return ans;
    }
}

其中 N 是字符串 s 的長度，L=10 即目標子串的長度。

時間復雜度：O(N*L)

空間復雜度：O(N*L)

方法二：哈希表——優(yōu)化（Go）

具體的方法思路已經在上文中表述，該方法為哈希表的優(yōu)化方法。

由于 ss 中只含有 44 種字符，我們可以將每個字符用 22 個比特表示，即：

A 表示為二進制 00；

C 表示為二進制 01；

G 表示為二進制 10；

T 表示為二進制 11。

如此一來，一個長為 10 的字符串就可以用 20 個比特表示，而一個 int 整數(shù)有 32 個比特，足夠容納該字符串，因此我們可以將 ss 的每個長為 10 的子串用一個 int 整數(shù)表示（只用低 20 位）。

注意到上述字符串到整數(shù)的映射是一一映射，每個整數(shù)都對應著一個唯一的字符串，因此我們可以將方法一中的哈希表改為存儲每個長為 10 的子串的整數(shù)表示。

方法思路：

滑動窗口向右移動一位：x = x << 2，由于每個字符用 2 個比特表示，所以要左移 2 位；
一個新的字符 ch 進入窗口：x = x | bin[ch]，這里 bin[ch] 為字符 ch 的對應二進制；
窗口最左邊的字符離開窗口：x = x & ((1 << 20) - 1)，由于我們只考慮 x 的低 20 位比特，需要將其余位置零，即與上 (1 << 20) - 1。

const L = 10
var bin = map[byte]int{'A': 0, 'C': 1, 'G': 2, 'T': 3}
func findRepeatedDnaSequences(s string) (ans []string) {
    n := len(s)
    if n <= L {
        return
    }
    x := 0
    for _, ch := range s[:L-1] {
        x = x<<2 | bin[byte(ch)]
    }
    cnt := map[int]int{}
    for i := 0; i <= n-L; i++ {
        x = (x<<2 | bin[s[i+L-1]]) & (1<<(L*2) - 1)
        cnt[x]++
        if cnt[x] == 2 {
            ans = append(ans, s[i:i+L])
        }
    }
    return ans
}

以上就是Go Java算法重復的DNA序列詳解的詳細內容，更多關于Go Java算法重復DNA序列的資料請關注腳本之家其它相關文章！

您可能感興趣的文章: