欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

PHP實現Huffman編碼/解碼的示例代碼

 更新時間:2018年04月20日 14:25:23   作者:切糕糕  
本篇文章主要介紹了PHP實現Huffman編碼/解碼的示例代碼,小編覺得挺不錯的,現在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧

Huffman 編碼是一種數據壓縮算法。我們常用的 zip 壓縮,其核心就是 Huffman 編碼,還有在 HTTP/2 中,Huffman 編碼被用于 HTTP 頭部的壓縮。

本文就來用 PHP 來實踐一下 Huffman 編碼和解碼。

1. 編碼

字數統計

Huffman編碼的第一步就是要統計文檔中每個字符出現的次數,PHP的內置函數 count_chars() 就可以做到:

$input = file_get_contents('input.txt');
$stat = count_chars($input, 1);

構造Huffman樹

接下來根據統計結果構造Huffman樹,構造方法在 Wikipedia 有詳細的描述。這里用PHP寫了一個簡易版的:

$huffmanTree = [];
foreach ($stat as $char => $count) {
  $huffmanTree[] = [
    'k' => chr($char),
    'v' => $count,
    'left' => null,
    'right' => null,
  ];
}

// 構造樹的層級關系,思想見wiki:https://zh.wikipedia.org/wiki/%E9%9C%8D%E5%A4%AB%E6%9B%BC%E7%BC%96%E7%A0%81
$size = count($huffmanTree);
for ($i = 0; $i !== $size - 1; $i++) {
  uasort($huffmanTree, function ($a, $b) {
    if ($a['v'] === $b['v']) {
      return 0;
    }
    return $a['v'] < $b['v'] ? -1 : 1;
  });
  $a = array_shift($huffmanTree);
  $b = array_shift($huffmanTree);
  $huffmanTree[] = [
    'v' => $a['v'] + $b['v'],
    'left' => $b,
    'right' => $a,
  ];
}
$root = current($huffmanTree);

經過計算之后,$root 就會指向 Huffman 樹的根節(jié)點

根據Huffman樹生成編碼字典

有了 Huffman 樹,就可以生成用于編碼的字典:

function buildDict($elem, $code = '', &$dict) {
  if (isset($elem['k'])) {
    $dict[$elem['k']] = $code;
  } else {
    buildDict($elem['left'], $code.'0', $dict);
    buildDict($elem['right'], $code.'1', $dict);
  }
}
$dict = [];
buildDict($root, '', $dict);

寫文件

運用字典將文件內容進行編碼,并寫入文件。將Huffman編碼寫入文件的有幾個注意的地方:

將編碼字典和編碼內容一起寫入文件后,就沒法區(qū)分他們的邊界了,因此需要在文件開始寫入他們各自占用的字節(jié)數

PHP提供的 fwrite() 函數一次能寫入 8-bit(一個字節(jié))或者是 8的整數倍個bit。但Huffman編碼中,一個字符可能只使用 1-bit 表示,PHP不支持只往文件中寫入 1-bit 這種操作。所以需要我們自行對編碼進行拼接,每湊齊 8-bit 才寫入文件。

每湊齊8-bit才寫入

與第二條類似,最終形成的文件大小一定是 8-bit 的整數倍。所以如果整個編碼的大小是 8001-bit的話,還要在末尾補上 7個 0

$dictString = serialize($dict);
// 寫入字典和編碼各自占用的字節(jié)數
$header = pack('VV', strlen($dictString), strlen($input));
fwrite($outFile, $header);
// 寫入字典本身
fwrite($outFile, $dictString);

// 寫入編碼的內容
$buffer = '';
$i = 0;
while (isset($input[$i])) {
  $buffer .= $dict[$input[$i]];
  while (isset($buffer[7])) {
    $char = bindec(substr($buffer, 0, 8));
    fwrite($outFile, chr($char));
    $buffer = substr($buffer, 8);
  }
  $i++;
}
// 末尾的內容如果沒有湊齊 8-bit,需要自行補齊
if (!empty($buffer)) {
  $char = bindec(str_pad($buffer, 8, '0'));
  fwrite($outFile, chr($char));
}
fclose($outFile);

解碼

Huffman編碼的解碼相對簡單:先讀取編碼字典,然后根據字典解碼出原始字符。

解碼過程有個問題需要注意:由于我們在編碼過程中,在文件末尾補齊了幾個0-bit,如果這些 0-bit 在字典中恰巧是某個字符的編碼時,就會造成錯誤的解碼。

所以解碼過程中,當已解碼的字符數達到文檔長度時,就要停止解碼。

<?php
$content = file_get_contents('a.out');

// 讀出字典長度和編碼內容長度
$header = unpack('VdictLen/VcontentLen', $content);
$dict = unserialize(substr($content, 8, $header['dictLen']));
$dict = array_flip($dict);

$bin = substr($content, 8 + $header['dictLen']);
$output = '';
$key = '';
$decodedLen = 0;
$i = 0;
while (isset($bin[$i]) && $decodedLen !== $header['contentLen']) {
  $bits = decbin(ord($bin[$i]));
  $bits = str_pad($bits, 8, '0', STR_PAD_LEFT);
  for ($j = 0; $j !== 8; $j++) {
    // 每拼接上 1-bit,就去與字典比對是否能解碼出字符
    $key .= $bits[$j];
    if (isset($dict[$key])) {
      $output .= $dict[$key];
      $key = '';
      $decodedLen++;
      if ($decodedLen === $header['contentLen']) {
        break;
      }
    }
  }
  $i++;
}
echo $output;

試驗

我們將Huffman編碼Wiki頁 的HTML代碼保存到本地,進行Huffman編碼測試,試驗結果:

編碼前: 418,504 字節(jié)

編碼后: 280,127 字節(jié)

空間節(jié)省了 33%,如果原文的重復內容較多,Huffman編碼節(jié)省的空間可以達到 50% 以上.

除了文本內容,我們再嘗試將一個二進制文件進行Huffman編碼,比如 f.lux的安裝程序 ,試驗結果如下:

編碼前: 770,384 字節(jié)

編碼后: 773,076 字節(jié)

編碼后反而占用了更大的空間,一方面是由于我們存儲字典時,并沒有做額外的處理,占用了不少空間。另一方面,二進制文件中,各個字符出現的概率相對比較平均,無法發(fā)揮Huffman編碼的優(yōu)勢。

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。

相關文章

  • PHP如何批量修改二維數組中值(五種方案)

    PHP如何批量修改二維數組中值(五種方案)

    這篇文章主要介紹了PHP如何批量修改二維數組中值,本文給大家分享五種解決方案,結合實例代碼給大家介紹的非常詳細,需要的朋友參考下吧
    2023-10-10
  • php生成二維碼不保存服務器還有下載功能的實現代碼

    php生成二維碼不保存服務器還有下載功能的實現代碼

    這篇文章主要介紹了php生成二維碼不保存服務器還有下載功能的實現代碼,非常不錯,具有一定的參考借鑒價值,需要的朋友可以參考下
    2018-08-08
  • 用PHP做了一個領取優(yōu)惠券活動的示例代碼

    用PHP做了一個領取優(yōu)惠券活動的示例代碼

    這篇文章主要介紹了用PHP做了一個領取優(yōu)惠券活動的示例代碼,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2019-07-07
  • CodeIgniter輸出中文亂碼的兩種解決辦法

    CodeIgniter輸出中文亂碼的兩種解決辦法

    在controller直接echo的時候,某些瀏覽器會出現亂碼的情況。這篇文章主要介紹了CodeIgniter輸出中文亂碼的兩種解決辦法,需要的朋友可以參考下
    2014-06-06
  • tp5框架無刷新分頁實現方法分析

    tp5框架無刷新分頁實現方法分析

    這篇文章主要介紹了tp5框架無刷新分頁實現方法,結合實例形式分析了thinkPHP5框架無刷新分頁相關原理、實現步驟與操作注意事項,需要的朋友可以參考下
    2019-09-09
  • PHP如何使用Memcached

    PHP如何使用Memcached

    memcached是高性能的分布式內存緩存服務器。一般的使用目的是,通過緩存數據庫查詢結果,減少數據庫訪問次數,以提高動態(tài)Web應用的速度、提高可擴展性。本文給大家介紹PHP如何使用Memcached,感興趣的朋友一起學習吧
    2016-04-04
  • php制作的簡單驗證碼識別代碼

    php制作的簡單驗證碼識別代碼

    近期研究一些突破驗證碼方面的知識,記錄下來。一方面算是對這幾天學習知識的總結幫助自己理解;另一方面希望對研究這方面的技術同學有所幫助;另外也希望引起網站管理者的注意,在提供驗證碼時多些考慮進去。由于剛剛接觸這方面的知識,理解比較淺顯,有錯誤再所難免
    2016-01-01
  • Yii框架操作cookie與session的方法實例詳解

    Yii框架操作cookie與session的方法實例詳解

    這篇文章主要介紹了Yii框架操作cookie與session的方法,結合實例形式詳細分析了Yii針對cookie與session操作的常用方法及相關注意事項,需要的朋友可以參考下
    2019-09-09
  • 簡述PHP7.4 新特性和廢棄的功能

    簡述PHP7.4 新特性和廢棄的功能

    這篇文章主要介紹了簡述PHP7.4 新特性和廢棄的功能,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2019-12-12
  • PHP寫微信公眾號文章頁采集方法

    PHP寫微信公眾號文章頁采集方法

    給大家分析一下如何用PHP寫出采集微信公眾號文章的方法以及代碼詳細講解,需要的朋友學習一下。
    2017-12-12

最新評論