欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

PHP使用OCR技術實現(xiàn)識別圖片中的文字

 更新時間:2024年11月27日 11:05:48   作者:Student_Li  
OCR是一種通過圖像處理技術從圖片或掃描件中提取文字的技術,它可以將非結構化的圖片內容轉化為可編輯的文本,下面我們就來看看PHP如何OCR識別圖片中的文字

在日常開發(fā)中,我們常常會遇到需要從圖片中提取文字的需求,例如處理掃描件中的文字、驗證碼識別或者實現(xiàn)文檔數(shù)字化管理。OCR(Optical Character Recognition,光學字符識別)技術可以幫助我們快速完成這項任務。今天就來聊聊,如何在 PHP 中實現(xiàn) OCR 技術,從圖片中提取文字。

一、什么是OCR技術

OCR 是一種通過圖像處理技術從圖片或掃描件中提取文字的技術,它可以將非結構化的圖片內容轉化為可編輯的文本。這種技術廣泛應用于以下場景:

  • 證件掃描識別(如身份證、駕照等)
  • 文檔數(shù)字化存儲
  • 圖片驗證碼識別
  • 發(fā)票、票據(jù)處理

二、PHP如何實現(xiàn)OCR

盡管 PHP 本身并不提供原生的 OCR 支持,但可以通過以下幾種方式輕松實現(xiàn) OCR:

  • 使用開源 OCR 引擎,如 Tesseract-OCR。
  • 調用第三方 OCR 服務(如百度智能云、阿里云、騰訊云等)。

下面我們通過 Tesseract-OCR 和百度 OCR API 兩種方式,手把手教你實現(xiàn)圖片文字識別功能。

三、方法一:使用 Tesseract-OCR

1. 什么是 Tesseract-OCR

Tesseract 是 Google 提供的一個開源 OCR 引擎,它支持多種語言的文字識別,包括中文,且可以通過簡單的命令行或程序語言調用。

2. 環(huán)境準備

安裝 Tesseract

根據(jù)你的系統(tǒng)類型安裝 Tesseract:

Ubuntu/Linux

sudo apt update
sudo apt install tesseract-ocr
sudo apt install tesseract-ocr-chi-sim # 安裝中文語言包

MacOS

brew install tesseract
brew install tesseract-lang

Windows 前往 Tesseract 官方下載頁面 下載并安裝。

3. PHP與Tesseract集成

安裝 PHP 擴展

通過 Composer 安裝適配 Tesseract 的 PHP 庫,例如 thiagoalessio/tesseract_ocr

composer require thiagoalessio/tesseract_ocr

示例代碼

以下是一個簡單的圖片文字識別示例:

<?php
require 'vendor/autoload.php';

use thiagoalessio\TesseractOCR\TesseractOCR;

// 選擇圖片
$imagePath = 'test-image.png';

// 初始化 Tesseract
$ocr = new TesseractOCR($imagePath);

// 設置語言(中文)
$ocr->lang('chi_sim'); // 簡體中文
$result = $ocr->run();

echo "識別結果:\n";
echo $result;

運行后,如果 test-image.png 中包含文字,Tesseract 將會提取并輸出文本內容。

四、方法二:調用百度OCR API

如果你希望更快速、更精準的識別效果,使用云服務是個不錯的選擇。這里以 百度智能云 OCR 為例。

1. 注冊百度智能云

  • 訪問 百度智能云 OCR 服務。
  • 注冊賬號并創(chuàng)建應用,獲取 API KeySecret Key。

2. 安裝 HTTP 請求庫

推薦使用 Guzzle 發(fā)送 HTTP 請求。安裝方式如下:

composer require guzzlehttp/guzzle

3. 獲取 Access Token

百度 API 的訪問需要使用 Access Token。以下是獲取 Token 的代碼:

<?php
require 'vendor/autoload.php';

use GuzzleHttp\Client;

function getAccessToken($apiKey, $secretKey) {
    $client = new Client();
    $response = $client->post('https://aip.baidubce.com/oauth/2.0/token', [
        'form_params' => [
            'grant_type' => 'client_credentials',
            'client_id' => $apiKey,
            'client_secret' => $secretKey,
        ]
    ]);

    $data = json_decode($response->getBody(), true);
    return $data['access_token'] ?? null;
}

$apiKey = '你的API Key';
$secretKey = '你的Secret Key';

$token = getAccessToken($apiKey, $secretKey);
echo "Access Token: $token\n";

4. 調用百度 OCR 接口

使用獲得的 Token 調用 OCR 接口,完成圖片文字識別:

<?php
require 'vendor/autoload.php';

use GuzzleHttp\Client;

function recognizeText($imagePath, $accessToken) {
    $client = new Client();

    // 讀取圖片并進行 Base64 編碼
    $imageData = base64_encode(file_get_contents($imagePath));

    $response = $client->post('https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic', [
        'headers' => [
            'Content-Type' => 'application/x-www-form-urlencoded',
        ],
        'query' => [
            'access_token' => $accessToken,
        ],
        'form_params' => [
            'image' => $imageData,
        ],
    ]);

    $data = json_decode($response->getBody(), true);
    return $data['words_result'] ?? [];
}

$imagePath = 'test-image.png';
$accessToken = '你的Access Token';

$result = recognizeText($imagePath, $accessToken);

echo "識別結果:\n";
foreach ($result as $item) {
    echo $item['words'] . "\n";
}

五、比較兩種方案

特點Tesseract-OCR百度智能云 OCR
適用場景本地離線識別在線云服務,支持大規(guī)模處理
語言支持多語言(需安裝對應語言包)多語言自動識別
識別精度精度一般,取決于圖片質量精度高,適合復雜場景
復雜度安裝配置簡單需聯(lián)網(wǎng),稍復雜
費用免費部分功能收費

六、總結

通過以上兩種方案,PHP 開發(fā)者可以輕松實現(xiàn) OCR 技術在項目中的應用:

  • 對于小型、本地化需求,Tesseract 是一個不錯的選擇。
  • 對于需要高精度、多功能的場景,云服務(如百度智能云 OCR)更為合適。

到此這篇關于PHP使用OCR技術實現(xiàn)識別圖片中的文字的文章就介紹到這了,更多相關PHP OCR識別圖片文字內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

最新評論