【軟件介紹】
Tesseract OCR據說曾經的圖像識別能力排名第三,可以識別多種格式的圖像文件并將其轉換成文本,目前已支持60多種語言(包括中文)。 Tesseract OCR最初由HP公司開發,后來由Google維護,目前發布在Googel Project上。
【使用說明】
下載完后進行安裝,默認情況下安裝程序會給你配置系統環境變量,以指向安裝目錄(之后可以通過DOS界面在任意目錄運行tesseract)。安裝完成后目錄如下:
Tesseract目錄存放的是語言字庫文件,和在命令行界面中可能用到的參數所對應的文件。 這個安裝程序默認包含了英文字庫。
使用Tessract-OCR引擎識別驗證碼
打開DOS界面,輸入tesseract:
如果出現如上輸出,表示安裝正常。
我準備了一張驗證碼code.jpg放在D盤根目錄下
結果為: