網友評分: 5分
尚書7號ocr文字識別系統完全版是一款功能強大的OCR識別工具,該軟件能夠掃描書籍、報刊雜志、報盤票據、公文檔案等資料,并且將他們識別成文字或表格,能夠把圖片文字轉化可以更改的文字,并將其用于Word的編輯。
1、識別字符簡體字符集:國標GB2312-80的全部一、二級漢字6800多個。
2、純英文字符集。
3、簡繁字集:除了簡體漢字外,還可以混識臺灣繁體字5400多個以及香港繁體字和GBK漢字。
4、識別字體種類能識別宋體、仿宋、楷、黑、魏碑、隸書、圓體、行楷等一百多種字體,并支持多種字體混排。
5、識別字號初號 小六號字體。
6、表格識別可以自動判斷、拆分、識別和還原各種通用型印刷體表格。
7、可支持繁體WINDOWS系統。
1、如果用戶從光盤上復制圖像及數據進行進行處理,務必先將這些文件的只讀屬性去掉。
2、處理純英文文檔時,識別語言選項設定為“簡體”、“簡繁”、“英文”都可以,但設定為“英文”識別效果最好;當處理含有繁體字的文檔時,語言選項應設定為“簡繁”。
3、如果表格結構因為斷線而識別錯誤,可以先用工具按鈕中的畫筆在圖像上彌補斷線再重新版面分析
【識別效果不佳的原因】
1、掃描設置不當,掃描圖像時的掃描分辨率(Resolution)一般應設為300dpi,如果文檔字體較小則需要將掃描分辨率設定為更高值如400dpi或600dpi??s放比例(Scaling)設為100%,亮度閥值(Threshold,Brightness)需根據紙張和印刷的質量調節,避免掃描圖像過黑或過淡 。
2、如自動版面分析有錯誤,這時請用戶用鼠標自己劃分出正確的版面塊;版面塊的版式設置錯誤,如將橫版的設置為豎版,豎版的設置為橫版等,這時請用戶自行將塊的版式修改正確。
3、原稿印刷質量太差,筆畫斷裂嚴重、油墨太濃、字與字之間粘連嚴重等也可能使識別率顯著降低。
4、識別語言選項選擇不當,應根據原稿正確選擇“簡體”、“簡繁”或“英文”