網友評分: 8.7分
尚書七號ocr是一款簡單易用、功能強大的ocr文字識別軟件,它能夠滿足用戶對書籍、報刊雜志、報表票據、公文檔案等信息、資料的高速錄入需求。尚書七號能夠幫助用戶高效率地將信息資料轉化成電子文檔以便于管理,并且可以更加方便地應用到其他項目。
軟件界面簡潔,操作簡單
識別純英文字符集
可識別簡體字符集,包括國標GB2312-80的全部一、二級漢字6800多個
可混識臺灣繁體字5400多個以及香港繁體字和GBK漢字
識別宋體、仿宋、楷、黑、魏碑、隸書、圓體、行楷等一百多種字體,而且支持多種字體混排
可識別初號、小六號字體
可以自動判斷、拆分、識別和還原各種通用型印刷體表格
可支持繁體WINDOWS系統
打開軟件程序
選擇安裝的地址(一定不要放在系統盤里哦),然后點擊下一步
請耐心等待
完成后請按自己喜歡選擇即可使用
用掃描儀掃描的文字圖像,不能對個別文字進行編輯修改,在教學中,需要利用文字識別軟件,將文字圖像進行識別,將圖像格式轉化成文本格式,常見的文字識別軟件有很多,主要功能基本相同,尚書七號就是其中很優秀的一款。用尚書七號對文字圖像識別轉化的過程,利用其主菜單:“文件”、“編輯”、“識別”、“輸出”可以很方便地完成。具體步驟為:
步驟1:獲取文字圖像文件
選擇“文件”菜單下的“掃描”或“打開圖像”(將已經掃描好的圖像文件打開)命令,打開圖像文件。如果連接了多臺掃描儀,可以選擇“文件”菜單下的“選擇掃描儀”命令,調用掃描儀。
步驟2:對掃描的圖像頁進行調整
選擇“編輯”菜單下“圖像頁面的處理”子菜單下的“圖像頁的傾斜校正”(提供自動和手動實現方法)及“旋轉”等命令,將掃描的圖像頁進行調整。
步驟3:版面分析與文字識別轉化
版面分析,選擇識別范圍,在進行文字識別前要選擇識別范圍,識別過程的核心是“版面分析”。
尚書七號的自動版面分析功能很強,對報紙雜志等復雜的版面,也能保持很高的分析正確率。
設置好后,直接點擊“開始識別”的按鈕就可以進行文字識別了。
步驟4:校對修改
自動識別完畢,識別結果的“文本窗口”會彈出,這個窗口能夠提供識別結果的校對,為了校對方便,尚書七號增加了光標跟隨顯示原圖像行的校對方法(如圖3出現的黃色提示行的出現)。
提供的校對方法,一眼就能夠看到圖像原文和識別出文本的差別,如果發現識別有誤,可以進行修改。
步驟5:輸出
如果檢查修改后確認無誤,選擇識別結果的“輸出”菜單,輸出的文件格式有:RTF、HTML、XLS、22238,可以根據自己的需要選擇對應的格式。如果用戶想得到類似原文的識別結果,請選擇RTF格式。把RTF格式輸出的文件用WORD打開后,會發現幾乎保留了原文的所有痕跡,包括原來頁面中的彩色圖像,都已經保留在WORD中了。
識別效果不佳的主要原因:
1、掃描設置不當,掃描圖像時的掃描分辨率(Resolution)一般應設為300dpi,如果文檔字體較小則需要將掃描分辨率設定為更高值如400dpi或600dpi??s放比例(Scaling)設為100%,亮度閥值(Threshold,Brightness)需根據紙張和印刷的質量調節,避免掃描圖像過黑或過淡 。
2、如自動版面分析有錯誤,這時請用戶用鼠標自己劃分出正確的版面塊;版面塊的版式設置錯誤,如將橫版的設置為豎版,豎版的設置為橫版等,這時請用戶自行將塊的版式修改正確。
3、原稿印刷質量太差,筆畫斷裂嚴重、油墨太濃、字與字之間粘連嚴重等也可能使識別率顯著降低。
4、識別語言選項選擇不當,應根據原稿正確選擇“簡體”、“簡繁”或“英文”。