OCR(Optical Character Recognition)是光學文字辨識的縮寫,透過光學輸入的技術掃描印刷上的文字轉化為圖像,並利用識別技術把圖像中的文字轉換成文本格式。人工智能的應用除了上一篇提及過的語音辨識、影像辨識及自然語言處理外,OCR的智能文字識別亦在社會上廣泛地使用。
OCR的工作步驟能簡單分為五個部分:
影像輸入
OCR是通過各種具光學設備的攝像器材將紙質文檔中的文字轉化為圖像信息。掃描的解像度越高,便對文字識別工作越有利。
影像預處理
由於紙張的印刷質量和掃描儀本身都可能影響文件影像的清晰度,所以在進行文字識別之前,要先清除圖片上的污點。而處理圖像的方法包括版面分析、行字切分、圖像降噪、文字特徵提取等等,來提高OCR的準確性及有效性。
比對識別
OCR的軟體有一套文字的數據庫,當提取文字特徵後,將其特徵與數據庫進行比對識別,然後找出合乎邏輯並且最接近的文字。
字詞校正
現時OCR文字識別軟件的準確率未能達到百分之百,仍需要後期更正。除了運用比對識別作更正外,人工校正亦同樣重要,通過對照原始圖像校正,替換或修改有誤的文字。
輸出結果
最後OCR將識別結果輸出為需要的格式如txt、doc、exl等進行保存。
參考資料 : 什麼是OCR?