人機介面 Character Recognition 文字辨識

人機介面Character Recognition

文字辨識

人機介面Character Recognition

文字辨識開課單位授課教師

文字辨識處理項目文字辨識處理項目種類–印刷體–手寫體方法–線上立即辨識–非即時辨識

印刷體印刷體透過電腦等數位產品產生的字型優點–同種字型有一定的規律–較工整、美觀缺點–種類過多–需有特定工具，便利性不足

手寫體手寫體經由手使用滑鼠、繪圖筆、文具等方式產生的文字優點–可自行變化–有筆就可產生缺點–文字位置及大小較不固定–寫法不同造成辨識困難

線上立即辨識線上立即辨識通常用於手機或平板電腦上為邊寫邊辨識優點–輸入直覺，符合平日習慣–每筆畫皆會判斷一次–可利用的資訊較多，辨識容易缺點–需在特定區域輸入–一次僅能輸入一個字

非即時辨識非即時辨識通常用於手機或電腦等具有相機功能的裝置上，非邊寫邊辨識優點–隨拍即用–一次辨識很多字–可擴充多種應用缺點–準確率較低–必須有裝置搭配

文字辨識系統分類文字辨識系統分類光學文字辨識系統 (Optical Character

Recognition)–處理掃描後文件資料的圖檔，對圖檔上的印刷體、手寫體等進行辨識並分析文件內容的系統智慧型字元辨識系統 (Intelligent

Character Recognition)–針對手寫辨識，處理不同字型及書寫風格，此外在辨識時系統也會繼續學習已增加自己的準確率

應用實例概觀應用實例概觀由於線上立即辨識是記錄一筆一畫以及書寫的文字結構資訊，因此手寫體通常搭配線上立即辨識作為一套系統手寫體也會搭配非即時辨識，但由於字體較無完整結構比例，因此辨識難度會增加印刷體則搭配非即時辨識作為一套系統

應用實例 :n詞酷應用實例 :n詞酷屬於手寫體結合線上立即辨識類結合翻譯功能

應用實例 :iacces應用實例 :iacces

屬於手寫體結合線上立即辨識類應用於 iPhone,iPod touch,iPad

應用實例 :World dictionary應用實例 :World dictionary屬於印刷體結合非即時辨識類結合翻譯功能並立即顯示在畫面上可翻譯多種語言

應用實例 :Pleco應用實例 :Pleco

屬於印刷體結合非即時辨識類結合翻譯功能及字典功能

應用實例 :Orderfood應用實例 :Orderfood

屬於印刷體結合非即時辨識類應用於食物招牌辨識

應用實例 : 蒙恬名片王應用實例 : 蒙恬名片王屬於印刷體結合非即時辨識類有直接掃描名片及利用拍照分析等應用

光學文字辨識技術流程光學文字辨識技術流程

Image Input Preprocessing Segmentation

Feature ExtractionSystem Use Recognition

光學文字辨識技術解析光學文字辨識技術解析影像輸入 (Image Input)–利用手機相機拍攝或電腦視訊攝影機拍攝照片–或使用數位相機拍照後輸入

光學文字辨識技術解析光學文字辨識技術解析前處理 (Preprocessing)–進行文字區域的選擇–將來源影像非文字部分過濾，移除雜訊–常使用基本方法如 : 灰階後二質化、中值濾波等等

光學文字辨識技術解析光學文字辨識技術解析文字切割 (Segmentation)–將經過前處理後的文字影像句子分解成單一字的圖像

圖像輸入二值化後的圖像

單一字影像單一字影像

單一字影像

光學文字辨識技術解析光學文字辨識技術解析特徵值存取 (Feature Extraction)–對每一個單一字影像分別進行特徵值擷取–重要的計算資訊• 文字的架構、外型或像素的方向等

30°

光學文字辨識技術解析光學文字辨識技術解析文字辨識 (Recognition)–使用特徵值的結果作為分類依據–一般使用機器學習演算法• 線性分類器 (linear classifiers)，類神經網路

(neural networks)，支援向量機 (SVM)等等…• 不同的演算法會有不同的辨識率，需多嘗試

開發工具 : Tesseract OCR (一 )開發工具 : Tesseract OCR (一 )開放原始碼的光學文字辨識軟體支援 30種以上的文字 /語言能分析整頁文件資料，支援垂直書寫辨識輸入資料須為未經壓縮的標籤圖像文件格式圖檔 (TIFF)，背景必須是白色的，但文字則可以是任意色彩

開發工具 : Tesseract OCR (二 )開發工具 : Tesseract OCR (二 )分類原理 : 將字元的邊緣取多邊形逼近，並使用多邊形的水平軸位置、垂直軸位置、方向及長度四維向量作為其特徵值

開發工具 : Tesseract OCR (三 )開發工具 : Tesseract OCR (三 )辨識原理 : 利用先前所獲得的特徵值與已經建立好的文字模型進行比對已取得文字內容

開發工具 : Tesseract OCR(四 )開發工具 : Tesseract OCR(四 )成果範例

We‘ve already sorted through the specs, and laid our hands on its rather sexy frame, now Fujifilm'soffering up a more palatable price tag than we expected for its throwback X10 shooter. Startingsometime in early October, the X100's more affordable little brother will set nostalgic point-and-shooters back $599.99 — about $100 bones less than the estimated $715 to $860 ballpark we threw outback in September. If you'll recall, the X10 packs a 12 megapixel EXR CMOS sensor, f/2-2.8, 28-112mmmanual zoom lens, up to 12,800 ISO sensitivity, 1080p video, an optical viewfinder, and pop-up flash. Noword yet on a final release date. Full PR after the break.

ReferencesReferences

http://en.wikipedia.org/wiki/Optical_character_recognitionhttp://code.google.com/p/tesseract-ocr/

HuayuNavi: A Mobile Chinese Learning Application Based on Intelligent Character Recognition, Jen-Ho Kuo, Cheng-Ming Huang, Wen-Hung Liao and Chun-Chieh Huang, Proceedings of the 6th International Conference on E-Learning and Games (Edutainment 2011), Sep. 2011.

http://en.wikipedia.org/wiki/Optical_character_recognition

http://en.wikipedia.org/wiki/Optical_character_recognition

http://code.google.com/p/tesseract-ocr/

http://code.google.com/p/tesseract-ocr/

Documents

人機介面 Character Recognition 文字辨識