Introdução OCR

Preview:

DESCRIPTION

Introdução Básica sobre o OCR Optical Character Recognition

Citation preview

Universidade Lusíada de AngolaSistemas Multimídia

Tema: OCR (Optical Character Recognition)

Membros:● Lewis Gomes● Rui Pinto● Suely Nassola

Docente: Dr. Adjah da Cruz

O que é o OCR?

OCR, do inglês Optical Character Recognition Reconhecimento

Ótico de Caracteres), é um método aplicado de maneira a

permitir que o conteúdo escrito em um documento no formato

de imagem seja reconhecido e transformado em um arquivo de

texto editável.

De onde surgiu esse tal de

OCR?

Em 1950 David Shepard e Louis Tordela começaram a pesquisa do

procedimento para automação de dados e com ajuda de Harvey Cook

eles contruiram o “Gismo” o primeiro Software de OCR.

Em 1953 a IBM obteve uma licença

da IMR e desenvolveu um software

próprio classificando-o

como Optical Character

Recognition, tornando o termo OCR

um padrão na indústria para essa

tecnologia.

Qual tecnologia está por trás do OCR?

Existem dois principais Sistemas de OCR:

1 - Matriz de correspondência

Matriz de correspondência (também conhecido como correspondência de

padrões) associa o que o scanner percebe como um caracter com um

conjunto armazenado de padrões de bitmap ou contornos de caracteres.

Quando uma imagem corresponde a um destes

bitmaps selecionados dentro de um certo grau de semelhança, o programa

identifica esta imagem como o caractere de texto equivalente. Uma

desvantagem evidente deste sistema é que ele só pode ser usado para as

fontes e tamanhos em seu repertório.

2 - Extração de características

Extração de recurso também é conhecida como reconhecimento de

caracteres inteligente (ICR), ou análise de característica topológica. É um

tipo de reconhecimento óptico de caracteres que não dependem de

correspondência exata para definir modelos. O programa procura por

elementos comuns, como espaços abertos, formas fechadas, linhas -

diagonais que se interceptam e assim por diante.

Como Funciona?

Primeiro, o programa analisa a estrutura da imagem do documento. Ele

divide a página em elementos como blocos de texto, tabelas, imagens, etc.

As linhas são divididas em palavras e, então, em caracteres. Uma vez

separados os caracteres, o programa compara-os com um conjunto de

imagens padrão.

O segundo passo, consiste em comparar cada caracter com modelos de

fontes suportadas pelo OCR. Havendo uma certa percentagem de

coincidência, o caracter é reconhecido. Nos caracteres não reconhecidos,

é aplicado um segundo processo bem mais minucioso, que consiste em

analisar geometricamente cada caracter, calculando a altura, largura, e

combinações de retas, curvas e áreas em branco.

Novamente, é usada a lei da probabilidade: um caracter com uma curva em

forma de meia lua que continua na forma de uma reta, por exemplo, tem

uma grande chance de ser um "d" minúsculo por exemplo. Este segundo

processo é muito mais demorado, pois para cada letra é preciso gerar todo

um novo conjunto de caracteres gráficos.

Se mesmo com o exame minucioso, não for possível reconhecer o caracter,

o programa poderá utilizar um corretor ortográfico para corrigir erros

bobos, ou preencher espaços vazios.

Qual as Vantagens?

Já tentou digitar um texto de uma revista para poder reproduzir em

algum lugar? Se for um texto curto, de uma página recomendo que

coloque do lado e digite, nosso OCR original, de fábrica, chamado

cérebro é muito mais rápido do que qualquer outro dispositivo e

certamente vai fazer o trabalho em menos tempo. Ou seja, para textos

curtos não vale a pena. Mas imagine ter que digitar vários

textos, ou então um livro ou revista.

Ai já vale a pena usar o OCR pois

ele fará o trabalho repetitivo e seu

trabalho será apenas alimentar o

scanner ou outro dispositivo de

captura de imagens qualquer, como

uma câmara digital.

Qual as Desvantagens?

O resultado final depende de muitos parâmetros, há programas de OCR

que não reconhecem os acentos da língua portuguesa.

Múltiplas fontes no mesmo texto também causam problemas e

certamente o texto vai precisar de uma revisão antes de ser utilizado.

Não suporta todos idiomas nem todos os tipos de fontes.

Podes mencionar alguns Softwares

Existentes?

OCR Convert.OCR Terminal Beta.Online OCR.NewOCR.com.Free OCR to Word.ABBYY FineReader .

OCR é um tecnologia que vale apena usar, a poisar que raramente

pessoas não fazem uso deste recurso talvez por falta de

informação , é um software que pode se encontrar na net de graça

e em versões muita avançadas a que pagar uma certa quantia.

Conclusão

E onde foste pegar essas

informações?

http://interfaceinterativa.blogspot.com/2009/02/ocr-voce-sabe-o-que-e-isso.htmlhttp://www.tecmundo.com.br/google/8862-sistema-ocr-da-google-possui-suporte-a-34-idiomas.htmhttp://www.abbyy.com.br/ocr/http://www.ehow.com.br/funciona-ocr-como_5500/http://www.ibytes.com.br/scanner-le-e-converte-elementos-escuros-da-leitura-em-um-mapa-de-bits/

Imagenswww.Google.pt

Bibliografia

“A duvida é o Principio da Sabedoria”?