? Riconoscimento ottico dei caratteri ( OCR ) è una tecnica di inserimento dati che utilizza un tipo di carattere specifico e uno scanner OCR per leggere il set di caratteri e inviarlo al tuo computer. L'American National Standards Institute , o ANSI , definisce il tipo di font come un insieme di caratteri 0-9 , da A a Z , e alcuni caratteri speciali , ciascuna contenente una dimensione e una forma definita . Font OCR sono riproducibili , e gli esseri umani e gli scanner OCR in grado di leggere e di distinguerli . Categorie
scanner OCR sono o l'immissione di testo o scanner di acquisizione dei dati. Scanner di input testo letto l'intero documento , o almeno grandi porzioni di esso. L'inserimento dei dati può essere ad alimentazione manuale o lo scanner può avere l'alimentazione automatica dei dati , la lettura , la cernita e accatastamento capacità. Quando si utilizza uno scanner per l'immissione di testo , la modifica ha luogo durante o dopo la scansione . Data Capture scanner cattura e formattare i dati durante il processo di scansione , e nessuna modifica umana dei dati avvengono . A causa di questo , gli scanner di acquisizione dati deve essere più accurata .
Tipi
tipi di scanner
possono essere fissi o portatili . Scanner fissi, come piano , a foglio e scanner a tamburo usano principalmente l'immissione di testo da leggere , di processo e le immagini memorizzare i dati sul computer , dove è possibile modificare o altrimenti formattare il testo catturato . Scanner portatili , come ad esempio penne digitali o scanner di codici a barre , utilizzare l'immissione di testo o Data Capture di leggere ed elaborare le informazioni di dati e poi conservarlo per un successivo editing , o dati "LOCK" per impedire la modifica.
Metodi
in breve , uno scanner OCR prende una foto del documento, quindi il software dello scanner OCR esamina il font OCR l'immagine contiene , e quindi legge e lo converte in testo utilizzando un abbinamento Matrix o metodo Feature Extraction . Matrix Matching è una forma di pattern matching , dove lo scanner guarda un carattere e corrisponde a uno nella sua libreria di caratteri o modelli dei personaggi . Feature Extraction non si basa su una libreria predefinita , ma su caratteristiche generali come zone aperte , forme chiuse e linee si intersecano quando decifrare caratteri. Feature Extraction va anche con il nome di Intelligent Character Recognition , o ICR .
Vantaggi
Il vantaggio più significativo di utilizzare uno scanner OCR è l'eliminazione di errori di immissione dei dati umani . OCR scanner di lettura dei dati a velocità che possono raggiungere più di 200 caratteri al secondo . Il tasso di accuratezza di uno scanner OCR è 99,9975 per cento , o un carattere misread a 40.000 , rispetto a un tasso di errore di lettura di un umano in 300 caratteri. Sistema di check convalida cifra può portare il tasso di accuratezza OCR per meno di uno su 3.000.000 .
Considerazioni
originali di scarsa qualità si tradurrà in documenti OCR meno accurati . Documenti scritti a mano , i documenti contenenti testo con stile , vecchi documenti , fotocopie e documenti più inviati via fax non funzionano bene con gli scanner OCR . Raccomandazioni per i documenti accettabili includono testo stampato in caratteri meno di 72 punti, laser e getto d'inchiostro della stampante di testo , documenti fax con 200 punti per pollice ( dpi) o maggiore risoluzione e materiali stampati in commercio come libri , opuscoli e riviste.