OCR funciona mejor con buena calidad de los documentos mecanografiados. Los documentos manuscritos que no se pueden leer fácilmente por el software de OCR. Del mismo modo , las fuentes escritas que se asemejan a la escritura -, así como fuentes no latinas - crean muchos errores durante el proceso de OCR. Si el documento se contraste pobre , está arrugado o sucio, o el texto y el fondo son similares en la oscuridad , entonces OCR no se ejecute bien . OCR tiene dificultad con los documentos que tienen ambas imágenes y texto . Las hojas de cálculo también se producen más errores .
Precisión
Ningún software OCR es 100 por ciento exacta . El número de errores depende de la calidad y el tipo de documento , incluyendo la fuente utilizada . Los errores que se producen durante el OCR incluyen cartas mala interpretación , saltando sobre las letras que son ilegibles , o mezclando el texto de las columnas adyacentes o pies de fotos . Si se requiere una alta precisión - como ocurre con la conversión de los libros digitales a formato electrónico - y luego una limpieza del texto electrónico se necesitarán
soluciones temporales
< br . >
OCR tiene dificultades para diferenciar entre los personajes , como el número cero y la letra mayúscula " O" Para evitar esto, una fuente especial OCR se puede utilizar , como escribir cero. Sin embargo, esto sólo funciona para los documentos creados con OCR en cuenta , tales como los cuestionarios . Al crear cuestionarios que serán escritos a mano , los investigadores también utilizan cajas para cada letra.
Trabajo adicional
Incluso si la imagen escaneada del documento original es alta calidad , medidas adicionales deben ocurrir para limpiar el texto OCR. Es muy mano de obra intensiva para corregir los errores creados por OCR . Una persona tiene que comparar manualmente el documento original y el texto electrónico . Las personas también cometen errores al escribir el texto de un documento, pero a veces es más rápido para saltar el paso OCR.