Según Thomas Breuel, director del proyecto y profesor de Ingeniería Informática en la Technical University of Kaiserslautern (Alemania) y máximo responsable del grupo de investigación Image Understanding and Pattern Recognition que depende del German Research Center for Artificial Intelligence, “el objetivo es avanzar en el estado de la técnica del reconocimiento óptico y tecnologías relacionadas, y proveer un OCR de alta calidad adecuado para la conversión de documentos, bibliotecas electrónicas, usuarios con dificultades de visión, análisis de documentos históricos y uso general”.
Su desarrollo, que se calcula que durará por lo menos tres años, se basará en parte en el OCR Tesseract desarrollado por HP y que Google (por supuesto)liberó hace unos meses.
El equipo de desarrollo pretende que este OCR pueda trabajar con textos escritos en el mayor número de idiomas posible. El hecho de que OCRopus genere archivos HTML es una ventaja en este sentido puesto que existe la posibilidad al menos teórica de reproducir muchos idiomas de forma estándar.
Además será capaz de reconocer SPAM basado en imágenes. ¿Qué quiere decir esto último exactamente? No tenemos la menor idea, pero no nos van a negar que no suena interesante, no?
más info