Reconnaissance optique de caractères (ROC)

Ceci est une ancienne révision du document !

La reconnaissance optique de caractères (ROC), ou encore appelé vidéo-codage (traitement postal, chèque bancaire) désigne les procédés informatiques pour la traduction d'images de textes imprimés ou dactylographiés en fichiers de texte.

Il existe plusieurs logiciels sous GNU/Linux spécialement dédiés, et il est aussi possible d'employer les logiciels existants sous Windows via Wine.

Pour le moment, la ROC (ou OCR) n'est pas un des domaines les plus avancés sous GNU/Linux : jusqu'en 2006, les résultats étaient même en général totalement inutilisables. Cependant, les choses ont évolué rapidement en 2007 et 2008 avec tesseract et le projet Ocropus. Voici un petit guide des différentes solutions possibles avec leurs avantages, leurs inconvénients et des liens pour vous en servir.

Voir également :

Les solutions de Gestion Électronique des Documents (GED)

gocr

http://jocr.sourceforge.net/

les plus :
1. empaqueté pour ubuntu (installation de gocr) ;
2. reconnaît les png ;
3. aide correcte ;
4. facile à utiliser ;
5. interface graphique: gocr-gtk.
6. la reconnaissance optique est fonctionnelle sur des fichiers images pour lesquelles tesseract ne donne aucun résultat. Par exemple une capture d'écran en mode console réalisée avec fbgrab.
les moins :
1. le résultat est loin d'être idéal.

OCRopus

OCRopus (page détaillée) : ROC avec prise en compte de la mise en page (en développement). Initialement OCRopus utilisait le moteur tesseract, mais ce n'est plus le cas depuis 2009 ¹⁾

Site officiel : https://code.google.com/p/ocropus/

tesseract-ocr

Voir la page tesseract-ocr pour plus d'informations sur l'installation et l'utilisation

les plus :
1. empaqueté pour ubuntu (installation de tesseract-ocr) ;
2. très bonne performance si l'image est bonne ;
3. gère plusieurs langues dont le français (avec les accents) dans les versions 2 ou postérieures (paquets disponibles dans Universe) ;
4. possibilité de lui apprendre un nouveau jeu de caractères dans sa dernière version ;
5. gestion de plusieurs jeux de caractères simultanés ;
6. peut être utilisé dans les interfaces graphiques XSane (via les adaptateurs xsane2tess ou ocube) et gscan2pdf, disponibles sous Hardy et suivants.

les moins :
1. ne gère pas les colonnes multiples ; à vérifier (information obsolète ?)
2. problème de compilation sur certaines plateformes (fedora core 6) ;
3. n'accepte pas beaucoup de formats d'image (il existe un script de conversion, voir plus bas) ;
4. piètres performances sur les documents en échelles de gris et en couleur.

Moteurs dont le développement est arrêté

cuneiform

Projet mort depuis 2011.

cuneiform (en russe, ou en anglais) est un ocr multiplateforme, qui supporte 20 langues, dont le français. Pour les textes en français et les images propres et lisibles, il donne des résultats corrects. De plus, il semble être le seul à supporter (de façon basique) la mise en forme du texte. Ainsi, il reconnaît les textes soulignés, gras, en italique, et les images. Le texte qu'il ne réussit pas à traiter est également importé sous forme d'image. Il supporte les fichiers images en bmp, png, tiff, Il peut exporter en format texte, html, rtf (mais j'ai obtenu de piètres résultats pour ce format), et d'autres.

Le projet est en attente de nouveaux développeurs depuis mai 2011 ²⁾. Le projet dispose toujours d'une page Launchpad qui héberge le code et est maintenue.

Voir la documentation en allemand où on trouve un fichier de commande pour xsane du genre de celui de tesseract.

les plus :
1. empaqueté pour ubuntu (installation de cuneiform) ;
les moins :
1. ?

il est aussi possible de lancer cuneiform sur un fichier image par l'intermediaire d'un nautilus-script tel que celui-ci :

#!/bin/sh

printf %s "$NAUTILUS_SCRIPT_SELECTED_FILE_PATHS" | 
while read -r arg
do
	convert -colorspace GRAY $arg tmp.tiff
	cuneiform -l fra -f rtf -o $arg.rtf tmp.tiff
	rm tmp.tiff
done

Ocrad

Ocrad est un élement du projet GNU. Son développement semble arrêté (ou très ralenti) depuis 2011.

les plus :
1. empaqueté pour ubuntu (installation de ocrad) ;
2. présence d'une aide.
les moins :
1. résultat très médiocre et non utilisable.
  ( à vérifier, car on obtient de bons résultats avec Kooka utilisant ocrad : voir ci-dessous)

Il n'existe aucune interface utilisateur pour faire de la relecture d'OCR dans de bonnes conditions.

xsane

xsane (page détaillée) est une interface graphique pour scanner, qui utilise gocr ou tesseract ou cuneiform. Elle est présente dans les dépôts, mais n'est plus maintenue depuis fin 2010.

xsane mode d'emploi

Testé sous Hardy, Intrepid, Jaunty, Lucid (avec cunéiform), Oneiric

Pré-requis

Avoir installé l'un des paquets gocr ou cuneiform
ou pour utiliser le moteur de ROC tesseract avec XSane, suivre les indications de la page xsane2tess.

Méthode

Choisir son moteur d'OCR : ouvrir Xsane et dans Préférence → Configuration → OCR il faut, dans la commande OCR, remplacer gocr par :
- pour gocr avec la reconnaissance des caractères accentués
```
gocr -f UTF8
```
- pour tesseract
```
xsane2tess  -l  fra'
```
- pour cuneiform
```
cuneiform -l fra'
```
dans XSane : Applications → Images → Scanneur d'images XSane ;
dans la zone à droite de la cible, sélectionner "Enregistrer" ;
dans "Type", sélectionner "TEXT" ;
dans le sélecteur couleur ou N/B, sélectionner "Gris" ou "Noir/Blanc ou Trait" (à tester selon le document à scanner).

et en-dessous, sélectionner la résolution qui convient (pour obtenir les meilleurs résultats, les avis divergent entre 300 et 600 ppi ; un test fait sur des textes écrits en polices 10 et 12 Arial, Times New Roman et Courier 10 Pitch donne les meilleurs résultats en 300 ppi).


Captures d'écran réalisées avec Xsane 0.97 sous Dapper. La disposition des divers éléments diffère légèrement avec les versions suivantes de Xsane sous Hardy, Intrepid et Jaunty, mais le principe est le même.

Ensuite :

dans la fenêtre "Aperçu", cliquer sur "Acquisition de l'aperçu" ;
recadrer sur la zone de texte à scanner ;
XSane va enregistrer le résultat dans un fichier texte, par défaut sur votre bureau ou dans "home/votre_identité" (selon les versions de Xsane). Il est possible de choisir le dossier d'enregistrement du fichier texte en indiquant le chemin dans la zone de saisie située à côté de l'icône "disquette". On peut aussi nommer le fichier. Par exemple en remplaçant "out.txt" des captures d'écran ci-dessus par "/home/votre_identité/essai_ocr_1.txt" ;
cliquer sur "numériser" et attendre le "transfert de l'image" ;
copier-coller le contenu du fichier texte dans un fichier ouvert avec un traitement de texte (OOo Writer ou autre) ;
terminer le traitement "à la main" en utilisant le correcteur orthographique du logiciel de traitement de texte.

cuneiform est le moteur (voir plus haut), paramétré sous xsane qui a donné les meilleurs résultats, reconnaissance optique presque parfaite, avec une détection excellente des colonnes.

gscan2pdf

Interface graphique permettant notamment de réaliser de la Reconnaissance Optique de Caractères avec les moteurs gocr et tesseract. Son développement dynamique lui permet d'intégrer les outils les plus performants sous GNU/Linux, dont bientôt OCRopus.

gscan2pdf est présent dans les dépôts.

Voir chapitre utilisation de la page détaillée gscan2pdf.

OCRFeeder

Il est présent dans les dépôts (Ubuntu Precise 12.04 LTS).

Interface graphique simple, permettant de choisir entre plusieurs moteurs : par défaut installe tesseract, fonctionne aussi avec gocr, ocrad et cuneiform*. (* détecté mais n'a pas fonctionné dans mon test sur texte.)

Traite les images, les fichiers PDF et les sorties de scanner. On peut ajouter le contenu d'un dossier (plusieurs fichiers à la fois).

les plus :
1. empaqueté pour ubuntu (installation de ocrfeeder);
2. permet de sélectionner les zones à traiter
3. permet de voir cote à cote l'image traitée et le résultat
4. détecte automatiquement les colonnes et les images (non testé)
5. dispose d'un filtre de bruit et de gris paramétrable (unpaper, non testé)
6. supprime les sauts de ligne (option)
7. export en différent formats, en essayant de conserver la mise en page : ODT, PDF, HTML et texte brut
les moins :
1. ne permet pas la rotation de l'image obtenue via le scanner (gênant quand on scanne un livre au format A5 où deux pages = A4 paysage ⇒ il faut faire deux scans au lieu d'un)
2. l'outil de redressement est inefficace (testé sur texte)

ocrgui

ocrgui est une interface graphique pour, soit tesseract, soit gocr.

kooka

Note importante : Kooka n'est plus développé. Cette interface n'est plus présente dans les dépôts Ubuntu depuis Hardy ou Intrepid.

http://kooka.kde.org/

Kooka est une interface graphique qui utilise au choix ocrad ou gocr. Le choix s'effectue ainsi dans la fenêtre d'ouverture de Kooka : Configuration → Configurer Kooka → ROC → Moteur ROC à utiliser… On sélectionne ici le moteur ROC : ocrad ou gocr.

les plus :
1. donne de bons résultats en utilisant ocrad
2. dispose d'une option permettant de détecter la mise en forme des documents à scanner (détection des colonnes ou détection complète de la disposition du texte).
les moins :
1. n'est plus empaqueté pour ubuntu,
2. demande une ou deux manipulations supplémentaires par rapport à XSane car le scan n'est pas immédiatement enregistré au format texte, mais la ROC est effectuée dans un second temps sur le fichier image déjà enregistré.

Kooka mode d'emploi

Pré-requis

Avoir installé le paquet ocrad.

Méthode

ouvrir Kooka : Applications –> Images –> Kooka ;
sélectionner le moteur ocrad (et non gocr) comme indiqué ci-dessus, puis redémarrer Kooka ;
dans la fenêtre en bas à droite "Configuration du périphérique", sélectionner "Binary" pour "Scan Mode" ;
dans la même fenêtre, sélectionner la résolution "300 ppi" ;
cliquer sur "Aperçu" ;
recadrer le texte à numériser dans la fenêtre "Aperçu" ;
cliquer sur "Numérisation finale" ;
dans la fenêtre "Assistant d'enregistrement", sélectionner le format PNG et clic sur "OK" ;
le fichier PNG est enregistré et il apparaît dans la fenêtre en haut à gauche : sélectionner ce fichier, puis cliquer sur l'icône "ROC sur l'image" (2ème icône à droite de l'icône "Imprimer") ;
dans la fenêtre "Reconnaissance Optique de Caractères", cliquer sur "Démarrer la ROC". On peut auparavant sélectionner (en bas de la fenêtre) un "mode d'analyse de la disposition" adapté au document à scanner : par exemple "Détection des colonnes" ;
copier-coller le "Résultat de la ROC" dans un fichier ouvert avec un traitement de texte (OOo Writer ou autre) ;
terminer le traitement "à la main" en utilisant le correcteur orthographique du logiciel de traitement de texte.

À l'étape 10, on peut activer la vérification orthographique avant de démarrer la ROC ; il faut ouvrir l'onglet "Vérification de l'orthographe", cocher "Activer la vérification de l'orthographe" et sélectionner :

Client : Aspell (ce qui sélectionne automatiquement le dictionnaire français) ;
Encodage : ISO 8859-1.

Cette vérification orthographique permet de traiter immédiatement les mots non reconnus sans avoir à utiliser ensuite le correcteur orthographique d'un logiciel de traitement de texte. Mais c'est une correction que certains trouvent laborieuse…

Où sont enregistrés les fichiers images obtenus avec Kooka ?
- Ils sont automatiquement enregistrés dans /home/votre_identité/.kde/share/apps/ScanImages/ (même si on est sous gnome). Pour accéder à ce fichier, il faut afficher les fichiers cachés. S'il s'agit de fichiers que l'on souhaite conserver, on peut les enregistrer dans le répertoire de son choix… Mais il est habituellement inutile de conserver des fichiers images générés pour une Reconnaissance Optique de Caractères. On les aura donc supprimés dans Kooka après avoir effectué la ROC/OCR : cliquer droit sur le fichier, puis "Supprimer l'image".
Tests
- Premier test fait avec Kooka utilisant GOCR : beaucoup de caractères non reconnus remplacés par des rectangles (peut-être un détail de configuration à corriger ?).
- Second test fait avec Kooka utilisant OCRAD : le résultat obtenu (avant traitement manuel avec OOo Writer) est très correct; meilleur que celui obtenu avec XSane pour le même texte en polices 10 et 12 Arial, Time New Roman et Courier 10 Pitch.

clara

Clara n'a été dans les dépôts Ubuntu que pour dapper et hardy

les plus :
les moins :
1. n'accepte que le format pgm (greyscale) ou pbm (bitmap) ;
2. interface peu conviviale.

xsane2tess

testé sous Hardy, Intrepid et Jaunty… et aussi sous Precise 12.04.

xsane2tess: un adaptateur tesseract pour XSane.

gImageReader

Une interface graphique pour tesseract-ocr sous gnome.

http://sourceforge.net/projects/gimagereader/

Fonctionnalités (recopiées et traduites du site officiel - version 0.9 de mars 2011 - info au 19/08/2012)

Traite images et fichiers PDF
Acquisition depuis scanner
Sélection des parties de l'image à traiter
Supporte différentes langues
Comparaison cote à cote de la source et du résultat
Supprime les saut de lignes dans le texte résultant
Supporte tesseract 3.0

A l'utilisation:

- prise en charge des dictionnaires myspell

- lecture des lignes tordues.

- interface graphique ergonomique

- fonctionne sous Ubuntu 12.04

YAGF

YAGF est une interface graphique pour cuneiform (donc une bonne capacité de reconnaissance comme indiqué plus haut) et tesseract

(en) Site officiel du logiciel

Free OCR

Le site Free OCR permet de faire de la reconnaissance de caractères en ligne. Il est gratuit et utilise tesseract pour la reconnaissance.

Points forts :

gratuit
performant
gère plusieurs langues
reconnait les textes en colonne

Points faibles :

nécessité d'entrer un captcha à chaque texte soumis
on ne peut faire reconnaître que dix pages ( 2 Mo maximum ). Au bout de dix, il faut attendre une heure avant de pouvoir recommencer

Voir également :

Les solutions de Gestion Électronique des Documents (GED)

WatchOCR - Server PDF et OCR du contenu

WatchOCR : logiciel libre pour créer un serveur de PDF, capable de transcrire notamment les images en texte, ou les PDF d'image scanné en texte : le tout indexé et prêt pour la recherche ( ala google ).

SimpleOCR

Fiche sur WineHQ.org

Non libre mais gratuit. Basé sur WOCAR

WebOCR

Fiche sur Winehq.org

Recognita

Racheté par ScanSoft software. Une fiche sans aucun commentaire est néanmoins disponible pour la version 5.Tout retour, ici ou sur WineHQ serait grandement apprécié.

ReadIris

Fiche sur WineHQ.org

ABBY FineReader 8.0 OCR

Certaines versions anciennes de FineReader fonctionnent plus ou moins sous Wine.

Non libre, versions d'évaluation 30 jours des logiciels sur le site officiel.

CalliGrapher (win)

Aller sur la page de calligrapher

Non libre, version d'évaluation du logiciel sur le site officiel.

Contributeurs : Pierre S. et Sorbus.

¹⁾

OCRopus doesn't even link with Tesseract by default anymore.

²⁾

https://code.launchpad.net/cuneiform-linux|Stepping down as maintainer

Reconnaissance optique de caractères (ROC)

Logiciels d'OCR pour GNU/Linux (utilisables en ligne de commande)

gocr

OCRopus

tesseract-ocr

Moteurs dont le développement est arrêté

cuneiform

Ocrad

Interfaces graphiques

xsane

xsane mode d'emploi

Pré-requis

Méthode

gscan2pdf

OCRFeeder

ocrgui

kooka

Kooka mode d'emploi

Pré-requis

Méthode

clara

xsane2tess

gImageReader

YAGF

OCR en ligne

Free OCR

WatchOCR - Server PDF et OCR du contenu

Programmes Windows utilisables sous GNU/Linux via Wine

SimpleOCR

WebOCR

Recognita

ReadIris

ABBY FineReader 8.0 OCR

Reconnaissance de l'écriture manuscrite

Cellwriter (GNU/Linux)

Xstroke (GNU/Linux)

Myscript (GNU/Linux et win)

CalliGrapher (win)

Voir aussi