Ceci est une ancienne révision du document !
OCRopus : pour une ROC avec prise en compte de la mise en page
OCRopus est en passe de devenir un outil performant de reconnaissance optique de caractères (ROC/OCR), utilisant notamment le moteur de ROC Tesseract, et capable d'analyser une mise en page complexe (contenant par exemple des colonnes et des encadrés). OCRopus ne reconstitue pas la mise en page dans un traitement de texte, mais effectue la ROC dans un ordre logique après avoir analysé la mise en page. Même si son utilisation en ligne de commande est très simple, OCRopus n'est pas encore disponible sous forme d'interface graphique, ni intégré dans un outil graphique déjà existant (comme gscan2pdf ou XSane…)… Cela viendra sans doute un jour, très probablement dans gscan2pdf dès Ubuntu 9.10 ou 10.04.
Installation d'OCRopus 0.2 par les paquets deb
En utilisant les paquets ocropus-data et ocropus d'Ubuntu 9.10, il est possible, même si ce mode d'installation n'est pas officiel, d'installer OCROpus sous Ubuntu 8.10 et 9.04. (nous n'avons pas testé sous Ubuntu 8.04).
Pré-requis
Installer les dépendances disponibles dans les dépôts
Installez les paquets libc6, libedit2, libgcc1, libjpeg62, libpng12-0, listdc++6, libtiff4, tesseract-ocr et tesseract-ocr-fra.
Il s'agit de dépendances nécessaires au fonctionnement d'OCRopus. Celles-ci sont empaquetées officiellement pour Ubuntu 8.10 et 9.04, et donc disponibles dans les dépôts.
Installer ocropus-data
Cette dépendance est également nécessaire, mais ne sera dans les dépôts qu'à partir d'Ubuntu 9.10. Il faut donc télécharger ocropus-data et l'installer par GDebi (ou autre installateur disponible sur votre système).
Installation d'OCRopus
Si vous avez installé Ubuntu en architecture amd64, le deb d'ocropus est ici. Si vous avez installé Ubuntu en architecture i386, le deb d'ocropus est là.
Installation d'OCRopus 0.3 en compilant depuis les sources
Limitations
Ce mode d'installation alternatif d'OCRopus est un peu délicat et beaucoup plus long que l'installation à partir des paquets deb.
Par ailleurs, lors de nos premiers tests sur des pages en français, malgré l'utilisation de la commande précisant l'usage du français pour le post-traitement de la ROC, les résultats obtenus sont nettement moins bons que lorsque nous utilisons Tesseract seul.
Mais pour ceux qui veulent tester la dernière version d'OCRopus, notamment en vue de son amélioration, nous avons testé ce mode d'installation : il est fonctionnel sous Ubuntu 9.04 avec une architecture i386.
Pré-requis
OCRopus a besoin de tesseract pour pouvoir fonctionner, mais son installation est impossible par compilation avec une installation de tesseract réalisée à partir des dépôts Ubuntu ou à partir du deb de b52. Si vous voulez installer OCRopus en compilant depuis les sources, il faut commencer par faire une désinstallation complète de tesseract-ocr (ou tesseract) par Synaptic (ou au moyen de votre choix). On réinstalle ensuite tesseract… et tout ce qu'il faut, comme indiqué plus loin.
Installer aussi subversion et tout ce qui va avec avant de suivre la procédure d'installation d'OCRopus.
Installation
Il suffit de suivre méthodiquement les commandes indiquées (sans en oublier !). C'est assez simple, mais ça peut prendre un peu de temps (plus d'une heure dans certains cas, le plus long étant le compilation d'OpenFST. Il faut être un peu patient, pour ne pas arrêter une compilation en cours : après le lancement de chaque commande, il faut attendre le retour à l'invite de commande dans le terminal avant de lancer la commande suivante; et ne jamais interrompre un travail en cours… c'est à dire ne pas fermer le terminal ni éteindre l'ordinateur pendant ce temps…)
1/ Pour ne pas s'encombrer inutilement de fichiers
qui ne servent qu'à l'installation, on se place dans /var/tmp
cd /var/tmp
2/ Installation de Tesseract
Comme indiqué plus haut, Tesseract est le moteur de ROC utilisé par OCRopus.
svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/ tesseract-ocr-read-only cd tesseract-ocr-read-only ./configure make sudo make install cd ..
3/ Installation de iulib
iulib fournit des bibliothèques de traitement d'image utilisées par OCRopus
svn checkout http://iulib.googlecode.com/svn/trunk/ iulib cd iulib sudo apt-get install scons sudo apt-get install libpng12-dev libjpeg62-dev libtiff4-dev libavcodec-dev libavformat-dev libsdl-gfx1.2-dev libsdl-image1.2-dev sudo apt-get install imagemagick scons sudo scons install cd ..
4/ Installation de Leptonica
Leptonica fournit d'autres outils de traitement d'image et d'analyse de la présentation
wget http://leptonica.googlecode.com/files/leptonlib-1.60.tar.gz tar xvzf leptonlib-1.60.tar.gz cd leptonlib-1.60 ./configure make sudo make install cd ..
5/ Installation d'OpenFST
OpenFST offre à OCRopus des moyens d'apprentissage des langues. L'installation de cet outil prend un peu de temps (jusqu'à une heure…). Soyez patients.
wget http://mohri-lt.cs.nyu.edu/twiki/pub/FST/FstDownload/openfst-1.1.tar.gz tar xvzf openfst-1.1.tar.gz cd openfst-1.1 ./configure make sudo make install cd ..
6/ Installation d'OCRopus
Toutes les dépendances étant installées, on peut maintenant installer OCRopus. Mais attention, ne commencez pas l'installation à cette étape si vous n'avez pas installé auparavant Tesseract, iulib, Leptonica et OpenFST !
sudo apt-get install libeditline-dev svn checkout http://ocropus.googlecode.com/svn/trunk/ ocropus cd ocropus wget http://xplus3.net/downloads/fix_ocropus_doctype.diff patch -p0 -i fix_ocropus_doctype.diff ./configure make sudo make install
Utilisation
Indication de la langue du document à traiter
Par défaut, avec la commande indiquée dans la paragraphe suivant, OCRopus effectue un post-traitement de la ROC en anglais. Si le texte de la page est en français ou dans une autre langue, il faut auparavant indiquer l'environnement linguistique que devra utiliser OCRopus par la commande suivante :
- pour le français :
export tesslanguage=fra
- pour l'allemand, l'italien, l'espagnol et le néerlandais
la même commande que ci-dessus, en remplaçant "fra" par "deu" (allemand), "ita" (italien), "spa" (espagnol) ou "nld" (néerlandais).
N.B. : Ces langues sont disponibles pour le post-traitement lorsque Tesseract est installé par compilation comme indiqué sur cette page. Si vous avez installé OCRopus (et Tesseract) par les dépôts, installez les paquets pour ces langues : allemand, espagnol, italien, néerlandais.
- pour revenir à l'anglais après avoir utilisé une autre langue
export tesslanguage=eng
- pour le vieil-allemand, le portugais et le vietnamien :
Les paquets permettant le post-traitement de la ROC sont disponibles pour ces langues, mais il faut d'abord les installer :
> par les dépôts Ubuntu (par Synaptic, apt-get ou aptitude) si vous avez installé Tesseract et OCRopus par les dépôts (et paquets deb) : portugais,vietnamien,vieil allemand
> par contre, si vous avez installé OCRopus (et Tesseract) par compilation depuis les sources, n'installez pas ces paquets de langue par les dépôts, sinon ils ne seraient pas placés au bon endroit, et seraient donc inutiles; mais faites comme suit :
vietnamien :
cd /var/tmp wget http://tesseract-ocr.googlecode.com/files/tesseract-2.01.vie.tar.gz tar -zxvf tesseract-2.01.vie.tar.gz cd tessdata sudo cp * /usr/local/share/tessdata
portugais :
cd /var/tmp wget http://tesseract-ocr.googlecode.com/files/tesseract-2.01.por.tar.gz tar -zxvf tesseract-2.01.por.tar.gz cd tessdata sudo cp * /usr/local/share/tessdata
vieil-allemand
cd /var/tmp wget http://tesseract-ocr.googlecode.com/files/tesseract-2.01.deu-f.tar.gz tar -zxvf tesseract-2.01.deu-f.tar.gz cd tessdata sudo cp * /usr/local/share/tessdata
Pour traiter des pages en ces langues, lancez d'abord la même commande que celle indiquée plus haut pour le français, en remplaçant "fra" par "vie" (vietnamien), "por" (portugais) ou "deu-f" (vieil-allemand).
Commande de base
OCRopus s'utilise avec une simple ligne de commande. Après avoir indiqué la langue de la page à traiter, comme indiqué dans le paragraphe précédent, faites comme suit :
Placez d'abord le fichier sur lequel vous voulez effectuer la reconnaissance optique de caractère sur votre bureau. Vous pouvez obtenir ce fichier en le scannant avec XSane par exemple, en le mettant au format PNG, gris, 300 ppi (dans la configuration de XSane).
Si votre fichier se nomme "essai.png", et s'il se trouve sur votre bureau, ouvrez un terminal, puis lancez les commandes :
cd ~/Desktop
ou bien
cd ~/Bureau
(selon la façon dont le bureau est nommé dans votre système de fichier) Puis :
Si vous avez installé OCRopus 0.2 au moyen des paquets deb de Karmic Koala :
ocroscript rec-tess essai.png > essai.html
Si vous avez installé OCRopus 0.3 en compilant depuis les sources :
ocroscript recognize essai.png > essai.html
OCRopus travaille sur le fichier PNG et crée le fichier HTML que vous trouverez sur votre bureau. Ne l'ouvrez que lorsque la ROC est terminée (attendez le retour à l'invite dans le terminal)… selon la longueur et la complexité du fichier, la ROC peut prendre de quelques secondes jusqu'à une minute environ.
Vous pouvez ensuite ouvrir le fichier HTML avec votre navigateur (Firefox ou autre) et en copier-coller le contenu dans un traitement de texte pour poursuivre le travail.
Problèmes connus
1/ Lorsque des lignes de texte ou une image sont en contact avec le bord de la page, la ROC ne s'effectue pas, et un message de ce type apparaît dans le terminal : "ocroscript: /usr/local/share/ocropus/scripts//recognize.lua:89: recognized bboxes are wrong"
Pour résoudre ce problème, il faut agrandir la page de quelques pixels avant de lancer de nouveau la commande ocroscript.
2/ (…)
Désinstallation
Si vous avez installé par les paquets deb, la désinstallation est aisée par Synaptic.
Si vous avez installé en compilant depuis les sources… il faut savoir comment désinstaller proprement. Pour cela :
cd /var/tmp
puis refaire dans l'ordre exactement les commandes indiquées plus haut en commençant par l'étape 6 (installation d'OCRopus), mais en remplaçant "sudo make install" par "sudo make uninstall". De même pour l'étape 5 (OpenFST), l'étape 4 (Leptonica)…
Puis pour l'étape 3 (iulib), faire comme indiqué lors de la phase d'installation en remplaçant "sudo scons install" par "sudo scons -c install"
Enfin, pour désinstaller Tesseract, faire comme indiqué dans la phase installation, en remplaçant "sudo make install" par "sudo make uninstall".