Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
ocr [Le 28/11/2012, 00:02]
90.14.189.5 [gImageReader]
ocr [Le 09/04/2024, 20:21] (Version actuelle)
UntuJLuc [Cuneiform] mention du GUI cuneiform-qt
Ligne 9: Ligne 9:
 Il existe plusieurs logiciels sous GNU/Linux spécialement dédiés, et il est aussi possible d'​employer les logiciels existants sous Windows via Wine. Il existe plusieurs logiciels sous GNU/Linux spécialement dédiés, et il est aussi possible d'​employer les logiciels existants sous Windows via Wine.
  
-Pour le moment, la ROC (ou OCR) n'est pas un des domaines les plus avancés sous GNU/​Linux :​ jusqu'​en 2006, les résultats étaient même en général totalement inutilisables. Cependant, les choses ont évolué rapidement en 2007 et 2008 avec tesseract et le projet Ocropus. ​Voici un petit guide des différentes solutions possibles avec leurs avantages, leurs inconvénients et des liens pour vous en servir.+Voici un petit guide des différentes solutions possibles avec leurs avantages, leurs inconvénients et des liens pour vous en servir.
  
 Voir également : Voir également :
-   * Les solutions de [[ged|Gestion Électronique des Documents (GED)]] ​+   * Les solutions de [[:ged|Gestion Électronique des Documents (GED)]] ​
  
-===== Solutions ​GNU/​Linux ​: les moteurs ​(utilisables en ligne de commande) ===== +===== Logiciels d'OCR pour GNU/Linux (utilisables en ligne de commande) =====
-==== gocr ==== +
-http://​jocr.sourceforge.net/​+
  
-  * **les plus :** +====Cuneiform ====
-    -empaqueté pour ubuntu (installation de [[apt://​gocr|gocr]]);​ (gocr 0.49 dans Ubuntu 12.04) +
-    -reconnaît les png ; +
-    -aide correcte ; +
-    -facile à utiliser ; +
-    -interface graphique: gocr-gtk. +
-    -la reconnaissance optique est fonctionnelle sur des fichiers images pour lesquelles tesseract ne donne aucun résultat. Par exemple une capture d'​écran en mode console réalisée avec [[:​fbgrab|fbgrab]]. +
-  * **les moins :** +
-    -le résultat est loin d'​être idéal.+
  
-<note important>​À noter que la version fournie par ubuntu 10.04 est la 0.46 (2008), alors que la dernière version (0.49) incluse dans ubuntu 12.04 date de septembre 2010.</​note>​+[[https://​cuneiform.ru/​eng/​|cuneiform]] ​est un OCR multi-plateforme,​ qui supporte 20 langues, dont le françaisPour les textes en français et les images propres et lisibles, il donne des résultats très satisfaisants avec une marge d'​erreur entre 2 et 3 %. De plus, il semble être le seul à supporter ​(de façon basique) la mise en forme du texteAinsi, il reconnaît les textes soulignés, gras, en italique, et les imagesLe texte qu'il ne réussit pas à traiter est également importé sous forme d'​image. Il supporte les fichiers images en bmp, jpg, png, tiff,  Il peut exporter en format texte, html, rtf, et d'​autres.
  
-<​note>​Gocr ​est utilisé par [[http://subtitleripper.sourceforge.net/|subtitleripper]] (installer le paquet :[[apt>​subtitleripper]]), logiciel ​qui transforme les formats images de sous-titres (utilisés par les DVD) en format texte.</​note>​+Le projet ​est en attente de nouveaux développeurs depuis mai 2011 (([[https://code.launchpad.net/cuneiform-linux|Stepping down as maintainer]])). Il dispose toujours d'​une ​[[https://​launchpad.net/​cuneiform-linux|page Launchpad]] qui héberge le code et est maintenue
  
-==== cuneiform ==== +Une application avec une interface graphique a également été développée ​: [[https://github.com/sibskull/cuneiform-qt|cuneiform-qt]].
-[[http://​www.cuneiform.ru/​eng/​index.html|cuneiform]] (en russe, ou en [[http://en.cognitiveforms.ru/products/cuneiform/|anglais]]) est un ocr multiplateforme,​ qui supporte 20 langues, dont le français. Pour les textes en français et les images propres et lisibles, il donne des résultats corrects. De plus, c'est le seul (du moins le seul que j'ai trouvé) à supporter (de façon basique) la mise en forme du texte. Ainsi, il reconnaît les textes soulignés, gras, en italique, et les images. Le texte qu'il ne réussit pas à traiter est également importé sous forme d'​image. Il supporte les fichiers images en bmp, png, tiff,  Il peut exporter en format texte, html, rtf (mais j'ai obtenu de piètres résultats pour ce format), et d'​autres.+
  
 Voir la  [[http://​wiki.ubuntuusers.de/​Cuneiform-Linux?​highlight=cuneiform#​Einbindung-in-XSane|documentation]] en allemand où on trouve un fichier de commande pour xsane du genre de celui de tesseract. Voir la  [[http://​wiki.ubuntuusers.de/​Cuneiform-Linux?​highlight=cuneiform#​Einbindung-in-XSane|documentation]] en allemand où on trouve un fichier de commande pour xsane du genre de celui de tesseract.
  
-  * **les plus :** +Pour l'​utiliser [[:tutoriel:comment_installer_un_paquet|installez le paquet]] ​**[[apt>cuneiform]]**.
-    -empaqueté pour ubuntu (installation de [[apt://​cuneiform|cuneiform]]); (cuneiform 1.1 dans Ubuntu 12.04) +
-  ​* **les moins :** +
-    -? +
-<​note>​il est aussi possible de lancer cuneiform sur un fichier image par l'​intermediaire d'un nautilus-script tel que celui-ci :  +
-<​code>#​!/​bin/​sh+
  
-printf %s "​$NAUTILUS_SCRIPT_SELECTED_FILE_PATHS"​ | +Il est aussi possible de lancer cuneiform sur un fichier image par l'​intermédiaire d'un [[:​nautilus_scripts|script nautilus]] tel que celui-ci :​  
 +<file bash>#​!/​bin/​sh 
 + 
 +printf %s "​$NAUTILUS_SCRIPT_SELECTED_FILE_PATHS"​ |
 while read -r arg while read -r arg
 do do
- convert -colorspace GRAY $arg tmp.tiff + convert -colorspace GRAY "$arg" ​tmp.tiff 
- cuneiform -l fra -f rtf -o $arg.rtf tmp.tiff+ cuneiform -l fra -f rtf -o "$arg".rtf tmp.tiff
  rm tmp.tiff  rm tmp.tiff
-done</code> +done</file>
-</​note>​ +
-==== GNU ocrad ==== +
-http://​www.gnu.org/​software/​ocrad/​ocrad.html+
  
-  * **les plus :** +Il peut être utilisé dans l'​interface graphique ​[[:XSane]].
-     ​-empaqueté pour ubuntu (installation de [[apt://​ocrad|ocrad]]); (ocrad 0.21 dans Ubuntu 12.04) +
-     ​-présence d'une aide. +
-  * **les moins :** +
-    -résultat très médiocre et non utilisable.\\ (à vérifier, car on obtient de bons résultats avec Kooka utilisant ocrad : voir ci-dessous)+
  
-==== tesseract-ocr ==== 
  
-Voir la page [[tesseract-ocr]] pour plus d'​informations sur l'​installation et l'​utilisation+==== OCRopus ====
  
-  * **les plus :** + [[OCRopus]] (page détaillée: ROC avec prise en compte de la mise en page (en développement). Très utile pour les vieux manuscrits.
-    -empaqueté pour ubuntu (installation de [[apt://​tesseract-ocr|tesseract-ocr]]); (tesseract-ocr 3.02 dans Ubuntu 12.04) +
-    -très bonne performance si l'​image est bonne ; +
-    -gère plusieurs langues dont le français (avec les accents) dans les versions 2 ou postérieures ​(paquets disponibles dans Universe+
-    -possibilité de lui apprendre un nouveau jeu de caractères dans sa dernière version ; +
-    -gestion de plusieurs jeux de caractères simultanés ; +
-    -peut être utilisé dans les interfaces graphiques XSane (via les adaptateurs xsane2tess ou ocube) et gscan2pdf, disponibles sous Hardy et suivants.+
  
-  * **les moins :** +==== Tesseract-ocr ====
-    ​-ne gère pas les colonnes multiples ; (à vérifier : information obsolète ?) +
-    -problème de compilation sur certaines plateformes (fedora core 6) ; +
-    -n'​accepte pas beaucoup de formats d'​images (il existe un script de conversion, voir plus bas) ; +
-    -piètres performances sur les documents en échelles de gris et en couleur.+
  
-<​note>​Tesseract est utilisé pour la transformation des sous-titres ​de DVD en texte par le logiciel ​[[ogmrip]]</​note>​+Voir la page [[:​tesseract-ocr]] pour plus d'​informations sur l'​installation et l'​utilisation.\\ 
 +Pour l'​utiliser [[:​tutoriel:​comment_installer_un_paquet|installer le paquet]] **[[apt>​tesseract-ocr]]**.\\ 
 +Donne de très bons résultats si l'​image est bonne, bons dans tous les cas. Ce qu'il peut faire : 
 +  * Accepte beaucoup de format d'​images (Utilise Leptonica) ;​ 
 +  * Gère plusieurs langues dont le français (avec les accents) ;​ 
 +  * Possibilité de lui apprendre un nouveau jeu de caractères dans sa dernière version ; 
 +  * Gestion de plusieurs jeux de caractères simultanés ;​ 
 +  * Peut être utilisé dans les interfaces graphiques ​[[:XSane]] (via les adaptateurs [[:​xsane2tess]] ou ocube) et [[:​gscan2pdf]].
  
 +==== Gocr ====
 +Logiciel qui donne des résultats de qualité médiocre, entre 7 et 8 % d'​erreur par document.
  
-===== Solutions GNU/​Linux ​: les interfaces graphiques =====+Installez le paquet **[[apt>​gocr]]** et **[[apt>​gocr-tk]]** pour avoir une interface graphique. Ce qu'il sait faire : 
 +  * Reconnaît ​les fichiers png ; 
 +  * Aide correcte.
  
-==== xsane ==== +[[http://jocr.sourceforge.net/|Site officiel]]
-[[xsane]] (page détaillée) est une interface graphique pour scanner, qui utilise **gocr** ou **tesseract** ou **cuneiform**Elle est présente dans les dépôts.+
  
-=== xsane mode d'​emploi === 
  
-Testé sous Hardy, Intrepid, Jaunty, Lucid (avec cunéiform), Oneiric+==== Ocrad ==== 
 +[[http://​www.gnu.org/​software/​ocrad/​ocrad.html|Ocrad]] est un élément du projet GNU. Son développement semble arrêté ​(ou très ralentidepuis 2011.\\ 
 +Pour l'​utiliser [[:​tutoriel:​comment_installer_un_paquet|installer le paquet]] **[[apt>​ocrad]]**.  
 +Cependantles résultat sont médiocres par rapport aux autres moteurs. Peut s'​utiliser en ligne de commande ou avec [[:​Skanlite]] et [[#​OCRFeeder]].
  
-== Pré-requis == 
  
-  * Avoir [[:​tutoriel:​comment_installer_un_paquet|installé l'un des paquets]] **[[apt://​gocr|gocr]]** ou **[[apt://​cuneiform|cuneiform]]** +===== Interfaces graphiques =====
-  * ou pour utiliser le moteur de ROC tesseract avec XSane, suivre les indications de la page [[xsane2tess]].+
  
-== Méthode ​==+==== Xsane ==== 
 +[[:Xsane]] (page détaillée) est une application graphique très complète pour scanner, qui utilise **gocr**, **tesseract** ou **cuneiform**.\\ 
 +Pour utiliser la ROC il faudra avoir [[:​tutoriel:​comment_installer_un_paquet|installé l'un des paquets]] **[[apt>​gocr]]** ou **[[apt>​cuneiform]]** ou bien le moteur [[:​tesseract-ocr]] avec XSane, dont les indications se trouvent sur la page [[:​xsane2tess]].
  
-  ​Ouvrir ​Xsane et dans //​Préférence -> Configuration -> OCR// il faut, dans la commande OCR, remplacer **gocr** par : <​code>​gocr -f UTF8</​code>​Il y aura ainsi reconnaissance des caractères accentués. +Pour faire de la ROC avec Xsane il faut : 
-  on peut aussi remplacer ​**gocr** par **xsane2tess ​ -l  fra** pour utiliser tesseract, aussi **cuneiform ​-l fra** pour utiliser ​cuneiform +  ​Choisir son moteur d'OCR : ouvrir ​Xsane et dans //​Préférence -> Configuration -> OCR// il faut, dans la commande OCR, remplacer **gocr** par : 
-  * dans XSane : //​Applications -Images -> Scanneur d'​images XSane// ; +      * pour  **gocr** avec la reconnaissance des caractères accentués ​<​code>​gocr -f UTF8</​code>​ 
-  * dans la zone à droite de la cible, sélectionner ​"Enregistrer" ​+      pour **tesseract** <code >xsane2tess -l fra</​code>​ 
-  * dans "Type", sélectionner ​"TEXT" ​+      ​* pour **cuneiform** ​<code >cuneiform ​-l fra</code
-  * dans le sélecteur couleur ou N/B, sélectionner ​"Gris" ​ou "Noir/Blanc ou Trait" ​(à tester selon le document à scanner)+  * dans la zone à droite de la cible, sélectionner ​//Enregistrer// 
-et en-dessous, sélectionner la résolution qui convient (pour obtenir les meilleurs résultats, les avis divergent entre 300 et 600 ppi ; un test fait sur des textes écrits en polices 10 et 12 //Arial//, //Times New Roman// et //Courier 10 Pitch// donne les meilleurs résultats en 300 ppi).+  * dans //Type//, sélectionner ​//TEXT// 
 +  * dans le sélecteur couleur ou N/B, sélectionner ​//Gris// ou //Noir/Blanc ou Trait// (à tester selon le document à scanner)et en-dessous, sélectionner la résolution qui convient (pour obtenir les meilleurs résultats, les avis divergent entre 300 et 600 dpi.
  
-{{ xsane_0.97-2.png }} | {{ xsane_0.97.png }} | +{{ Xsane_roc.png?350 }}
-| //Captures d'​écran réalisées avec Xsane 0.97 sous Dapper. +
-La disposition des divers éléments diffère légèrement avec les versions suivantes de Xsane sous Hardy, Intrepid et Jaunty, mais le principe est le même.// ||+
  
-Ensuite : +Ensuite :​ 
-  - dans la fenêtre ​"Aperçu", cliquer sur "Acquisition de l'​aperçu" ​;+  - dans la fenêtre ​//Aperçu//, cliquer sur //Acquisition de l'​aperçu// ;
   - recadrer sur la zone de texte à scanner ;   - recadrer sur la zone de texte à scanner ;
-  - XSane va enregistrer le résultat dans un fichier texte, par défaut sur votre bureau ou dans "​home/​votre_identité" ​(selon les versions de Xsane). Il est possible de choisir le dossier d'​enregistrement du fichier texte en indiquant le chemin dans la zone de saisie située à côté de l'​icône "​disquette"​. On peut aussi nommer le fichier. Par exemple en remplaçant ​"out.txt" des captures d'​écran ci-dessus ​par "/​home/​votre_identité/​essai_ocr_1.txt" ​+  - XSane va enregistrer le résultat dans un fichier texte, par défaut sur votre bureau ou dans votre **Dossier personnel** ​(selon les versions de Xsane). Il est possible de choisir le dossier d'​enregistrement du fichier texte en indiquant le chemin dans la zone de saisie située à côté de l'​icône "​disquette"​. On peut aussi nommer le fichier. Par exemple en remplaçant ​**out.txt** par **/​home/​votre_identité/​essai_ocr_1.txt** 
-  - cliquer sur "numériser" et attendre le "​transfert de l'​image"​ ; +  - cliquer sur "Numériser" et attendre le "​transfert de l'​image"​ ; 
-  - copier-coller le contenu du fichier texte dans un fichier ouvert avec un traitement de texte (OOo Writer ou autre) ​;+  - copier-coller le contenu du fichier texte dans un fichier ouvert avec un [[:​libreoffice|traitement de texte]] ;
   - terminer le traitement "à la main" en utilisant le correcteur orthographique du logiciel de traitement de texte.   - terminer le traitement "à la main" en utilisant le correcteur orthographique du logiciel de traitement de texte.
  
-cuneiform est le moteur (voir plus haut), paramétré sous xsane qui a donné les meilleurs résultats, reconnaissance optique presque parfaite, avec une détection excellente des colonnes.+cuneiform est le moteur (voir plus haut), paramétré sous Xsane qui a donné les meilleurs résultats, reconnaissance optique presque parfaite, avec une détection excellente des colonnes.
  
 ==== gscan2pdf ==== ==== gscan2pdf ====
Ligne 124: Ligne 104:
 Interface graphique permettant notamment de réaliser de la Reconnaissance Optique de Caractères avec les moteurs **gocr** et **tesseract**. Son développement dynamique lui permet d'​intégrer les outils les plus performants sous GNU/Linux, dont bientôt **OCRopus**. Interface graphique permettant notamment de réaliser de la Reconnaissance Optique de Caractères avec les moteurs **gocr** et **tesseract**. Son développement dynamique lui permet d'​intégrer les outils les plus performants sous GNU/Linux, dont bientôt **OCRopus**.
  
-gscan2pdf est présent dans les dépôts. +Voir chapitre utilisation de la page détaillée [[:gscan2pdf]].
- +
-Voir chapitre utilisation de la page détaillée [[gscan2pdf]].+
  
 ==== OCRFeeder ==== ==== OCRFeeder ====
  
-FIXME actuellement pas de page relative à ocrfeeder dans notre documentation. Il est présent dans les dépôts (Ubuntu Precise 12.04 LTS).+OCRFeeder ​est une interface graphique simple, permettant de choisir entre plusieurs moteurs : par défaut installe **tesseract**,​ fonctionne aussi avec **gocr**, **ocrad** et **cuneiform**.
  
-Interface graphique simplepermettant ​de choisir entre plusieurs moteurs ​par défaut installe **tesseract**fonctionne aussi avec **gocr****ocrad** et **cuneiform***. (* détecté mais n'​a ​pas fonctionné ​dans mon test sur texte.)+Attentionle paquet tesseract est installé pour la reconnaissance ​de l'​anglais uniquement. Voir les paquet langues supplémentaires sur [[:tesseract-ocr]]. 
 + 
 +<note important>​OCRFeederaprès installationne se lance pas. Pour résoudre ce problème, entrez la commande suivante ​dans un [[terminal]] :​ <code bash>​sudo sed -i '​s/​ocrfeeder -i %f/​ocrfeeder/'​ /​usr/​share/​applications/​ocrfeeder.desktop</​code></​note>​
  
 Traite les images, les fichiers PDF et les sorties de scanner. On peut ajouter le contenu d'un dossier (plusieurs fichiers à la fois). Traite les images, les fichiers PDF et les sorties de scanner. On peut ajouter le contenu d'un dossier (plusieurs fichiers à la fois).
  
-  * **les plus :** +[[:tutoriel:​comment_installer_un_paquet|Installez le paquet]] ​** [[apt>ocrfeeder]]**.\\ 
-    -empaqueté pour ubuntu (installation de [[apt://​ocrfeeder|ocrfeeder]]); +Ce qu'il sait faire : 
-    ​-permet de sélectionner ​les zones à traiter +  * Sélectionner ​les zones à traiter, 
-    ​-permet de voir cote à cote l'​image traitée et le résultat +  * Voir côte à côte l'​image traitée et le résultat, 
-    ​-détecte ​automatiquement les colonnes et les images ​(non testé) +  * Détecte ​automatiquement les colonnes et les images, 
-    ​-dispose ​d'un filtre de bruit et de gris paramétrable (unpaper, non testé) +  * Dispose ​d'un filtre de bruit et de gris paramétrable (unpaper, non testé), 
-    ​-supprime ​les sauts de ligne (option) +  * Supprime ​les sauts de ligne (option), 
-    ​-export ​en différent ​formats, en essayant de conserver la mise en page : ODT, PDF, HTML et texte brut +  * Export ​en différents ​formats, en essayant de conserver la mise en page : ODT, PDF, HTML et texte brut.
-  * **les moins :** +
-    -ne permet pas la rotation de l'​image obtenue via le scanner (gênant quand on scanne un livre au format A5 où deux pages = A4 paysage => il faut faire deux scans au lieu d'​un) +
-    -l'​outil de redressement est inefficace (testé sur texte) +
-==== OCRopus ====+
  
- ​[[OCRopus]] (page détaillée) ​ROC avec prise en compte ​de la mise en page. (en développement). OCRopus utilise le moteur **tesseract**.+Ce qu'il ne sait pas faire : 
 +   * La rotation ​de l'​image obtenue via le scanner ​(gênant quand on scanne un livre au format A5 où deux pages = A4 paysage => il faut faire deux scans au lieu d'un)
  
- Site officiel : https://​code.google.com/​p/​ocropus/​ 
  
-==== ocrgui ==== 
  
-[[http://​ocrgui.sourceforge.net/​|ocrgui]] est une interface graphique pour, soit **tesseract**,​ soit **gocr**. 
  
-==== kooka ==== +==== Skanlite ​====
- +
-<note important>​Note importante : Kooka n'est plus développé. Cette interface qui fut prometteuse n'est plus présente dans les dépôts Ubuntu depuis Hardy ou Intrepid.</​note>​ +
- +
-http://​kooka.kde.org/​ +
- +
-Kooka est une interface graphique qui utilise au choix **ocrad** ou **gocr**. +
-Le choix s'​effectue ainsi dans la fenêtre d'​ouverture de Kooka  : +
-//​Configuration -> Configurer Kooka -> ROC -> Moteur ROC à utiliser...//​ +
-On sélectionne ici le moteur ROC : **ocrad** ou **gocr**. +
- +
-  * **les plus :** +
-    - donne de bons résultats en utilisant ocrad +
-    - dispose d'une option permettant de détecter la mise en forme des documents à scanner (détection des colonnes ou détection complète de la disposition du texte). +
-  * **les moins :** +
-    - n'est plus empaqueté pour ubuntu, +
-    - demande une ou deux manipulations supplémentaires par rapport à XSane car le scan n'est pas immédiatement enregistré au format texte, mais la ROC est effectuée dans un second temps sur le fichier image déjà enregistré. +
- +
-=== Kooka mode d'​emploi === +
- +
-== Pré-requis == +
- +
-  * Avoir [[:​tutoriel:​comment_installer_un_paquet|installé le paquet]] **[[apt://​ocrad|ocrad]]**. +
- +
-== Méthode == +
- +
-  - ouvrir Kooka : Applications --> Images --> Kooka ; +
-  - sélectionner le moteur **ocrad** (et non gocr) comme indiqué ci-dessus, puis redémarrer Kooka ; +
-  - dans la fenêtre en bas à droite "​Configuration du périphérique",​ sélectionner "​Binary"​ pour "Scan Mode" ; +
-  - dans la même fenêtre, sélectionner la résolution "**300 ppi**" ; +
-  - cliquer sur "​Aperçu"​ ; +
-  - recadrer le texte à numériser dans la fenêtre "​Aperçu"​ ; +
-  - cliquer sur "​Numérisation finale"​ ; +
-  - dans la fenêtre "​Assistant d'​enregistrement",​ **sélectionner le format PNG** et clic sur "​OK"​ ; +
-  - le fichier PNG est enregistré et il apparaît dans la fenêtre en haut à gauche : sélectionner ce fichier, puis cliquer sur l'​icône "ROC sur l'​image"​ (2ème icône à droite de l'​icône "​Imprimer"​) ; +
-  - dans la fenêtre "​Reconnaissance Optique de Caractères",​ cliquer sur "​Démarrer la ROC". On peut auparavant sélectionner (en bas de la fenêtre) un "mode d'​analyse de la disposition"​ adapté au document à scanner : par exemple "​Détection des colonnes"​ ; +
-  - copier-coller le "​Résultat de la ROC" dans un fichier ouvert avec un traitement de texte (OOo Writer ou autre) ; +
-  - terminer le traitement "à la main" en utilisant le correcteur orthographique du logiciel de traitement de texte. +
- +
-<​note>​ +
-À l'​étape 10, on peut activer la vérification orthographique avant de démarrer la ROC ; il faut ouvrir l'​onglet "​Vérification de l'​orthographe",​ cocher "​Activer la vérification de l'​orthographe"​ et sélectionner : +
-  * Client : Aspell (ce qui sélectionne automatiquement le dictionnaire français) ; +
-  * Encodage : ISO 8859-1. +
-Cette vérification orthographique permet de traiter immédiatement les mots non reconnus sans avoir à utiliser ensuite le correcteur orthographique d'un logiciel de traitement de texte. Mais c'est une correction que certains trouvent laborieuse... +
-</​note>​ +
- +
-  * **Où sont enregistrés les fichiers images obtenus avec Kooka ?** +
-    * Ils sont automatiquement enregistrés dans /​home/​votre_identité/​.kde/​share/​apps/​ScanImages/​ (même si on est sous gnome). Pour accéder à ce fichier, il faut afficher les fichiers cachés. S'il s'agit de fichiers que l'on souhaite conserver, on peut les enregistrer dans le répertoire de son choix... Mais il est habituellement inutile de conserver des fichiers images générés pour une Reconnaissance Optique de Caractères. On les aura donc supprimés dans Kooka après avoir effectué la ROC/OCR : cliquer droit sur le fichier, puis "​Supprimer l'​image"​. +
-  * **Tests** +
-    * Premier test fait avec Kooka utilisant GOCR : beaucoup de caractères non reconnus remplacés par des rectangles (peut-être un détail de configuration à corriger ?). +
-    * Second test fait avec Kooka utilisant OCRAD : le résultat obtenu (avant traitement manuel avec OOo Writer) est très correct; meilleur que celui obtenu avec XSane pour le même texte en polices 10 et 12 //Arial//, //Time New Roman// et //Courier 10 Pitch//. +
- +
-==== clara ==== +
-[[http://​www.claraocr.org/​|Clara]] n'a été dans les [[:​dépôts]] Ubuntu que pour [[:dapper]] et [[:​hardy]] +
- +
-  * **les plus :** +
-    - +
-  * **les moins :** +
-    -n'​accepte que le format pgm (greyscale) ou pbm (bitmap) ; +
-    -interface peu conviviale.+
  
 +Voir la page dédiée :​ [[:​skanlite]].
 ==== xsane2tess ==== ==== xsane2tess ====
-testé sous Hardy, Intrepid et Jaunty. +[[xsane2tess]]:​ un adaptateur tesseract pour XSane.
- +
-  *[[xsane2tess]]:​ un adaptateur tesseract pour XSane.+
  
 ==== gImageReader ==== ==== gImageReader ====
- +[[gimagereader|gImageReader]] est une interface graphique très simple d'​emploi pour **[[:tesseract-ocr|tesseract-ocr]]**.\\
-Une interface graphique très performante à **tesseract-ocr** ​pour gnome +
- +
-http://​sourceforge.net/​projects/​gimagereader/​ +
- +
-Fonctionnalités (recopiées et traduites du site officiel - version 0.9 de mars 2011 - info au 19/​08/​2012) +
-    -Traite images et fichiers PDF +
-    -Acquisition depuis scanner +
-    -Sélection des parties de l'​image à traiter +
-    -Supporte différentes langues +
-    -Comparaison cote à cote de la source et du résultat +
-    -Supprime les saut de lignes dans le texte résultant +
-    -Supporte tesseract 3.+
- +
- +
- +
  
 ==== YAGF ==== ==== YAGF ====
-  * [[YAGF]] est une interface graphique pour [[http://​doc.ubuntu-fr.org/​ocr?&​#​cuneiform|cuneiform]] (donc une bonne capacité de reconnaissance comme indiqué plus haut) et [[http://​doc.ubuntu-fr.org/​ocr?&​#​tesseract|tesseract]]+[[YAGF]] est une interface graphique pour [[#​cuneiform|cuneiform]] (donc une bonne capacité de reconnaissance comme indiqué plus haut) et [[#​tesseract|tesseract]].
  
-  * **(en)** [[http://symmetrica.net/cuneiform-linux/yagf-en.html|Site officiel du logiciel]] +**(en)** [[https://sourceforge.net/projects/yagf-ocr/|Site officiel du logiciel]]
-=====Solution Web=====+
  
-====Free OCR==== 
-Le site [[http://​www.free-ocr.com/​|Free OCR]] permet de faire de la reconnaissance de caractères en ligne. Il est gratuit et utilise tesseract pour la reconnaissance. ​ 
  
-Points forts : +==== LIOS ==== 
-  gratuit +Lios est une interface graphique pour [[#​cuneiform]] et [[#​tesseract]]. Pour l'​utiliser [[:​tutoriel:​comment_installer_un_paquet|installez le paquet]] ​**[[apt>​lios]]**. Si vous souhaitez avoir la dernière version en français :​ 
-  * performant +  * [[:​PPA|Ajouter le PPA]] **ppa:​nalin-x-linux/​lios**((https://​launchpad.net/​~nalin-x-linux/​+archive/​ubuntu/​lios)) dans vos sources de logiciels; ​ 
-  * gère plusieurs langues +  * puis [[:​tutoriel:​comment_modifier_sources_maj#​recharger_la_liste_des_paquets|rechargez la liste des paquets]], 
-  * reconnait les textes ​en colonne+  * puis installez le paquet **[[apt>​lios]]**. 
 +=====OCR ​en ligne=====
  
-Points faibles ​: +Voir les solutions de [[:ged|Gestion Électronique des Documents ​(GED)]] 
-  * nécessité d'​entrer un captcha à chaque texte soumis  +
-  * on ne peut faire reconnaître que dix pages 2 Mo maximum ​). Au bout de dix, il faut attendre une heure avant de pouvoir recommencer+
  
-Voir également : +====WatchOCR - Server PDF et OCR du contenu====
-   * Les solutions de [[ged|Gestion Électronique des Documents (GED)]] ​+
  
-====WatchOCR ​Server ​PDF et OCR du contenu====+  * [[http://​douglaswhitaker.com/​2013/​10/​working-with-pdf-files-efficiently-watchocr//​|WatchOCR]] : logiciel libre pour créer un serveur de PDF, capable de transcrire notamment les images en texte, ou les PDF d'​image scanné en texte : le tout indexé ​et prêt pour la recherche ( ala google ).
  
-  * [[http://​watchocr.com/​|WatchOCR]] : logiciel libre pour créer un serveur de PDF, capable de transcrire notamment les images en texte, ou les PDF d'​image scanné en texte : le tout indexé et prêt pour la recherche ( ala google ).+===== Programmes Windows utilisables sous GNU/Linux via Wine =====
  
-===== Solutions Windows utilisables sous GNU/Linux via Wine ===== 
 ==== SimpleOCR ==== ==== SimpleOCR ====
  
-  * [[http://appdb.winehq.org/appview.php?​iAppId=1946|Fiche sur WineHQ.org]]+  * [[https://www.01net.com/telecharger/​windows/​Multimedia/​scanner_ocr/​fiches/​32246.html|Lien de téléchargement]]
 Non libre mais gratuit. Basé sur WOCAR Non libre mais gratuit. Basé sur WOCAR
 +, image non PDF
  
 ==== WebOCR ==== ==== WebOCR ====
  
-  * [[http://​appdb.winehq.org/​appview.php?​iAppId=829|Fiche sur Winehq.org]]+  * [[https://​appdb.winehq.org/​appview.php?​iAppId=829|Fiche sur Winehq.org]]
  
 ==== Recognita ==== ==== Recognita ====
Ligne 284: Ligne 177:
 ==== ReadIris ==== ==== ReadIris ====
  
-[[http://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=2543|Fiche sur WineHQ.org]]+[[https://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=2543|Fiche sur WineHQ.org]]
  
 ==== ABBY FineReader 8.0 OCR ==== ==== ABBY FineReader 8.0 OCR ====
  
-FineReader ​fonctionne très bien sous Wine.+Certaines versions anciennes de FineReader ​fonctionnent plus ou moins sous Wine.
  
 ===== Reconnaissance de l'​écriture manuscrite ===== ===== Reconnaissance de l'​écriture manuscrite =====
 ==== Cellwriter (GNU/Linux) ==== ==== Cellwriter (GNU/Linux) ====
  
-  * [[cellwriter|CellWriter:​ Reconnaissance de l'​écriture manuscrite]]+[[:cellwriter|CellWriter:​ Reconnaissance de l'​écriture manuscrite]]
  
-==== Xstroke (GNU/Linux) ==== 
-  * [[http://​www.usenix.org/​events/​usenix03/​tech/​freenix03/​full_papers/​worth/​worth_html/​xstroke.html|Xstroke : reconnaissance de l'​écriture manuscrite et des mouvements de pointeur]] 
  
 ==== Myscript (GNU/Linux et win) ==== ==== Myscript (GNU/Linux et win) ====
-  * [[http://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=7180|Fiche de Myscript Note (reconnaissance écriture) sur WineHQ.org]] +  * [[https://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=7180|Fiche de Myscript Note (reconnaissance écriture) sur WineHQ.org]] 
-  * [[http://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=8569|Fiche de Myscript Stylus (logiciel interactif) sur WineHQ.org]] ([[http://​www.visionobjects.com/​handwriting_recognition/​downloadstylus3.htm#​Linux|existe pour GNU/Linux]] ), reconnaît l'​écriture attachée +  * [[https://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=8569|Fiche de Myscript Stylus (logiciel interactif) sur WineHQ.org]] ([[http://​www.visionobjects.com/​handwriting_recognition/​downloadstylus3.htm#​Linux|existe pour GNU/Linux]] ), reconnaît l'​écriture attachée 
-Non libre, [[http://​www.visionobjects.com/​handwriting_recognition/​onlinestore.htm|versions d'​évaluation 30 jours]] des logiciels ​sur le site officiel.  +Non libre, [[http://​www.visionobjects.com/​handwriting_recognition/​onlinestore.htm|versions d'​évaluation 30 jours]] des logiciels sur le site officiel.
- +
-==== CalliGrapher (win) ==== +
- +
-  * [[http://​www.phatware.com/​index.php?​q=product/​details/​calligrapher|Aller sur la page de calligrapher]] +
- +
-Non libre, version d'​évaluation du logiciel ​sur le site officiel. ​+
  
 ===== Voir aussi ===== ===== Voir aussi =====
  
-  * [[http://​forum.ubuntu-fr.org/​viewtopic.php?​id=78804|le fil de discussion du forum à propos de l'OCR]] +  * [[https://​forum.ubuntu-fr.org/​viewtopic.php?​id=78804|le fil de discussion du forum à propos de l'​OCR]] 
-  * [[http://​www.claraocr.org/​en/​ocr/​ocr-software/​open-source-ocr.html|Présentation des moteurs d'OCR sur le site de Clara OCR]] + 
 ---- ----
  
-//​Contributeurs : [[:​utilisateurs:​Teolemon|Pierre S.]] et [[:​utilisateurs:​Sorbus]].//​+//​Contributeurs : [[:​utilisateurs:​Teolemon|Pierre S.]] et [[:​utilisateurs:​Sorbus]] ​--- [[:​utilisateurs:​L'​Africain|L'​Africain]] Le 14/07/2017, 21:06.//
  • ocr.1354057379.txt.gz
  • Dernière modification: Le 28/11/2012, 00:02
  • par 90.14.189.5