Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
xsane2tess [Le 08/07/2013, 08:18]
mydjey SPAM ancienne révision restaurée
xsane2tess [Le 03/03/2023, 19:13] (Version actuelle)
L'Africain
Ligne 1: Ligne 1:
-{{tag> ​Hardy Intrepid Jaunty ​scanner graphisme ocr brouillon}}+{{tag>Xenial ​scanner graphisme ocr}}
  
 ---- ----
Ligne 5: Ligne 5:
 ====== xsane2tess : un adaptateur tesseract pour Xsane ====== ====== xsane2tess : un adaptateur tesseract pour Xsane ======
  
-**xsane2tess** est un adaptateur ​(wrapper) ​permettant d'​utiliser le moteur de reconnaissance optique de caractères [[:​tesseract-ocr|tesseract]] ​ avec l'interface graphique ​[[:xsane|XSane]]. xsane2tess, inspiré de [[http://​www.geocities.com/​thierryguy/​ocube.html|ocube]], ​a été proposé par MadMax sur le forum [[http://​www.mandrivauser.de/​viewtopic.php?​pid=166894#​p166894|MandrivaUser.de]]. +**xsane2tess** est un adaptateur permettant d'​utiliser le moteur de reconnaissance optique de caractères [[:​tesseract-ocr|tesseract]] ​ avec l'application de numérisation ​[[:Xsane]]. **Xsane2tess** ​a été proposé par MadMax sur le forum [[http://​www.mandrivauser.de/​viewtopic.php?​pid=166894#​p166894|MandrivaUser.de]].
  
 ===== Pré-requis ===== ===== Pré-requis =====
- +  * Disposer des [[:​sudo|droits d'​administration]];​ 
-Pour utiliser xsane2tess, il faut installer ​[[:​tesseract-ocr|tesseract]] avec les modules de langue que l'on souhaite pouvoir utiliser. +  * Disposer d'une connexion à Internet configurée et activée; 
- +  * Avoir installé les paquets: 
-Il est nécessaire ​[[:tutoriel:​comment_installer_un_paquet|d'​installer les paquets]] **xsane** et **imagemagick**. +    * **[[:​tesseract-ocr|tesseract]]** avec les modules de langue que l'on souhaite pouvoir utiliser; 
- +    * **[[:Xsane]]** 
- +    ​* et **[[:​imagemagick]]**
-<​note>​Certains pensent que : +
-//"A partir d'​Ubuntu 10.10, il faut installer, à la place de **imagemagick**, les paquets **graphicsmagick** et **graphicsmagick-imagemagick-compat**"//​. +
- +
-Mais un test fait en décembre 2012 avec Ubuntu 12.04 LTS montre que xsane2tess fonctionne parfaitement en installant simplement **imagemagick** (et sans avoir installé **graphicsmagick** et **graphicsmagick-imagemagick-compat**).</​note>​ +
  
 ===== Installation ===== ===== Installation =====
- +Pour utiliser ​la reconnaissance optique de caractères [[:tesseract-ocr|tesseract]]  avec l'​application ​de numérisation ​[[:Xsane]], il est nécessaire de créer ​un [[:script]]Pour cela, il suffit de suivre ​la procédure suivante: 
-On peut utiliser ​au choix l'une ou l'​autre méthode ci-dessous ​installer avec le paquet deb, ce qui est plus simple et plus rapide (mais possible que si tesseract ​a été installé avec le paquet deb de "​b52"​),​ ou bien installer soi-même le script "à la main", ce qui fonctionne quelle que soit la façon dont on a installé ​tesseract ​(et permet accessoirement ​de comprendre davantage le fonctionnement). +  ​- ​[[:tutoriel:​comment_modifier_un_fichier|Créez ​le fichier]] **xsane2tess** ​par exemple ​sur votre Bureau ​et copiez-y ​le contenu suivant: <file txt xsane2tess>#!/bin/bash
- +
- +
- +
- +
-==== Avec le paquet deb de GuadaUsers ==== +
-//[[http://​guadausers.es/​|GuadaUsers]] propose ​un dépôt non-officiel de paquets debian, hébergé par tuxfamily, pour la distribution GNU/Linux Guadalinex (distribution andalouse, basée sur Ubuntu. Guadalinex V4 = Edgy, Guadalinex V5 = Hardy).// +
- +
-<note important>​Attention ​ce paquet ne peut être utilisé que si tesseract a été installé avec le paquet deb de "​b52"​Si tesseract a été installé par les dépôts Ubuntu (par apt-get, synaptic ou aptitude), il faut installer xsane2tess "​à ​la main" comme indiqué dans le paragraphe suivant... ce qui n'est pas compliqué !</​note>​ +
- +
-**1°) Télécharger et installer ​[[http://​download.tuxfamily.org/​guadausers/​guadaV4/​xsane2tess_1.0-1guadausers1_i386.deb|le paquet deb de GuadaUsers]]**, adapté aussi bien pour les architectures 32 bits que pour les 64 bits (i386 et amd64). +
-//Ce paquet a été testé sous Ubuntu Edgy et Gutsy.// +
- +
-**2°) Créer un dossier tmp dans /​home/​votre_identité.** +
-  ​* xsane2tess ​aura besoin de ce dossier pour placer son fichier de log : ///​home/​votre_identité/​tmp/​xsane2tess.log +
-// +
-  ​Vous pourrez ensuite consulter ce fichier pour observer les éventuelles erreurs. +
- +
- +
-==== En installant soi-même le script "à la main" ==== +
- +
-**1°) Copier le script ci-dessous dans un fichier** (sur votre bureau)( Application/​Accessoires/​Éditeur de texte) ​et l'​enregistrer sous le nom de **xsane2tess** +
- +
-  ​#!/bin/bash+
   #   #
   #   #
Ligne 62: Ligne 33:
   #   #
   #   #
-  TEMP_DIR=~/tmp/      # folder for temporary files (TIFF & tesseract data)+  TEMP_DIR=/​tmp/ ​     # folder for temporary files (TIFF & tesseract data)
   ERRORLOG="​xsane2tess.log" ​ # file where STDERR goes    ERRORLOG="​xsane2tess.log" ​ # file where STDERR goes 
   ​   ​
Ligne 132: Ligne 103:
   ​   ​
   # delete tesseract output   # delete tesseract output
-  rm "​$TXT_FILE"​.txt +  rm "​$TXT_FILE"​.txt</​file>​ 
-** +  - [[:​tutoriel:​script_shell#​methode_graphique|Rendez ​exécutable]] ce fichier ​//xsane2tess//, 
-2°) Rendre ​exécutable ce fichier** xsane2tess +  Depuis ​un [[:​terminal]],​ copiez le fichier //xsane2tess// dans le dossier dans ///usr/bin//, en admettant que vous l'avez enregistré sur votre Bureau, sinon adapter le chemin: 
-Clic droit sur le fichier ​--> Propriétés --> onglet "​Permissions"​ --> Cocher la case "​Autoriser l'​exécution du fichier comme un programme"​. +<​code>​sudo cp Bureau/​xsane2tess /usr/bin</​code>​ 
- +Vous pourrez ensuite consulter ​le fichier ​//xsane2tess.log// ​dans le dossier ​// /tmp// pour observer les éventuelles erreurs .
-**3°) Copier ce fichier ​xsane2tess dans /usr/bin** +
-  sudo cp /home/votre_identité/Desktop/xsane2tess ​/usr/bin +
-ou +
-  ​sudo cp /​home/​votre_identité/​Bureau/​xsane2tess /usr/bin +
-Mettre ​le bon chemin en remplaçant dans ce chemin "​votre_identité"​ par votre identité sous Ubuntu... et en mettant "​Desktop"​ ou "​Bureau"​ selon la façon dont le nom de votre bureau est enregistré dans votre version d'​Ubuntu ! +
- +
-**4°) Créer un dossier tmp dans /home/votre_identité.** +
-  * xsane2tess aura besoin de ce dossier pour placer son fichier de log ///home/votre_identité/tmp/xsane2tess.log +
-/+
-  * Vous pourrez ensuite consulter ce fichier ​pour observer les éventuelles erreurs. +
- +
- +
  
 ===== Utilisation ===== ===== Utilisation =====
  
-Ouvrir XSane Applications ​-> Graphisme ​-> Scanneur ​d'images XSane+  - Lancer l'​application [[:Xsane]]  
 +  - Puis dans le menu: Préférences ​-> Configuration ​-> Onglet "​OCR"​ entrez les informations suivantes en respectant bien la casse : 
 +    * **Commande OCR** : xsane2tess -l fra  
 +    * **Option de fichier ​d'entrée** : -i 
 +    * **Option de fichier de sortie** : -o
  
-Dans Préférences -> Configuration -> Onglet "​OCR" ​: +La langue du texte à numériser peut être modifiée quand on le veut dans le menu de configuration de XSane [[:tesseract-ocr#​les_options_de_langues|(l'​option-l)]],​ à condition ​d'avoir installé les fichiers de langues correspondants de tesseract, comme indiqué dans le paragraphe [[#Pré-requis]].\\ 
-  * **Commande OCR** : xsane2tess ​-l fra  +[[:XSane]] présente le grand avantage ​de permettre la sélection des colonnes ou zones d'un texte l'une après l'​autre grâce à la prévisualisation,​ et donc  avant traitement [[:OCR]] par tesseract.
-  * **Option de fichier ​d'entrée** : -i +
-  * **Option de fichier ​de sortie** ​-o+
  
-<note important>​Dans l'​onglet OCR de XSane, les indications ci-dessus ("​**xsane2tess -l fra**",​ "​-i"​ et "​-o"​) ne doivent pas être précédées **ni suivies** d'une espace. La présence d'une espace avant **ou après** ces indications entraine un dysfonctionnement d'​xsane2tess. Par contre, dans "​xsane2tess -l fra", il faut bien une espace entre "​xsane2tess"​ et "​-l",​ et une autre entre "​-l"​ et "​fra"​.</​note>​ +On obtient de bons résultats en numérisant ​à 300 ppi, noir et blanc (fichier ​ "type : TEXT"​).
-<note important>​N.B. : dans la commande OCR "​xsane2tess -l fra", l'​indication de la langue est précédée par l'​option "​-l"​ (la lettre "​L"​ minuscule et non le chiffre "​1"​).</​note>​ +
-<note important>​**Attention : pas d'​espace dans les noms des chemins (des répertoires) ou des fichiers** (indiqués dans la fenêtre d'​Xsane) pour effectuer la reconnaissance optique de caractère. +
-</​note>​ +
-La langue du texte à scanner peut être modifiée quand on le veut dans le menu de configuration de XSane [[:​tesseract-ocr#​les_options_de_langues|(l'​option-l)]],​ à condition d'​avoir installé les fichiers de langues correspondants de tesseract, comme indiqué dans le paragraphe Pré-requis. +
- +
-XSane présente le grand avantage de permettre la sélection des colonnes ou zones d'un texte l'une après l'​autre grâce à la prévisualisation,​ avant de scanner, et donc  avant traitement ROC par tesseract. +
- +
-On obtient de bons résultats en scannant ​à 300 ppi, noir et blanc (fichier ​ "type : TEXT"). Les fichiers contenant le texte sont par défaut créés sur le bureau.+
 Pour plus de précisions,​ voir le paragraphe sur [[:​ocr#​xsane|la ROC avec XSane]]. Pour plus de précisions,​ voir le paragraphe sur [[:​ocr#​xsane|la ROC avec XSane]].
  
-Il suffit de copier-coller les fichiers obtenus dans un fichier OOo Writer, et la reconnaissance orthographique ​d'​OpenOffice ​fait le reste...+Il suffit ​ensuite ​de copier-coller les fichiers obtenus dans une application de traitement de texte comme LibreOffice ​Writer, et la reconnaissance orthographique fait le reste...
  
 +=====Désinstallation====
 +Pour supprimer cette application,​ il suffit de [[:​tutoriel:​comment_supprimer_un_paquet|supprimer son paquet]], les paquets de langues installées et si ils ne sont plus nécessaires pour d'​autres applications,​ supprimer les paquets **  [[:​tesseract-ocr|tesseract]]** et  **[[:​Imagemagick]]**. Le script créé plus haut ne sera plus utile, vous pouvez aussi le supprimer.\\
 +Selon la méthode choisie, la configuration globale des applications sont conservées ou supprimées. Les journaux du système, et les fichiers de préférence des utilisateurs dans leurs dossiers personnels sont toujours conservés.
  
 +===== Voir aussi =====
  
-===== Références ===== +  ​* [[https://​web.archive.org/​web/​20090719052550/​http://​www.mandrivauser.de/​viewtopic.php?​pid=166894| Le post de MadMax ​concernant ​xsane2tess ​disponible sur Internet Archive]] (de) 
- +  * [[:​tesseract-ocr]] (fr) 
-  ​* [[http://​www.mandrivauser.de/​viewtopic.php?​pid=166894#p166894| Le post de MadMax ​sur xsane2tess]] (de) +  * [[:Xsane]] (fr) 
-  * [[http://​www.geocities.com/​thierryguy/​| "ocube - a tesseract wrapper"​]] (en) +  * [[https://​www.equinoxefr.org/​post/​2008/​07/​05/​xsane-et-tesseract-locr-qui-marche-tres-bien-sous-linux/​ | Une solution qui fonctionne : xsane2tess ...]] (fr) 
-  * [[http://​www.geocities.com/​thierryguy/​ocube.html| ocube]] (en) +  * [[https://​forum.ubuntu-fr.org/​viewtopic.php?​id=78804| Le fil de discussion du forum Ubuntu-fr dédié à la Reconnaissance Optique de Caractères.]] (fr) 
-  * [[tesseract-ocr]] (fr) + 
-  * [[:xsane|XSane]] (fr) +
-  * [[http://​www.equinoxefr.org/​post/​2008/​07/​05/​xsane-et-tesseract-locr-qui-marche-tres-bien-sous-linux/​ | Une solution qui fonctionne : xsane2tess ...]] (fr) +
-   ​* [[http://​forum.ubuntu-fr.org/​viewtopic.php?​id=78804| Le fil de discussion du forum Ubuntu-fr dédié à la Reconnaissance Optique de Caractères.]] (fr) +
-  * [[http://​www.guadalinex.org/​participa/​foros/​hilo/​17193| Le fil de discussion sur le forum de Guadalinex]] (sp)+
 ------ ------
-//Page réalisée par : [[utilisateurs:​Sorbus]] (28 janvier 2008)// 
------- 
- 
- 
  
 +//​Contributeurs : [[utilisateurs:​Sorbus]],​ [[utilisateurs:​l_Africain|L'​Africain]] //
  • xsane2tess.1373264323.txt.gz
  • Dernière modification: Le 08/07/2013, 08:18
  • par mydjey