Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
xsane2tess [Le 04/04/2009, 07:31]
Sorbus Info importante pour éviter un dysfonctionnement d'xsane2tess
xsane2tess [Le 03/03/2023, 19:13] (Version actuelle)
L'Africain
Ligne 1: Ligne 1:
-{{tag>Gutsy Hardy scanner graphisme ocr brouillon}}+{{tag>Xenial ​scanner graphisme ocr}}
  
 ---- ----
Ligne 5: Ligne 5:
 ====== xsane2tess : un adaptateur tesseract pour Xsane ====== ====== xsane2tess : un adaptateur tesseract pour Xsane ======
  
-**xsane2tess** est un adaptateur ​(wrapper) ​permettant d'​utiliser le moteur de reconnaissance optique de caractères [[:​tesseract-ocr|tesseract]] ​ avec l'interface graphique ​[[:xsane|XSane]]. xsane2tess, inspiré de [[http://​www.geocities.com/​thierryguy/​ocube.html|ocube]], ​a été proposé par MadMax sur le forum [[http://​www.mandrivauser.de/​viewtopic.php?​pid=166894#​p166894|MandrivaUser.de]]. +**xsane2tess** est un adaptateur permettant d'​utiliser le moteur de reconnaissance optique de caractères [[:​tesseract-ocr|tesseract]] ​ avec l'application de numérisation ​[[:Xsane]]. **Xsane2tess** ​a été proposé par MadMax sur le forum [[http://​www.mandrivauser.de/​viewtopic.php?​pid=166894#​p166894|MandrivaUser.de]].
  
 ===== Pré-requis ===== ===== Pré-requis =====
- +  * Disposer des [[:​sudo|droits d'​administration]];​ 
-Pour utiliser xsane2tess, il faut installer ​[[:​tesseract-ocr|tesseract]] avec les modules de langue que l'on souhaite pouvoir utiliser. +  * Disposer d'une connexion à Internet configurée et activée; 
- +  * Avoir installé les paquets: 
-Il est nécessaire ​[[:tutoriel:​comment_installer_un_paquet|d'​installer les paquets]] **xsane** et **imagemagick**+    * **[[:​tesseract-ocr|tesseract]]** avec les modules de langue que l'on souhaite pouvoir utiliser; 
- +    * **[[:Xsane]]** 
- +    ​* et **[[:imagemagick]]**
- +
- +
  
 ===== Installation ===== ===== Installation =====
- +Pour utiliser la reconnaissance optique ​de caractères ​[[:tesseract-ocr|tesseract]]  avec l'​application ​de numérisation ​[[:Xsane]], il est nécessaire de créer ​un [[:script]]Pour cela, il suffit ​de suivre la procédure suivante
-On peut utiliser ​au choix l'une ou l'​autre méthode ci-dessous : installer avec le paquet deb, ce qui est plus simple et plus rapide, ou bien installer soi-même le script "​à ​la main", si on veut comprendre davantage le fonctionnement. +  - [[:​tutoriel:​comment_modifier_un_fichier|Créez ​le fichier]] ​**xsane2tess** par exemple ​sur votre Bureau ​et copiez-y ​le contenu suivant: <file txt xsane2tess>#!/bin/bash
- +
- +
- +
- +
-==== Avec le paquet deb de GuadaUsers ==== +
-//[[http://​guadausers.es/​|GuadaUsers]] propose un dépôt non-officiel ​de paquets debian, hébergé par tuxfamily, pour la distribution GNU/Linux Guadalinex (distribution andalouse, basée sur Ubuntu. Guadalinex V4 = Edgy, Guadalinex V5 = Hardy).// +
- +
-**1°) Télécharger et installer ​[[http://​download.tuxfamily.org/​guadausers/​guadaV4/​xsane2tess_1.0-1guadausers1_i386.deb|le paquet deb de GuadaUsers]]**adapté aussi bien pour les architectures 32 bits que pour les 64 bits (i386 et amd64). +
-//Ce paquet a été testé sous Ubuntu Edgy et Gutsy.// +
- +
-**2°) Créer ​un dossier tmp dans /​home/​votre_identité.** +
-  * xsane2tess aura besoin ​de ce dossier pour placer son fichier de log ///​home/​votre_identité/​tmp/​xsane2tess.log +
-// +
-  ​* Vous pourrez ensuite consulter ce fichier pour observer les éventuelles erreurs. +
- +
- +
-==== En installant soi-même le script ==== +
- +
-**1°) Copier le script ci-dessous dans un fichier** (sur votre bureau) ​et l'​enregistrer sous le nom de **xsane2tess** +
- +
-  ​#!/bin/bash+
   #   #
   #   #
Ligne 58: Ligne 33:
   #   #
   #   #
-  TEMP_DIR=~/tmp/      # folder for temporary files (TIFF & tesseract data)+  TEMP_DIR=/​tmp/ ​     # folder for temporary files (TIFF & tesseract data)
   ERRORLOG="​xsane2tess.log" ​ # file where STDERR goes    ERRORLOG="​xsane2tess.log" ​ # file where STDERR goes 
   ​   ​
Ligne 128: Ligne 103:
   ​   ​
   # delete tesseract output   # delete tesseract output
-  rm "​$TXT_FILE"​.txt +  rm "​$TXT_FILE"​.txt</​file>​ 
-** +  - [[:​tutoriel:​script_shell#​methode_graphique|Rendez ​exécutable]] ce fichier ​//xsane2tess//, 
-2°) Rendre ​exécutable ce fichier** xsane2tess +  Depuis ​un [[:​terminal]],​ copiez le fichier ​//xsane2tess// dans le dossier ​dans ///usr/bin//, en admettant que vous l'avez enregistré sur votre Bureau, sinon adapter le chemin: 
-Clic droit sur le fichier ​--> Propriétés --> onglet "​Permissions"​ --> Cocher la case "​Autoriser l'​exécution du fichier comme un programme"​. +<​code>​sudo cp Bureau/xsane2tess /usr/bin</​code>​ 
- +Vous pourrez ensuite consulter le fichier ​//xsane2tess.log// ​dans le dossier ​// /tmp// pour observer les éventuelles erreurs .
-**3°) Copier ce fichier xsane2tess dans /usr/bin** +
-  sudo cp /​home/​votre_identité/​Desktop/xsane2tess /usr/bin +
- +
-**4°) Créer un dossier tmp dans /home/votre_identité.** +
-  * xsane2tess aura besoin de ce dossier pour placer son fichier de log ///home/votre_identité/tmp/xsane2tess.log +
-/+
-  * Vous pourrez ensuite consulter ce fichier ​pour observer les éventuelles erreurs. +
- +
- +
  
 ===== Utilisation ===== ===== Utilisation =====
  
-Ouvrir XSane Applications ​-> Graphisme ​-> Scanneur ​d'images XSane+  - Lancer l'​application [[:Xsane]]  
 +  - Puis dans le menu: Préférences ​-> Configuration ​-> Onglet "​OCR"​ entrez les informations suivantes en respectant bien la casse : 
 +    * **Commande OCR** : xsane2tess -l fra  
 +    * **Option de fichier ​d'entrée** : -i 
 +    * **Option de fichier de sortie** : -o
  
-Dans Préférences -> Configuration -> Onglet "​OCR" ​: +La langue du texte à numériser peut être modifiée quand on le veut dans le menu de configuration de XSane [[:tesseract-ocr#​les_options_de_langues|(l'​option-l)]],​ à condition ​d'avoir installé les fichiers de langues correspondants de tesseract, comme indiqué dans le paragraphe [[#Pré-requis]].\\ 
-  * **Commande OCR** : xsane2tess ​-l fra  +[[:XSane]] présente le grand avantage ​de permettre la sélection des colonnes ou zones d'un texte l'une après l'​autre grâce à la prévisualisation,​ et donc  avant traitement [[:OCR]] par tesseract.
-  * **Option de fichier ​d'entrée** : -i +
-  * **Option de fichier ​de sortie** ​-o+
  
-<note important>​Dans l'​onglet OCR de XSane, les indications ci-dessus ("​xsane2tess -l fra", "​-i"​ et "​-o"​) ne doivent pas être précédées d'une espace, ni suivies d'une espace. La présence d'une espace avant ou après ces indications entraine un dysfonctionnement d'​xsane2tess. Par contre, dans "​xsane2tess -l fra", il faut bien une espace entre "​xsane2tess"​ et "​-l",​ et une autre entre "​-l"​ et "​fra"​.</​note>​ +On obtient de bons résultats en numérisant ​à 300 ppi, noir et blanc (fichier ​ "type : TEXT"​).
-<note important>​N.B. : dans la commande OCR "​xsane2tess -l fra", l'​indication de la langue est précédée par l'​option "​-l"​ (la lettre "​L"​ minuscule et non le chiffre "​1"​).</​note>​ +
- +
- +
-La langue du texte à scanner peut être modifiée quand on le veut dans le menu de configuration de XSane [[:​tesseract-ocr#​les_options_de_langues|(l'​option-l)]],​ à condition d'​avoir installé les fichiers de langues correspondants de tesseract, comme indiqué dans le paragraphe Pré-requis. +
- +
-XSane présente le grand avantage de permettre la sélection des colonnes ou zones d'un texte l'une après l'​autre grâce à la prévisualisation,​ avant de scanner, et donc  avant traitement ROC par tesseract. +
- +
-On obtient de bons résultats en scannant ​à 300 ppi, noir et blanc (fichier ​ "type : TEXT"). Les fichiers contenant le texte sont par défaut créés sur le bureau.+
 Pour plus de précisions,​ voir le paragraphe sur [[:​ocr#​xsane|la ROC avec XSane]]. Pour plus de précisions,​ voir le paragraphe sur [[:​ocr#​xsane|la ROC avec XSane]].
  
-Il suffit de copier-coller les fichiers obtenus dans un fichier OOo Writer, et la reconnaissance orthographique ​d'​OpenOffice ​fait le reste...+Il suffit ​ensuite ​de copier-coller les fichiers obtenus dans une application de traitement de texte comme LibreOffice ​Writer, et la reconnaissance orthographique fait le reste...
  
 +=====Désinstallation====
 +Pour supprimer cette application,​ il suffit de [[:​tutoriel:​comment_supprimer_un_paquet|supprimer son paquet]], les paquets de langues installées et si ils ne sont plus nécessaires pour d'​autres applications,​ supprimer les paquets **  [[:​tesseract-ocr|tesseract]]** et  **[[:​Imagemagick]]**. Le script créé plus haut ne sera plus utile, vous pouvez aussi le supprimer.\\
 +Selon la méthode choisie, la configuration globale des applications sont conservées ou supprimées. Les journaux du système, et les fichiers de préférence des utilisateurs dans leurs dossiers personnels sont toujours conservés.
  
 +===== Voir aussi =====
  
-===== Références ===== +  ​* [[https://​web.archive.org/​web/​20090719052550/​http://​www.mandrivauser.de/​viewtopic.php?​pid=166894| Le post de MadMax ​concernant ​xsane2tess ​disponible sur Internet Archive]] (de) 
- +  * [[:tesseract-ocr]] (fr
-  ​* [[http://​www.mandrivauser.de/​viewtopic.php?​pid=166894#p166894| Le post de MadMax ​sur xsane2tess]] (de) +  * [[:Xsane]] (fr) 
-  * [[http://​www.geocities.com/​thierryguy/​| "​ocube ​a tesseract wrapper"​]] (en+  * [[https://​www.equinoxefr.org/​post/​2008/​07/​05/​xsane-et-tesseract-locr-qui-marche-tres-bien-sous-linux/ ​Une solution qui fonctionne : xsane2tess ...]] (fr) 
-  * [[http://​www.geocities.com/​thierryguy/​ocube.html| ocube]] (en) +  * [[https://​forum.ubuntu-fr.org/​viewtopic.php?​id=78804| Le fil de discussion du forum Ubuntu-fr dédié à la Reconnaissance Optique de Caractères.]] (fr) 
-  * [[tesseract-ocr]] (fr) + 
-  * [[:xsane|XSane]] (fr) +
-  * [[http://​forum.ubuntu-fr.org/​viewtopic.php?​id=78804| Le fil de discussion du forum Ubuntu-fr dédié à la Reconnaissance Optique de Caractères.]] (fr) +
-  * [[http://​www.guadalinex.org/​participa/​foros/​hilo/​17193| Le fil de discussion sur le forum de Guadalinex]] (sp)+
 ------ ------
-//Page réalisée par : [[utilisateurs:​Sorbus]] (28 janvier 2008)// 
------- 
- 
- 
  
 +//​Contributeurs : [[utilisateurs:​Sorbus]],​ [[utilisateurs:​l_Africain|L'​Africain]] //
  • xsane2tess.1238823108.txt.gz
  • Dernière modification: Le 04/04/2009, 07:31
  • par Sorbus