Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
utilisateurs:l_africain:brouillon:xsane2tess [Le 14/12/2014, 16:35]
L'Africain supprimée
— (Version actuelle)
Ligne 1: Ligne 1:
-{{tag>​scanner graphisme ocr}} 
- 
----- 
- 
-====== xsane2tess : un adaptateur tesseract pour Xsane ====== 
- 
-**xsane2tess** est un adaptateur permettant d'​utiliser le moteur de reconnaissance optique de caractères [[:​tesseract-ocr|tesseract]] ​ avec l'​interface graphique [[:Xsane]]. Xsane2tess a été proposé par MadMax sur le forum [[http://​www.mandrivauser.de/​viewtopic.php?​pid=166894#​p166894|MandrivaUser.de]]. 
- 
- 
-===== Pré-requis ===== 
- 
-Pour utiliser xsane2tess, il faut installer [[:​tesseract-ocr|tesseract]] avec les modules de langue que l'on souhaite pouvoir utiliser. 
- 
-Il est nécessaire [[:​tutoriel:​comment_installer_un_paquet|d'​installer les paquets]] **[[apt>​xsane,​ imagemagick|Xsane et imagemagick]]**. 
- 
-===== Installation ===== 
-Suivez la procédure suivante: 
-  - [[:​tutoriel:​comment_modifier_un_fichier|Créez le fichier]] **xsane2tess** par exemple sur votre bureau et copiez-y le contenu suivant: 
-<file txt xsane2tess>#​!/​bin/​bash 
-  # 
-  # 
-  ##############################################################################​ 
-  # 
-  #                                   ​xsane2tess 1.0 
-  # 
-  #                          *** tesseract made simple *** 
-  # 
-  # 
-  ##############################################################################​ 
-  #  
-  # xsane2tess is a TesseractOCR wrapper to be able to use tesseract with xsane 
-  # 
-  # 
-  # 
-  TEMP_DIR=~/​.tmp/ ​     # folder for temporary files (TIFF & tesseract data) 
-  ERRORLOG="​xsane2tess.log" ​ # file where STDERR goes  
-  ​ 
-  if [[ -z "​$1" ​ ]] 
-    then 
-    echo "​Usage:​ $0 [OPTIONS] 
-  ​ 
-    xsane2tess converts files to TIF, scans them with TesseractOCR 
-    and outputs the text in a file. 
-  ​ 
-    OPTIONS: 
-      -i <​file1> ​ define input file (any image-format supported) 
-      -o <​file2> ​ define output-file (*.txt) 
-      -l <​lang> ​ define language-data tesseract should use 
-  ​ 
-    Progress- & error-messages will be stored in this logfile: 
-       ​$TEMP_DIR$ERRORLOG 
-  ​ 
-    xsane2tess depends on 
-      - ImageMagick ​ http://​www.imagemagick.org/​ 
-      - TesseractOCR http://​code.google.com/​p/​tesseract-ocr/​ 
-  ​ 
-    Some coding was stolen from '​ocube'​ 
-    http://​www.geocities.com/​thierryguy/​ocube.html 
-  " 
-    exit 
-  fi 
-  ​ 
-  ​ 
-  # get options... 
-  while getopts ":​i:​o:​l:"​ OPTION 
-    do 
-    case $OPTION in  
-      i)  # input filename (with path) 
-        FILE_PATH="​$OPTARG"​ 
-      ;; 
-      o )  # output filename 
-        FILE_OUT="​$OPTARG"​ 
-      ;; 
-      l )  # Language-selection 
-        TES_LANG="​$OPTARG"​ 
-      ;; 
-    esac 
-  done 
-  ​ 
-  # redirect STDOUT to FILE_OUT 
-  exec 1>>​$FILE_OUT 
-  ​ 
-  # redirect STDERR to ERRORLOG 
-  exec 2>>​$TEMP_DIR$ERRORLOG 
-  ​ 
-  # strip path from FILE_PATH, use filename only 
-  IN_FILE=${FILE_PATH##​*/​} 
-  ​ 
-  TIF_FILE="​$TEMP_DIR""​${IN_FILE%.*}"​.tif 
-  TXT_FILE="​$TEMP_DIR""​${IN_FILE%.*}"​ 
-  ​ 
-  # converting image into TIFF (ImageMagick) 
-  convert "​$FILE_PATH"​ -compress none  "​$TIF_FILE"​ 1>&2 
-  ​ 
-  # start OCR (tesseract expands output with *.txt) 
-  tesseract "​$TIF_FILE"​ "​$TXT_FILE"​ -l "​$TES_LANG"​ 1>&2 
-  ​ 
-  # STDOUT scanned text => FILE_OUT 
-  cat "​$TXT_FILE"​.txt 
-  ​ 
-  # delete graphic file after use 
-  rm "​$TIF_FILE"​ 
-  ​ 
-  # delete tesseract output 
-  rm "​$TXT_FILE"​.txt</​file>​ 
-  - [[:​tutoriel:​script_shell#​methode_graphique|Rendez exécutable]] le fichier //​xsane2tess//,​ 
-  - Copiez le fichier xsane2tess dans ///​usr/​bin//,​ en admettant que vous l'avez enregistré sur votre Bureau, sinon adapter le chemin: 
-<​code>​sudo cp Bureau/​xsane2tess /​usr/​bin</​code>​ 
-  - Créez un dossier caché //.tmp// dans votre **Dossier Personnel**,​ xsane2tess aura besoin de ce dossier pour placer son fichier de log, xsane2tess.log. Vous pourrez ensuite consulter ce fichier pour observer les éventuelles erreurs. 
- 
- 
-===== Utilisation ===== 
- 
-Dans votre [[:​unity#​dash|tableau de bord Unity]] entrer le mot clé "​Xsane"​.\\ 
-Puis Préférences -> Configuration -> Onglet "​OCR"​ entrer les informations suivantes en respectant bien la casse : 
-  * **Commande OCR** : xsane2tess -l fra  
-  * **Option de fichier d'​entrée** : -i 
-  * **Option de fichier de sortie** : -o 
- 
-La langue du texte à scanner peut être modifiée quand on le veut dans le menu de configuration de XSane [[:​tesseract-ocr#​les_options_de_langues|(l'​option-l)]],​ à condition d'​avoir installé les fichiers de langues correspondants de tesseract, comme indiqué dans le paragraphe Pré-requis.\\ 
-XSane présente le grand avantage de permettre la sélection des colonnes ou zones d'un texte l'une après l'​autre grâce à la prévisualisation,​ et donc  avant traitement ROC par tesseract. 
- 
-On obtient de bons résultats en scannant à 300 ppi, noir et blanc (fichier ​ "type : TEXT"​). 
-Pour plus de précisions,​ voir le paragraphe sur [[:​ocr#​xsane|la ROC avec XSane]]. 
- 
-Il suffit ensuite de copier-coller les fichiers obtenus dans un fichier LibreOffice Writer, et la reconnaissance orthographique fait le reste... 
- 
-===== Références ===== 
- 
-  * [[http://​www.mandrivauser.de/​viewtopic.php?​pid=166894#​p166894| Le post de MadMax sur xsane2tess]] (de) 
-  * [[:​tesseract-ocr]] (fr) 
-  * [[:Xsane]] (fr) 
-  * [[http://​www.equinoxefr.org/​post/​2008/​07/​05/​xsane-et-tesseract-locr-qui-marche-tres-bien-sous-linux/​ | Une solution qui fonctionne : xsane2tess ...]] (fr) 
-  * [[http://​forum.ubuntu-fr.org/​viewtopic.php?​id=78804| Le fil de discussion du forum Ubuntu-fr dédié à la Reconnaissance Optique de Caractères.]] (fr) 
-  
------- 
-//​Contributeurs : [[utilisateurs:​Sorbus]],​ [[utilisateurs:​l_Africain|L'​Africain]] //