Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
tesseract-ocr [Le 01/08/2018, 18:08]
92.136.33.34
tesseract-ocr [Le 11/09/2022, 12:16] (Version actuelle)
moths-art Suppression des espaces en fin de ligne (détecté et corrigé via le bot wiki-corrector (https://forum.ubuntu-fr.org/viewtopic.php?id=2067892)
Ligne 15: Ligne 15:
 ===== Installation ===== ===== Installation =====
 [[:​tutoriel:​comment_installer_un_paquet|Installez les paquets]] **[[apt>​tesseract-ocr]]** et pour reconnaître la langue française, **[[apt>​tesseract-ocr-fra]]**. \\ [[:​tutoriel:​comment_installer_un_paquet|Installez les paquets]] **[[apt>​tesseract-ocr]]** et pour reconnaître la langue française, **[[apt>​tesseract-ocr-fra]]**. \\
-Il existe d'​autres fichiers de langues, comme par exemple :  +Il existe d'​autres fichiers de langues, comme par exemple : 
-  * **[[apt>​tesseract-ocr-deu]]** (allemand),  +  * **[[apt>​tesseract-ocr-deu]]** (allemand),​ 
-  * **[[apt>​tesseract-ocr-eng]]** (anglais),  +  * **[[apt>​tesseract-ocr-eng]]** (anglais),​ 
-  * **[[apt>​tesseract-ocr-spa]]** (espagnol),  +  * **[[apt>​tesseract-ocr-spa]]** (espagnol),​ 
-  * **[[apt>​tesseract-ocr-nld]]** (hollandais),​  +  * **[[apt>​tesseract-ocr-nld]]** (hollandais),​ 
-  * **[[apt>​tesseract-ocr-ita]]** (italien),  +  * **[[apt>​tesseract-ocr-ita]]** (italien),​ 
-  * **[[apt>​tesseract-ocr-por]]** (portugais-brésilien), ​ +  * **[[apt>​tesseract-ocr-por]]** (portugais-brésilien),​
   * **[[apt>​tesseract-ocr-vie]]** (vietmamien),​   * **[[apt>​tesseract-ocr-vie]]** (vietmamien),​
-  * **[[apt>​tesseract-ocr-deu-f]]** (vieil-allemand). ​+  * **[[apt>​tesseract-ocr-deu-f]]** (vieil-allemand).
  
 ===== Utilisation ===== ===== Utilisation =====
 <note important>​les scanners numérisent souvent avec une résolution suffisante pour la lecture à l'​écran mais insuffisante pour une reconnaissance efficace. <note important>​les scanners numérisent souvent avec une résolution suffisante pour la lecture à l'​écran mais insuffisante pour une reconnaissance efficace.
  
-Il faut donc numériser au moins à **300 voir 600 ppp** (Point Par Pouce ou DPI) </​note>​+Il faut donc numériser au moins à **300 voire 600 ppp** (Point Par Pouce ou DPI) 
 + 
 +Quant au type de fichier, le format [[wpfr>​Tagged_Image_File_Format|tiff]] est mieux reconnu, ainsi un document tiff en 300ppp est intégralement reconnu alors qu'au format JPEG, toujours en 300ppp, seules les lettres majuscules sont reconnues</​note>​ 
 + 
 +======= Erreur à l'​utilisation ===== 
 +Si vous obtenez ce message : 
 + 
 +Error opening data file /​home/<​repertoire personnel>/​snap/​tesseract/​common/​Error opening data file /​home/<​repertoire personnel>/​snap/​tesseract/​common/​eng.traineddata.traineddata 
 +Please make sure the TESSDATA_PREFIX environment variable is set to your "​tessdata"​ directory. 
 +Failed loading language 'Error opening data file /​home/<​repertoire personnel>/​snap/​tesseract/​common/​eng.traineddata'​ 
 +Tesseract couldn'​t load any languages! 
 +Could not initialize tesseract. 
 + 
 +Copier le répertoire « tesseract-ocr ». Depuis usr/​share/ ​ →  vers usr/​local/​share/​ 
 + 
 +Les fichiers de langues se trouve à cette emplacement :​ 
 +usr/​local/​share/​tesseract-ocr/​4.00/​tessdata
  
 ==== En ligne de commande ==== ==== En ligne de commande ====
Ligne 38: Ligne 54:
 Pour traiter plusieurs fichiers, vous pouvez faire : Pour traiter plusieurs fichiers, vous pouvez faire :
 <​code>​for i in *.jpg ; do tesseract -l fra $i $i.txt; ​ done;</​code>​ <​code>​for i in *.jpg ; do tesseract -l fra $i $i.txt; ​ done;</​code>​
 +
 +Pour traiter un pdf image de plusieurs pages :
 +<​code>​pdftoppm -r 300 -tiff texte.pdf texte
 +for f in *.tif;do tesseract $f $f -l fra;done
 +cat *.txt > document.txt</​code>​
 +
  
 ==== Les options de langues ==== ==== Les options de langues ====
Ligne 63: Ligne 85:
  
 <note tip>Pour réaliser de la Reconnaissance optique de caractères : <note tip>Pour réaliser de la Reconnaissance optique de caractères :
-  * sur un document déjà numérisé, on utilise [[gscan2pdf|gscan2pdf]]. ​+  * sur un document déjà numérisé, on utilise [[gscan2pdf|gscan2pdf]].
   * sur un document à numériser, on utilise plutôt [[xsane|XSane]],​ dont la fonction de prévisualisation permet de sélectionner des zones de texte.   * sur un document à numériser, on utilise plutôt [[xsane|XSane]],​ dont la fonction de prévisualisation permet de sélectionner des zones de texte.
  
Ligne 106: Ligne 128:
   - Placez sur le bureau vos fichiers numérisés au format PNG (le mieux est un PNG en valeurs de gris et 300 dpi avec Xsane, mais vous pouvez essayer avec d'​autres PNG déjà numérisés),​   - Placez sur le bureau vos fichiers numérisés au format PNG (le mieux est un PNG en valeurs de gris et 300 dpi avec Xsane, mais vous pouvez essayer avec d'​autres PNG déjà numérisés),​
   - Vous pouvez placer sur le bureau plusieurs fichiers PNG sur lesquels vous voulez procéder à la reconnaissance optique, mais ne dépassez pas 3-4 fichiers si vous voulez une opération relativement rapide. \\ Les contenus des différents fichiers seront placés les uns à la suite des autres dans un même document Libreoffice.   - Vous pouvez placer sur le bureau plusieurs fichiers PNG sur lesquels vous voulez procéder à la reconnaissance optique, mais ne dépassez pas 3-4 fichiers si vous voulez une opération relativement rapide. \\ Les contenus des différents fichiers seront placés les uns à la suite des autres dans un même document Libreoffice.
-  - Cliquez sur le raccourci précédemment créé ou directement sur le script... patientez un peu... Libreoffice s'​ouvrira avec le contenue ​du texte tel qu'il a été reconnu+  - Cliquez sur le raccourci précédemment créé ou directement sur le script... patientez un peu... Libreoffice s'​ouvrira avec le contenu ​du texte tel qu'il a été reconnu
   - Il vous reste a effectuer les corrections orthographiques et la mise en page.   - Il vous reste a effectuer les corrections orthographiques et la mise en page.
  
Ligne 142: Ligne 164:
   * [[https://​github.com/​tesseract-ocr/​tesseract/​wiki|Site officiel]]   * [[https://​github.com/​tesseract-ocr/​tesseract/​wiki|Site officiel]]
   * [[http://​www.repairfaq.org/​filipg/​gnu/​tesseract/​html-102_03/​|Documentation pour contribuer au code (en anglais)]]   * [[http://​www.repairfaq.org/​filipg/​gnu/​tesseract/​html-102_03/​|Documentation pour contribuer au code (en anglais)]]
-  * [[http://​forum.ubuntu-fr.org/​viewtopic.php?​id=78804|le fil de discussion du forum]] Open Office, Reconnaissance de caractères,​ Xsane, Kooka et Cie...+  * [[https://​forum.ubuntu-fr.org/​viewtopic.php?​id=78804|le fil de discussion du forum]] Open Office, Reconnaissance de caractères,​ Xsane, Kooka et Cie...
   * [[https://​github.com/​tesseract-ocr/​tesseract/​wiki/​TrainingTesseract|La page où on parle de l'​apprentissage avec tesseract (anglais)]]   * [[https://​github.com/​tesseract-ocr/​tesseract/​wiki/​TrainingTesseract|La page où on parle de l'​apprentissage avec tesseract (anglais)]]
   * [[:ocr|La page de la documentation francophone Ubuntu sur la reconnaissance optique de caractères]]   * [[:ocr|La page de la documentation francophone Ubuntu sur la reconnaissance optique de caractères]]
  • tesseract-ocr.1533139723.txt.gz
  • Dernière modification: Le 01/08/2018, 18:08
  • par 92.136.33.34