Différences

Ci-dessous, les différences entre deux révisions de la page.

--- tesseract-ocr [Le 01/08/2018, 18:08]
92.136.33.34
+++ tesseract-ocr [Le 04/08/2023, 19:43] (Version actuelle)
lyondif02 [Liens] mention outil OCRmyPDF basé sur Tesseract
@@ Ligne 15: / Ligne 15: @@
 ===== Installation =====
 [[:tutoriel:comment_installer_un_paquet|Installez les paquets]] **[[apt>tesseract-ocr]]** et pour reconnaître la langue française, **[[apt>tesseract-ocr-fra]]**. \\
 Il existe d'autres fichiers de langues, comme par exemple :
   * **[[apt>tesseract-ocr-deu]]** (allemand),
   * **[[apt>tesseract-ocr-eng]]** (anglais),
   * **[[apt>tesseract-ocr-spa]]** (espagnol),
   * **[[apt>tesseract-ocr-nld]]** (hollandais),
   * **[[apt>tesseract-ocr-ita]]** (italien),
   * **[[apt>tesseract-ocr-por]]** (portugais-brésilien),
   * **[[apt>tesseract-ocr-vie]]** (vietmamien),
   * **[[apt>tesseract-ocr-deu-f]]** (vieil-allemand).
 ===== Utilisation =====
 <note important>les scanners numérisent souvent avec une résolution suffisante pour la lecture à l'écran mais insuffisante pour une reconnaissance efficace.
-Il faut donc numériser au moins à **300 voir 600 ppp** (Point Par Pouce ou DPI) </note>
+Il faut donc numériser au moins à **300 voire 600 ppp** (Point Par Pouce ou DPI)
+Quant au type de fichier, le format [[wpfr>Tagged_Image_File_Format|tiff]] est mieux reconnu, ainsi un document tiff en 300ppp est intégralement reconnu alors qu'au format JPEG, toujours en 300ppp, seules les lettres majuscules sont reconnues</note>
+======= Erreur à l'utilisation =====
+Si vous obtenez ce message :
+Error opening data file /home/<repertoire personnel>/snap/tesseract/common/Error opening data file /home/<repertoire personnel>/snap/tesseract/common/eng.traineddata.traineddata
+Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
+Failed loading language 'Error opening data file /home/<repertoire personnel>/snap/tesseract/common/eng.traineddata'
+Tesseract couldn't load any languages!
+Could not initialize tesseract.
+Copier le répertoire « tesseract-ocr ». Depuis usr/share/  →  vers usr/local/share/
+Les fichiers de langues se trouve à cette emplacement :
+usr/local/share/tesseract-ocr/4.00/tessdata
 ==== En ligne de commande ====
@@ Ligne 38: / Ligne 54: @@
 Pour traiter plusieurs fichiers, vous pouvez faire :
 <code>for i in *.jpg ; do tesseract -l fra $i $i.txt;  done;</code>
+Pour traiter un pdf image de plusieurs pages :
+<code>pdftoppm -r 300 -tiff texte.pdf texte
+for f in *.tif;do tesseract $f $f -l fra;done
+cat *.txt > document.txt</code>
 ==== Les options de langues ====
@@ Ligne 63: / Ligne 85: @@
 <note tip>Pour réaliser de la Reconnaissance optique de caractères :
   * sur un document déjà numérisé, on utilise [[gscan2pdf|gscan2pdf]].
   * sur un document à numériser, on utilise plutôt [[xsane|XSane]], dont la fonction de prévisualisation permet de sélectionner des zones de texte.
@@ Ligne 106: / Ligne 128: @@
   - Placez sur le bureau vos fichiers numérisés au format PNG (le mieux est un PNG en valeurs de gris et 300 dpi avec Xsane, mais vous pouvez essayer avec d'autres PNG déjà numérisés),
   - Vous pouvez placer sur le bureau plusieurs fichiers PNG sur lesquels vous voulez procéder à la reconnaissance optique, mais ne dépassez pas 3-4 fichiers si vous voulez une opération relativement rapide. \\ Les contenus des différents fichiers seront placés les uns à la suite des autres dans un même document Libreoffice.
-  - Cliquez sur le raccourci précédemment créé ou directement sur le script... patientez un peu... Libreoffice s'ouvrira avec le contenue du texte tel qu'il a été reconnu
+  - Cliquez sur le raccourci précédemment créé ou directement sur le script... patientez un peu... Libreoffice s'ouvrira avec le contenu du texte tel qu'il a été reconnu
   - Il vous reste a effectuer les corrections orthographiques et la mise en page.
@@ Ligne 142: / Ligne 164: @@
   * [[https://github.com/tesseract-ocr/tesseract/wiki|Site officiel]]
   * [[http://www.repairfaq.org/filipg/gnu/tesseract/html-102_03/|Documentation pour contribuer au code (en anglais)]]
-  * [[http://forum.ubuntu-fr.org/viewtopic.php?id=78804|le fil de discussion du forum]] Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
+  * [[https://forum.ubuntu-fr.org/viewtopic.php?id=78804|le fil de discussion du forum]] Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
   * [[https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract|La page où on parle de l'apprentissage avec tesseract (anglais)]]
   * [[:ocr|La page de la documentation francophone Ubuntu sur la reconnaissance optique de caractères]]
   * [[https://gist.github.com/stesie/42dff3d14fbfac60524f381babb8f81d|script « scan2pdf+ocr.sh » sur le GITHUB]]
+  * [[https://ocrmypdf.readthedocs.io/en/latest/introduction.html|OCRmyPDF]] : programme qui rend un fichier PDF indexable – à savoir, dont le contenu peut faire l’objet d’un recherche textuelle. Il est écrit en [[python|Python]], s’appuie sur le moteur ROC Tesseract et sur GhostScript, est disponible au [[snap|format Snap]] ou en [[apt|paquet APT]], et est utilisable en ligne de commande par défaut.
 ----
 //Contributeurs : [[:utilisateurs:teolemon|Pierre S.]], [[:utilisateurs:Hector]] et [[:utilisateurs:Sorbus]], [[:utilisateurs:eagle08]] : liens.//