Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
tesseract-ocr [Le 12/09/2020, 14:18] – [Utilisation] 78.203.12.33tesseract-ocr [Le 22/12/2025, 17:48] (Version actuelle) L'Africain
Ligne 1: Ligne 1:
-{{tag>Xenial Trusty ocr bureautique}}+{{tag>Noble ocr bureautique}}
  
 ---- ----
Ligne 15: Ligne 15:
 ===== Installation ===== ===== Installation =====
 [[:tutoriel:comment_installer_un_paquet|Installez les paquets]] **[[apt>tesseract-ocr]]** et pour reconnaître la langue française, **[[apt>tesseract-ocr-fra]]**. \\ [[:tutoriel:comment_installer_un_paquet|Installez les paquets]] **[[apt>tesseract-ocr]]** et pour reconnaître la langue française, **[[apt>tesseract-ocr-fra]]**. \\
-Il existe d'autres fichiers de langues, comme par exemple :  +Il existe d'autres fichiers de langues, comme par exemple : 
-  * **[[apt>tesseract-ocr-deu]]** (allemand),  +  * **[[apt>tesseract-ocr-deu]]** (allemand), 
-  * **[[apt>tesseract-ocr-eng]]** (anglais),  +  * **[[apt>tesseract-ocr-eng]]** (anglais), 
-  * **[[apt>tesseract-ocr-spa]]** (espagnol),  +  * **[[apt>tesseract-ocr-spa]]** (espagnol), 
-  * **[[apt>tesseract-ocr-nld]]** (hollandais),  +  * **[[apt>tesseract-ocr-nld]]** (hollandais), 
-  * **[[apt>tesseract-ocr-ita]]** (italien),  +  * **[[apt>tesseract-ocr-ita]]** (italien), 
-  * **[[apt>tesseract-ocr-por]]** (portugais-brésilien),  +  * **[[apt>tesseract-ocr-por]]** (portugais-brésilien),
   * **[[apt>tesseract-ocr-vie]]** (vietmamien),   * **[[apt>tesseract-ocr-vie]]** (vietmamien),
-  * **[[apt>tesseract-ocr-deu-f]]** (vieil-allemand). +  * **[[apt>tesseract-ocr-deu-f]]** (vieil-allemand).
  
 ===== Utilisation ===== ===== Utilisation =====
 <note important>les scanners numérisent souvent avec une résolution suffisante pour la lecture à l'écran mais insuffisante pour une reconnaissance efficace. <note important>les scanners numérisent souvent avec une résolution suffisante pour la lecture à l'écran mais insuffisante pour une reconnaissance efficace.
  
-Il faut donc numériser au moins à **300 voire 600 ppp** (Point Par Pouce ou DPI) +Il faut donc numériser au moins à **300 voire 600 ppp** (Point Par Pouce ou DPI)
  
 Quant au type de fichier, le format [[wpfr>Tagged_Image_File_Format|tiff]] est mieux reconnu, ainsi un document tiff en 300ppp est intégralement reconnu alors qu'au format JPEG, toujours en 300ppp, seules les lettres majuscules sont reconnues</note> Quant au type de fichier, le format [[wpfr>Tagged_Image_File_Format|tiff]] est mieux reconnu, ainsi un document tiff en 300ppp est intégralement reconnu alors qu'au format JPEG, toujours en 300ppp, seules les lettres majuscules sont reconnues</note>
Ligne 44: Ligne 44:
  
 Les fichiers de langues se trouve à cette emplacement : Les fichiers de langues se trouve à cette emplacement :
-usrlocal/share/tesseract-ocr/4.00/tessdata+usr/local/share/tesseract-ocr/4.00/tessdata
  
 ==== En ligne de commande ==== ==== En ligne de commande ====
Ligne 85: Ligne 85:
  
 <note tip>Pour réaliser de la Reconnaissance optique de caractères : <note tip>Pour réaliser de la Reconnaissance optique de caractères :
-  * sur un document déjà numérisé, on utilise [[gscan2pdf|gscan2pdf]]. +  * sur un document déjà numérisé, on utilise [[gscan2pdf|gscan2pdf]].
   * sur un document à numériser, on utilise plutôt [[xsane|XSane]], dont la fonction de prévisualisation permet de sélectionner des zones de texte.   * sur un document à numériser, on utilise plutôt [[xsane|XSane]], dont la fonction de prévisualisation permet de sélectionner des zones de texte.
  
Ligne 164: Ligne 164:
   * [[https://github.com/tesseract-ocr/tesseract/wiki|Site officiel]]   * [[https://github.com/tesseract-ocr/tesseract/wiki|Site officiel]]
   * [[http://www.repairfaq.org/filipg/gnu/tesseract/html-102_03/|Documentation pour contribuer au code (en anglais)]]   * [[http://www.repairfaq.org/filipg/gnu/tesseract/html-102_03/|Documentation pour contribuer au code (en anglais)]]
-  * [[http://forum.ubuntu-fr.org/viewtopic.php?id=78804|le fil de discussion du forum]] Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...+  * [[https://forum.ubuntu-fr.org/viewtopic.php?id=78804|le fil de discussion du forum]] Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
   * [[https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract|La page où on parle de l'apprentissage avec tesseract (anglais)]]   * [[https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract|La page où on parle de l'apprentissage avec tesseract (anglais)]]
   * [[:ocr|La page de la documentation francophone Ubuntu sur la reconnaissance optique de caractères]]   * [[:ocr|La page de la documentation francophone Ubuntu sur la reconnaissance optique de caractères]]
   * [[https://gist.github.com/stesie/42dff3d14fbfac60524f381babb8f81d|script « scan2pdf+ocr.sh » sur le GITHUB]]   * [[https://gist.github.com/stesie/42dff3d14fbfac60524f381babb8f81d|script « scan2pdf+ocr.sh » sur le GITHUB]]
 +  * [[https://ocrmypdf.readthedocs.io/en/latest/introduction.html|OCRmyPDF]] : programme qui rend un fichier PDF indexable – à savoir, dont le contenu peut faire l’objet d’un recherche textuelle. Il est écrit en [[python|Python]], s’appuie sur le moteur ROC Tesseract et sur GhostScript, est disponible au [[snap|format Snap]] ou en [[apt|paquet APT]], et est utilisable en ligne de commande par défaut.
  
 ---- ----
  
 //Contributeurs : [[:utilisateurs:teolemon|Pierre S.]], [[:utilisateurs:Hector]] et [[:utilisateurs:Sorbus]], [[:utilisateurs:eagle08]] : liens.// //Contributeurs : [[:utilisateurs:teolemon|Pierre S.]], [[:utilisateurs:Hector]] et [[:utilisateurs:Sorbus]], [[:utilisateurs:eagle08]] : liens.//