Différences

Ci-dessous, les différences entre deux révisions de la page.

--- tesseract-ocr [Le 31/12/2021, 14:03]
wiki-corrector-bot passage de http à https sur les liens externes (détecté et corrigé via le bot wiki-corrector (https://forum.ubuntu-fr.org/viewtopic.php?id=2067892)
+++ tesseract-ocr [Le 04/08/2023, 19:43] (Version actuelle)
lyondif02 [Liens] mention outil OCRmyPDF basé sur Tesseract
@@ Ligne 1: / Ligne 1: @@
 {{tag>Xenial Trusty ocr bureautique}}
@@ Ligne 16: / Ligne 15: @@
 ===== Installation =====
 [[:tutoriel:comment_installer_un_paquet|Installez les paquets]] **[[apt>tesseract-ocr]]** et pour reconnaître la langue française, **[[apt>tesseract-ocr-fra]]**. \\
 Il existe d'autres fichiers de langues, comme par exemple :
   * **[[apt>tesseract-ocr-deu]]** (allemand),
   * **[[apt>tesseract-ocr-eng]]** (anglais),
   * **[[apt>tesseract-ocr-spa]]** (espagnol),
   * **[[apt>tesseract-ocr-nld]]** (hollandais),
   * **[[apt>tesseract-ocr-ita]]** (italien),
   * **[[apt>tesseract-ocr-por]]** (portugais-brésilien),
   * **[[apt>tesseract-ocr-vie]]** (vietmamien),
   * **[[apt>tesseract-ocr-deu-f]]** (vieil-allemand).
 ===== Utilisation =====
 <note important>les scanners numérisent souvent avec une résolution suffisante pour la lecture à l'écran mais insuffisante pour une reconnaissance efficace.
 Il faut donc numériser au moins à **300 voire 600 ppp** (Point Par Pouce ou DPI)
 Quant au type de fichier, le format [[wpfr>Tagged_Image_File_Format|tiff]] est mieux reconnu, ainsi un document tiff en 300ppp est intégralement reconnu alors qu'au format JPEG, toujours en 300ppp, seules les lettres majuscules sont reconnues</note>
@@ Ligne 86: / Ligne 85: @@
 <note tip>Pour réaliser de la Reconnaissance optique de caractères :
   * sur un document déjà numérisé, on utilise [[gscan2pdf|gscan2pdf]].
   * sur un document à numériser, on utilise plutôt [[xsane|XSane]], dont la fonction de prévisualisation permet de sélectionner des zones de texte.
@@ Ligne 169: / Ligne 168: @@
   * [[:ocr|La page de la documentation francophone Ubuntu sur la reconnaissance optique de caractères]]
   * [[https://gist.github.com/stesie/42dff3d14fbfac60524f381babb8f81d|script « scan2pdf+ocr.sh » sur le GITHUB]]
+  * [[https://ocrmypdf.readthedocs.io/en/latest/introduction.html|OCRmyPDF]] : programme qui rend un fichier PDF indexable – à savoir, dont le contenu peut faire l’objet d’un recherche textuelle. Il est écrit en [[python|Python]], s’appuie sur le moteur ROC Tesseract et sur GhostScript, est disponible au [[snap|format Snap]] ou en [[apt|paquet APT]], et est utilisable en ligne de commande par défaut.
 ----
 //Contributeurs : [[:utilisateurs:teolemon|Pierre S.]], [[:utilisateurs:Hector]] et [[:utilisateurs:Sorbus]], [[:utilisateurs:eagle08]] : liens.//