Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Dernière révision Les deux révisions suivantes
tesseract-ocr [Le 01/09/2022, 00:07]
moths-art Passage de http à https sur les liens externes (détecté et corrigé via le bot wiki-corrector (https://forum.ubuntu-fr.org/viewtopic.php?id=2067892)
tesseract-ocr [Le 11/09/2022, 12:16]
moths-art Suppression des espaces en fin de ligne (détecté et corrigé via le bot wiki-corrector (https://forum.ubuntu-fr.org/viewtopic.php?id=2067892)
Ligne 15: Ligne 15:
 ===== Installation ===== ===== Installation =====
 [[:​tutoriel:​comment_installer_un_paquet|Installez les paquets]] **[[apt>​tesseract-ocr]]** et pour reconnaître la langue française, **[[apt>​tesseract-ocr-fra]]**. \\ [[:​tutoriel:​comment_installer_un_paquet|Installez les paquets]] **[[apt>​tesseract-ocr]]** et pour reconnaître la langue française, **[[apt>​tesseract-ocr-fra]]**. \\
-Il existe d'​autres fichiers de langues, comme par exemple :  +Il existe d'​autres fichiers de langues, comme par exemple : 
-  * **[[apt>​tesseract-ocr-deu]]** (allemand),  +  * **[[apt>​tesseract-ocr-deu]]** (allemand),​ 
-  * **[[apt>​tesseract-ocr-eng]]** (anglais),  +  * **[[apt>​tesseract-ocr-eng]]** (anglais),​ 
-  * **[[apt>​tesseract-ocr-spa]]** (espagnol),  +  * **[[apt>​tesseract-ocr-spa]]** (espagnol),​ 
-  * **[[apt>​tesseract-ocr-nld]]** (hollandais),​  +  * **[[apt>​tesseract-ocr-nld]]** (hollandais),​ 
-  * **[[apt>​tesseract-ocr-ita]]** (italien),  +  * **[[apt>​tesseract-ocr-ita]]** (italien),​ 
-  * **[[apt>​tesseract-ocr-por]]** (portugais-brésilien), ​ +  * **[[apt>​tesseract-ocr-por]]** (portugais-brésilien),​
   * **[[apt>​tesseract-ocr-vie]]** (vietmamien),​   * **[[apt>​tesseract-ocr-vie]]** (vietmamien),​
-  * **[[apt>​tesseract-ocr-deu-f]]** (vieil-allemand). ​+  * **[[apt>​tesseract-ocr-deu-f]]** (vieil-allemand).
  
 ===== Utilisation ===== ===== Utilisation =====
 <note important>​les scanners numérisent souvent avec une résolution suffisante pour la lecture à l'​écran mais insuffisante pour une reconnaissance efficace. <note important>​les scanners numérisent souvent avec une résolution suffisante pour la lecture à l'​écran mais insuffisante pour une reconnaissance efficace.
  
-Il faut donc numériser au moins à **300 voire 600 ppp** (Point Par Pouce ou DPI) +Il faut donc numériser au moins à **300 voire 600 ppp** (Point Par Pouce ou DPI)
  
 Quant au type de fichier, le format [[wpfr>​Tagged_Image_File_Format|tiff]] est mieux reconnu, ainsi un document tiff en 300ppp est intégralement reconnu alors qu'au format JPEG, toujours en 300ppp, seules les lettres majuscules sont reconnues</​note>​ Quant au type de fichier, le format [[wpfr>​Tagged_Image_File_Format|tiff]] est mieux reconnu, ainsi un document tiff en 300ppp est intégralement reconnu alors qu'au format JPEG, toujours en 300ppp, seules les lettres majuscules sont reconnues</​note>​
Ligne 85: Ligne 85:
  
 <note tip>Pour réaliser de la Reconnaissance optique de caractères : <note tip>Pour réaliser de la Reconnaissance optique de caractères :
-  * sur un document déjà numérisé, on utilise [[gscan2pdf|gscan2pdf]]. ​+  * sur un document déjà numérisé, on utilise [[gscan2pdf|gscan2pdf]].
   * sur un document à numériser, on utilise plutôt [[xsane|XSane]],​ dont la fonction de prévisualisation permet de sélectionner des zones de texte.   * sur un document à numériser, on utilise plutôt [[xsane|XSane]],​ dont la fonction de prévisualisation permet de sélectionner des zones de texte.
  
  • tesseract-ocr.txt
  • Dernière modification: Le 04/08/2023, 19:43
  • par lyondif02