Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente | Dernière révision Les deux révisions suivantes | ||
tesseract-ocr [Le 01/09/2022, 00:07] moths-art Passage de http à https sur les liens externes (détecté et corrigé via le bot wiki-corrector (https://forum.ubuntu-fr.org/viewtopic.php?id=2067892) |
tesseract-ocr [Le 11/09/2022, 12:16] moths-art Suppression des espaces en fin de ligne (détecté et corrigé via le bot wiki-corrector (https://forum.ubuntu-fr.org/viewtopic.php?id=2067892) |
||
---|---|---|---|
Ligne 15: | Ligne 15: | ||
===== Installation ===== | ===== Installation ===== | ||
[[:tutoriel:comment_installer_un_paquet|Installez les paquets]] **[[apt>tesseract-ocr]]** et pour reconnaître la langue française, **[[apt>tesseract-ocr-fra]]**. \\ | [[:tutoriel:comment_installer_un_paquet|Installez les paquets]] **[[apt>tesseract-ocr]]** et pour reconnaître la langue française, **[[apt>tesseract-ocr-fra]]**. \\ | ||
- | Il existe d'autres fichiers de langues, comme par exemple : | + | Il existe d'autres fichiers de langues, comme par exemple : |
- | * **[[apt>tesseract-ocr-deu]]** (allemand), | + | * **[[apt>tesseract-ocr-deu]]** (allemand), |
- | * **[[apt>tesseract-ocr-eng]]** (anglais), | + | * **[[apt>tesseract-ocr-eng]]** (anglais), |
- | * **[[apt>tesseract-ocr-spa]]** (espagnol), | + | * **[[apt>tesseract-ocr-spa]]** (espagnol), |
- | * **[[apt>tesseract-ocr-nld]]** (hollandais), | + | * **[[apt>tesseract-ocr-nld]]** (hollandais), |
- | * **[[apt>tesseract-ocr-ita]]** (italien), | + | * **[[apt>tesseract-ocr-ita]]** (italien), |
- | * **[[apt>tesseract-ocr-por]]** (portugais-brésilien), | + | * **[[apt>tesseract-ocr-por]]** (portugais-brésilien), |
* **[[apt>tesseract-ocr-vie]]** (vietmamien), | * **[[apt>tesseract-ocr-vie]]** (vietmamien), | ||
- | * **[[apt>tesseract-ocr-deu-f]]** (vieil-allemand). | + | * **[[apt>tesseract-ocr-deu-f]]** (vieil-allemand). |
===== Utilisation ===== | ===== Utilisation ===== | ||
<note important>les scanners numérisent souvent avec une résolution suffisante pour la lecture à l'écran mais insuffisante pour une reconnaissance efficace. | <note important>les scanners numérisent souvent avec une résolution suffisante pour la lecture à l'écran mais insuffisante pour une reconnaissance efficace. | ||
- | Il faut donc numériser au moins à **300 voire 600 ppp** (Point Par Pouce ou DPI) | + | Il faut donc numériser au moins à **300 voire 600 ppp** (Point Par Pouce ou DPI) |
Quant au type de fichier, le format [[wpfr>Tagged_Image_File_Format|tiff]] est mieux reconnu, ainsi un document tiff en 300ppp est intégralement reconnu alors qu'au format JPEG, toujours en 300ppp, seules les lettres majuscules sont reconnues</note> | Quant au type de fichier, le format [[wpfr>Tagged_Image_File_Format|tiff]] est mieux reconnu, ainsi un document tiff en 300ppp est intégralement reconnu alors qu'au format JPEG, toujours en 300ppp, seules les lettres majuscules sont reconnues</note> | ||
Ligne 85: | Ligne 85: | ||
<note tip>Pour réaliser de la Reconnaissance optique de caractères : | <note tip>Pour réaliser de la Reconnaissance optique de caractères : | ||
- | * sur un document déjà numérisé, on utilise [[gscan2pdf|gscan2pdf]]. | + | * sur un document déjà numérisé, on utilise [[gscan2pdf|gscan2pdf]]. |
* sur un document à numériser, on utilise plutôt [[xsane|XSane]], dont la fonction de prévisualisation permet de sélectionner des zones de texte. | * sur un document à numériser, on utilise plutôt [[xsane|XSane]], dont la fonction de prévisualisation permet de sélectionner des zones de texte. | ||