Différences
Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente | ||
| tesseract-ocr [Le 13/05/2018, 14:23] – YAGF marz | tesseract-ocr [Le 22/12/2025, 17:48] (Version actuelle) – L'Africain | ||
|---|---|---|---|
| Ligne 1: | Ligne 1: | ||
| - | {{tag>Xenial Trusty | + | {{tag>Noble ocr bureautique}} |
| ---- | ---- | ||
| Ligne 15: | Ligne 15: | ||
| ===== Installation ===== | ===== Installation ===== | ||
| [[: | [[: | ||
| - | Il existe d' | + | Il existe d' |
| - | * **[[apt> | + | * **[[apt> |
| - | * **[[apt> | + | * **[[apt> |
| - | * **[[apt> | + | * **[[apt> |
| - | * **[[apt> | + | * **[[apt> |
| - | * **[[apt> | + | * **[[apt> |
| - | * **[[apt> | + | * **[[apt> |
| * **[[apt> | * **[[apt> | ||
| - | * **[[apt> | + | * **[[apt> |
| ===== Utilisation ===== | ===== Utilisation ===== | ||
| <note important> | <note important> | ||
| - | Il faut donc numériser au moins à **300 voir 600 ppp** (Point Par Pouce ou DPI) </ | + | Il faut donc numériser au moins à **300 voire 600 ppp** (Point Par Pouce ou DPI) |
| + | |||
| + | Quant au type de fichier, le format [[wpfr> | ||
| + | |||
| + | ======= Erreur à l' | ||
| + | Si vous obtenez ce message : | ||
| + | |||
| + | Error opening data file / | ||
| + | Please make sure the TESSDATA_PREFIX environment variable is set to your " | ||
| + | Failed loading language 'Error opening data file / | ||
| + | Tesseract couldn' | ||
| + | Could not initialize tesseract. | ||
| + | |||
| + | Copier le répertoire « tesseract-ocr ». Depuis usr/ | ||
| + | |||
| + | Les fichiers de langues se trouve à cette emplacement : | ||
| + | usr/ | ||
| ==== En ligne de commande ==== | ==== En ligne de commande ==== | ||
| Ligne 38: | Ligne 54: | ||
| Pour traiter plusieurs fichiers, vous pouvez faire : | Pour traiter plusieurs fichiers, vous pouvez faire : | ||
| < | < | ||
| + | |||
| + | Pour traiter un pdf image de plusieurs pages : | ||
| + | < | ||
| + | for f in *.tif;do tesseract $f $f -l fra;done | ||
| + | cat *.txt > document.txt</ | ||
| + | |||
| ==== Les options de langues ==== | ==== Les options de langues ==== | ||
| Ligne 63: | Ligne 85: | ||
| <note tip>Pour réaliser de la Reconnaissance optique de caractères : | <note tip>Pour réaliser de la Reconnaissance optique de caractères : | ||
| - | * sur un document déjà numérisé, on utilise [[gscan2pdf|gscan2pdf]]. | + | * sur un document déjà numérisé, on utilise [[gscan2pdf|gscan2pdf]]. |
| * sur un document à numériser, on utilise plutôt [[xsane|XSane]], | * sur un document à numériser, on utilise plutôt [[xsane|XSane]], | ||
| Ligne 69: | Ligne 91: | ||
| ==== En mode graphique avec YAGF ==== | ==== En mode graphique avec YAGF ==== | ||
| Les explications sont données sur [[:yagf|la page YAGF]]. | Les explications sont données sur [[:yagf|la page YAGF]]. | ||
| + | |||
| + | ==== En mode graphique avec gimagereader ==== | ||
| + | Les explications sont données sur [[: | ||
| ==== Pour une reconnaissance optique directe dans LibreOffice Writer de fichiers PNG ou JPG ==== | ==== Pour une reconnaissance optique directe dans LibreOffice Writer de fichiers PNG ou JPG ==== | ||
| Ligne 103: | Ligne 128: | ||
| - Placez sur le bureau vos fichiers numérisés au format PNG (le mieux est un PNG en valeurs de gris et 300 dpi avec Xsane, mais vous pouvez essayer avec d' | - Placez sur le bureau vos fichiers numérisés au format PNG (le mieux est un PNG en valeurs de gris et 300 dpi avec Xsane, mais vous pouvez essayer avec d' | ||
| - Vous pouvez placer sur le bureau plusieurs fichiers PNG sur lesquels vous voulez procéder à la reconnaissance optique, mais ne dépassez pas 3-4 fichiers si vous voulez une opération relativement rapide. \\ Les contenus des différents fichiers seront placés les uns à la suite des autres dans un même document Libreoffice. | - Vous pouvez placer sur le bureau plusieurs fichiers PNG sur lesquels vous voulez procéder à la reconnaissance optique, mais ne dépassez pas 3-4 fichiers si vous voulez une opération relativement rapide. \\ Les contenus des différents fichiers seront placés les uns à la suite des autres dans un même document Libreoffice. | ||
| - | - Cliquez sur le raccourci précédemment créé ou directement sur le script... patientez un peu... Libreoffice s' | + | - Cliquez sur le raccourci précédemment créé ou directement sur le script... patientez un peu... Libreoffice s' |
| - Il vous reste a effectuer les corrections orthographiques et la mise en page. | - Il vous reste a effectuer les corrections orthographiques et la mise en page. | ||
| Ligne 139: | Ligne 164: | ||
| * [[https:// | * [[https:// | ||
| * [[http:// | * [[http:// | ||
| - | * [[http:// | + | * [[https:// |
| * [[https:// | * [[https:// | ||
| * [[:ocr|La page de la documentation francophone Ubuntu sur la reconnaissance optique de caractères]] | * [[:ocr|La page de la documentation francophone Ubuntu sur la reconnaissance optique de caractères]] | ||
| * [[https:// | * [[https:// | ||
| + | * [[https:// | ||
| ---- | ---- | ||
| // | // | ||
