Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente Prochaine révision Les deux révisions suivantes | ||
ocr [Le 13/09/2017, 08:22] 77.204.135.22 |
ocr [Le 29/05/2018, 13:38] 93.24.31.3 avec yassin |
||
---|---|---|---|
Ligne 8: | Ligne 8: | ||
Il existe plusieurs logiciels sous GNU/Linux spécialement dédiés, et il est aussi possible d'employer les logiciels existants sous Windows via Wine. | Il existe plusieurs logiciels sous GNU/Linux spécialement dédiés, et il est aussi possible d'employer les logiciels existants sous Windows via Wine. | ||
+ | Yassin le BG | ||
Voici un petit guide des différentes solutions possibles avec leurs avantages, leurs inconvénients et des liens pour vous en servir. | Voici un petit guide des différentes solutions possibles avec leurs avantages, leurs inconvénients et des liens pour vous en servir. | ||
Ligne 18: | Ligne 18: | ||
====Cuneiform ==== | ====Cuneiform ==== | ||
- | [[http://cognitiveforms.com/ru/products_and_services/Cuneiform.html#1189-Cuneiform|cuneiform]] (en russe, ou en [[http://en.cognitiveforms.ru/products/cuneiform/|anglais]]) est un OCR multi-plateforme, qui supporte 20 langues, dont le français. Pour les textes en français et les images propres et lisibles, il donne des résultats très satisfaisants avec une marge d'erreur entre 2 et 3 %. De plus, il semble être le seul à supporter (de façon basique) la mise en forme du texte. Ainsi, il reconnaît les textes soulignés, gras, en italique, et les images. Le texte qu'il ne réussit pas à traiter est également importé sous forme d'image. Il supporte les fichiers images en bmp, png, tiff, Il peut exporter en format texte, html, rtf, et d'autres. | + | [[http://cognitiveforms.com/ru/products_and_services/Cuneiform.html#1189-Cuneiform|cuneiform]] (en russe, ou en [[http://en.cognitiveforms.ru/products/cuneiform/|anglais]]) est un OCR multi-plateforme, qui supporte 20 langues, dont le français. Pour les textes en français et les images propres et lisibles, il donne des résultats très satisfaisants avec une marge d'erreur entre 2 et 3 %. De plus, il semble être le seul à supporter (de façon basique) la mise en forme du texte. Ainsi, il reconnaît les textes soulignés, gras, en italique, et les images. Le texte qu'il ne réussit pas à traiter est également importé sous forme d'image. Il supporte les fichiers images en bmp, jpg, png, tiff, Il peut exporter en format texte, html, rtf, et d'autres. |
Le projet est en attente de nouveaux développeurs depuis mai 2011 (([[https://code.launchpad.net/cuneiform-linux|Stepping down as maintainer]])). Il dispose toujours d'une [[https://launchpad.net/cuneiform-linux|page Launchpad]] qui héberge le code et est maintenue. | Le projet est en attente de nouveaux développeurs depuis mai 2011 (([[https://code.launchpad.net/cuneiform-linux|Stepping down as maintainer]])). Il dispose toujours d'une [[https://launchpad.net/cuneiform-linux|page Launchpad]] qui héberge le code et est maintenue. | ||
Ligne 81: | Ligne 81: | ||
* Choisir son moteur d'OCR : ouvrir Xsane et dans //Préférence -> Configuration -> OCR// il faut, dans la commande OCR, remplacer **gocr** par : | * Choisir son moteur d'OCR : ouvrir Xsane et dans //Préférence -> Configuration -> OCR// il faut, dans la commande OCR, remplacer **gocr** par : | ||
* pour **gocr** avec la reconnaissance des caractères accentués <code>gocr -f UTF8</code> | * pour **gocr** avec la reconnaissance des caractères accentués <code>gocr -f UTF8</code> | ||
- | * pour **tesseract** <code >xsane2tess -l fra</code> | + | * pour **tesseract** <code >xsane2tess -l fra</code> |
* pour **cuneiform** <code >cuneiform -l fra</code> | * pour **cuneiform** <code >cuneiform -l fra</code> | ||
* dans la zone à droite de la cible, sélectionner //Enregistrer// ; | * dans la zone à droite de la cible, sélectionner //Enregistrer// ; | ||
Ligne 139: | Ligne 139: | ||
==== gImageReader ==== | ==== gImageReader ==== | ||
- | + | [[gimagereader|gImageReader]] est une interface graphique très simple d'emploi pour **[[:tesseract-ocr|tesseract-ocr]]**.\\ | |
- | {{ gimagereader_xenial.png?450}} | + | |
- | [[https://github.com/manisandro/gImageReader|gImageReader]] est une interface graphique pour **tesseract-ocr** sous [[:Gnome]]. Il est très simple d'emploi.\\ | + | |
- | Pour l'utiliser, [[:tutoriel:comment_installer_un_paquet|installez le paquet]] ** [[apt>gimagereader]]** et pour avoir la reconnaissance du français le paquet **[[apt>tesseract-ocr-fra]]**. | + | |
- | + | ||
- | + | ||
- | Fonctionnalités : | + | |
- | -Traite images et fichiers PDF, | + | |
- | -Acquisition depuis scanner, | + | |
- | -Sélection des parties de l'image à traiter, | + | |
- | -Supporte différentes langues, | + | |
- | -Comparaison cote à cote de la source et du résultat, | + | |
- | -Supprime les saut de lignes dans le texte résultant, | + | |
- | - prise en charge des dictionnaires myspell, | + | |
- | - lecture des lignes tordues, | + | |
- | - interface graphique ergonomique. | + | |
==== YAGF ==== | ==== YAGF ==== | ||
[[YAGF]] est une interface graphique pour [[#cuneiform|cuneiform]] (donc une bonne capacité de reconnaissance comme indiqué plus haut) et [[#tesseract|tesseract]]. | [[YAGF]] est une interface graphique pour [[#cuneiform|cuneiform]] (donc une bonne capacité de reconnaissance comme indiqué plus haut) et [[#tesseract|tesseract]]. | ||
- | **(en)** [[http://symmetrica.net/cuneiform-linux/yagf-en.html|Site officiel du logiciel]] | + | **(en)** [[http://symmetrica.net/cuneiform-linux/yagf-en.html|Site officiel du logiciel]] LIEN POLLUÉ |