Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
gscan2pdf [Le 27/01/2011, 13:11]
McPeter renseignement de version
gscan2pdf [Le 19/09/2022, 21:01] (Version actuelle)
f2ot [Pour la ROC avec tesseract]
Ligne 1: Ligne 1:
-{{tag>Hardy Intrepid Jaunty karmic lucid scanner graphisme ocr pdf}}+{{tag>Xenial ​scanner graphisme ocr pdf}}
  
 ---- ----
  
 +{{ :​gscan2pdf.png?​150|Logo de gscan2pdf}}
 +====== gscan2pdf ======
  
  
- +**gscan2pdf** est une interface graphique permettant initialement de réaliser des fichiers PDF de plusieurs pages à partir d'​un ​scanner ​(ou par importation d'​images déjà numérisées) ; gscan2pdf est fonctionnel sur presque n'​importe quelle machine Linux/​BSD... et notamment sous Ubuntu.
- +
- +
- +
- +
-====== gscan2pdf ====== +
- +
-**gscan2pdf** est une interface graphique permettant initialement de réaliser des fichiers PDF de plusieurs pages à partir d'​un ​scanneur ​(ou par importation d'​images déjà numérisées) ; gscan2pdf est fonctionnel sur presque n'​importe quelle machine Linux/​BSD... et notamment sous Ubuntu.+
  
 Ce logiciel permet en outre de concaténer plusieurs fichiers images afin d'en obtenir un seul au format PDF, composé de plusieurs pages et dont on peut définir la compression (et donc le poids) en fonction de ses besoins. Ce logiciel permet en outre de concaténer plusieurs fichiers images afin d'en obtenir un seul au format PDF, composé de plusieurs pages et dont on peut définir la compression (et donc le poids) en fonction de ses besoins.
 L'​importation de plusieurs fichiers PDF afin de les concaténer est également possible, mais seules les images contenues dans ces PDF seront prises en compte à l'​exclusion du texte. Ceci n'est pas un bug mais une limitation du logiciel. L'​importation de plusieurs fichiers PDF afin de les concaténer est également possible, mais seules les images contenues dans ces PDF seront prises en compte à l'​exclusion du texte. Ceci n'est pas un bug mais une limitation du logiciel.
  
-Le scanneur ​est contrôlé avec SANE par l'​intermédiaire de scanimage. La conversion au format PDF est faite par PDF::API2. L'​exportation au format TIFF est conduite par libtiff.+Le scanner ​est contrôlé avec SANE par l'​intermédiaire de scanimage. La conversion au format PDF est faite par PDF::API2. L'​exportation au format TIFF est conduite par libtiff.
  
 gscan2pdf permet d'​enregistrer aux formats PDF, DjVu, GIF, JPEG, PNG, PNM et TIFF (la possibilité d'​enregistrement au format PS a été ajoutée dans les versions plus récentes, notamment la version 0.9.21, disponible depuis Hardy). gscan2pdf permet d'​enregistrer aux formats PDF, DjVu, GIF, JPEG, PNG, PNM et TIFF (la possibilité d'​enregistrement au format PS a été ajoutée dans les versions plus récentes, notamment la version 0.9.21, disponible depuis Hardy).
  
-**gscan2pdf permet aussi de réaliser de la ROC** (reconnaissance optique de caractères) en utilisant au choix les moteurs de ROC [[:​tesseract-ocr|tesseract]] ou [[:​ocr#​gocr|GOCR]] (le premier donnant actuellement de meilleurs résultats). Ainsi, gscan2pdf peut servir d'​interface graphique pour la ROC avec Tesseract. ​L'​intégration d'​OCRopus pour la ROC sur des documents à mise en page complexe sera faite prochainement dans gscan2pdf (version 0.9.30 sans doute, vers mai-juin 2009). +**gscan2pdf permet aussi de réaliser de la ROC** (reconnaissance optique de caractères) en utilisant au choix les moteurs de ROC [[:​tesseract-ocr|tesseract]] ou [[:​ocr#​gocr|GOCR]] (le premier donnant actuellement de meilleurs résultats). Ainsi, gscan2pdf peut servir d'​interface graphique pour la ROC avec Tesseract. ​
- +
- +
- +
- +
- +
- +
  
 + 
 ===== Pré-requis ===== ===== Pré-requis =====
 + 
 +  * Disposer des [[:​sudo|droits d'​administration]].
 +  * Disposer d'une connexion à Internet configurée et activée.
  
 Pour utiliser gscan2pdf pour réaliser de la ROC, il faut installer [[:​tesseract-ocr|tesseract]] avec ses modules de langue et éventuellement gocr (si on veut comparer !) Pour utiliser gscan2pdf pour réaliser de la ROC, il faut installer [[:​tesseract-ocr|tesseract]] avec ses modules de langue et éventuellement gocr (si on veut comparer !)
- 
-<​note>​Jusqu'​à la version 0.9.19 de gscan2pdf **//(la manipulation n'est plus nécessaire à partir de la version 0.9.20)//** : lorsque les modules de langues de tesseract-ocr ont été installés, pour qu'ils soient fonctionnels avec gscan2pdf **sous Gutsy**, une petite manipulation complémentaire est nécessaire : 
-   * créer un dossier /​tesseract-ocr dans /usr/share/ : 
- 
-  sudo mkdir /​usr/​share/​tesseract-ocr 
- 
-   * et créer un lien symbolique de /​usr/​local/​share/​tessdata/​ dans /​usr/​share/​tesseract-ocr/​ 
- 
-  sudo ln -s /​usr/​local/​share/​tessdata/​ /​usr/​share/​tesseract-ocr/​ 
-</​note>​ 
- 
-Sous **Hardy**, une petite manip similaire semble nécessaire dans certains cas (selon le mode d'​installation de tesseract) : 
-  sudo mkdir /​usr/​share/​tesseract-ocr 
-  sudo ln -s /​usr/​share/​tessdata/​ /​usr/​share/​tesseract-ocr/​ 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
  
 ===== Installation ===== ===== Installation =====
  
-[[:​tutoriel:​comment_installer_un_paquet|Installez ​les paquets]] **gscan2pdf**,​ **djvulibre-bin**,​ **unpaper** et **sane**. +[[:​tutoriel:​comment_installer_un_paquet|Installez ​le paquet]] **[[apt>gscan2pdf]]**.
- +
-Pour 10.04 et supérieur: ​[[apt://gscan2pdf]] +
- +
-<​note>​La version de gscan2pdf disponible dans les dépôts Hardy est la 0.9.21, la 0.9.25 dans les dépôts Intrepid, la 0.9.27 dans les dépôts Jaunty, la 0.9.29 dans les dépôts Karmic. On pourrait (mais il faudrait auparavant satisfaire toutes les dépendances) installer une version plus récente (0.9.30 depuis le 1er février 2010) par : +
-  wget http://​downloads.sourceforge.net/​gscan2pdf/​gscan2pdf_0.9.30_all.deb +
-  sudo dpkg --unpack gscan2pdf_0.9.30_all.deb +
-  sudo apt-get install -f  +
-Sous Lucid 0.9.31 +
-</​note>​ +
- +
-Depuis le 5 mai 2009, la version gscan2pdf_0.9.29 est disponible. Elle est dans les dépôts de Jeffrey Ratcliffe, développeur de gscan2pdf. +
-Depuis le 1er février 2010, la version gscan2pdf_0.9.30 est disponbile. +
- +
-**Pour ceux qui veulent suivre au plus près les évolutions de gscan2pdf**,​ le plus simple est d'​ajouter ces dépôts dans /​etc/​apt/​sources.list : +
- +
-<note important>​Pensez à ajouter la clé de dépôt +
-<​code>​sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 5BC3E400</​code>​ +
- +
-</​note>​ +
-Pour Hardy (également pour Intrepid, Jaunty, Karmic et Lucid): +
-  deb http://​ppa.launchpad.net/​jeffreyratcliffe/​ubuntu hardy main +
-  deb-src http://​ppa.launchpad.net/​jeffreyratcliffe/​ubuntu hardy main +
- +
-Pour Intrepid, jaunty et karmic, il n'y a pas de dépot spécifique,​ la version dans le dépot de Hardy fonctionne très bien. +
- +
-FIXME //Il existe des dépots spécifiques pour feisty, gutsy, hardy, intrepid, jaunty, karmic et lucid// +
- +
- +
- +
-Depuis la version 0.9.25, l'​interface est maintenant correctement traduite en français grâce à Simon Leblanc. +
- +
-<note tip>​Depuis la version 0.9.26, il est possible d'​ouvrir directement Gimp depuis Gscan2pdf (menu "​outils"​)... ce qui permet d'​utiliser certaines fonctionnalités de Gimp très utiles pour préparer un document afin que la ROC soit ensuite de la meilleure qualité possible : augmentation de la taille de l'​image et de la résolution via "Image -> Echelle et taille de l'​image",​ amélioration du contraste via "​Couleurs -> Luminosité/​contraste"​ et "​Couleurs -> Seuil"​.</​note>​+
  
 ===== Utilisation ===== ===== Utilisation =====
Ligne 99: Ligne 34:
 L'​interface graphique est en français. Il est donc aisé de découvrir les diverses possibilités offertes par gscan2pdf. L'​interface graphique est en français. Il est donc aisé de découvrir les diverses possibilités offertes par gscan2pdf.
  
- +==== Lancement depuis Gimp ==== 
- +Il est possible d'​ouvrir directement [[:Gimp]] depuis Gscan2pdf (menu "​outils"​)... ce qui permet d'​utiliser certaines fonctionnalités de Gimp très utiles pour préparer un document afin que la ROC soit ensuite de la meilleure qualité possible : augmentation de la taille de l'​image et de la résolution via "Image -> Echelle et taille de l'​image",​ amélioration du contraste via "​Couleurs -> Luminosité/​contraste"​ et "​Couleurs -> Seuil"​.
- +
- +
- +
- +
- +
- +
- +
- +
- +
- +
  
 ==== Pour la ROC avec tesseract ==== ==== Pour la ROC avec tesseract ====
Ligne 117: Ligne 41:
    * **il est possible de réaliser directement la ROC sur le document scanné** : Menu "​Fichier --> Scanner",​ puis, dans l'​onglet "​Options de la page", cocher la case "​Effectuer la reconnaissance optique de caractères sur les pages scannées",​ sélectionner "​Tesseract"​ comme moteur de reconnaissance optique de caractères et sélectionner la langue qui sera utilisée pour le post-traitement de la ROC. Dans l'​onglet "Scan Options",​ il faut chercher les options permettant d'​obtenir le meilleur résultat de ROC en fonction de votre document. Pour du texte imprimé en noir et blanc avec des polices de 10 à 12, le mode "Noir et blanc" associé à une résolution de 300 ppi semble convenir.    * **il est possible de réaliser directement la ROC sur le document scanné** : Menu "​Fichier --> Scanner",​ puis, dans l'​onglet "​Options de la page", cocher la case "​Effectuer la reconnaissance optique de caractères sur les pages scannées",​ sélectionner "​Tesseract"​ comme moteur de reconnaissance optique de caractères et sélectionner la langue qui sera utilisée pour le post-traitement de la ROC. Dans l'​onglet "Scan Options",​ il faut chercher les options permettant d'​obtenir le meilleur résultat de ROC en fonction de votre document. Pour du texte imprimé en noir et blanc avec des polices de 10 à 12, le mode "Noir et blanc" associé à une résolution de 300 ppi semble convenir.
  
-   * **on peut aussi réaliser de la ROC sur des fichiers déjà enregistrés** au format TIFF (TIF), PNG, JPEG (JPG), ou image PDF... Pour cela : Menu "​Fichier --> ​Importer", sélectionner le fichier et valider. Bien que tesseract ne puisse opérer directement que sur des fichiers au format TIFF (TIF), gscan2pdf permet de réaliser la reconnaissance optique de caractères avec tesseract sur des fichiers ​ aux formats PNG, JPEG (JPG)... (pour permettre cela, gscan2pdf utilise imagemagick pour convertir temporairement au format TIFF les fichiers ayant d'​autres extensions).+   * **on peut aussi réaliser de la ROC sur des fichiers déjà enregistrés** au format TIFF (TIF), PNG, JPEG (JPG), ou image PDF... Pour cela : Menu "​Fichier --> ​Ouvrir", sélectionner le fichier et valider. Bien que tesseract ne puisse opérer directement que sur des fichiers au format TIFF (TIF), gscan2pdf permet de réaliser la reconnaissance optique de caractères avec tesseract sur des fichiers ​ aux formats PNG, JPEG (JPG)... (pour permettre cela, gscan2pdf utilise imagemagick pour convertir temporairement au format TIFF les fichiers ayant d'​autres extensions). Pour lancer la reconnaissance des caractères:​ Menu "​Outils --> ROC", sélectionner la langue et démarrer la reconnaissance optique des caractères
  
-<​note>​Le choix de la langue est très important pour obtenir une ROC de meilleure qualité. Veillez à sélectionner la langue correspondant à votre texte. Les noms des langues sont explicites dans la liste déroulante,​ sauf une : si vous avez installé tesseract-ocr-deu-f (vieil allemand), il apparait ​dans la liste seulement par la lettre "​**f**"​... à ne pas confondre avec "​**français**",​ sinon  vous aurez des surprises ;​-)</​note>​+<​note>​Le choix de la langue est très important pour obtenir une ROC de meilleure qualité. Veillez à sélectionner la langue correspondant à votre texte. Les noms des langues sont explicites dans la liste déroulante,​ sauf une : si vous avez installé tesseract-ocr-deu-f (vieil allemand), il apparaît ​dans la liste seulement par la lettre "​**f**"​... à ne pas confondre avec "​**français**",​ sinon  vous aurez des surprises ;​-)</​note>​
  
-**Le résultat de la ROC apparait ​dans l'​onglet 'OCR Output' de la fenêtre gscan2pdf.** Si rien n'​apparait ​dans cette zone, ou seulement quelques caractères sans rapport avec le texte à reconnaitre, c'est que la ROC n'a pas fonctionné. Cela peut provenir d'une résolution trop faible du document d'​origine ou d'une trop mauvaise qualité de ce document. Selon le mode d'​installation de tesseract que vous avez utilisé, certains ​format ​de fichier ne seront pas ou seront ​mal reconnus si vous n'​utilisez pas au préalable la fonction "​unpaper"​ (outil --> nettoyer (clean up)) de gscan2pdf.+**Le résultat de la ROC apparaît ​dans l'​onglet 'Calque du texte' de la fenêtre gscan2pdf. Pour sauvegarder le résultat, il faut enregistrer l'​image sous un format qui contient les caractères (Texte, PDF...). **  Si rien n’apparaît ​dans cette zone, ou seulement quelques caractères sans rapport avec le texte à reconnaître, c'est que la ROC n'a pas fonctionné. Cela peut provenir d'une résolution trop faible du document d'​origine ou d'une trop mauvaise qualité de ce document. Selon le mode d'​installation de tesseract que vous avez utilisé, certains ​formats ​de fichier ne seront pas ou mal reconnus si vous n'​utilisez pas au préalable la fonction "​unpaper"​ (outil --> nettoyer (clean up)) de gscan2pdf. ​
  
-<note tip>S**i la ROC est nulle ou de qualité médiocre même après traitement "​unpaper"​** (= nettoyer = clean up), on peut obtenir de bons résultats en modifiant au préalable avec Gimp le document à reconnaitre. Exemple pour une image pdf :+<note tip>S**i la ROC est nulle ou de qualité médiocre même après traitement "​unpaper"​** (= nettoyer = clean up), on peut obtenir de bons résultats en modifiant au préalable avec Gimp le document à reconnaître. Exemple pour une image PDF :
  
---> ouvrir le document ​pdf original avec gimp.+--> ouvrir le document ​PDF original avec gimp.
 Une fenêtre s'​ouvre : "​importation depuis un PDF" Une fenêtre s'​ouvre : "​importation depuis un PDF"
 Mettre une résolution 300 et importer. Mettre une résolution 300 et importer.
Ligne 142: Ligne 66:
 ===Documents de plusieurs pages : récupérer en une fois la totalité de la ROC=== ===Documents de plusieurs pages : récupérer en une fois la totalité de la ROC===
  
-Lorsque le travail de ROC est terminé, on peut copier/​coller le texte de chaque page, une par une. Mais c'est un peu laborieux. On peut aussi tout simplement enregistrer le travail courant au format txt, ce qui a pour effet de concaténer toutes les pages en un seul fichier, qui pourra être retravaillé avec openoffice.+Lorsque le travail de ROC est terminé, on peut copier/​coller le texte de chaque page, une par une. Mais c'est un peu laborieux. On peut aussi tout simplement enregistrer le travail courant au format txt, ce qui a pour effet de concaténer toutes les pages en un seul fichier, qui pourra être retravaillé avec [[:​LibreOffice]].
  
 ===Utilisation simple en mode photocopie, sans ROC=== ===Utilisation simple en mode photocopie, sans ROC===
Ligne 148: Ligne 72:
 Onglet Options de la page > Post-traitement : Désactiver la case "​Effectuer la reconnaissance optique de caractères sur les pages scannées"​. Onglet Options de la page > Post-traitement : Désactiver la case "​Effectuer la reconnaissance optique de caractères sur les pages scannées"​.
  
-Pour améliorer la photocopie en noir et blanc : +Pour améliorer la photocopie en noir et blanc :
  
 1) Onglet Mode de numérisation : Choisissez le mode Trait 1) Onglet Mode de numérisation : Choisissez le mode Trait
Ligne 158: Ligne 82:
   * [[http://​gscan2pdf.sourceforge.net/​|Présentation de gscan2pdf]] (en)   * [[http://​gscan2pdf.sourceforge.net/​|Présentation de gscan2pdf]] (en)
   * [[http://​ubunteros.tuxfamily.org/​spip.php?​article148|L'​article de "Linux on the root" sur l'​association tesseract+gscan2pdf]]   * [[http://​ubunteros.tuxfamily.org/​spip.php?​article148|L'​article de "Linux on the root" sur l'​association tesseract+gscan2pdf]]
-  * [[http://​forum.ubuntu-fr.org/​viewtopic.php?​id=78804|Le fil de discussion du forum Ubuntu-fr]]+  * [[https://​forum.ubuntu-fr.org/​viewtopic.php?​id=78804|Le fil de discussion du forum Ubuntu-fr]]
  
 ------ ------
 +
 //Page réalisée par : [[utilisateurs:​Sorbus]] avec d'​utiles compléments de zarer (19 janvier 2008)// //Page réalisée par : [[utilisateurs:​Sorbus]] avec d'​utiles compléments de zarer (19 janvier 2008)//
------- 
- 
  
  
  • gscan2pdf.1296130315.txt.gz
  • Dernière modification: Le 27/01/2011, 13:11
  • par McPeter