Contenu | Rechercher | Menus
Page en relecture

Version Hoary

Redigé par lok.

Htmldoc : convertir des pages html en un document pdf ou postscript

Introduction

Enregistrer le contenu d'un site, ou tout du moins une partie, sur son disque dur présente de nombreux avantages. Mais si vous êtes comme moi, vous préférez peut-être voir un seul fichier par site, plutôt que des pages et des dossiers n'ayant pas des noms obligatoirement représentatifs. htmldoc est un outil écrit en c/c++ qui permet ces conversions, simplement et en conservant parfaitement les liens, les formules latex, et les images.

Prenons par exemple le site http://mitpress.mit.edu/sicp/full-text/book/book.html, il s'agit d'un livre mis à disposition gratuitement sous forme de pages html. Nous allons le convertir en fichier pdf. Avant tout, installez le paquet htmldoc avec Synaptic ou apt-get si ce n'est pas déjà le cas. Vous pouvez aussi (installation en 1 clic) cliquer sur

Récupérer le livre

En regardant rapidement les liens présents sur site, on peut voir qu'il y a plusieurs pages html séparées. Avant de commencer nous allons donc récupérer tous les fichiers concernant le livre :

wget -rkpE http://mitpress.mit.edu/sicp/full-text/book/book.html

wget va télécharger tout ce qui est lié à la page book.html puis convertir les liens afin que tout le livre soit lisible localement. Vous pouvez vérifier tout cela en ouvrant le fichier ~/mitpress.mit.edu/sicp/full-text/book/book.html à l'aide de Firefox.

Htmldoc

Input

Cliquez sur le bouton Add Files puis parcourez l'arborescence mitpress.mit.edu/sicp/full-text/book/. Pour sélectionner rapidement tous les fichiers, faites un cliquer-déposer et sélectionnez-les tous. Si nous n'avions pas téléchargé précédement toutes les pages avec wget, nous aurions dû ajouter les url une à une (dans notre cas, il y en a 39).

Attention : L'ordre des fichiers ajoutés est conservé, ici nous avons une page de garde qui est book.html si vous ne replacez pas cette dernière en haut de la liste, votre page de garde sera la dernière du fichier PDF généré.

L'option Document Type vous propose trois choix :

  • Book : Ceci créera un fichier PDF avec une première page de couverture, et un sommaire généré automatiquement. De plus, votre PDF contiendra des bookmarks en fonction de ce sommaire.
  • Continuous : permet de ne pas laisser d'espace blanc entre la transition d'une page web à une autre dans le PDF.
  • Web Page : à l'inverse, cette option fait débuter une page web depuis le haut d'une des pages du PDF.

Dans notre cas, la mise en page et le sommaire ont déjà été faits dans le fichier html, nous allons donc utiliser l'option Web Page pour la mise en forme.

Output

L'onglet suivant concerne la sortie du programme, il n'y a presque rien à configurer. Spécifiez un nom de fichier, choisissez un format (PDF dans notre cas) et un taux de compression (celui par défaut donne de très bon résultats).

Page

Dans cet onglet vous allez pouvoir régler le type de feuilles utilisé pour vos pages, leurs sens, la taille des marges et quelques petits ajouts supplémentaires.

Je vous conseille de laisser par défaut le format de la page et la longueur des marges, les options headers et footers rajoutent respectivement des en-tête et des pied-de-pages. Ces réglages se font donc vraiment selon vos goûts.

Colors

Si vous souhaitez obtenir un document qui ne soit pas noir sur blanc, c'est le moment de modifier cela. En ce qui me concerne, j'ai gardé le texte en noir sur fond blanc et j'ai mis les liens en bleu.

Pour le Link Style il existe deux méthodes :

  • Plain : votre lien apparaitra comme une portion de texte, ce qui le confond avec le reste de la page
  • Underline : tous les liens seront soulignés.

Fonts

Dans cet onglet se trouve toutes les options pour changer la police et la taille de la police d'écriture, la fois pour le texte normal, mais aussi pour les en-têtes. La taille des interlignes est aussi modifiable.

La partie concernant le jeu de caractères à utiliser dépend à la fois du texte que vous transformerez et du lecteur PDF que vous utiliserez. Ici nous avons un texte anglais, donc sans accents iso-8859-1 est censé correspondre au jeu de caractères latins utilisés dans les pays d'Europe occidentale et d'Amérique du Nord, toutefois il est préférable d'utiliser l'iso-8859-15 à la place qui est une "extension" du premier type d'encodage de caractères mais qui comprend aussi le symbole « euro » et quelques autres modifications dans la liste des caractères. Vous ne bénéficierez malgré tout pas du « e dans l'o » ou du « Ÿ » qui font partie du Français pourtant.

PDF

Ces options concernent le type de PDF que nous voulons créer. Puisque l'on dispose de lecteurs à jours, nous pouvons mettre sans problème la version du pdf à 1.4. L'option Page Mode sert juste à définir quel sera le mode par défaut de votre PDF à son ouverture. Quel que soit votre choix vous pouvez naturellement changer le mode de visualisation par la suite, et il en est de même pour l'option Page Layout. Vous avez aussi la possibilité de rajouter un effet sur les transitions des pages (seul acroread les interprète). Enfin, n'oubliez pas l'option include links pour conserver les liens de vos pages html.

Liens Externes

Le site officiel de htmldoc

Quelques lecteurs pdf disponibles sous linux : gpdf (gtk), kpdf (qt), Xpdf (motif), evince (gtk), Acrobat Reader



htmldoc.txt · Dernière modification: Le 13/02/2010, 08:49 par 213.95.41.13
Le contenu de ce wiki est sous licence : CC BY-SA v3.0