Apportez votre aide…
Ceci est une ancienne révision du document !
Aspiration de sites avec httrack
Httrack est un célèbre aspirateur de sites web.
Avertissement
Les sites volumineux (le forum et la documentation Ubuntu-fr compris), ne doivent pas être aspirés automatiquement, sous peine de blocage de votre adresse IP par le site. L'aspiration de sites doit respecter une certaine éthique et doit être utilisée uniquement lorsqu'il y a un besoin d'accéder à des contenus hors lignes. L'aspiration demande au site visé des ressources matérielles bien plus importante que le simple affichage d'une page web. Demandez l'autorisation au webmaster avant de procéder ! N'oublions pas non plus les problématiques liées à la propriété intellectuelle.
Installation
Il existe deux versions de httrack :
- La version de base : installez le paquet httrack (dépôt Universe).
- La version graphique, qui va utiliser votre navigateur préféré : installez le paquet webhttrack (dépôt Universe).
Utilisation
Votre navigateur doit être fermé avant de lancer webhttrack.
Nous allons nous intéresser ici à la version graphique, disponible dans le menu Internet ⇒ « WebHTTrack Website Copier »
webhttrack
Votre navigateur ouvre alors un nouvel onglet.
- Choisissez la langue (Français) ;
- Faites « Suivant » ;
- Choisissez le nom du projet, la catégorie et surtout le dossier ;
- Choisissez « Copie Automatique de Site-web », et entrez l'adresse du site dans la case ;
- Faites « Suivant » puis « Terminer » ;
- C'est fait !
Des options plus avancées sont disponibles. N'hésitez-pas à expérimenter ! Par exemple, si vos sites aspirés présentent des défauts dans les images téléchargées, cela peut venir du nombre de connexions - options, onglet contrôle du flux - trop importantes. Ramener à 2 ou 1.
Utilisation en ligne de commande
Crée un miroir :
httrack --mirror http://www.monsite.com
Mettre à jour le projet courant :
httrack --update
Nettoyage du cache et fichier log :
httrack --clean