Installer et configurer l'aspirateur de site web HTTrack

frewares et tutoriels

configurer les options


Comment définir des options ?

Sur l'écran précédent, cliquer sur definir les options

installer et configurer le freeware httrack afin d'aspirer des sites web

Vous obtenez une fenêtre avec plusieurs onglets. Seuls les 2 plus importants et utiles sont présentés:

Règles de filtrage : c'est l'option la plus importante

! - types de fichiers afin d'inclure(+) ou exclure (-) certains formats de fichiers.
En effet, peut-être n'avez vous pas besoin d'aspirer certains fichiers
(inutiles, trop lourds... commes des sons, des vidéos, des fichiers zippés...)
Par défaut "tout est aspiré" !

Les 3 cases à cocher permettent d'inclure ou d'exclure, les 3 séries
de fichiers concernés : images / zippés / vidéos.
Vous pouvez exclure d'autres fichiers, par exemple
-les fichiers textes doc pdf
-les fichiers exe (souvent dangereux)
- les sons en .mp3 wav

Exemple (fortement conseillé), vous voulez exclure les fichiers
zippés et pdf et exe ainsi que les vidéos. (cocher comme dans l'exemple avec le signe -)
-*.pdf -*.zip -*.exe ...
-dossiers ou liens en définissant des "règles" qui utilisent + - * avec la possibilité
d'inclure/exclure certains "mots" (utiliser les boîtes de dialogue "liens à inclure/exclure")

Exemple, dans le site que vous aspirez vous ne voulez pas du dossier boite :
-*/boite/*


Attention :
-la dernière règle est prioritaire par rapport aux règles précédentes
-Vous devez obligatoirement conserver les fichiers de base constituant les page web :
htm html css jpeg jpg gif

installer et configurer le freeware httrack afin d'aspirer des sites web


Limites de la capture : c'est encore une option importante !

Profondeur maximum
Définis la profondeur d'aspiration dans le site. Cette option n'est pas remplie
par défaut : la profondeur interne est infinie.
L'aspirateur reste sur le site.

Profondeur externe maximum
Définis la profondeur dans des sites externes, ou sur des adresses qui étaient interdites.
Normalement, HTTRACK n'ira pas sur des sites externes, c'est l'option par défaut soit 0
(sauf par autorisation des filtres).. Vous pouvez outrepasser ce comportement, et aspirer
N niveaux "externes". Employer cette option avec grand soin, 1 semble un maximum raisonnable.
dans l'exemple, seule la première page des sites externes sera capturée

Taille maxi d'un fichier HTM
Définir la taille maxi du plus fichier html à aspirer.
Cette option vous permet d'éviter les gros fichiers

Taille maxi d'un fichier non HTM
Définir la taille maxi du plus fichier non html (image, zip) à aspirer
Cette option vous permet d'éviter les gros fichiers
dans l'exemple, la taille des fichiers autres que htm est limitée à 0,75 ko
(se limiter à 600.000 bits soit 75.000 octets soit environ 75 ko est largement
suffisant pour des images du web)
Taille maxi du site
Cette option limite le montant total d'octets qui peuvent être aspirés

Suspendre copie après
Cette option permet de faire une pause après avoir atteint une taille spécifique
indiquée. Vous pourrez décider quoi faire ensuite

Temps Maximum de capture
Cette option limite le temps total de l'aspiration
dans l'exemple, 7200secondes soit 120mn soit 2 heures
Taux maxi Cette option limite le débit

Maximum de connexions à la sec
Cette option limite le nombre de connexions simultanées
Par défaut :10, mais vous pouvez le modifier

Nombre maximum de liens
Le nombre maximum de liens à analyser. Ne pas établitr une limite trop basse
car l''aspiration arrête aussitôt (ni trop haute ....) 100.000 liens (par défaut)
est généralement assez.

installer et configurer le freeware httrack afin d'aspirer des sites web


Il est conseillé de ne pas modifier les autres onglets, sauf si vous êtes
un "expert".IL est important de "conserver la structure du site"

installer et configurer le freeware httrack afin d'aspirer des sites web


Quelques pistes complémentaires : L'on peut choisir d'autres options que
"Copie automatique de site web" action par défaut pour aspirer un site.
En particulier :
-demander à télécharger des fichiers spécifiques : ex toutes les images d'un site
-reprendre une copie interrompue
-Mettre à jour une copie existante (très utile !)

installer et configurer le freeware httrack afin d'aspirer des sites web


Que faire du site aspiré ?
Si vous n'avez modifié les options de l'onglet "Structure", le site aspiré a
conservé la structure (arborescence des dossiers) du site d'origine.
L'ensemble est stocké sur votre disque dur dans le dossier choisi au départ.
(par défaut : Mes sites web

installer et configurer le freeware httrack afin d'aspirer des sites web

En cliquant sur le fichier index.htm ou default.htm vous aurez accès au site
sans être connecté.
Attention : ne pas modifier/supprimer les nouveaux dossiers /fichiers créés :
-le dossier hts-cache contient des fichiers nécessaires pour la mise à jour
ultérieure du site.
-le fichier hts-log.txt contient également des références indispensables sous
forme d'unfichier texte
Dans un établissement scolaire, vous pourrez mettre ce site en intranet en
copiant ce dossier en entier.
(Attention aux droits d'auteur: demandez les autorisations nécesaires)

Que faire en cas de difficulté ?
- tous les sites ne peuvent pas être aspirés (certains auteurs l'ont protégé)
-attention, votre logiciel "anti pop-up" peut faire échouer une capture (le désactiver)
-certains sites sont très volumineux, il n'est pas judicieux de vouloir tout capturer :
le visiter et sélectionner les sous dossiers qui vous intéressent.
-il faut mieux utiliser Internet Explorer en version récente (avec tous ses plug-in)
pour visualiser les sites aspirés car très souvent, ils sont conçus pour être visualisés
avec ce navigateur
-il se peut que certains fichiers/dossiers ne soient pas ou mal aspirés : là, il faut être
un spécialiste du web (et du code html) pour trouver une solution (voir les sites ci dessous)


PAGE PRECEDENTE