HTTrack — свободное кроссплатформенное мощное средство, позволяющее загружать содержимое сайтов на локальную машину или создавать зеркала. HTTrack может также обновлять существующее зеркало сайта и возобновлять прерванные закачки.


HTTrack обходит ссылки указанного ресурса, рекурсивно загружает страницы и меняет ссылки в гипертексте так, чтобы все можно было просматривать со своего компьютера, не требуя соединения с сайтом и не затрагивая тем самым оригинальные страницы. Функция рекурсивного зеркалирования, напротив, предполагает, что ссылки не меняются и продолжают указывать на удалённые ресурсы. Синтаксис команды httrack очень прост:

$ httrack –help
HTTrack version 3.41-3 (compiled Jul  3 2007)
usage: httrack  [-option] [+] [-]
[+] [-]

Вот пример загрузки копии debian.org в директорию «image.debian.org»:

$ mkdir image.debian.org
$ cd image.debian.org/
$ httrack debian.org
Mirror launched on Sun, 30 Sep 2007 18:05:40
by HTTrack Website Copier/3.41-3+libhtsjava.so.2 [XR&CO’2007]
mirroring debian.org with the wizard help.
* debian.org/intro/about.ro.html (17854 bytes) – OK
...

HTTrack может также использовать фильтры: шаблон с суффиксом '+' обозначает загрузку, а шаблон с суффиксом '-' — пропуск отдельных страниц. Например, можно загрузить документы Slashdot, за исключением тех, что относятся к субдомену apple.slashdot.org:

$ httrack slashdot.org -apple.slashdot.org*

Вот другой пример — пропуск документов типа image/jpeg:

$ httrack slashdot.org -mime:image/jpeg 

Для загрузки содержимого двух сайтов, разделяющих общие ссылки, запустите

$ httrack www.microsoft.com www.evil.com 

Есть еще много продвинутых возможностей, заинтересованные читатели могут обратиться к руководству. HTTrack есть в Debian, от Sarge до Sid. Версия для Microsoft Windows называется «WinHTTrack», для Unix-подобных ОС — «WebHTTrack» или просто «HTTrack».


Ссылки: