HTTrack — свободное кроссплатформенное мощное средство, позволяющее загружать содержимое сайтов на локальную машину или создавать зеркала. HTTrack может также обновлять существующее зеркало сайта и возобновлять прерванные закачки.
HTTrack обходит ссылки указанного ресурса, рекурсивно загружает страницы и меняет ссылки в гипертексте так, чтобы все можно было просматривать со своего компьютера, не требуя соединения с сайтом и не затрагивая тем самым оригинальные страницы. Функция рекурсивного зеркалирования, напротив, предполагает, что ссылки не меняются и продолжают указывать на удалённые ресурсы. Синтаксис команды httrack очень прост:
$ httrack –help HTTrack version 3.41-3 (compiled Jul 3 2007) usage: httrack [-option] [+] [-] [+] [-]
Вот пример загрузки копии debian.org в директорию «image.debian.org»:
$ mkdir image.debian.org $ cd image.debian.org/ $ httrack debian.org Mirror launched on Sun, 30 Sep 2007 18:05:40 by HTTrack Website Copier/3.41-3+libhtsjava.so.2 [XR&CO’2007] mirroring debian.org with the wizard help. * debian.org/intro/about.ro.html (17854 bytes) – OK ...
HTTrack может также использовать фильтры: шаблон с суффиксом '+' обозначает загрузку, а шаблон с суффиксом '-' — пропуск отдельных страниц. Например, можно загрузить документы Slashdot, за исключением тех, что относятся к субдомену apple.slashdot.org:
$ httrack slashdot.org -apple.slashdot.org*
Вот другой пример — пропуск документов типа image/jpeg:
$ httrack slashdot.org -mime:image/jpeg
Для загрузки содержимого двух сайтов, разделяющих общие ссылки, запустите
$ httrack www.microsoft.com www.evil.com
Есть еще много продвинутых возможностей, заинтересованные читатели могут обратиться к руководству. HTTrack есть в Debian, от Sarge до Sid. Версия для Microsoft Windows называется «WinHTTrack», для Unix-подобных ОС — «WebHTTrack» или просто «HTTrack».
Ссылки: