Я используюHttrackза копирование/зеркалирование веб-сайта и столкнулся с одной проблемой.
Я говорю оэтотвеб-сайт. Рассмотрим, я хочу охватитьэтотстраница со всеми внутренними ссылками (вы можете увидеть как: проблема 6.11, проблема 6.10 с этой страницы). Итак, я попробовал следующее:
- Введите название проекта и URL:
- Параметр Set может увеличиваться и уменьшаться как
И я начал зеркалирование, процесс завершился, но когда я просматриваю index.html, главная страница отображается правильно, но дальнейшие ссылки (страница sab, как упоминалось ранее, проблема 6.11, 6.10 и т. д.) не отображаются - отображается только фид имени файла. (Попробуйте сами, чтобы увидеть, что идет не так)
Как решить эту проблему?
решение1
Я предлагаю вам прочитатьЧасто задаваемые вопросы
Вот цитата с сайта WinHTTrack:
Вопрос: Некоторые сайты захватываются очень хорошо, другие — нет. Почему?
Ответ: Существует несколько причин (и решений) сбоя зеркала. Чтение файлов журнала (и этого FAQ!) — это, как правило, ОЧЕНЬ хорошая идея, чтобы выяснить, что произошло.
Ссылки внутри сайта ссылаются на внешние ссылки или ссылки, расположенные в других (или более высоких) каталогах, которые не захватываются по умолчанию - использование фильтров, как правило, является решением, так как это одна из мощных опций в HTTrack. См. приведенные выше вопросы/ответы. Правила веб-сайта 'robots.txt' запрещают доступ к нескольким частям веб-сайта - вы можете отключить их, но только с большой осторожностью! HTTrack фильтруется (по его идентификатору User-agent по умолчанию) - вы можете изменить идентификатор User-Agent браузера на анонимный (MSIE, Netscape..) - и здесь, снова, используйте эту опцию с осторожностью, так как эта мера могла быть введена для предотвращения некоторого злоупотребления пропускной способностью (см. также часто задаваемые вопросы о злоупотреблениях!)
Однако есть случаи, которые (пока) не поддаются рассмотрению:
Флэш-сайты- нет полной поддержки
Интенсивные сайты Java/Javascript- может быть поддельным/неполным
Сложный CGI со встроенным редиректом и другими трюками- очень сложен в обращении, поэтому может вызвать проблемы
Проблема синтаксического анализа в HTML-коде (случаи, когда движок обманут, например, ложным комментарием (
Обнаружен комментарий (-->). Редкие случаи, но могут быть. Отчет об ошибке в таком случае обычно хорош!
Примечание: Для некоторых сайтов может быть полезной настройка параметра «Force old HTTP/1.0 requests», так как этот параметр использует более простые запросы (например, без запроса HEAD). Это приведет к потере производительности, но увеличит совместимость с некоторыми сайтами на основе cgi.
PD. Есть много причин, по которым веб-сайт не может быть захвачен на 100%, я думаю, в SuperUser мы очень энтузиасты, но мы не будем делать обратную разработку веб-сайта, чтобы обнаружить, какая система работает сзади(Это мое мнение.).