Иногда недостаточно просто сохранить сайт локально из браузера. Иногда требуется немного больше возможностей. Для этого существует небольшой инструмент командной строки, известный как Wget.Wget – это простая программа, способная скачивать файлы из Интернета. Вы можете знать или не знать много о Wget, но после прочтения этой статьи вы будете готовы использовать его для всевозможных трюков
Иногда недостаточно просто сохранить сайт локально из браузера. Иногда требуется немного больше возможностей. Для этого существует небольшой инструмент командной строки, известный как Wget.Wget – это простая программа, способная загружать файлы из Интернета. Вы можете знать или не знать много о Wget, но после прочтения этой статьи вы будете готовы использовать его для всевозможных трюков
Wget доступен для использования в командной строке UNIX и Windows, но его можно установить и на Mac OS X, немного потрудившись. Итак, как только вы узнаете, для каких целей можно использовать Wget, его можно переносить на любую используемую вами ОС – и это удобно. Еще лучше то, что wget можно использовать в пакетных файлах и заданиях cron. Именно здесь мы начинаем видеть настоящую мощь wget
Базовый Wget
Основное использование – wget URL
wget https://www.makeuseof.com/
Самые простые опции, которые нужно знать большинству людей, это фон (wget -b), продолжение частичной загрузки (wget -c), количество попыток (wget –tries=NUMBER) и, конечно, помощь (wget -h), чтобы напомнить себе обо всех опциях
wget -b -c --tries=NUMBER URL
Умеренно продвинутые опции Wget
Wget также может работать в фоновом режиме (wget -b), ограничивать скорость загрузки (wget -limit-rate=SPEED), не указывать родителя для обеспечения загрузки только подкаталога (wget -np), обновлять только измененные файлы (wget -N), зеркалировать сайт (wget -m), не создавать новых каталогов (wget -nd), принимать только определенные расширения (wget –accept=LIST) и устанавливать время ожидания (wget –wait=SECONDS)
wget -b --limit-rate=SPEED -np -N -m -nd --accept=LIST --wait=SECONDS URL
Загрузите с помощью Wget рекурсивно
Вы можете рекурсивно скачивать (wget -r), распространять хосты на другие домены (wget -H), преобразовывать ссылки в локальные версии (wget –convert-links) и устанавливать уровень рекурсии (wget –level=NUMBER для inf или 0 для infinite)
Но некоторые сайты не хотят позволять вам скачивать рекурсивно и будут проверять, какой браузер вы используете, пытаясь заблокировать бота. Чтобы обойти это, объявите агент пользователя, например, Mozilla (wget –user-agent=AGENT)
wget -r -H --convert-links --level=NUMBER --user-agent=AGENT URL
Wget с защитой паролем
Можно объявить имя пользователя и пароль для определенного URL при использовании wget (wget –http-user=USER –http-password=PASS). Это не рекомендуется делать на машинах с общим доступом, так как любой, кто просматривает процессы, сможет увидеть пароль в виде обычного текста
wget --http-user=USER --http-password=PASS URL
Примером этого в действии является использование wget для резервного копирования ваших задач из Remember The Milk
Wget Bulk Download
Сначала создайте текстовый файл со всеми URL, которые вы хотите загрузить с помощью wget, и назовите его wget_downloads.txt. Затем, чтобы загрузить URL-адреса в массовом порядке, введите эту команду:
wget -i wget_downloads.txt
Классное использование Wget
Эта программа выполнит сканирование веб-сайта и создаст лог-файл всех неработающих ссылок:
wget --spider -o wget.log -e robots=off --wait 1 -r -p http://www.mysite.com/
Это позволит получить текстовый файл ваших любимых музыкальных блогов и загрузить все новые MP3-файлы:
wget -r --level=1 -H --timeout=1 -nd -N -np --accept=mp3 -e robots=off -i musicblogs.txt
Для чего еще вы используете wget?
Image Credit: Social Media Connection via ShutterStock Broken URL Removed , Young Man Watching TV via Shutterstock Broken URL Removed , Globe via Shutterstock
Комментировать