wget でウェブページを部品ごとダウンロード


wget をちょっと便利に使う方法。

ページを部品ごとダウンロード

wget -kp http://__URL__/

-k でリンクを相対パスに書き換え、-p で関連部品もダウンロード。
「このページみたいにしたいんだけど…」等の参考情報として渡されたURLをじっくり眺める時などに使います。

ただしJavaScriptで読み込む画像やCSSの背景画像は取れません。惜しい!

圧縮ファイルをダウンロード

wget http://__URL__/xxx.tar.gz

この使い方が一番多いですね。

ちょっと気になる点

日本語のファイル名をURIエスケープしたURLの場合、ローカルに保存する時にASCII文字に該当する部分だけ部分的にアンエスケープしてしまう。

–span-hosts を指定していなくても、取得中のサイト内からリダイレクトされると外部サイトの1枚目もダウンロードしてしまう。