[Python] wgetライブラリの使い方 – Webからファイルをダウンロード

2025-04-15更新日: 2025-04-15

Pythonのwgetライブラリは、Webからファイルを簡単にダウンロードするためのツールです。

wget.download(URL, 保存先パス)を使用して、指定したURLからファイルをダウンロードし、ローカルに保存できます。

保存先パスを省略すると、カレントディレクトリにダウンロードされます。

進捗状況が自動的に表示されるため、進行状況を確認しやすいのが特徴です。

目次から探す

wgetライブラリとは
wgetライブラリのインストール方法
- インストール手順
- 注意点
wgetライブラリの基本的な使い方
- 基本的なダウンロード
- ダウンロード先の指定
wgetライブラリの応用的な使い方
wgetライブラリを使う際の注意点
wgetライブラリの代替ツール
実践例：wgetライブラリを使った簡単なスクリプト
まとめ

wgetライブラリとは

wgetライブラリは、PythonでWebからファイルをダウンロードするための便利なツールです。

このライブラリは、HTTP、HTTPS、FTPなどのプロトコルを使用して、指定したURLからデータを取得することができます。

特に、大量のデータを一度にダウンロードしたり、特定のファイルを自動的に取得したりする際に非常に役立ちます。

主な特徴は以下の通りです。

特徴	説明
簡単なインターフェース	シンプルな関数呼び出しでファイルをダウンロード可能
プロトコルのサポート	HTTP、HTTPS、FTPなど多様なプロトコルに対応
再帰的ダウンロード	ウェブサイト全体を再帰的にダウンロードできる
タイムアウト設定	ダウンロード時のタイムアウトを設定可能

wgetライブラリを使用することで、手動でのダウンロード作業を自動化し、効率的にデータを収集することができます。

wgetライブラリのインストール方法

wgetライブラリは、Pythonのパッケージ管理ツールであるpipを使用して簡単にインストールできます。

以下の手順に従って、wgetライブラリをインストールしてください。

インストール手順

ターミナルまたはコマンドプロンプトを開く

お使いのOSに応じて、ターミナル(Linux、macOS)またはコマンドプロンプト(Windows)を開きます。

pipを使用してwgetをインストール

次のコマンドを入力して、wgetライブラリをインストールします。

   pip install wget

インストールの確認

インストールが成功したかどうかを確認するために、Pythonのインタラクティブシェルを開き、以下のコードを実行します。

   import wget
   print("wgetライブラリが正常にインストールされました。")

注意点

Pythonのバージョン: wgetライブラリはPython 3.xで動作します。

Python 2.xでは動作しないため、Python 3.xを使用していることを確認してください。

pipのインストール: pipがインストールされていない場合は、Pythonの公式サイトからインストール手順を確認してください。

これで、wgetライブラリのインストールが完了しました。

次のステップでは、基本的な使い方について説明します。

wgetライブラリの基本的な使い方

wgetライブラリを使用すると、非常に簡単にWebからファイルをダウンロードできます。

基本的な使い方を以下に示します。

基本的なダウンロード

最もシンプルな使い方は、wget.download()関数を使用して、指定したURLからファイルをダウンロードすることです。

以下はそのサンプルコードです。

import wget
# ダウンロードするファイルのURL
url = "https://example.com/sample.txt"
# ファイルをダウンロード
filename = wget.download(url)
print(f"\nダウンロード完了: {filename}")

100% [................................................................................] 12345 / 12345
ダウンロード完了: sample.txt

このコードでは、指定したURLからsample.txtというファイルをダウンロードし、ダウンロードが完了したことを表示します。

ダウンロード先の指定

デフォルトでは、ダウンロードしたファイルは現在の作業ディレクトリに保存されますが、保存先を指定することも可能です。

以下のように、wget.download()関数の第二引数に保存先のパスを指定します。

import wget
# ダウンロードするファイルのURL
url = "https://example.com/sample.txt"
# 保存先のパス
save_path = "/path/to/directory/sample.txt"
# ファイルをダウンロード
filename = wget.download(url, out=save_path)
print(f"\nダウンロード完了: {filename}")

100% [................................................................................] 12345 / 12345
ダウンロード完了: /path/to/directory/sample.txt

このように、wgetライブラリを使うことで、簡単にファイルをダウンロードし、必要に応じて保存先を指定することができます。

次のセクションでは、wgetライブラリの応用的な使い方について説明します。

wgetライブラリの応用的な使い方

wgetライブラリは、基本的なファイルダウンロードだけでなく、さまざまな応用的な機能を提供しています。

ここでは、いくつかの便利な使い方を紹介します。

再帰的なダウンロード

特定のウェブサイト全体をダウンロードする場合、再帰的なダウンロードが役立ちます。

wget.download()関数には再帰的ダウンロードのオプションはありませんが、wgetコマンドを使用することで実現できます。

以下は、Pythonのosモジュールを使ってコマンドを実行する例です。

import os
# 再帰的にダウンロードするURL
url = "https://example.com/"
# コマンドを実行
os.system(f"wget --recursive --no-parent {url}")

このコードを実行すると、指定したURL以下のすべてのファイルがダウンロードされます。

タイムアウトの設定

ダウンロード中に接続が不安定な場合、タイムアウトを設定することで、一定時間内にダウンロードが完了しない場合に処理を中止できます。

以下のように、wget.download()関数のtimeout引数を使用します。

import wget
# ダウンロードするファイルのURL
url = "https://example.com/sample.txt"
# タイムアウトを設定してファイルをダウンロード
try:
    filename = wget.download(url, timeout=10)  # 10秒のタイムアウト
    print(f"\nダウンロード完了: {filename}")
except Exception as e:
    print(f"\nエラーが発生しました: {e}")

プログレスバーのカスタマイズ

wgetライブラリは、ダウンロード中にプログレスバーを表示しますが、カスタマイズすることも可能です。

以下の例では、プログレスバーの表示をオフにする方法を示します。

import wget
# ダウンロードするファイルのURL
url = "https://example.com/sample.txt"
# プログレスバーを表示せずにファイルをダウンロード
filename = wget.download(url, bar=None)
print(f"\nダウンロード完了: {filename}")

複数ファイルのダウンロード

複数のファイルを一度にダウンロードする場合、リストを使ってループ処理を行うことができます。

以下はその例です。

import wget
# ダウンロードするファイルのURLリスト
urls = [
    "https://example.com/sample1.txt",
    "https://example.com/sample2.txt",
    "https://example.com/sample3.txt"
]
# 各ファイルをダウンロード
for url in urls:
    filename = wget.download(url)
    print(f"\nダウンロード完了: {filename}")

これらの応用的な使い方を活用することで、wgetライブラリをより効果的に利用し、さまざまなシナリオに対応することができます。

次のセクションでは、wgetライブラリを使用する際の注意点について説明します。

wgetライブラリを使う際の注意点

wgetライブラリを使用する際には、いくつかの注意点があります。

これらを理解しておくことで、よりスムーズにファイルをダウンロードし、トラブルを避けることができます。

ダウンロード先の確認

デフォルトの保存先: wgetライブラリは、デフォルトで現在の作業ディレクトリにファイルを保存します。

意図しない場所にファイルが保存されることがあるため、必要に応じて保存先を明示的に指定することをお勧めします。

ファイルの上書きに注意

同名ファイルの上書き: 同じ名前のファイルが既に存在する場合、wgetはそのファイルを上書きします。

重要なファイルが上書きされないように、ファイル名を確認するか、保存先を変更することが重要です。

サーバーへの負荷

リクエストの頻度: 大量のファイルを短時間でダウンロードする場合、サーバーに過剰な負荷をかける可能性があります。

特に、再帰的なダウンロードを行う際は、サーバーの利用規約を確認し、適切な間隔を設けることが重要です。

HTTPSの証明書エラー

SSL証明書の問題: HTTPSで接続する際、SSL証明書のエラーが発生することがあります。

この場合、wgetコマンドのオプションで証明書の検証を無効にすることができますが、セキュリティ上のリスクがあるため、注意が必要です。

プロキシ設定

プロキシ環境での使用: プロキシサーバーを経由してインターネットに接続している場合、wgetライブラリの設定でプロキシを指定する必要があります。

以下のように環境変数を設定します。

import os
# プロキシの設定
os.environ['http_proxy'] = 'http://proxy.example.com:8080'
os.environ['https_proxy'] = 'http://proxy.example.com:8080'

エラーハンドリング

例外処理の実装: ダウンロード中にエラーが発生することがあります。

try-exceptブロックを使用して、エラーを適切に処理することが重要です。

これにより、プログラムが予期しない終了を避けることができます。

これらの注意点を考慮することで、wgetライブラリをより安全かつ効果的に利用することができます。

次のセクションでは、wgetライブラリの代替ツールについて説明します。

wgetライブラリの代替ツール

wgetライブラリは非常に便利ですが、他にも同様の機能を持つツールやライブラリがあります。

ここでは、Pythonでファイルをダウンロードするための代替ツールをいくつか紹介します。

requestsライブラリ

概要: requestsは、HTTPリクエストを簡単に扱うための人気のあるライブラリです。

ファイルのダウンロードだけでなく、APIとの通信にも広く使用されています。

特徴:
シンプルなインターフェース
認証やセッション管理が容易
ストリーミングダウンロードが可能

import requests
url = "https://example.com/sample.txt"
response = requests.get(url)
# ファイルを保存
with open("sample.txt", "wb") as file:
    file.write(response.content)
print("ダウンロード完了: sample.txt")

urllibライブラリ

概要: urllibは、Pythonに標準で含まれているライブラリで、URL操作やHTTPリクエストを行うことができます。
特徴:
標準ライブラリのため、追加のインストールが不要
URLの解析やエンコーディングが可能

import urllib.request
url = "https://example.com/sample.txt"
urllib.request.urlretrieve(url, "sample.txt")
print("ダウンロード完了: sample.txt")

pycurlライブラリ

概要: pycurlは、CURLライブラリのPythonバインディングで、高速なHTTPリクエストを実現します。
特徴:
高速で効率的なダウンロード
複雑なリクエストや設定が可能

import pycurl
url = "https://example.com/sample.txt"
with open("sample.txt", "wb") as file:
    c = pycurl.Curl()
    c.setopt(c.URL, url)
    c.setopt(c.WRITEDATA, file)
    c.perform()
    c.close()
print("ダウンロード完了: sample.txt")

aiohttpライブラリ

概要: aiohttpは、非同期HTTPクライアントとサーバーを提供するライブラリで、非同期処理を活用して効率的にファイルをダウンロードできます。
特徴:
非同期処理による高いパフォーマンス
WebSocketのサポート

import aiohttp
import asyncio
async def download_file(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            with open("sample.txt", "wb") as file:
                file.write(await response.read())
url = "https://example.com/sample.txt"
asyncio.run(download_file(url))
print("ダウンロード完了: sample.txt")

これらの代替ツールを使用することで、特定のニーズや要件に応じたファイルダウンロードが可能になります。

各ツールの特徴を理解し、適切なものを選択することが重要です。

次のセクションでは、wgetライブラリを使用した簡単なスクリプトの実践例について説明します。

実践例：wgetライブラリを使った簡単なスクリプト

ここでは、wgetライブラリを使用して、特定のウェブサイトから画像を一括ダウンロードする簡単なスクリプトを作成します。

このスクリプトは、指定したURLから画像ファイルを取得し、ローカルの指定したフォルダに保存します。

スクリプトの概要

目的: 指定したURLからすべての画像ファイルをダウンロードする
使用するライブラリ: wget、requests、BeautifulSoup
動作手順:

指定したURLのHTMLを取得
画像のURLを抽出
各画像をダウンロード

必要なライブラリのインストール

まず、必要なライブラリをインストールします。

以下のコマンドを実行してください。

pip install wget requests beautifulsoup4

スクリプトコード

以下が、画像を一括ダウンロードするためのスクリプトです。

import os
import requests
from bs4 import BeautifulSoup
import wget
# ダウンロード先のディレクトリ
download_dir = "downloaded_images"
os.makedirs(download_dir, exist_ok=True)
# ダウンロードするURL
url = "https://example.com/gallery"
# URLからHTMLを取得
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
# 画像のURLを抽出
img_tags = soup.find_all("img")
img_urls = [img["src"] for img in img_tags if "src" in img.attrs]
# 画像をダウンロード
for img_url in img_urls:
    # 完全なURLを作成
    if not img_url.startswith("http"):
        img_url = url + img_url  # 相対URLの場合
    filename = wget.download(img_url, out=download_dir)
    print(f"\nダウンロード完了: {filename}")