正規表現

[Python] URLを正規表現で抽出する方法

2025-04-15更新日: 2025-04-15

PythonでURLを正規表現を使って抽出するには、reモジュールを利用します。

まず、正規表現パターンを定義します。

一般的なURLのパターンは、r'https?://[^\s]+'です。

これは、httpまたはhttpsで始まり、その後にスペース以外の文字が続く部分をマッチします。

次に、re.findall()関数を使って、テキストからすべてのURLを抽出します。

例えば、urls = re.findall(r'https?://[^\s]+', text)のように記述します。

これにより、指定したテキスト内のすべてのURLがリストとして返されます。

正規表現は柔軟性が高いため、必要に応じてパターンを調整することも可能です。

目次から探す

正規表現の基礎知識

正規表現とは何か

正規表現は、文字列のパターンを指定するための特殊な文字列です。

これにより、特定の文字列を検索、抽出、置換することができます。

正規表現は、テキスト処理において非常に強力なツールであり、特にデータの検証やフォーマットのチェックに役立ちます。

Pythonでの正規表現の利用方法

Pythonでは、正規表現を扱うためにreモジュールを使用します。

このモジュールを使うことで、文字列の検索や置換、分割などを簡単に行うことができます。

以下に、Pythonで正規表現を利用する際の基本的な流れを示します。

reモジュールをインポートする。
正規表現パターンを定義する。
定義したパターンを使って文字列を操作する。

reモジュールの基本的な使い方

reモジュールには、正規表現を扱うための多くの関数が用意されています。

ここでは、よく使われる関数をいくつか紹介します。

関数名	説明
`re.search()`	文字列全体を検索し、最初にマッチした部分を返します。
`re.match()`	文字列の先頭がパターンにマッチするかをチェックします。
`re.findall()`	文字列中のすべてのマッチをリストとして返します。
`re.sub()`	マッチした部分を別の文字列に置換します。

以下は、reモジュールを使った基本的な例です。

import re
# サンプル文字列
text = "Pythonで正規表現を使ってURLを抽出します。"
# 正規表現パターン
pattern = r"URL"
# search関数を使ってパターンを検索
match = re.search(pattern, text)
# マッチした場合の処理
if match:
    print("マッチした部分:", match.group())
else:
    print("マッチしませんでした。")

マッチした部分: URL

この例では、文字列textから”URL”という単語を検索しています。

re.search()関数を使うことで、文字列全体を検索し、最初にマッチした部分を取得しています。

URL抽出のための正規表現パターン

URLの構造と特徴

URL(Uniform Resource Locator)は、インターネット上のリソースを指し示すためのアドレスです。

URLは以下のような構造を持っています。

スキーム: http, https, ftpなど
ホスト名: ドメイン名やIPアドレス
パス: リソースの場所を示すパス
クエリ: ?に続くキーと値のペア
フラグメント: #に続く特定のセクション

これらの要素を考慮して、URLを正規表現で抽出する際には、各要素を適切にマッチさせる必要があります。

基本的なURLパターンの作成

URLを抽出するための基本的な正規表現パターンを作成するには、URLの構造を理解し、それに基づいてパターンを組み立てます。

以下は、一般的なURLを抽出するための基本的な正規表現パターンの例です。

import re
# URLを抽出するための正規表現パターン
url_pattern = r"https?://[^\s/$.?#].[^\s]*"
# サンプル文字列
text = "こちらのリンクを参照してください: https://example.com/path?query=1#section"
# findall関数を使ってURLを抽出
urls = re.findall(url_pattern, text)
# 抽出したURLを表示
print("抽出したURL:", urls)

抽出したURL: ['https://example.com/path?query=1#section']

この例では、https?://で始まるURLを抽出しています。

[^\s/$.?#].[^\s]*は、スペースや特定の記号でない文字列をマッチさせる部分です。

特殊なURLのパターン対応

特殊なURLには、ポート番号が含まれるものや、IPアドレス形式のものがあります。

これらに対応するためには、正規表現パターンを拡張する必要があります。

ポート番号を含むURL: https://example.com:8080
IPアドレス形式のURL: http://192.168.1.1

以下は、これらの特殊なURLに対応した正規表現パターンの例です。

import re
# 特殊なURLを抽出するための正規表現パターン
special_url_pattern = r"https?://(?:[0-9]{1,3}\.){3}[0-9]{1,3}(:[0-9]+)?|https?://[^\s/$.?#].[^\s]*(:[0-9]+)?"
# サンプル文字列
text = "IPアドレス形式のURL: http://192.168.1.1:8080 と通常のURL: https://example.com:8080"
# findall関数を使ってURLを抽出
special_urls = re.findall(special_url_pattern, text)
# 抽出したURLを表示
print("抽出した特殊なURL:", special_urls)

抽出した特殊なURL: ['http://192.168.1.1:8080', 'https://example.com:8080']

この例では、IPアドレス形式やポート番号を含むURLを抽出しています。

(?:[0-9]{1,3}\.){3}[0-9]{1,3}はIPアドレスをマッチさせる部分で、(:[0-9]+)?はポート番号をオプションでマッチさせる部分です。

PythonでのURL抽出手順

re.findall()を使ったURL抽出

re.findall()関数は、文字列中のすべてのマッチをリストとして返します。

URLを抽出する際には、この関数を使うことで、テキスト中に含まれるすべてのURLを簡単に取得することができます。

以下に、re.findall()を使ったURL抽出の例を示します。

import re
# URLを抽出するための正規表現パターン
url_pattern = r"https?://[^\s/$.?#].[^\s]*"
# サンプル文字列
text = "こちらのリンクを参照してください: https://example.com と http://example.org"
# findall関数を使ってURLを抽出
urls = re.findall(url_pattern, text)
# 抽出したURLを表示
print("抽出したURL:", urls)

抽出したURL: ['https://example.com', 'http://example.org']

この例では、re.findall()を使って、文字列textからすべてのURLを抽出しています。

re.search()とre.match()の違い

re.search()とre.match()は、どちらも文字列中のパターンを検索するための関数ですが、その動作には違いがあります。

re.search(): 文字列全体を検索し、最初にマッチした部分を返します。

文字列のどの位置にマッチがあっても結果を返します。

re.match(): 文字列の先頭がパターンにマッチするかをチェックします。

先頭にマッチがない場合は結果を返しません。

以下に、re.search()とre.match()の違いを示す例を示します。

import re
# サンプル文字列
text = "Visit https://example.com for more information."
# search関数を使ってパターンを検索
search_result = re.search(r"https?://[^\s]+", text)
# match関数を使ってパターンを検索
match_result = re.match(r"https?://[^\s]+", text)
# 結果を表示
print("searchの結果:", search_result.group() if search_result else "マッチしませんでした。")
print("matchの結果:", match_result.group() if match_result else "マッチしませんでした。")

searchの結果: https://example.com
matchの結果: マッチしませんでした。

この例では、re.search()は文字列中のURLを見つけますが、re.match()は文字列の先頭にURLがないため、マッチしません。

抽出結果の処理方法

URLを抽出した後、その結果をどのように処理するかは、具体的な用途によります。

一般的な処理方法としては、以下のようなものがあります。

リストとして保存: 抽出したURLをリストに保存し、後で使用する。
ファイルに書き出す: URLをテキストファイルに書き出して保存する。
データベースに保存: URLをデータベースに保存して管理する。

以下に、抽出したURLをファイルに書き出す例を示します。

import re
# URLを抽出するための正規表現パターン
url_pattern = r"https?://[^\s/$.?#].[^\s]*"
# サンプル文字列
text = "こちらのリンクを参照してください: https://example.com と http://example.org"
# findall関数を使ってURLを抽出
urls = re.findall(url_pattern, text)
# 抽出したURLをファイルに書き出す
with open("extracted_urls.txt", "w") as file:
    for url in urls:
        file.write(url + "\n")
print("URLをファイルに書き出しました。")

この例では、抽出したURLをextracted_urls.txtというファイルに書き出しています。

これにより、抽出したURLを後で確認したり、他のプログラムで利用したりすることができます。

実践例：テキストからのURL抽出

単一のURLを含むテキストからの抽出

単一のURLを含むテキストからURLを抽出する場合、re.search()を使用して最初にマッチしたURLを取得することができます。

以下にその例を示します。

import re
# URLを抽出するための正規表現パターン
url_pattern = r"https?://[^\s/$.?#].[^\s]*"
# サンプル文字列(単一のURLを含む)
text = "公式サイトはこちら: https://example.com"
# search関数を使ってURLを抽出
match = re.search(url_pattern, text)
# マッチしたURLを表示
if match:
    print("抽出したURL:", match.group())
else:
    print("URLが見つかりませんでした。")

抽出したURL: https://example.com

この例では、re.search()を使って、文字列textから最初にマッチしたURLを抽出しています。

複数のURLを含むテキストからの抽出

複数のURLを含むテキストからすべてのURLを抽出するには、re.findall()を使用します。

以下にその例を示します。

import re
# URLを抽出するための正規表現パターン
url_pattern = r"https?://[^\s/$.?#].[^\s]*"
# サンプル文字列(複数のURLを含む)
text = "こちらのリンクを参照してください: https://example.com と http://example.org"
# findall関数を使ってすべてのURLを抽出
urls = re.findall(url_pattern, text)
# 抽出したURLを表示
print("抽出したURL:", urls)

抽出したURL: ['https://example.com', 'http://example.org']

この例では、re.findall()を使って、文字列textからすべてのURLを抽出しています。

ファイル内のURLを抽出する方法

ファイル内のテキストからURLを抽出するには、ファイルを読み込んでから正規表現を適用します。

以下にその例を示します。

import re
# URLを抽出するための正規表現パターン
url_pattern = r"https?://[^\s/$.?#].[^\s]*"
# ファイルからテキストを読み込む
with open("sample_text.txt", "r", encoding="utf-8") as file:
    text = file.read()
# findall関数を使ってファイル内のすべてのURLを抽出
urls = re.findall(url_pattern, text)
# 抽出したURLを表示
print("ファイル内の抽出したURL:", urls)

この例では、sample_text.txtというファイルからテキストを読み込み、re.findall()を使ってすべてのURLを抽出しています。

ファイル内のURLを抽出することで、大量のデータから必要な情報を効率的に取得することができます。

応用例

URLのバリデーション

URLのバリデーションは、与えられた文字列が有効なURLであるかを確認するプロセスです。

正規表現を使用して、URLの形式が正しいかどうかをチェックすることができます。

以下に、URLのバリデーションの例を示します。

import re
# URLのバリデーション用正規表現パターン
url_pattern = r"^(https?://)?([a-zA-Z0-9-]+\.)+[a-zA-Z]{2,6}(/.*)?$"
# サンプルURL
urls = ["https://example.com", "ftp://example.com", "http://invalid-url", "https://valid-url.org/path"]
# URLのバリデーションを行う
for url in urls:
    if re.match(url_pattern, url):
        print(f"有効なURL: {url}")
    else:
        print(f"無効なURL: {url}")

有効なURL: https://example.com
無効なURL: ftp://example.com
無効なURL: http://invalid-url
有効なURL: https://valid-url.org/path

この例では、正規表現を使って、URLが有効かどうかをチェックしています。

httpsまたはhttpで始まるURLのみを有効としています。

URLのドメイン別抽出

特定のドメインに属するURLを抽出するには、正規表現を使ってドメイン名を指定します。

以下に、特定のドメインを持つURLを抽出する例を示します。

import re
# 特定のドメインを持つURLを抽出するための正規表現パターン
domain_pattern = r"https?://(www\.)?example\.com[^\s]*"
# サンプル文字列
text = "Visit https://example.com and https://www.example.com/path for more info. Also check http://other.com."
# findall関数を使って特定のドメインのURLを抽出
urls = re.findall(domain_pattern, text)
# 抽出したURLを表示
print("特定のドメインのURL:", urls)

特定のドメインのURL: ['https://example.com', 'https://www.example.com/path']

この例では、example.comドメインのURLのみを抽出しています。

URLのプロトコル別抽出

URLのプロトコル(httpやhttpsなど)に基づいてURLを抽出することも可能です。

以下に、プロトコル別にURLを抽出する例を示します。

import re
# プロトコル別にURLを抽出するための正規表現パターン
http_pattern = r"http://[^\s/$.?#].[^\s]*"
https_pattern = r"https://[^\s/$.?#].[^\s]*"
# サンプル文字列
text = "Secure site: https://secure.com and non-secure site: http://nonsecure.com"
# findall関数を使ってプロトコル別にURLを抽出
http_urls = re.findall(http_pattern, text)
https_urls = re.findall(https_pattern, text)
# 抽出したURLを表示
print("HTTPのURL:", http_urls)
print("HTTPSのURL:", https_urls)

HTTPのURL: ['http://nonsecure.com']
HTTPSのURL: ['https://secure.com']

この例では、httpとhttpsのプロトコルに基づいてURLをそれぞれ抽出しています。

これにより、セキュアな接続を使用しているURLとそうでないURLを区別することができます。

まとめ

この記事では、Pythonを用いて正規表現を活用し、URLを抽出する方法について詳しく解説しました。

正規表現の基礎から始まり、具体的なURL抽出の手順や応用例を通じて、実践的なスキルを身につけることができる内容となっています。

これを機に、実際のプロジェクトや日常のプログラミングにおいて、正規表現を活用して効率的にデータを処理してみてはいかがでしょうか。

2025-04-15更新日: 2025-04-15

正規表現の基礎知識

正規表現とは何か

Pythonでの正規表現の利用方法

reモジュールの基本的な使い方

URL抽出のための正規表現パターン

URLの構造と特徴

基本的なURLパターンの作成

特殊なURLのパターン対応

PythonでのURL抽出手順

re.findall()を使ったURL抽出

re.search()とre.match()の違い

抽出結果の処理方法

実践例：テキストからのURL抽出

単一のURLを含むテキストからの抽出

複数のURLを含むテキストからの抽出

ファイル内のURLを抽出する方法

応用例

URLのバリデーション

URLのドメイン別抽出

URLのプロトコル別抽出

まとめ

関連記事