Go言語の正規表現を使った文字列抜き出しについて解説

2025-04-15更新日: 2025-04-15

Go言語で正規表現を活用し、文字列から必要な情報を抜き出す方法について説明します。

regexpパッケージを用いてシンプルかつ効果的にパターンマッチを実現する事例を交えながら、初心者にも取り組みやすい内容にまとめています。

目次から探す

正規表現の基礎知識
- 正規表現の概念と特徴
- 主なパターンと記法
Go言語での正規表現利用方法
- regexpパッケージの概要
- 実装の流れとポイント
具体的な文字列抽出事例
- シンプルな抽出ケースの解説
- 複雑なパターンマッチ事例の実装
実践的な実装上の留意点
まとめ

正規表現の基礎知識

正規表現は文字列のパターンマッチを行うための手法です。

特定の文字列検索や置換処理を簡潔に記述できるため、テキスト操作の効率を高める際にとても有用です。

以下では正規表現の基本的な概念とその特徴について解説します。

正規表現の概念と特徴

正規表現は、文字列の中から特定のパターンに合致する部分を抽出、置換、検証するための記法です。

特徴として、

柔軟なパターン指定が可能であること
複雑な文字列処理をシンプルな表現で記述できること
テキスト検索や加工に広く利用されること

が挙げられます。

これにより、大量のテキストから必要な情報を効率的に抜き出せる点が大きなメリットです。

主なパターンと記法

正規表現では、パターンを記述するためにさまざまな特殊文字や記法が利用されます。

ここでは代表的な要素について説明します。

数字やアルファベットの基本パターン

例えば、数字を表す正規表現は\dと記述し、アルファベットは[a-zA-Z]で表現します。

以下の例は、整数を表す正規表現の一例です。

\d+

このパターンは、1つ以上の数字にマッチします。

また、アルファベットのみを対象とする場合は「aからz」または「AからZ」を範囲指定することで実現できます。

文字クラスと量指定子の利用例

文字クラスは、角括弧[]を利用して指定した複数の文字のいずれかにマッチさせることができます。

量指定子は、直前の要素の繰り返し回数を指定します。

代表的な記法は以下の通りです。

*：直前の文字が0回以上繰り返される
+：直前の文字が1回以上繰り返される
?：直前の文字が0回または1回だけ現れる

例えば、英数字とアンダースコアからなる単語を抽出する場合、正規表現は次のようになります。

[A-Za-z0-9_]+

このパターンは、1文字以上の英数字またはアンダースコアにマッチします。

Go言語での正規表現利用方法

Go言語では、標準ライブラリのregexpパッケージを利用して正規表現を扱うことができます。

以下では、パッケージの概要や基本的な利用方法について説明します。

regexpパッケージの概要

Goのregexpパッケージは正規表現を利用するための機能を提供しており、コンパイル、マッチ、抽出などの操作を簡単に行うための関数が用意されています。

主要関数の紹介(Compile, Match, Find, FindAllなど)

regexp.Compile

正規表現のパターンをコンパイルしてRegexp型の変数を返します。

Match

指定されたパターンが文字列に含まれているかを判定します。

Find、FindAll

一致した部分文字列や、その位置情報を抽出するために利用されます。

これらの関数を利用することで、文字列操作処理が簡潔に記述できるため、正規表現を活用した開発がスムーズに行えます。

インポート方法と基本設定

Go言語で正規表現を利用する場合、まずパッケージをインポートする必要があります。

以下のコードでは、regexpパッケージをインポートし、基本的な正規表現の設定例を示します。

package main
import (
	"fmt"
	"regexp"
)
func main() {
	// 正規表現パターンのコンパイル
	re, err := regexp.Compile(`\d+`)
	if err != nil {
		fmt.Println("正規表現のコンパイルに失敗しました")
		return
	}
	// テキストに含まれる数字を探す
	input := "サンプルテキスト123, 次の数字456"
	match := re.FindString(input)
	fmt.Println("最初に見つかった数字は:", match)
}

最初に見つかった数字は: 123

実装の流れとポイント

正規表現を用いた実装のフローは、以下の手順に沿って進めることが効果的です。

正規表現パターンの定義
パターンのコンパイル
マッチや抽出処理の実装
エラー処理の追加

各ステップにおいて、コードの見通しやすさや保守性を考慮することが重要です。

パターンのコンパイル手順

まず、正規表現パターンを定義し、regexp.Compile関数を利用してパターンをコンパイルします。

コンパイルエラーが発生する可能性があるため、エラーハンドリングは必ず行うようにしてください。

以下は、整数を抽出する正規表現のコンパイル例です。

package main
import (
	"fmt"
	"regexp"
)
func main() {
	// 整数を抽出する正規表現パターン
	pattern := `\d+`
	re, err := regexp.Compile(pattern)
	if err != nil {
		fmt.Println("パターンのコンパイルエラーが発生しました")
		return
	}
	fmt.Println("パターンのコンパイルに成功しました:", re.String())
}

パターンのコンパイルに成功しました: \d+

文字列抽出処理の実装方法

コンパイル済みの正規表現を用いて、文字列内の対象部分を抽出します。

以下の例は、複数の数字をすべて抽出する方法を示しています。

package main
import (
	"fmt"
	"regexp"
)
func main() {
	// 数字を抽出するためのパターン
	re, _ := regexp.Compile(`\d+`)
	// テキストのサンプル
	text := "例として123と456、そして789を含むテキストです"
	// 全ての一致箇所を抽出
	matches := re.FindAllString(text, -1)
	fmt.Println("抽出された数字:", matches)
}

抽出された数字: [123 456 789]

具体的な文字列抽出事例

正規表現を活用して、簡単な文字列抽出から複雑なパターンマッチまで、さまざまな事例に対応できます。

以下では、その実装例を紹介します。

シンプルな抽出ケースの解説

シンプルなケースでは、特定のパターンに一致する文字列を一度に抽出する方法が中心となります。

ここでは、数字を抽出する例を取り上げます。

抽出パターンの設計と適用例

抽出したいデータの特性に合わせて、正規表現パターンを設計します。

下記では、\d+を用いて数字を抽出しています。

package main
import (
	"fmt"
	"regexp"
)
func main() {
	// 数字を抽出する正規表現パターン
	re, _ := regexp.Compile(`\d+`)
	// サンプルテキスト
	text := "オーダー番号は7890ですが、予備の番号は1234です"
	// 一致する最初の数字を取得
	match := re.FindString(text)
	fmt.Println("最初に見つかった番号:", match)
}

最初に見つかった番号: 7890

コード内の重要ポイントの解説

この例では、以下の点が重要となります。

正規表現パターン\d+により、1つ以上の数字にマッチする点
コンパイル後にFindStringを利用して最初に一致した文字列を抽出している点

シンプルなケースであっても、意図した文字列が正しく抽出されることを確認してください。

複雑なパターンマッチ事例の実装

複雑な文字列抽出では、複数のパターンに基づく処理や、条件に合わせた抽出が必要となる場合があります。

以下では、複数のパターンに同時にマッチさせる例を示します。

複数パターンの同時抽出方法

複数の条件を同時に満たすデータを抽出する場合、FindAllString関数が有効です。

例えば、テキストからすべての数字を抽出し、結果をリストとしてまとめる手法を紹介します。

package main
import (
	"fmt"
	"regexp"
)
func main() {
	// 数字抽出用の正規表現
	re, _ := regexp.Compile(`\d+`)
	// 複数の数字を含むテキスト
	text := "サンプル数字: 100,200,300が混在しています"
	// 一致するすべての数字を抽出
	results := re.FindAllString(text, -1)
	fmt.Println("抽出結果:", results)
}

抽出結果: [100 200 300]

結果の整形とエラー処理の工夫

抽出結果を利用する際は、取得したデータが意図した形式であるか確認し、必要に応じて整形処理を加えます。

以下は、抽出した数字を整数に変換し、合計値を計算する例です。

package main
import (
	"fmt"
	"regexp"
	"strconv"
)
func main() {
	// 数字抽出用の正規表現
	re, _ := regexp.Compile(`\d+`)
	text := "数字の例: 50, 150, 200"
	matches := re.FindAllString(text, -1)
	// 整数に変換して合計を計算
	total := 0
	for _, strNum := range matches {
		num, err := strconv.Atoi(strNum)
		if err != nil {
			// 変換エラーが発生した場合、エラーメッセージを出力して終了
			fmt.Println("数字への変換でエラーが発生しました")
			return
		}
		total += num
	}
	fmt.Println("数字の合計:", total)
}

数字の合計: 400

実践的な実装上の留意点

実装時には、コードの保守性や実行性能、及びデバッグの手法に注意を払う必要があります。

以下ではその具体的なポイントを紹介します。

パフォーマンス最適化の工夫

正規表現のコンパイルには一定のコストがかかるため、コンパイル済みのパターンを再利用することでパフォーマンスの最適化が可能です。

コンパイル結果の再利用とキャッシュ化

同じパターンを何度も使用する場合、あらかじめコンパイルしておいたRegexpオブジェクトをキャッシュすることで、毎回のコンパイル処理を省略できます。

以下は、コンパイル結果を再利用する簡単な例です。

package main
import (
	"fmt"
	"regexp"
)
var numberRegex *regexp.Regexp
func init() {
	// グローバル変数としてコンパイル済みの正規表現を用意
	numberRegex, _ = regexp.Compile(`\d+`)
}
func main() {
	text := "テキスト中の数字: 42が含まれています"
	// キャッシュされた正規表現を利用して抽出
	result := numberRegex.FindString(text)
	fmt.Println("抽出された数字:", result)
}