文字列処理

[C言語] 正規表現を使って文字列を検索する方法

C言語で正規表現を使用して文字列を検索するには、POSIXライブラリを活用します。

このライブラリには、正規表現をコンパイルするためのregcomp関数や、コンパイル済みの正規表現を使って文字列を検索するregexec関数が含まれています。

また、エラー処理にはregerror関数を使用し、正規表現の解放にはregfree関数を用います。

これらの関数を組み合わせることで、C言語でも効率的に正規表現を用いた文字列検索が可能です。

C言語で正規表現を使うための準備

C言語で正規表現を扱うためには、<regex.h> ヘッダーファイルをインクルードする必要があります。

このヘッダーファイルには、正規表現をコンパイルし、実行するための関数が定義されています。

主な関数は以下の通りです。

関数名説明
regcomp正規表現をコンパイルする
regexecコンパイル済みの正規表現を使って文字列を検索する
regfree使用した正規表現を解放する

基本的な正規表現の構文

正規表現は、文字列のパターンを表現するための強力なツールです。

C言語で使用する正規表現の基本的な構文を以下に示します。

構文説明
.任意の1文字にマッチ
*直前の文字が0回以上繰り返される
+直前の文字が1回以上繰り返される
?直前の文字が0回または1回現れる
[]文字クラスを定義し、指定した文字のいずれかにマッチ

これらの構文を組み合わせることで、複雑な文字列パターンを表現することができます。

正規表現を効果的に使用するためには、これらの基本的な構文を理解しておくことが重要です。

正規表現を使った文字列検索の基本

C言語で正規表現を用いて文字列を検索するには、主に3つの関数を使用します。

それぞれの関数の使い方を詳しく解説します。

regcomp 関数の使い方

regcomp関数は、正規表現をコンパイルするために使用されます。

この関数は、正規表現パターンを解析し、後で使用するためのデータ構造を準備します。

#include <regex.h>
#include <stdio.h>
int main() {
    regex_t regex;
    const char *pattern = "^[a-zA-Z]+$"; // 英字のみの文字列にマッチするパターン
    int reti;
    // 正規表現をコンパイル
    reti = regcomp(®ex, pattern, REG_EXTENDED);
    if (reti) {
        printf("正規表現のコンパイルに失敗しました\n");
        return 1;
    }
    // コンパイル成功
    printf("正規表現のコンパイルに成功しました\n");
    // 使用後は必ず解放
    regfree(®ex);
    return 0;
}

このコードでは、regcomp関数を使用して、英字のみの文字列にマッチする正規表現をコンパイルしています。

REG_EXTENDED フラグを指定することで、拡張正規表現を使用しています。

regexec 関数の使い方

regexec関数は、コンパイル済みの正規表現を使って文字列を検索します。

この関数は、指定した文字列が正規表現にマッチするかどうかを判定します。

#include <regex.h>
#include <stdio.h>
int main() {
    regex_t regex;
    const char *pattern = "^[a-zA-Z]+$";
    const char *test_str = "HelloWorld";
    int reti;
    // 正規表現をコンパイル
    regcomp(®ex, pattern, REG_EXTENDED);
    // 文字列を検索
    reti = regexec(®ex, test_str, 0, NULL, 0);
    if (!reti) {
        printf("文字列は正規表現にマッチしました\n");
    } else if (reti == REG_NOMATCH) {
        printf("文字列は正規表現にマッチしませんでした\n");
    } else {
        printf("正規表現の実行中にエラーが発生しました\n");
    }
    // 使用後は必ず解放
    regfree(®ex);
    return 0;
}

この例では、regexec関数を使用して、文字列 “HelloWorld” が正規表現にマッチするかどうかを判定しています。

regfree 関数の使い方

regfree関数は、regcomp関数で確保されたメモリを解放するために使用されます。

正規表現を使用した後は、必ずこの関数を呼び出してメモリを解放する必要があります。

#include <regex.h>
#include <stdio.h>
int main() {
    regex_t regex;
    const char *pattern = "^[a-zA-Z]+$";
    // 正規表現をコンパイル
    regcomp(®ex, pattern, REG_EXTENDED);
    // 正規表現を使用する処理...
    // メモリを解放
    regfree(®ex);
    printf("正規表現のメモリを解放しました\n");
    return 0;
}

このコードでは、regfree関数を使用して、正規表現のメモリを解放しています。

これにより、メモリリークを防ぐことができます。

正規表現のパターンマッチング

正規表現を使ったパターンマッチングは、文字列の特定のパターンを検出するための強力な手法です。

ここでは、基本的なパターンの作成方法から、特殊文字やメタ文字の使用、繰り返しや選択の表現について解説します。

基本的なパターンの作成

正規表現の基本的なパターンは、文字列の特定の部分にマッチさせるために使用されます。

以下に、基本的なパターンの例を示します。

#include <regex.h>
#include <stdio.h>
int main() {
    regex_t regex;
    const char *pattern = "abc"; // "abc"という文字列にマッチ
    const char *test_str = "abcdef";
    int reti;
    // 正規表現をコンパイル
    regcomp(®ex, pattern, 0);
    // 文字列を検索
    reti = regexec(®ex, test_str, 0, NULL, 0);
    if (!reti) {
        printf("文字列は正規表現にマッチしました\n");
    } else {
        printf("文字列は正規表現にマッチしませんでした\n");
    }
    // メモリを解放
    regfree(®ex);
    return 0;
}

この例では、文字列 “abcdef” の中に “abc” というパターンが存在するかを確認しています。

特殊文字とメタ文字の使用

正規表現では、特殊文字やメタ文字を使用して、より複雑なパターンを表現することができます。

以下に、いくつかの特殊文字とメタ文字の例を示します。

メタ文字説明
.任意の1文字にマッチ
^行の先頭にマッチ
$行の末尾にマッチ
\d数字にマッチ(POSIXでは [0-9] を使用)
#include <regex.h>
#include <stdio.h>
int main() {
    regex_t regex;
    const char *pattern = "^a.c$"; // "a"で始まり、任意の1文字を挟んで"c"で終わる
    const char *test_str = "abc";
    int reti;
    // 正規表現をコンパイル
    regcomp(®ex, pattern, 0);
    // 文字列を検索
    reti = regexec(®ex, test_str, 0, NULL, 0);
    if (!reti) {
        printf("文字列は正規表現にマッチしました\n");
    } else {
        printf("文字列は正規表現にマッチしませんでした\n");
    }
    // メモリを解放
    regfree(®ex);
    return 0;
}

この例では、文字列 “abc” がパターン “^a.c$” にマッチするかを確認しています。

繰り返しと選択の表現

正規表現では、繰り返しや選択を表現するための構文も用意されています。

これにより、特定の文字やパターンが何度も繰り返される場合や、複数の選択肢がある場合に対応できます。

構文説明
*直前の文字が0回以上繰り返される
+直前の文字が1回以上繰り返される
?直前の文字が0回または1回現れる
|選択を表し、左または右のパターンにマッチ
#include <regex.h>
#include <stdio.h>
int main() {
    regex_t regex;
    const char *pattern = "a(bc)*"; // "a"の後に"bc"が0回以上繰り返される
    const char *test_str = "abcbcbc";
    int reti;
    // 正規表現をコンパイル
    regcomp(®ex, pattern, 0);
    // 文字列を検索
    reti = regexec(®ex, test_str, 0, NULL, 0);
    if (!reti) {
        printf("文字列は正規表現にマッチしました\n");
    } else {
        printf("文字列は正規表現にマッチしませんでした\n");
    }
    // メモリを解放
    regfree(®ex);
    return 0;
}

この例では、文字列 “abcbcbc” がパターン “a(bc)*” にマッチするかを確認しています。

ここでは、”bc” が0回以上繰り返されることを表現しています。

実践的な例

正規表現は、特定のパターンを持つ文字列を検出するために非常に便利です。

ここでは、メールアドレスの検証、電話番号のフォーマットチェック、URLのパースといった実践的な例を紹介します。

メールアドレスの検証

メールアドレスの形式を検証するためには、正規表現を使用して一般的なパターンにマッチするかを確認します。

以下の例では、簡単なメールアドレスの検証を行います。

#include <regex.h>
#include <stdio.h>
int main() {
    regex_t regex;
    const char *pattern = "^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}$";
    const char *test_str = "example@example.com";
    int reti;
    // 正規表現をコンパイル
    regcomp(®ex, pattern, REG_EXTENDED);
    // 文字列を検索
    reti = regexec(®ex, test_str, 0, NULL, 0);
    if (!reti) {
        printf("メールアドレスは正しい形式です\n");
    } else {
        printf("メールアドレスは正しい形式ではありません\n");
    }
    // メモリを解放
    regfree(®ex);
    return 0;
}

このコードでは、メールアドレスが一般的な形式にマッチするかを確認しています。

@の前後に適切な文字列があるかどうかをチェックしています。

電話番号のフォーマットチェック

電話番号のフォーマットをチェックするためには、数字とハイフンの組み合わせを正規表現で検証します。

以下の例では、日本の一般的な電話番号形式を検証します。

#include <regex.h>
#include <stdio.h>
int main() {
    regex_t regex;
    const char *pattern = "^\\d{2,4}-\\d{2,4}-\\d{4}$";
    const char *test_str = "03-1234-5678";
    int reti;
    // 正規表現をコンパイル
    regcomp(®ex, pattern, REG_EXTENDED);
    // 文字列を検索
    reti = regexec(®ex, test_str, 0, NULL, 0);
    if (!reti) {
        printf("電話番号は正しい形式です\n");
    } else {
        printf("電話番号は正しい形式ではありません\n");
    }
    // メモリを解放
    regfree(®ex);
    return 0;
}

この例では、電話番号が「市外局番-市内局番-加入者番号」の形式にマッチするかを確認しています。

URLのパース

URLのパースには、プロトコル、ホスト名、パスなどの要素を正規表現で抽出することができます。

以下の例では、URLの基本的な構造を検証します。

#include <regex.h>
#include <stdio.h>
int main() {
    regex_t regex;
    const char *pattern = "^(https?|ftp)://[a-zA-Z0-9.-]+(/[a-zA-Z0-9._%+-]*)?$";
    const char *test_str = "https://www.example.com/path/to/resource";
    int reti;
    // 正規表現をコンパイル
    regcomp(®ex, pattern, REG_EXTENDED);
    // 文字列を検索
    reti = regexec(®ex, test_str, 0, NULL, 0);
    if (!reti) {
        printf("URLは正しい形式です\n");
    } else {
        printf("URLは正しい形式ではありません\n");
    }
    // メモリを解放
    regfree(®ex);
    return 0;
}

このコードでは、URLが「プロトコル://ホスト名/パス」の形式にマッチするかを確認しています。

プロトコルとしては、httphttpsftpが許可されています。

エラーハンドリング

正規表現を使用する際には、エラーハンドリングが重要です。

コンパイルエラーやマッチングエラーが発生した場合、適切に処理することで、プログラムの信頼性を向上させることができます。

ここでは、正規表現のエラーハンドリングについて解説します。

正規表現コンパイルエラーの処理

regcomp関数を使用して正規表現をコンパイルする際に、エラーが発生することがあります。

エラーが発生した場合、関数は非ゼロのエラーコードを返します。

このエラーコードをチェックし、適切に処理することが重要です。

#include <regex.h>
#include <stdio.h>
int main() {
    regex_t regex;
    const char *pattern = "[a-z"; // 不完全な正規表現
    int reti;
    // 正規表現をコンパイル
    reti = regcomp(®ex, pattern, REG_EXTENDED);
    if (reti) {
        printf("正規表現のコンパイルに失敗しました\n");
        return 1;
    }
    // メモリを解放
    regfree(®ex);
    return 0;
}

この例では、不完全な正規表現パターンをコンパイルしようとしてエラーが発生します。

エラーコードをチェックして、コンパイルに失敗したことを通知しています。

マッチングエラーの処理

regexec関数を使用して文字列を検索する際にも、エラーが発生することがあります。

特に、正規表現が文字列にマッチしない場合、REG_NOMATCH が返されます。

これをチェックして、適切に処理します。

#include <regex.h>
#include <stdio.h>
int main() {
    regex_t regex;
    const char *pattern = "^[a-zA-Z]+$";
    const char *test_str = "12345"; // マッチしない文字列
    int reti;
    // 正規表現をコンパイル
    regcomp(®ex, pattern, REG_EXTENDED);
    // 文字列を検索
    reti = regexec(®ex, test_str, 0, NULL, 0);
    if (!reti) {
        printf("文字列は正規表現にマッチしました\n");
    } else if (reti == REG_NOMATCH) {
        printf("文字列は正規表現にマッチしませんでした\n");
    } else {
        printf("正規表現の実行中にエラーが発生しました\n");
    }
    // メモリを解放
    regfree(®ex);
    return 0;
}

この例では、文字列 “12345” が正規表現にマッチしないため、REG_NOMATCH が返されます。

エラーメッセージの取得と表示

正規表現のエラーが発生した場合、regerror関数を使用してエラーメッセージを取得し、表示することができます。

これにより、エラーの詳細をユーザーに伝えることができます。

#include <regex.h>
#include <stdio.h>
int main() {
    regex_t regex;
    const char *pattern = "[a-z"; // 不完全な正規表現
    int reti;
    char errbuf[100];
    // 正規表現をコンパイル
    reti = regcomp(®ex, pattern, REG_EXTENDED);
    if (reti) {
        regerror(reti, ®ex, errbuf, sizeof(errbuf));
        printf("正規表現のコンパイルに失敗しました: %s\n", errbuf);
        return 1;
    }
    // メモリを解放
    regfree(®ex);
    return 0;
}

このコードでは、regerror関数を使用して、コンパイルエラーの詳細なメッセージを取得し、表示しています。

これにより、エラーの原因を特定しやすくなります。

応用例

正規表現は、単純なパターンマッチングだけでなく、さまざまな応用が可能です。

ここでは、複数のパターンを同時に検索する方法、正規表現を使った文字列置換、大規模データセットでの正規表現の最適化について解説します。

複数のパターンを同時に検索する

複数のパターンを同時に検索する場合、正規表現の選択|を使用して、複数のパターンを1つの正規表現にまとめることができます。

#include <regex.h>
#include <stdio.h>
int main() {
    regex_t regex;
    const char *pattern = "cat|dog|bird"; // "cat", "dog", "bird"のいずれかにマッチ
    const char *test_str = "I have a dog.";
    int reti;
    // 正規表現をコンパイル
    regcomp(®ex, pattern, REG_EXTENDED);
    // 文字列を検索
    reti = regexec(®ex, test_str, 0, NULL, 0);
    if (!reti) {
        printf("文字列は正規表現にマッチしました\n");
    } else {
        printf("文字列は正規表現にマッチしませんでした\n");
    }
    // メモリを解放
    regfree(®ex);
    return 0;
}

この例では、文字列 “I have a dog.” が “cat”, “dog”, “bird” のいずれかにマッチするかを確認しています。

正規表現を使った文字列置換

C言語の標準ライブラリには直接的な文字列置換機能はありませんが、正規表現を使ってマッチした部分を手動で置換することができます。

以下は、簡単な置換の例です。

#include <regex.h>
#include <stdio.h>
#include <string.h>
int main() {
    regex_t regex;
    const char *pattern = "dog";
    const char *replace = "cat";
    char test_str[100] = "I have a dog.";
    regmatch_t pmatch[1];
    int reti;
    // 正規表現をコンパイル
    regcomp(®ex, pattern, REG_EXTENDED);
    // 文字列を検索
    reti = regexec(®ex, test_str, 1, pmatch, 0);
    if (!reti) {
        // マッチした部分を置換
        strncpy(test_str + pmatch[0].rm_so, replace, pmatch[0].rm_eo - pmatch[0].rm_so);
        printf("置換後の文字列: %s\n", test_str);
    } else {
        printf("文字列は正規表現にマッチしませんでした\n");
    }
    // メモリを解放
    regfree(®ex);
    return 0;
}

このコードでは、文字列 “I have a dog.” の “dog” を “cat” に置換しています。

大規模データセットでの正規表現の最適化

大規模なデータセットで正規表現を使用する場合、パフォーマンスの最適化が重要です。

以下に、正規表現のパフォーマンスを向上させるためのいくつかのポイントを示します。

  • 正規表現の簡略化: 複雑な正規表現は処理に時間がかかるため、可能な限り簡略化します。
  • 非貪欲マッチング: 必要に応じて非貪欲マッチングを使用し、不要なマッチングを避けます。
  • キャッシュの利用: 同じ正規表現を何度も使用する場合、コンパイル済みの正規表現をキャッシュして再利用します。

これらの方法を活用することで、大規模データセットに対する正規表現の処理を効率化できます。

まとめ

正規表現は、C言語で文字列を効率的に検索・操作するための強力なツールです。

この記事では、正規表現の基本的な使い方から応用例、エラーハンドリングまでを詳しく解説しました。

正規表現を活用することで、文字列処理の幅が広がり、より柔軟なプログラムを作成することができます。

この記事を参考に、実際のプログラムで正規表現を活用してみてください。

関連記事

Back to top button