C言語で正規表現の検索方法を教えて!
こういった悩みにお答えします.
本記事の信頼性
- リアルタイムシステムの研究歴12年.
- 東大教員の時に,英語でOS(Linuxカーネル)の授業.
- 2012年9月~2013年8月にアメリカのノースカロライナ大学チャペルヒル校(UNC)コンピュータサイエンス学部で客員研究員として勤務.C言語でリアルタイムLinuxの研究開発.
- プログラミング歴15年以上,習得している言語: C/C++,Python,Solidity/Vyper,Java,Ruby,Go,Rust,D,HTML/CSS/JS/PHP,MATLAB,Verse(UEFN), Assembler (x64,ARM).
- 東大教員の時に,C++言語で開発した「LLVMコンパイラの拡張」,C言語で開発した独自のリアルタイムOS「Mcube Kernel」をGitHubにオープンソースとして公開.
- 2020年1月~現在はアメリカのノースカロライナ州チャペルヒルにあるGuarantee Happiness LLCのCTOとしてECサイト開発やWeb/SNSマーケティングの業務.2022年6月~現在はアメリカのノースカロライナ州チャペルヒルにあるJapanese Tar Heel, Inc.のCEO兼CTO.
- 最近は自然言語処理AIとイーサリアムに関する有益な情報発信に従事.
- (AI全般を含む)自然言語処理AIの論文の日本語訳や,AIチャットボット(ChatGPT,Auto-GPT,Gemini(旧Bard)など)の記事を50本以上執筆.アメリカのサンフランシスコ(広義のシリコンバレー)の会社でプロンプトエンジニア・マネージャー・Quality Assurance(QA)の業務委託の経験あり.
- (スマートコントラクトのプログラミングを含む)イーサリアムや仮想通貨全般の記事を200本以上執筆.イギリスのロンドンの会社で仮想通貨の英語の記事を日本語に翻訳する業務委託の経験あり.
こういった私から学べます.
C言語を独学で習得することは難しいです.
私にC言語の無料相談をしたいあなたは,公式LINE「ChishiroのC言語」の友だち追加をお願い致します.
私のキャパシティもあり,一定数に達したら終了しますので,今すぐ追加しましょう!
独学が難しいあなたは,元東大教員がおすすめするC言語を学べるオンラインプログラミングスクール5社で自分に合うスクールを見つけましょう.後悔はさせません!
目次
正規表現
正規表現とは,文字列の集合を一つの文字列で表現する方法です.
正規表現を利用すると,文字列の検索や比較を柔軟に行うことができます.
POSIXの正規表現には,以下の3種類があります.
- 単純正規表現:Simple Regular Expressions(SRE)
- 基本正規表現:Basic Regular Expressions(BRE)
- 拡張正規表現:Extended Regular Expressions(ERE)
正規表現は結構難しいので,初めての方は以下の入門サイトで学ぶことをおすすめします.
C言語のregcomp/regexec/regerror/regfree関数で正規表現の検索
1 2 3 4 |
int regcomp(regex_t *preg, const char *regex, int cflags); int regexec(const regex_t *preg, const char *string, size_t nmatch, regmatch_t pmatch[], int eflags); size_t regerror(int errcode, const regex_t *preg, char *errbuf, size_t errbuf_size); void regfree(regex_t *preg); |
C言語のregcomp/regexec/regerror/regfree関数で正規表現の検索方法を紹介します.
regcomp関数は,正規表現をコンパイルしてregexec関数での検索処理に適合する状態にします.
regcomp関数の引数は,パターンを記憶するバッファへのポインタpreg,NULL文字で終端された文字列regex,コンパイルの形式を決めるためのフラグcflagです.
regexec関数は,プリコンパイルされたパターンバッファpregをNULL文字で終端された文字列にマッチさせます.
regexec関数の他の引数のnmatchとpmatchは,マッチングの位置に関する情報を取得するために利用し,eflagsは各種フラグを指定します.
regerror関数は,regcomp関数やregexec関数の実行によって得られるエラーコードからエラーメッセージ文字列を取得するのに利用します.
regerror関数の引数は,エラーコードerrcode,パターンバッファpreg,文字列バッファへのポインタerrbuf,文字列バッファのサイズerrbuf_sizeです.
regfree関数は,regcomp関数によるコンパイル時にパターンバッファに割り当てられたメモリpregを解放します.
regcomp/regexec/regerror/regfree関数で正規表現を検索するコードは以下になります.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 |
/* * Author: Hiroyuki Chishiro * License: 2-Clause BSD */ #include <stdio.h> #include <stdlib.h> #include <stdint.h> #include <stdbool.h> #include <regex.h> #define NR_ELEMENTS(a) (sizeof((a)) / sizeof((a)[0])) #define BUFSIZE 128 int main(int argc, char *argv[]) { regex_t regex; regmatch_t pmatch[1]; regoff_t off, len; FILE *fp; int ret; char *line = NULL; char buf[BUFSIZE]; size_t n = 0; size_t lineno = 0; if (argc != 3) { fprintf(stderr, "Usage: %s [file] [regex]\n", argv[0]); exit(1); } if ((fp = fopen(argv[2], "r")) == NULL) { fprintf(stderr, "Error: cannot open %s.\n", argv[1]); exit(2); } if ((ret = regcomp(®ex, argv[1], REG_NEWLINE))) { fprintf(stderr, "regcomp(): error id = %d\n", ret); exit(3); } while (getline(&line, &n, fp) != EOF) { printf("line = %s", line); lineno++; if ((ret = regexec(®ex, line, NR_ELEMENTS(pmatch), pmatch, 0)) != 0) { regerror(ret, ®ex, buf, BUFSIZE); fprintf(stderr, "Error: regcomp() failed with '%s'.\n", buf); continue; } printf("%ld:\"%s\" is found in [%d,%d).\n", lineno, argv[1], pmatch[0].rm_so, pmatch[0].rm_eo); off = pmatch[0].rm_so; len = pmatch[0].rm_eo - pmatch[0].rm_so; printf("offset = %jd; length = %jd\n", (intmax_t) off, (intmax_t) len); printf("substring = \"%.*s\"\n", len, line + pmatch[0].rm_so); } if (line) { free(line); } regfree(®ex); if (fclose(fp) == EOF) { fprintf(stderr, "Error: cannot close %s.\n", argv[2]); exit(4); } return 0; } |
入力に利用するin.txtはこちらからダウンロードして下さい.
中身は以下になります.
1 2 3 4 5 |
$ cat in.txt abcd bcccdddeee fwfwfwf eeedddcccddd |
実行結果は以下になります.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 |
$ gcc regex.c $ a.out "d*c" in.txt line = abcd 1:"d*c" is found in [2,3). offset = 2; length = 1 substring = "c" line = bcccdddeee 2:"d*c" is found in [1,2). offset = 1; length = 1 substring = "c" line = fwfwfwf Error: regcomp() failed with 'No match'. line = eeedddcccddd 4:"d*c" is found in [3,7). offset = 3; length = 4 substring = "dddc" |
参考:grep/sed/awkコマンドで正規表現の検索
grep/sed/awkコマンドで正規表現の検索方法を紹介します.
正規表現の検索をしたいけどC言語でプログラミングをするのが面倒なあなたにおすすめの方法です.
grepコマンド
1 |
grep [OPTIONS] PATTERN [FILE...] |
grepコマンドは,FILEで名前を指定されたファイルを検索し,与えられたPATTERNにマッチする部分を含む行を探します.
拡張正規表現を利用したい場合は,-Eオプションを付けます.
grepコマンドで行番号を表示する-nオプションを付けた場合の実行結果は以下になります.
行番号と行の内容を表示したい場合は,grepコマンドでも十分なことがわかります.
1 2 3 4 |
$ grep "d*c" in.txt -n 1:abcd 2:bcccdddeee 4:eeedddcccddd |
sedコマンド
1 |
sed [OPTION]... {script-only-if-no-other-script} [input-file]... |
sedコマンドは,テキストのフィルタリング,変換用のストリームエディタです.
sedコマンドは正規表現でマッチした文字列を置換したい場合に利用します.
grepコマンドと同様に,sedコマンドで拡張正規表現を利用したい場合は,-Eオプションを付けます.
sedコマンドでin.txtファイルの中身を入力として小文字を大文字に変換するコードは以下になります.
1 2 3 4 5 |
$ cat in.txt | sed 's/\(.*\)/\U\1/' ABCD BCCCDDDEEE FWFWFWF EEEDDDCCCDDD |
awkコマンド
1 |
awk [ POSIX or GNU style options ] -f program-file [ -- ] file ... |
awkコマンドは,テキストファイルの処理向けコマンドかつプログラミング言語です.
awkコマンドはデフォルトで拡張正規表現を利用できます.(-Eオプションでは実行ファイルを指定します.)
sedコマンドと同様に,awkコマンドは正規表現でマッチした文字列を置換することに適しています.
awkコマンドでin.txtファイルの中身を入力として小文字を大文字に変換するコードは以下になります.
toupper関数を呼べば簡単に変換できます.
1 2 3 4 5 |
$ cat in.txt | awk '/[a-z]/ {print toupper($0)}' ABCD BCCCDDDEEE FWFWFWF EEEDDDCCCDDD |
また,正規表現を使わなくても以下のように実行できます.awkコマンドは便利です!
1 2 3 4 5 |
$ cat in.txt | awk '{print toupper($0)}' ABCD BCCCDDDEEE FWFWFWF EEEDDDCCCDDD |
まとめ
C言語のregcomp/regexec/regerror/regfree関数で正規表現の検索方法を紹介しました.
また,grep/sed/awkコマンドで正規表現を利用した文字列の検索処理や小文字から大文字の変換処理を解説しました.
正規表現はC言語でも実装できますが,grep/sed/awkコマンドを利用した方がお手軽だと思いますので,適切な方法を選びましょう!
C言語で正規表現を利用しない文字列の検索方法を知りたいあなたはこちらからどうぞ.
C言語を独学で習得することは難しいです.
私にC言語の無料相談をしたいあなたは,公式LINE「ChishiroのC言語」の友だち追加をお願い致します.
私のキャパシティもあり,一定数に達したら終了しますので,今すぐ追加しましょう!
独学が難しいあなたは,元東大教員がおすすめするC言語を学べるオンラインプログラミングスクール5社で自分に合うスクールを見つけましょう.後悔はさせません!