C LANGUAGE TECHNOLOGY

【C言語】regcomp/regexec/regerror/regfree関数で正規表現の検索【grep/sed/awkコマンドでも紹介】

2021年9月26日

悩んでいる人
悩んでいる人

C言語で正規表現の検索方法を教えて!

こういった悩みにお答えします.

本記事の信頼性

  • リアルタイムシステムの研究歴12年.
  • 東大教員の時に,英語でOS(Linuxカーネル)の授業.
  • 2012年9月~2013年8月にアメリカのノースカロライナ大学チャペルヒル校(UNC)コンピュータサイエンス学部で客員研究員として勤務.C言語でリアルタイムLinuxの研究開発.
  • プログラミング歴15年以上,習得している言語: C/C++PythonSolidity/Vyper,Java,Ruby,Go,Rust,D,HTML/CSS/JS/PHP,MATLAB,Verse(UEFN), Assembler (x64,aarch64).
  • 東大教員の時に,C++言語で開発した「LLVMコンパイラの拡張」,C言語で開発した独自のリアルタイムOS「Mcube Kernel」GitHubにオープンソースとして公開
  • 2020年1月~現在はアメリカのノースカロライナ州チャペルヒルにあるGuarantee Happiness LLCのCTOとしてECサイト開発やWeb/SNSマーケティングの業務.2022年6月~現在はアメリカのノースカロライナ州チャペルヒルにあるJapanese Tar Heel, Inc.のCEO兼CTO.
  • 最近は自然言語処理AIイーサリアムに関する有益な情報発信に従事.
    • (AI全般を含む)自然言語処理AIの論文の日本語訳や,AIチャットボット(ChatGPT,Auto-GPT,Gemini(旧Bard)など)の記事を50本以上執筆.アメリカのサンフランシスコ(広義のシリコンバレー)の会社でプロンプトエンジニア・マネージャー・Quality Assurance(QA)の業務委託の経験あり.
    • (スマートコントラクトのプログラミングを含む)イーサリアムや仮想通貨全般の記事を200本以上執筆.イギリスのロンドンの会社で仮想通貨の英語の記事を日本語に翻訳する業務委託の経験あり.

こういった私から学べます.

C言語を独学で習得することは難しいです.

私にC言語の無料相談をしたいあなたは,公式LINE「ChishiroのC言語」の友だち追加をお願い致します.

私のキャパシティもあり,一定数に達したら終了しますので,今すぐ追加しましょう!

友だち追加

独学が難しいあなたは,元東大教員がおすすめするC言語を学べるオンラインプログラミングスクール5社で自分に合うスクールを見つけましょう.後悔はさせません!

正規表現

正規表現とは,文字列の集合を一つの文字列で表現する方法です.

正規表現を利用すると,文字列の検索や比較を柔軟に行うことができます.

POSIXの正規表現には,以下の3種類があります.

  • 単純正規表現:Simple Regular Expressions(SRE)
  • 基本正規表現:Basic Regular Expressions(BRE)
  • 拡張正規表現:Extended Regular Expressions(ERE)

正規表現は結構難しいので,初めての方は以下の入門サイトで学ぶことをおすすめします.

C言語のregcomp/regexec/regerror/regfree関数で正規表現の検索

C言語のregcomp/regexec/regerror/regfree関数で正規表現の検索方法を紹介します.

regcomp関数は,正規表現をコンパイルしてregexec関数での検索処理に適合する状態にします.

regcomp関数の引数は,パターンを記憶するバッファへのポインタpreg,NULL文字で終端された文字列regex,コンパイルの形式を決めるためのフラグcflagです.

regexec関数は,プリコンパイルされたパターンバッファpregをNULL文字で終端された文字列にマッチさせます.

regexec関数の他の引数のnmatchとpmatchは,マッチングの位置に関する情報を取得するために利用し,eflagsは各種フラグを指定します.

regerror関数は,regcomp関数やregexec関数の実行によって得られるエラーコードからエラーメッセージ文字列を取得するのに利用します.

regerror関数の引数は,エラーコードerrcode,パターンバッファpreg,文字列バッファへのポインタerrbuf,文字列バッファのサイズerrbuf_sizeです.

regfree関数は,regcomp関数によるコンパイル時にパターンバッファに割り当てられたメモリpregを解放します.

regcomp/regexec/regerror/regfree関数で正規表現を検索するコードは以下になります.

入力に利用するin.txtはこちらからダウンロードして下さい.

中身は以下になります.

実行結果は以下になります.

参考:grep/sed/awkコマンドで正規表現の検索

grep/sed/awkコマンドで正規表現の検索方法を紹介します.

正規表現の検索をしたいけどC言語でプログラミングをするのが面倒なあなたにおすすめの方法です.

grepコマンド

grepコマンドは,FILEで名前を指定されたファイルを検索し,与えられたPATTERNにマッチする部分を含む行を探します.

拡張正規表現を利用したい場合は,-Eオプションを付けます.

grepコマンドで行番号を表示する-nオプションを付けた場合の実行結果は以下になります.

行番号と行の内容を表示したい場合は,grepコマンドでも十分なことがわかります.

sedコマンド

sedコマンドは,テキストのフィルタリング,変換用のストリームエディタです.

sedコマンドは正規表現でマッチした文字列を置換したい場合に利用します.

grepコマンドと同様に,sedコマンドで拡張正規表現を利用したい場合は,-Eオプションを付けます.

sedコマンドでin.txtファイルの中身を入力として小文字を大文字に変換するコードは以下になります.

awkコマンド

awkコマンドは,テキストファイルの処理向けコマンドかつプログラミング言語です.

awkコマンドはデフォルトで拡張正規表現を利用できます.(-Eオプションでは実行ファイルを指定します.)

sedコマンドと同様に,awkコマンドは正規表現でマッチした文字列を置換することに適しています.

awkコマンドでin.txtファイルの中身を入力として小文字を大文字に変換するコードは以下になります.

toupper関数を呼べば簡単に変換できます.

また,正規表現を使わなくても以下のように実行できます.awkコマンドは便利です!

まとめ

C言語のregcomp/regexec/regerror/regfree関数で正規表現の検索方法を紹介しました.

また,grep/sed/awkコマンドで正規表現を利用した文字列の検索処理や小文字から大文字の変換処理を解説しました.

正規表現はC言語でも実装できますが,grep/sed/awkコマンドを利用した方がお手軽だと思いますので,適切な方法を選びましょう!

C言語で正規表現を利用しない文字列の検索方法を知りたいあなたはこちらからどうぞ.

C言語を独学で習得することは難しいです.

私にC言語の無料相談をしたいあなたは,公式LINE「ChishiroのC言語」の友だち追加をお願い致します.

私のキャパシティもあり,一定数に達したら終了しますので,今すぐ追加しましょう!

友だち追加

独学が難しいあなたは,元東大教員がおすすめするC言語を学べるオンラインプログラミングスクール5社で自分に合うスクールを見つけましょう.後悔はさせません!

-C LANGUAGE, TECHNOLOGY
-, , , , , , , , , , , , , ,