C LANGUAGE TECHNOLOGY

【C言語】regcomp/regexec/regerror/regfree関数で正規表現の検索【grep/sed/awkコマンドでも紹介】

悩んでいる人

C言語で正規表現の検索方法を教えて!

こういった悩みにお答えします.

本記事の信頼性

  • リアルタイムシステムの研究歴12年.
  • 東大教員の時に,英語でOSの授業.
  • 2012年9月~2013年8月にアメリカのノースカロライナ大学チャペルヒル校コンピュータサイエンス学部2021年の世界大学学術ランキングで20位)で客員研究員として勤務.C言語でリアルタイムLinuxの研究開発
  • プログラミング歴15年以上,習得している言語: C/C++Solidity,Java,Python,Ruby,HTML/CSS/JS/PHP,MATLAB,Assembler (x64,ARM).
  • 東大教員の時に,C++言語で開発した「LLVMコンパイラの拡張」,C言語で開発した独自のリアルタイムOS「Mcube Kernel」GitHubにオープンソースとして公開

こういった私から学べます.

正規表現

正規表現とは,文字列の集合を一つの文字列で表現する方法です.

正規表現を利用すると,文字列の検索や比較を柔軟に行うことができます.

POSIXの正規表現には,以下の3種類があります.

  • 単純正規表現:Simple Regular Expressions(SRE)
  • 基本正規表現:Basic Regular Expressions(BRE)
  • 拡張正規表現:Extended Regular Expressions(ERE)

正規表現は結構難しいので,初めての方は以下の入門サイトで学ぶことをおすすめします.

C言語のregcomp/regexec/regerror/regfree関数で正規表現の検索

C言語のregcomp/regexec/regerror/regfree関数で正規表現の検索方法を紹介します.

regcomp関数は,正規表現をコンパイルしてregexec関数での検索処理に適合する状態にします.

regcomp関数の引数は,パターンを記憶するバッファへのポインタpreg,NULL文字で終端された文字列regex,コンパイルの形式を決めるためのフラグcflagです.

regexec関数は,プリコンパイルされたパターンバッファpregをNULL文字で終端された文字列にマッチさせます.

regexec関数の他の引数のnmatchとpmatchは,マッチングの位置に関する情報を取得するために利用し,eflagsは各種フラグを指定します.

regerror関数は,regcomp関数やregexec関数の実行によって得られるエラーコードからエラーメッセージ文字列を取得するのに利用します.

regerror関数の引数は,エラーコードerrcode,パターンバッファpreg,文字列バッファへのポインタerrbuf,文字列バッファのサイズerrbuf_sizeです.

regfree関数は,regcomp関数によるコンパイル時にパターンバッファに割り当てられたメモリpregを解放します.

regcomp/regexec/regerror/regfree関数で正規表現を検索するコードは以下になります.

入力に利用するin.txtはこちらからダウンロードして下さい.

中身は以下になります.

実行結果は以下になります.

参考:grep/sed/awkコマンドで正規表現の検索

grep/sed/awkコマンドで正規表現の検索方法を紹介します.

正規表現の検索をしたいけどC言語でプログラミングをするのが面倒なあなたにおすすめの方法です.

grepコマンド

grepコマンドは,FILEで名前を指定されたファイルを検索し,与えられたPATTERNにマッチする部分を含む行を探します.

拡張正規表現を利用したい場合は,-Eオプションを付けます.

grepコマンドで行番号を表示する-nオプションを付けた場合の実行結果は以下になります.

行番号と行の内容を表示したい場合は,grepコマンドでも十分なことがわかります.

sedコマンド

sedコマンドは,テキストのフィルタリング,変換用のストリームエディタです.

sedコマンドは正規表現でマッチした文字列を置換したい場合に利用します.

grepコマンドと同様に,sedコマンドで拡張正規表現を利用したい場合は,-Eオプションを付けます.

sedコマンドでin.txtファイルの中身を入力として小文字を大文字に変換するコードは以下になります.

awkコマンド

awkコマンドは,テキストファイルの処理向けコマンドかつプログラミング言語です.

awkコマンドはデフォルトで拡張正規表現を利用できます.(-Eオプションでは実行ファイルを指定します.)

sedコマンドと同様に,awkコマンドは正規表現でマッチした文字列を置換することに適しています.

awkコマンドでin.txtファイルの中身を入力として小文字を大文字に変換するコードは以下になります.

toupper関数を呼べば簡単に変換できます.

また,正規表現を使わなくても以下のように実行できます.awkコマンドは便利です!

まとめ

C言語のregcomp/regexec/regerror/regfree関数で正規表現の検索方法を紹介しました.

また,grep/sed/awkコマンドで正規表現を利用した文字列の検索処理や小文字から大文字の変換処理を解説しました.

正規表現はC言語でも実装できますが,grep/sed/awkコマンドを利用した方がお手軽だと思いますので,適切な方法を選びましょう!

C言語で正規表現を利用しない文字列の検索方法を知りたいあなたはこちらからどうぞ.

C言語 文字列の検索
【C言語】文字列をstrstr関数で検索【ナイーブ法,KMP法,BM法】

こういった悩みにお答えします. こういった私から学べます. 目次1 C言語で文字列の検索2 strchr/strrchr関数で文字の検索2.1 strchr/strrchr関数の使い方2.2 strc ...

続きを見る

C言語を独学で習得することは難しいです.

私にC言語の無料相談をしたいあなたは,公式LINE「ChishiroのC言語」の友だち追加をお願い致します.

友だち追加

独学が難しいあなたは,C言語を学べるおすすめのオンラインプログラミングスクール5社で自分に合うスクールを見つけましょう.後悔はさせません!

-C LANGUAGE, TECHNOLOGY
-, , , , , , , , , , , , , ,