正規表現 【regular expression】 RE / RegExp / regex
通常の文字の並びの中に、「メタキャラクタ」(metacharacter)と呼ばれる特別な意味を与えられた記号などの組み合わせを埋め込む形でパターンの特徴を記述することができる。例えば、「^」というメタキャラクタは行頭を表し、「.」は任意の一文字、「+」は直前の要素の1回以上の繰り返しを意味する。
正規表現を使えば、同じ特徴を持つが細部が異なる文字列を一つの表記で同時に指定することができ、長い文章から特定のパターンに一致する箇所を抽出したり、それらを一括して同じ文字列に置換したりすることができる。例えば、「.et」という正規表現は「任意の一文字」+「et」というパターンを表し、「net」「get」「set」「let」などに一致する。
正規表現の源流となるクリーネ閉包などの概念は1950年代の初期の計算機科学などに求めることができるが、1970年代に初期のUNIXシステム向けに開発されたテキストエディタやコンパイラ、汎用の文字列検索コマンド(grep)などを通じてその有用性が広く知られるようになり、様々な分野やソフトウェア、プログラミング言語などに普及していった。
正規表現の仕様にはPOSIXにより定義された仕様書などは存在するが、広く受け入れられた標準規格などはない状態が続いている。言語やソフトウェアによって独自の拡張が繰り返されており、基本的な共通の記法はあるものの細部の仕様は異なっている。
(2018.11.5更新)
関連用語
他の辞典による解説 (外部サイト)
この記事を参照している文書など (外部サイト)
- 別府大学文学部司書課程「情報検索演習」(PDFファイル)にて引用 (2012年7月)