5. 正規表現

[ ? ]

5.1 文字クラス

大カッコの表現とは，‘[’と‘]’で囲まれている文字のリストです．それは，そのリストにある，あらゆる単一文字にマッチします．リストの最初の文字がキャレット‘^’の場合，リストにないあらゆる文字にマッチします．例えば，正規表現‘[0123456789]’は，あらゆる数字にマッチします．

大カッコ表現内部では，範囲表現はハイフンで分離されている２つの文字から成り立ちます．それは，ロケールの照合順で，そのロケールの文字集合を用いて，２つの文字の間をソートしたもの(その文字自身も含まれる)にある，あらゆる単一文字にマッチします．例えば，デフォルトのCロケールでは， ‘[a-d]’は‘[abcd]’と同じです．ロケールの多くは辞書の順番でソートされていて，それらのロケールでは‘[a-d]’は，一般的に‘[abcd]’ と同じではありません．例えば，‘[aBbCcDd]’と同じかもしれません．伝統的な大カッコの解釈を得るために，LC_ALL環境変数を値‘C’に設定することで，Cロケールを使用することが可能です．

終りに，命名された特定の文字のクラスは，以下のように大カッコで前もって定義されています．その解釈はLC_CTYPEロケールに依存します．以下の解釈はCロケールのもので，LC_CTYPEロケールが指定されていない場合にデフォルトになるものです．

‘[:alnum:]’: 英数文字： ‘[:alpha:]’と‘[:digit:]’．
‘[:alpha:]’: アルファベット文字： ‘[:lower:]’と‘[:upper:]’．
‘[:blank:]’: 空白文字：スペースとタブ．
‘[:cntrl:]’: コントロール文字．ASCIIでは，これらの文字は8進数コードで，000から 037までと177 (DEL)です．その他の文字セットでは，それが何であれ，文字と同じです．
‘[:digit:]’: 数字： 0 1 2 3 4 5 6 7 8 9．
‘[:graph:]’: グラフィック文字： ‘[:alnum:]’と‘[:punct:]’．
‘[:lower:]’: 小文字：a b c d e f g h i j k l m n o p q r s t u v w x y z．
‘[:print:]’: 印刷可能な文字： ‘[:alnum:]’，‘[:punct:]’，そしてスペース．
‘[:punct:]’: 句読点文字：! " # $ % & ' ( ) * + , - . / : ; < = > ? @ [ \ ] ^ _ ` { | } ~．
‘[:space:]’: スペース文字：タブ，改行，垂直タブ，フォームフィード，キャリッジリターン，そしてスペース．
‘[:upper:]’: 大文字： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z.
‘[:xdigit:]’: 16進数： 0 1 2 3 4 5 6 7 8 9 A B C D E F a b c d e f.

例えば，‘[[:alnum:]]’は‘[0-9A-Za-z]’を意味しますが，後者の書式は，CロケールとASCII文字の符号化に依存し，前者はロケールと文字集合に依存しません．(これらのクラス名のカッコはジンボル名の一部で，追加時には，カッコのリストを範囲を定めるカッコを含める必要があることに注意してください)

ほとんどのメタ文字は，リスト内で特殊な意味を失います．

‘]’: 最初のリスト項目ではない場合，リストを終了します．そのため，‘]’をリスト項目にしたい場合，それを最初に書く必要があります．
‘[.’: 開いている照合するシンボルを表現します．
‘.]’: 閉じている照合するシンボルを表現します．
‘[=’: 開いている等価クラスを表現します．
‘=]’: 閉じている等価クラスを表現します．
‘[:’: 有効な文字クラス名が続いている，開いている文字クラスを表現します．
‘:]’: 有効な文字クラス名が続いている，閉じている字クラスを表現します．
‘-’: リストの最初または最後ではなく，範囲の最終の点ではない場合，範囲を表現します．
‘^’: リストに無い文字を表現します．‘^’をリストの項目にしたい場合，最初以外のどこかに書いてください．

[ < ]

[ > ]

[ << ]

[上]

[ >> ]

[ ? ]

5.2 バックスラッシュ文字

特定の文字が続くとき，‘\’は特殊ないもを持ちます．

‘‘\b’’: 単語の端にある空の文字列にマッチします．
‘‘\B’’: 単語の端ではない空の文字列にマッチします．
‘‘\<’’: 単語の最初の空の文字列にマッチします．
‘‘\>’’: 単語の終りの空の文字列にマッチします．
‘‘\w’’: 単語の構成要素にマッチし，それは‘[[:alnum:]]’の同義語です．
‘‘\W’’: 単語の構成要素ではないものにマッチし，それは‘[^[:alnum:]]’の同義語です．

例えば，‘\brat\b’は，分離されている単語‘rat’にマッチし， ‘c\Brat\Be’は‘crate’にマッチしますが，‘dirty \Brat’は ‘dirty rat’にマッチしません．

[ < ]

[ > ]

[ << ]

[上]

[ >> ]

[ ? ]

5.3 アンカー

キャレット‘^’とドル記号‘$’は，それぞれ行の最初と最後の空の文字列にマッチします．

[ < ]

[ > ]

[ << ]

[上]

[ >> ]

[ ? ]

5.4 後方参照

後方参照‘\n’(ここでのnは単一の10進数です)は，n番目のカッコで囲まれた正規表現のサブ表現としてこれまでにマッチしていたサブ文字列にマッチします．例えば，‘(a)\1’は‘aa’にマッチします．グループがマッチに関与していない状態で交換を使用するとき，後方参照は全体のマッチで失敗します．例えば，‘a(.)|b\1’は‘ba’にマッチしません．複数の正規表現が‘-e’やファイルから‘-f file’で与えられているとき，後方参照はそれぞれの表現に対しローカルなものになります．

[ < ]

[ > ]

[ << ]

[上]

[ >> ]

[ ? ]

5.5 基本 vs 拡張

基本的な正規表現では，メタ文字‘?’，‘+’，‘{’，‘|’， ‘(’，そして‘)’は，その特別な意味を失います．その代わりにバックスラッシュバージョンの‘\?’，‘\+’，‘\{’，‘\|’， ‘$’，そして‘$’ を使用してください．

伝統的なegrepは，‘{’のメタ文字をサポートしておらず，その代わりに‘\{’のサポートを実装しているものもあるので，移植性の高いスクリプトでは，‘egrep’のパターンで‘{’の使用を避け，リテラルの ‘{’にマッチさせるために‘[{]’を使用すべきです．

GNU egrepでは，‘{’がインターバルの指定を開始するものとして無効な場合，‘{’は特殊なものではないと仮定して伝統的な使用方法のサポートを試みます．例えば，シェルコマンド‘egrep '{1'’は，正規表現の構文エラーを報告する代わりに，‘{1’の２文字を検索します． POSIX.2では，この動作を拡張として許可していますが，移植性の高いスクリプトではそれを避けるべきです．

[ << ]

[ >> ]