正規表現の(?=subexpression)って何？

はじめに Microsoft Docsを見ると、正規表現の(?=subexpression)は、ゼロ幅の肯定先読みアサーションです、って書いてあります。でもこれだとなんのことがさっぱりわからないです。どんな時に「ゼロ幅の肯定先読みアサーション」を使うのか、具体的な例で説明を試みてみます。ただ、なかなか正規表現のサンプルで利用する適切な文章を思い浮かべることができません。なので僕の大好きな筒井康隆先生の以下の文章から単語を抜き出すことを考えてみましょう。ドンドンはドンドコの父なり。ドンドンの子ドンドコ、ドンドコドンを生み、ドンドコドン、ドコドンドンとドンタカタを生む。ドンタカタ、ドカタンタンを生めり。『バブリング創世記』（筒井康隆著）の冒頭部分を抜粋（改行せずに1文字列にしている）しています。カタカナの単語を取り出すまずはゼロ幅の肯定先読みアサーションを必要としない簡単な例をみてみましょう。上記文字列からカタカナの単語（名前）を取り出します。 using System; using System.Linq; using System.Text.RegularExpressions; // 『バブリング創世記』（筒井康隆著）の冒頭部分を抜粋（改行せずに1文字列にしている） var text = @"ドンドンはドンドコの父なり。ドンドンの子ドンドコ、ドンドコドンを生み、ドンドコドン、ドコドンドンとドンタカタを生む。ドンタカタ、ドカタンタンを生めり。"; var pattern = @"\p{IsKatakana}+"; var matches = Regex.Matches(text, pattern); Console.WriteLine(String.Join(",", matches.Cast<Match>().Select(x => x.Value))); 以下のような結果が得られます。ドンドン,ドンドコ,ドンドン,ドンドコ,ドンドコドン,ドンドコドン,ドコドンドン,ドンタカタ,ドンタカタ,ドカタンタン正規表現のデフォルトは最長一致なので、@"\p{IsKatakana}+" だけで、うまくカタカナの単語を取り出せています。「、」の前にあるカタカナの単語を取り出したいでは、「、」の前にあるカタカナの単語を取り出したいとします。以下のようなコードを書いてみました。 var pattern = @"\p{IsKatakana}+、"; var matches = Regex.Matches(text, pattern); Console.WriteLine(String.Join(",", matches.Cast<Match>().Select(x => x.Value))); まずは、求めたい結果は以下の通りです。ドンドコ,ドンドコドン,ドンタカタ結果です。ドンドコ、,ドンドコドン、,ドンタカタ、当然ですがダメですね。「、」も拾ってきてしまいます。グループ化で解決するこれを解決する一つの方法が、丸括弧()を使ったグループ化です。 var pattern = @"(\p{IsKatakana}+)、"; var matches = Regex.Matches(text, pattern); Console.WriteLine(String.Join(",", matches.Cast<Match>().Select(x => x.Groups[1].Value))); 結果を取り出す際もGropusプロパティを使うように変更しています。実行すると下記のように正しく取り出せました。ドンドコ,ドンドコドン,ドンタカタ、ゼロ幅の肯定先読みアサーションを使って解決するやっと本題です。 expression(?=subexpression) という書式のゼロ幅の肯定先読みアサーションを使っても解決可能です。こちらの方がスマートかもしれません。Valueプロパティがそのまま使えます。 var pattern = @"\p{IsKatakana}+(?=、)"; var matches = Regex.Matches(text, pattern); Console.WriteLine(String.Join(",", matches.Cast<Match>().Select(x => x.Value))); (?=、) の部分が、「ゼロ幅の肯定先読みアサーション」を使った箇所です。難しい用語ですが、要は「マッチの条件には含めるけれど、マッチの範囲はexpressionだけで、その後に続くsubexpressionはマッチの範囲には含めないよ」ということです。上記例では、"ドンドコ、"とは一致するけど、"、"はマッチした文字列には含めないよ、ということです。そのため、Valueプロパティには"ドンドコ"だけが入ることになります。ゼロ幅の正の後読みアサーションの例では、もうひとつ例をだしましょう。今度は、「と」の前後にあるカタカナの単語を抜き出したいとします。以下ように3つの単語がつながっている場合も考慮することにしましょう。パダンパダン、パラパラとパンパンとパンパカパンを生み、これも、『バブリング創世記』（筒井康隆著）からの引用です。これを実現するには、ゼロ幅の正の後読みアサーション (?<=subexpression)expression も利用します。こちらは、「マッチの条件には含めるけれど、マッチの範囲はsubexpressionの後に続くexpressionだけで、subexpressionはマッチの範囲には含めないよ」という意味になります。ではコードを示します。 var text = @"ドンドンはドンドコの父なり。ドンドンの子ドンドコ、ドンドコドンを生み、ドンドコドン、ドコドンドンとドンタカタを生む。ドンタカタ、ドカタンタンを生めり。" + "パダンパダン、パラパラとパンパンとパンパカパンを生み、"; var pattern = @"\p{IsKatakana}+(?=と)|(?<=と)\p{IsKatakana}+"; var matches = Regex.Matches(text, pattern); Console.WriteLine(String.Join(",", matches.Cast<Match>().Select(x => x.Value))); カタカナ語の前に「と」がくるパターンと、「と」の後にカタカナ語がくるパターンを取り出しています。結果は、以下のようになります。ドコドンドン,ドンタカタ,パラパラ,パンパン,パンパカパンうまく行っているようです。さいごにもし「ゼロ幅の肯定先読みアサーションの例ならば、もっと良いのがあるよ」という方はコメントしていただけると嬉しいです。あるいは上記問題を解くのに「こんな解法もあるよ」と別解を知っている方がいれが、コメントでお教えいただけるとありがたいです。

正規表現の(?=subexpression)って何？

Trending Articles

和歌山市でマンションの部屋全焼

更新プログラムがインストールされません

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

宇宙運命数「８」　はくちょう座

カラオケ鉄板ネタになるの間違いなし「大塚愛から福原愛」って何！？

2016年1月22日号　山口銀行（1月4日付）

人気占い師・Sakkoが占う！今日のアナタの運勢と、ラッキーカラーは・・・

サキュバス戦記　攻略

この記事は表示できません

【ネタバレ感想】「7人目のスタンド使い」その18

上海問屋、7色に切り替えられるアイソレーションキーボード

【変更対戦カードのお知らせ】7.23『アマチュア全日本選手権大会』

Microsoft、最も議論を呼んだWindows 11のタスクバーの問題を修正中

野口興業（弘道会/山口組）

エンタープライズモードの設定方法について

【ディズニーランドパリ】日本にないオススメアトラクション13選【ウォルトディズニースタジオ】

サマータイムレンダ01

Article 2

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

株式会社アルテカ　代表　野村紘一