【C#】【outlook】【URL検出】outlookのセーフリンクを力技(正規表現)で元のリンクに修正する

正規表現とかStringの関数をゴリゴリに使ってやってみる意外と手こずったのでメモ程度に記載。詳細はできるだけ解説するつもり。正規表現とは String.Contain()関数で文字列を検索すると一つの文字列に対しての結果が出てくるけど、URLとかの可変性を持っているものに対してのString.Contain()とかString.Replace()をやりたいとかの時に使えるやつ。つまり、文字列が可変の時にも使える検索システムの拡張版的なやつ(本人の認識、間違ってたらごめん)。棒読みちゃんとかで使ってたりするあれ。なんで必要なの？今回使ったのはタイトル通り (忌々しい) セーフリンクを突破してHTMLを解析したかったから。 HTMLまで解析できなくてもセーフリンクを突破できればいいかなみたいな感じで進めた。方針今回の方針として、下の感じで進めた。ドメインとかの頭の方を削除する最後の方のなんかごちゃごちゃついてる部分を削除するエンコード方式がおかしかったのでUTF-8に修正する最初にセーフリンクの形はこんな感じになってるんで結局画像の赤で塗りつぶしてるところを出したいからいろいろやる。先に全文ソースほとんどの人がソース目当てだろうから先にどうぞ。 (エンコードとかはもう先にやっちゃってるから後から書くわ) //using System.Text.RegularExpressions; string link = "ここに元のセーフリンクを入れる"; string safeLinkDomain = Regex.Match(link, @"http(s)?://nam[0-9]{2}\.safelink(s)?\.protection\.outlook\.com/\?url\=").Value; string accessUrl; if (safeLinkDomain.Length > 0) { accessUrl = link.Replace(safeLinkDomain, string.Empty); int indexOf = accessUrl.IndexOf("&data="); string replaceOf = accessUrl.Substring(lastIndexOf, accessUrl.Length - lastIndexOf); accessUrl = accessUrl.Replace(replaceOf, string.Empty); } else accessUrl = link; //この下にURLのアクセスを書くなり... //new HttpClient()とかnew WebClient()とかのURL指定部分にaccessUrlを指定すれば動くはず解説やってることとしては先の方針と同じ。頭を消して最後を消して終わり。んじゃ順番に解説していきます(わからんかったら他の方々の正規表現の解説を見てくれ)。 ⑴ ドメインとかの頭の方を消す消すというか検出するのが先っぽいね。 string safeLinkDomain = Regex.Match(link, @"http(s)?://nam[0-9]{2}\.safelink(s)?\.protection\.outlook\.com/\?url\").Value; if (safeLinkDomain.Length > 0) System.Text.RegularExpressions.Regex.Match()関数を使って頭の方を全体的に検出してる(目的のURLよりも前まで)。んで~Match().Valueで検出した結果を取得できるから取得する。 if構文を使って、検出できたかどうかを判別する。 accessUrl = link.Replace(safeLinkDomain, string.Empty); これで最初の部分を消す。 ⑵ 最後の方のなんかごちゃごちゃついてる部分を削除するこっちの方が正直時間かかった。 int indexOf = accessUrl.IndexOf("&data="); string replaceOf = accessUrl.Substring(lastIndexOf, accessUrl.Length - lastIndexOf); accessUrl = accessUrl.Replace(replaceOf, string.Empty); まず、String.IndexOf()関数で"&data="(元URLの直後に来るやつ)の場所を検出する。次に、String.SubString()関数で"&data="の後の文字列を全部取り出す。最後に、String.Replace()関数で入力されたURLから削除する。これで最後の方の長ったらしいアルファベットが消せる。基本的にはこの2工程で終わる。 3についてはちょっと後で。正規表現使ってる正規表現がどんな感じになってるかわからなかったら(私もわからん。間違ってたらごめん)。 http(s)?://nam[0-9]{2}\.safelink(s)?\.protection\.outlook\.com/\?url\ まず、(s)?についてる?は"s"の文字が入ってる場合もあるし入ってない場合もあるよっていうことを示してる感じだと思う。次に、[0-9]{2}は"0~9"の"2"桁の数字があるよっていうこと示してる。だから[3-9]{4}ってなったら"3~9"の"4"桁の数字が入るよっていうことになる。そして、\.とか\?とかは、.とか?とかが正規表現の処理に使われてて、単体で書いたら処理されちゃうから\の文字を入れて、「これは文字列として扱いますよ～」っていうことを示してる。まぁ、正直http(s)?なんて書かなくていいんだけど...まぁ...いつかhttpになるかもしれないし...ね...？ちなみに正規表現は上のごちゃごちゃしたフィルタリングの文字列を入れるだけで有効かをしらべてくれるサイトがあったりする。 https://regex101.com/ エンコード使わないかもしれないけど、URLの://が%3A%2F%2FとかいうURLエンコードになってた時にいつも使ってる形式に修正する方法を書いておく。 //using System.Web; //using System.Text; //System.Web.dllの参照設定が必要 Encoding encoding = Encoding.UTF8; //ここに元文字列のエンコード形式 accessUrl = HttpUtility.UrlDecode(accessUrl, encoding); //accessUrlは上のコードのやつの文字列のことかんたんに書くとこれ。 System.Web.HttpUtility.UrlDecode()関数がいい感じに出コードしてくれる。 HttpClient()関数とかでURLを設定したときにアクセスできませんよって言われたときに試してみてほしい。私はこれでうまくいった。 (おまけ)セーフリンク全体を検出する Regex.Match()関数を使ってこれも簡単に検出できる。 string safeLink = Regex.Match(link, @"http(s)?://nam[0-9]{2}\.safelink(s)?\.protection\.outlook\.com/\?url\=([\w\- ./?%&=~;]*)?").Value; 正規表現の最初の方については割愛。 ([\w\- ./?%&=~;]*)? ここは\wが『アルファベット、アンダーバー、数字』を検出、\-が-を検出、後の]の前までの記号たちは普通にそれぞれを検出する。 *は検出回数が決まってないことを示す(*がなかったら最初の一文字しかとってくれない)。 ?は検出がないかもしれないことを示す(もしかしたらいらないかも(わからん))。みたいな感じでできる(一応上のサイトで試してみて普通に作動することも検証済み&実際のアプリでも動いた)。感想使う人いるか分からんが情報提供程度に。正直、正規表現なんて全然使わないからわからんかったから疲れた。やった後は正規表現神って思った。 Containsで一つずつ調べなくていいんだもの。楽しかった。終わり。

【C#】【outlook】【URL検出】outlookのセーフリンクを力技(正規表現)で元のリンクに修正する

Trending Articles

和歌山市でマンションの部屋全焼

更新プログラムがインストールされません

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

宇宙運命数「７」　ヘルクレス座

カラオケ鉄板ネタになるの間違いなし「大塚愛から福原愛」って何！？

2016年1月22日号　山口銀行（1月4日付）

人気占い師・Sakkoが占う！今日のアナタの運勢と、ラッキーカラーは・・・

サキュバス戦記　攻略

この記事は表示できません

【ネタバレ感想】「7人目のスタンド使い」その18

上海問屋、7色に切り替えられるアイソレーションキーボード

【変更対戦カードのお知らせ】7.23『アマチュア全日本選手権大会』

Microsoft、最も議論を呼んだWindows 11のタスクバーの問題を修正中

野口興業（弘道会/山口組）

エンタープライズモードの設定方法について

【ディズニーランドパリ】日本にないオススメアトラクション13選【ウォルトディズニースタジオ】

サマータイムレンダ01

Article 2

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

株式会社アルテカ　代表　野村紘一