動いてたコードが動かない...?!でも僕何もしてないもん!!!

昔書いたスクレイピングのためのプログラムが突然動作しなくなりました．
確認すると，webページをダウンロードする箇所でexceptionをもらっている様子．具体的には，403エラーをサーバーから返されたようです．

このページでは，一部のwebサイトはChromeなどを使用するとアクセスできるが，自前のプラグラムでそのwebページのhtmlをダウンロードしようとすると，403でダウンロードできないことが述べられています．

本投稿では，そのようなページをなんとかダウンロードできるように頑張った結果を報告します．とりあえず，ここで達成されていなかった，https://www.nike.com/jp/のページをダウンロードすることを目標にします．

また筆者はネットワーク雑魚勢なので，問題があればご指摘お願いします．

403されたコード

以下のコードでは，DownloadStringの引数にhttps://www.google.co.jp/を指定すると問題なく実行できます．
一方https://www.nike.com/jp/を指定すると，403をもらいます．

base.cs

using(varwc=newSystem.Net.WebClient()){varhtml=wc.DownloadString(@"https://www.google.co.jp/");// OK!!!//var html = wc.DownloadString( @"https://www.nike.com/jp/" ); // NG...Console.WriteLine(html);}

解決策

HTTPのヘッダに，何かしら指定しました．

modified.cs

using(varwc=newSystem.Net.WebClient()){wc.Headers.Add("accept","text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3");varhtml=wc.DownloadString($@"https://www.nike.com/jp/");//OK!!!Console.WriteLine(html);}

このソースコードでは，keyがaccept，valueがtext/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3という謎のヘッダをリクエストに取り付けました．

このヘッダの正体は，Chromeでhttps://www.nike.com/jp/にアクセスするときに使用されていたヘッダの一部を借用したものです．どのようなヘッダが使用されていたかは，Chromeのデベロッパーツールを使用すると確認できます．すなわち，Chromeでアクセスできるんだからその状況を再現してやろう，というコンセプト．

スクショからはいろいろなヘッダが取り付けられていたことが確認できますが，https://www.nike.com/jp/のページをダウンロードするだけなら，acceptヘッダだけつけておけば問題ないようです．他のwebページでは必要なヘッダは異なるはずです．どのヘッダを取り付けると403を回避できるかは，片っ端からヘッダを付けたり外したりするとわかります．パワープレイ．

結論

適当なヘッダを取り付けておけば，とりあえずwebページは落ちてきます．
リクエストを送るwebサーバーごとに，リクエストに取り付けておくべきヘッダはもちろん異なるはずです．うまく対処しましょう．
リクエストにヘッダを取り付けない状態ではサーバーが403を返す理由を考えると，機械的にアクセスするのは避けるべきなのかなあとも思ったりはします．

C#，WebClientのDownloadStringで403されるときの対処

動いてたコードが動かない...?!でも僕何もしてないもん!!!

403されたコード

解決策

結論

Trending Articles

和歌山市でマンションの部屋全焼

更新プログラムがインストールされません

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

宇宙運命数「７」　ヘルクレス座

カラオケ鉄板ネタになるの間違いなし「大塚愛から福原愛」って何！？

2016年1月22日号　山口銀行（1月4日付）

人気占い師・Sakkoが占う！今日のアナタの運勢と、ラッキーカラーは・・・

サキュバス戦記　攻略

この記事は表示できません

【ネタバレ感想】「7人目のスタンド使い」その18

上海問屋、7色に切り替えられるアイソレーションキーボード

【変更対戦カードのお知らせ】7.23『アマチュア全日本選手権大会』

Microsoft、最も議論を呼んだWindows 11のタスクバーの問題を修正中

野口興業（弘道会/山口組）

エンタープライズモードの設定方法について

【ディズニーランドパリ】日本にないオススメアトラクション13選【ウォルトディズニースタジオ】

サマータイムレンダ01

Article 2

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

株式会社アルテカ　代表　野村紘一