ML-Agents入門１

はじめに ※この記事はRICORA Advent Calendar 12/24 の記事になります。本記事ではUnityの深層強化学習パッケージのML-Agentsの導入と簡単なモデルの実装を行います。パッケージなどのバージョンは以下の通りです。少なくともML-Agentsのバージョンは合わせてください。最新バージョンだと色々変わりすぎてて動きません。 Unity: 2021.2.0f1 ML-Agents: Release3 (1.1.0) Python: 3.7.10 以下Pythonライブラリ mlagents: 0.17.0 mlagents-env: 0.17.0 gym_unity: 0.17.0 さっそくML-Agentsのインストールから始めていきましょう！ ML-Agentsのインストール UnityとPythonのインストールは各自でお願いします。PythonはAnacondaを使って入れることをおススメします。 ML-AgentsのGithubからまずはパッケージ群をダウンロードしてきましょう。解凍したらUnityフォルダ内に配置しておくと扱いやすいと思います。名前もml-agentsに変更しておきましょう。次はUnity内でパッケージのインポートを行います。パッケージマネージャーを選択してml-agentsのcom.unity.ml-agentsフォルダにあるpackage.jsonをインポートします。 ML Agents 1.1.0-previewというものが追加されていればOKです。あとはPythonに必要なライブラリをインストールしましょう。 pip install mlagents=0.17.0 pip install mlagents-env=0.17.0 pip install gym_unity=0.17.0 これでML-Agentsの環境が整いました。次に簡単なデモを作ってML-Agentsによる作業の流れを体験してみましょう！ ML-Agentsプロジェクトの作成デモとしてボールがターゲットを追跡する簡単なモデルを作ってみましょう。プロジェクト名はBall Agentとしています。モデルの作成まずはモデル作りからです。床とエージェントとターゲットを作成します。 Hierarchyウィンドを右クリックしてPlaneを作成します。 Positionは(0,0,0)にしましょう。同様にCubeとSphereも追加しましょう。両方とも高さは0.5にしてます。実は初期位置はあまり関係ないので、適当な見やすい位置に置いておきましょう。 HierarchyウィンドからSpehreを右クリックしてRenameから名前の変更を行いましょう。Sphere⇒Agent、同様にCube⇒Targetと変更します。次に物体が少し見づらいのでマテリアルを適用して色を付けてみましょう。プロジェクトウィンドのてきとうな位置を右クリックしてCreateのMaterialを選択します。名前はGreenにします。マテリアルができたらInspectorウィンドのAlbedoを選択して緑っぽい色を選んでください。同様に黄色も作りましょう。色が作れたら物体に直接ドラッグ＆ドロップして色を適用します。これで物体の視認性が良くなりました。次は物体の中身を作っていきましょう。コンポネントを付与するモデルは配置しただけでは何も起きません。物理演算やML-Agentsを適用をするためには、コンポネントというものをモデルに追加する必要があります。まずAgentに必要なコンポネントを追加していきます。 Agentを選択してInspectorウィンドからAdd Componentを選択してください。検索からBehavior Parametersを探して追加します。追加されたら下の図で赤く囲った部分の項目を同じように変更してください。 Vector ObsevationのSpace Sizeは観測する値が何個あるかを表します。Vector ActionのSpace Typeは受け取る入力の種類です。Continuousは連続値を返します。Space Sizeは何個値を入力するかを表します同様にRigidBodyもAdd Componentから追加します。特に設定はしません。同様にAdd ComponentからNew scriptを選択してBallAgentという名前でスクリプトファイルを生成します。プロジェクトウィンドにBallAgentというスクリプトが追加されてるので。ダブルクリックして編集します。スクリプトを以下のように変更します。 BallAgent.cs using System.Collections; using System.Collections.Generic; using UnityEngine; using Unity.MLAgents; using Unity.MLAgents.Sensors; public class BallAgent : Agent { public Transform target; Rigidbody rigid; public override void Initialize() { this.rigid = GetComponent<Rigidbody>(); } public override void OnEpisodeBegin() { if (this.transform.position.y < 0) { this.rigid.angularVelocity = Vector3.zero; this.rigid.velocity = Vector3.zero; this.transform.position = new Vector3(0.0f, 0.5f, 0.0f); } target.position = new Vector3(Random.value*8-4, 0.5f, Random.value*8-4); } public override void CollectObservations(VectorSensor sensor) { sensor.AddObservation(target.position); sensor.AddObservation(this.transform.position); sensor.AddObservation(rigid.velocity.x); sensor.AddObservation(rigid.velocity.z); } public override void OnActionReceived(float[] vectorAction) { Vector3 controlSignal = Vector3.zero; controlSignal.x = vectorAction[0]; controlSignal.z = vectorAction[1]; rigid.AddForce(controlSignal * 10); float distanceToTarget = Vector3.Distance(this.transform.position, target.position); if (distanceToTarget < 1.42f) { AddReward(1.0f); EndEpisode(); } if (this.transform.position.y < 0) { EndEpisode(); } } } オーバーライドした関数について大まかな説明します。 Initialize トレーニングの最初に呼び出されます。ここではRigidbodyのインスタンスを取得しています。 OnEpisodeBegin エピソードの開始時に呼び出され。ここでは主にトレーニングの環境を準備します。今回はターゲットのランダムな位置変更とエージェントの回転、速度のリセットを行っています。 CollectObservations 観察を行うときに呼び出されます。ここではターゲットの座標(x,y,z)、エージェントの座標(x,y,z)、エージェントの速度(x,z)の合計8個の値を受け取っています。ここで受け取る値の数はBehavior Parametersで設定したSpace Sizeと同じにする必要があることに注意してください。 OnActionReceived 行動を指示するときに呼び出されます。ここでは受け取った値でエージェントに力(x,z)を与えています。またエージェントが終了条件を満たしていた時にエピソードを終了する処理を行っています。今回はエージェントがターゲットに一定距離近づくと報酬を受け取って終了、またはエージェントが床から落ちると報酬なしで終了となっています。これでスクリプトの準備ができました。スクリプト内のtargetの割り当てをUnityの方から行います。 AgentのInspectorウィンドを開いてBall AgentのスクリプトのTargetにHieracchyウィンドのTargetをドラッグ＆ドロップします。TargetがNoneからTargetに変更されたら成功です。同時にBall AgentのスクリプトのMax Stepを1000に設定してください。最後にDecision RequesterをAdd Componentから追加しましょう。Decision Periodは10に設定します。これは何フレーム毎に行動を行うかを設定するものです。数値を小さくすると行動を行う回数が増えます。これで環境の準備が終わりました。トレーニングを実行していきましょう！ ML-Agentsトレーニングの方法トレーニングを開始する前に必要なパラメーターを記述してyamlファイルを準備します。 BugAgent.yaml behaviors: Agent: trainer_type: ppo hyperparameters: batch_size: 10 buffer_size: 100 learning_rate: 0.0003 beta: 0.005 epsilon: 0.2 lambd: 0.95 num_epoch: 3 learning_rate_schedule: linear network_settings: normalize: true hidden_units: 128 num_leyers: 2 vis_encode_type: simple reward_signals: extrinsic: gamma: 0.99 strength: 1.0 keep_checkpoints: 5 checkpoint_interval: 50000 max_steps: 50000 time_horizon: 64 summary_freq: 1000 threaded: true ml-agent内のconfigフォルダーにBallAgentフォルダーを作って、そこにBallAgent.yamlを作りました。次にコマンドプロンプトを起動してml-agentフォルダーに移動して次のコマンドを実行します。 mlagents-learn ./config/BallAgent/BallAgent.yaml --run-id=firstRun 先ほど作成したyamlファイルの指定と保存するidを決めます。一度実行したあとでやり直そうとするとすでにフォルダーが生成されているためエラーになってしまいます。実行を途中からやり直したいときは先ほどのコマンドの後ろに--resumeを付けてください。 mlagents-learn ./config/BallAgent/BallAgent.yaml --run-id=firstRun --resume 実行後に次のように表示されれば成功です。後はUnityのプレイボタンを押すと学習が開始されます。実行後の様子です。爆速で球が動いていたらトレーニングができています。トレーニング中はターミナルにsummaryが表示されます。mean rewardが上がっていく様子が分かると思います。今回は比較的簡単なタスクなので、ステップ数を5万回に設定しましたが早い段階でmean rewardが1に収束しているのが分かると思います。トレーニングが終了したら結果を確認してみましょう。トレーニング後のフィードバックトレーニングが完了するとml-agentsフォルダーのresultsフォルダー内にidで指定した名前のフォルダーが生成されているのが分かると思います。今回はfirstRunという名前で保存されているはずです。 firstRunフォルダーを開いてAgent.nnというファイルをUnity内のProjectウィンド内にドラッグ&ドロップします。ニューラルネットのアイコンでAgentというファイルが出現します。 AgentのInspectorウィンドを開いてBehavior ParametersのModelのところにAgentをドラッグ&ドロップします。 ModelがNoneからAgentに変わったらPlayボタンを押して実行してみましょう。トレーニング中とは違い通常の速度で推論が行われます。トレーニングが成功していればボールが床から落ちずに出現したターゲットにを追いかける様子が見れると思います。次にトレーニング中の報酬の推移などを見てみましょう。ターミナルを起動してml-agentsに移動します。そこで次のコマンドを実行します。 tensorboard --logdir=./results/firstRun すると次のように表示されるので、赤線を引いた部分のURLをコピーしてウェブブラウザで開きます。すると次のようにTensorBoardが表示されます。Culmitive Rewardは報酬の推移、Episode Lengthはエピソードの長さを表しています。報酬が1に収束していることとエピソードの長さが短くなっていることが確認できると思います。このしたにLossやPolicyの情報も表示されます。興味があればそちらも見てみましょう。まとめ ML-Agentsの導入から簡単なモデルの作成とトレーニングのデモを行いました。次の記事では4足歩行のモデルを作成し、そのトレーニングを行ってみたいと思います。お楽しみに！！！

ML-Agents入門１

Trending Articles

和歌山市でマンションの部屋全焼

更新プログラムがインストールされません

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

宇宙運命数「７」　ヘルクレス座

カラオケ鉄板ネタになるの間違いなし「大塚愛から福原愛」って何！？

2016年1月22日号　山口銀行（1月4日付）

人気占い師・Sakkoが占う！今日のアナタの運勢と、ラッキーカラーは・・・

サキュバス戦記　攻略

この記事は表示できません

【ネタバレ感想】「7人目のスタンド使い」その18

上海問屋、7色に切り替えられるアイソレーションキーボード

【変更対戦カードのお知らせ】7.23『アマチュア全日本選手権大会』

Microsoft、最も議論を呼んだWindows 11のタスクバーの問題を修正中

野口興業（弘道会/山口組）

エンタープライズモードの設定方法について

【ディズニーランドパリ】日本にないオススメアトラクション13選【ウォルトディズニースタジオ】

サマータイムレンダ01

Article 2

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

株式会社アルテカ　代表　野村紘一