強化学習: AIでブロック崩しを学習させよう。Advantage Actor-Critic(A2C)で学ぶ応用編

Actor-Criticをゲームで学ぶ強化学習コースを体験してみよう。

強化学習: AIでブロック崩しを学習させよう。Advantage Actor-Critic(A2C)で学ぶ応用編
強化学習: AIでブロック崩しを学習させよう。Advantage Actor-Critic(A2C)で学ぶ応用編

強化学習: AIでブロック崩しを学習させよう。Advantage Actor-Critic(A2C)で学ぶ応用編 udemy course free download

Actor-Criticをゲームで学ぶ強化学習コースを体験してみよう。

強化学習アルゴリズム Advantage Actor-Critic(A2C)を使って、ブロック崩しゲームを経験ゼロの状態から自動で学習させていく方法を紹介します。Advantage Actor-Critic のネットワークモデルは、AlphaGo Zero でも使われているもので方策と価値と同時に学習できます。更に「同期処理」という方法からGPUを効率的に利用でき、数日かかっていた学習うが数時間でできるようになっています。ネットワークモデルの部分は、続編のAlphaGo Zeroのコースの基礎となりますので受講しておくようにしましょう。

また漫画Spot's storyで、A2Cの学習の流れを分かりやすく解説しています。わからなくなったときは数式やプログラムと一緒に見比べてみましょう。


モデルの学習時間:30分~数時間

保存データの読み込みから再生まで1分程度と、時間がかかりません。

Google Colab 上で実行しますので、様々なツールの用意は不要です。またお使いのパソコンの環境に依存しません。

PythonコードとPyTorchフレームワークの教材で実行できます。ChatGPTの強化学習でも利用されている考え方で、データサイエンス・AI学習中の方にもお薦めです。