ポーカーゲームで次々とプロを負かす新しいAIが誕生、その実態を徹底解説！

RankRED

RankRed is a place where you can find a lot of interesting and inspiring stuff about science and technology, internet, programming tools and plugins, robots, machines and high tech gadgets, and much more.

本記事は、New Poker-Playing AI Can Destroy Many Online Companies-So Developers Are Not Releasing Itを
翻訳・再構成したものです。
配信元または著者の許可を得て配信しています。

3,490 views

読了時間 : 約2分25秒

・研究者達は、マルチプレーヤーゲームのエキスパートを打ち負かす、Pluribusと名付けられた初めてのAIを開発しました。

・最も人気のあるポーカーのフォーマットのため、具体的にデザインされましたが、他のマルチプレーヤーゲームで人を打ち負かすことができます。

・AIは、サイバーセキュリティーや詐欺防止、価格設定製品、および自動運転車のルーティングなどを含む、他の分野でも使用することができます。

ここ最近10年、人工知能（AI）に大きな進歩がありました。Go and Chessは、AIの進歩を測る、スタンダードな方法となりました。

これまでのところ、全てのAIモデルは相手の動きがはっきり見える中で、2つのプレーヤーゲームを侵略してきました。ポーカーの最も人気のあるフォームは、一方で、マルチプレーヤーとギャンブル、戦略、スキルを結合してきました。

現在、Facebookとカーネギーメロン大学の研究者は、戦略的な設定を使用し、ポーカープロフェッショナルのテーブルを出し抜くことができるAIボットを開発しました。これはPluribusと名付けられた初めてのAIボットで、6つのプレイヤーゲーム、ノーリミットホールデム、最も人気のあるポーカーフォーマットの中で、ブルフベットとアウトベットできるヒューマンエキスパートです。

Pluribusはポーカーエキスパート（ワールドシリーズで2回勝利した方も含む）に対して5,000手戦い、決定的に勝利しています。AIは印象的な戦略（ドンクベットのような）を追加することができ、それは率直にベテランプロのようです。

実際に成功した開発者は、ポーカー業界を破壊する恐れがあるため、コードを発行しないことに決めています。アルゴリズムは非常に強いヒューマンエキスパートで、何かの不正を見つけることはできません。

この時、2人かそれ以上のプレイヤーでのベンチマークゲームで、AIが初めてトッププロフェッショナルを破りました。チームは長年、このプロジェクトで研究をしていました。2017年に彼らは、1対1のポーカープレイでの有能なボットを思いついたのです。Pluribusは、ボットより更に複雑です。

Pluribusは、ブルート計算以上のものです

Pluribusのゲームプランのコアは、自己遊びを通し、それ自体の反対のコピーをアルゴリズムでプレーすることや、より良い結果のために、少しずつ決断を改善させていくことです。

参考：ScienceMag| DOI:10.1126/science.aay2400 | Facebook AI

この種の自己プレイが生み出すものは、オフラインゲーム全体のためのブループリント戦略です。それから実際に人間とプレイしている間、AIは同じ様なシチュエーションのための戦略を検索しながら、ゲーム中に戦略を改善していきます。

AIは新しいオンライン検索アルゴリズムで構成されており、全ての可能な動きの代わりに、一連の限られた動きの設定を検索し、効率的にオプションを計算します。また、隠された情報とゲームのため、自己プレイアルゴリズムは素早く取り込みます。

これらのアルゴリズムを組み合わせることで、Pluribusは、少ない要素の強力でないコンピューターでトレーニングすることができます。これをコンテキストに入れるには、Pluribusがトレーニングするクラウドコンピューティング要素が、150＄相当必要です。一方、近年の他のブレイクスルーモデルは、トレーニングのためのコンピューティング要素がおおよそ1,000,000＄必要です。

文献: Speedgate | World’s First Sport Invented By Artificial Intelligence

アルゴリズムがポーカーを征服してきたことは、製品の価格設定、取引、交通量の多い道路での自走車のルーティング、などの分野でも、同様に実装可能です。これらのアルゴリズムは、他のマルチプレーヤゲームで人を負かすことや、より興味深いコンピューターゲームを開発することに適用可能です。