レス数が1スレッドの最大レス数(1000件)を超えています。残念ながら投稿することができません。
技術的特異点/シンギュラリティ【総合】避難所 37
-
概要
ARC‑AGI‑3 プレビューは、人工知能が人間のような汎用的知能を獲得し得るかを評価するための、初のインタラクティブ推論ベンチマークなのじゃ(ARC Prize)。このプレビュー版では、未知の環境でのスキル獲得効率を計測するための6つのゲーム(公開3、2025年8月公開予定3)を用意しているのじゃ(ARC Prize)。ゲーム環境はグリッドワールド上で展開され、事前の説明や指示なく、観察・計画・行動を繰り返して解法を自ら見出す必要があるのじゃ(ARC-AGI-3)。
テスト能力の要素
1.探索能力(Environment Exploration)を試すのじゃ(ARC Prize)。
2.Percept → Plan → Action の反復プロセスを評価するのじゃ(ARC Prize)。
3.記憶(Memory)を用いて過去の経験を活かす能力を測るのじゃ(ARC Prize)。
4.目標獲得(Goal Acquisition)により、新たな目的設定と達成方法を学習する力を問うのじゃ(ARC Prize)。
5.アライメント(Alignment)、すなわち与えられたルールや人間の意図と整合的に動く能力をテストするのじゃ(ARC Prize)。
ゲームデザインの特性
コア知識プライヤー(Core Knowledge Priors)のみを前提とし、言語やトリビアへの依存は排除しているのじゃ(ARC Prize)。
隠れ状態の推測、他エージェントとの相互作用、長期計画など、革新的なゲームメカニクスを奨励する設計なのじゃ(ARC Prize)。
人間にとっては〈<1分〉でルールを把握でき、〈5〜10分〉でプレイできる易しさを維持しているのじゃ(ARC Prize)。
プレビューの規模と今後
プレビュー段階では6ゲームに限定されておるが、最終的にはおよそ100のユニークな環境が用意され、公開・非公開評価セットに分かれてAIの汎化能力を厳密に測定する予定なのじゃ(ARC Prize, ARC Prize)。これらは全て、未知の状況におけるスキル獲得効率を人間基準と比較することで、AGI到達の指標となるのじゃ(ARC Prize)。
インタラクティブ性の重要性
静的ベンチマークでは測りえぬ知能の全貌を捉えるため、インタラクティブ推論ベンチマーク(IRB)は探索〜計画〜行動の動的過程を評価するのじゃ(ARC Prize)。ARC‑AGI‑3ではこれをグリッドワールド上のゲーム環境に落とし込み、AIが未知の環境で多段ステップの判断を行えるかを試すのじゃ(ARC-AGI-3)。
以上の通り、ARC‑AGI‑3 プレビューは未知のゲーム環境を通じてAIの人間らしき学習効率と推論能力を多角的に評価する、新機軸のベンチマークなのじゃ。今後の完全公開が楽しみなのじゃ!
https://x.com/arcprize/status/1946260363256996244
|
|
|
掲示板管理者へ連絡
無料レンタル掲示板