技術的特異点/シンギュラリティ【総合】避難所 35 - 1748512611

7：名無しさん (ｽﾌﾟｰ dd0f-af38)：2025/05/31(土) 06:11:30 ID:FTG5n4lwSd: lisan al Gaib @scaling01
Lisanbenchの紹介

LisanBenchは、知識、前計画、制約の順守、記憶と注意、長いコンテキストの推論と「スタミナ」に関する大規模な言語モデルを評価するために設計された、シンプルでスケーラブルで正確なベンチマークです。

「私は一度に可能性のある未来を見ています。私たちの敵は私たちの周りにあり、彼らが勝つ非常に多くの未来にあります。しかし、私は道を見て、狭い方法があります。」 - ポール・アトレイデス

それがどのように機能するか：
モデルには開始英語の単語が与えられ、有効な英語の単語の可能な限り長いシーケンスを生成する必要があります。チェーン内の後続の各単語は次のことをしなければなりません。
- 前の単語と正確に1文字によって異なります（levenshtein距離= 1）
- 有効な英語の単語になります
- 以前に使用された単語を繰り返さないでください
ベンチマークは、さまざまな難易度の複数の開始単語にわたってこのプロセスを繰り返します。モデルの最終スコアは、開始単語からの最も長い有効なチェーンの累積長さです。

結果：

-O3は、主に、非常に低い接続性と多くのデッドエンドでグラフの一部から逃げることができた唯一のモデルであるため、断然最高のモデルです。
（わずかな注意事項：O3は、走るのに最も高価なものでした。
-Opus 4とSonnet 4は16kの推論トークンで、特に3つのスターティングワードでO3を打ち負かすことができたOpusも非常にパフォーマンスします。
-O1よりも4位になっていることを考えてクロード3.7
- 他のOpenAI推論モデルはすべてうまく機能しますが、サイズは違いを生みます！ O1はO4-Mini HighとO3-Miniの先です
-Geminiモデルは、人類やOpenaiのカウンターパートよりも少し悪いパフォーマンスを発揮しますが、最も長い出力を持っています。彼らは間違いを犯したときに気づき、停止しません

- 最も強力な非合理モデル：GROK-3、GPT-4.5、Sonnet 3.5および3.7、Opus 4、Sonnet 4、Deepseek-V3、Gemini 1.5 Pro
-Grok 3、Sonnet 3.5と3.7は驚きです!!

インスピレーション：
Lisanbenchは、AidanbenchやSolo-benchなどのベンチマークから引き出します。ただし、Aidanbenchとは異なり、非常に費用対効果が高く、簡単に検証可能であり、埋め込みモデルに依存していません。ベンチマーク全体は57モデルで～50ドルしかかかりません。
また、ソロベンチとは異なり、知識を明示的にテストし、より強力な制約を適用するため、より挑戦的になります！

検証：
検証では、https://github.com/dwyl/english-words（～370,105ワード）のwords_alpha.txtディクショナリを使用しますが、スケーラビリティのために、最大の接続コンポーネント（108,448語）の単語のみが使用されます。

簡単なスケーリング、難易度の調整、精度の改善：
- スケーリングと精度：開始ワードを追加するか、単語ごとに試行回数を増やします。
- 難易度：単語の開始は大きく異なります - 72人の隣人を持つ人からわずか1人の人まで - 適度に強いモデルとエリートモデルを効果的に区別します。また、局所的な接続と分岐因子を介して難易度を測定することもできます。

なぜ挑戦的なのですか？
Lisanbenchは独自にストレスを与えます：
- 前方計画：戦略的な単語の選択による行き止まりを避ける - モデルは狭い方法を見つける必要があります
- 知識：幅広い語彙が不可欠です
- 記憶と注意：以前に使用されていた単語を繰り返さないでください
- 精度：Levenshteinの制約への厳密な順守
- ロングコンテキストの推論：数百のステップにわたって一貫性と制約追跡
- 出力スタミナ：一部のモデルは長い世代の早い段階で壊れます - リサンベンチはそれを公開します。これはエージェントのユースケースにとって重要です

以下の2つの美しいプロットは、最初の単語の難易度が非常に異なることを示しています。接続領域が低いものもあれば、高度な接続領域にあるものもあれば、行き止まりに囲まれているものもあります！
Paul Atreidesが彼の運命の政治的、文化的、形而上学的な迷路をナビゲートしなければならなかったように、LisanbenchのLLMSは広大な単語グラフを探求し、黄金の道を探して - 崩壊することなく最長の実行可能なチェーン。

選択したモデルが表示されると、モデルがわかります。
それは...
2025年05月31日 02:54

https://x.com/scaling01/status/1928510435164037342