>>506
1本目のThe Illusion of ThinkigはLRMが与えられた出力トークン総数では解けないから、と途中で諦めたせい。
2本目のFrontier LLMs Still Struggle with Simple Reasoning Tasksは、実際o4-miniで「天秤で偽コインを見破る」やつの自明バージョンを自分でやって確かめてみたが、4回くらい「この問題で本当に合ってるか?」と確認されて、最後に「こんな問題は解けぬ!」と怒られた。普通に思考してると思う。そうでないとこんなに確認してこない。