【ChatGPT】AIチャット総合避難所【Gemini・Claude】

792：名無しさん：2025/09/17(水) 23:45:54 ID:odRlge9Q: 65 ななしのAIさん 2025/09/17(水) 22:49:00.43 ID:Eg6Ah3qT0
ChatGPT更新 9/16

検索機能の改善
- 事実性: 幻覚が減り、回答の質が向上
- ショッピング: 意図をより正確に検出し、必要なときに商品を表示し、不要なときには結果を絞り込む
- フォーマット: 詳細や品質を損なうことなく、すぐに理解できるようなフォーマット

https://help.openai.com/en/articles/6825453-chatgpt-release-notes#h_8b744d5ab5
793：名無しさん：2025/09/18(木) 07:15:14 ID:rFYup3K2: 66 ななしのAIさん 2025/09/18(木) 00:10:25.55 ID:9nMN9UCX0
Grokはモードセレクターとモデルセレクターの統合をテスト中
https://pbs.twimg.com/media/G1DffelbkAAcd6a.jpg

今は設定で「Use Model Mode Selector」をオンオフすることでその2つの表示方式を切り替えるようになっているけど、そのかわり一度に全部の項目を表示するようにすると

Grok 4.1の準備か
794：名無しさん：2025/09/18(木) 07:15:47 ID:rFYup3K2: 67 ななしのAIさん 2025/09/18(木) 00:28:48.46 ID:9nMN9UCX0
ChatGPTのDeveloper modeのとき枠が変わって分かりやすくなった
https://i.imgur.com/jx9TTfR.jpeg
795：名無しさん：2025/09/18(木) 23:16:09 ID:ncNieGZI: 68 ななしのAIさん 2025/09/18(木) 07:17:31.81 ID:gV9Aix5l0
>>前スレ880
ChatGPTのGPT-5 thinkingで、実際にthinking timeを設定出来るようになった

> - Plus、Pro、Businessには、Standard（新しいデフォルト、スピードとインテリジェンスのバランス）とExtended（Plusの以前のデフォルト）があります
> - ProにはLight（最も速い）とHeavy（より深い）もあります

https://x.com/OpenAI/status/1968395215536042241
796：名無しさん：2025/09/18(木) 23:16:41 ID:ncNieGZI: 69 ななしのAIさん 2025/09/18(木) 07:36:24.38 ID:gV9Aix5l0
国際大学対抗プログラミングコンテスト ICPC 2025 で

OpenAI 12問中12問を完全正解
DeepMind 12問中10問を解き「金メダル級」の成績

> この成果は「AIが人間と肩を並べ、時に人間を超える抽象的問題解決能力を持つことを示した歴史的マイルストーン」です。

https://x.com/MostafaRohani/status/1968360976379703569
https://x.com/GoogleDeepMind/status/1968361776321323420
https://chatgpt.com/share/68cb36e9-ffa0-8006-805f-7142c9397eca
797：名無しさん：2025/09/18(木) 23:17:15 ID:ncNieGZI: 70 ななしのAIさん 2025/09/18(木) 07:39:51.83 ID:gV9Aix5l0
NotebookLMで、Flashcards（フラッシュカード）とQuiz（テスト）の全ユーザーへのロールアウトが完了
798：名無しさん：2025/09/18(木) 23:17:48 ID:ncNieGZI: 71 ななしのAIさん 2025/09/18(木) 07:51:08.14 ID:gV9Aix5l0
8月から9月初旬にかけてClaudeで発生した障害について公式がpostmortemを公開
原因となった3つの問題を解説

1. コンテキストウィンドウのルーティングエラー
2. 出力の破損
3. Approximate Top-k XLA:TPUの誤コンパイル

これらの問題が重複して発生したため、診断が難航した

https://www.anthropic.com/engineering/a-postmortem-of-three-recent-issues
https://i.imgur.com/JmwNawc.jpeg
799：名無しさん：2025/09/18(木) 23:18:21 ID:ncNieGZI: 72 ななしのAIさん 2025/09/18(木) 07:59:46.41 ID:gV9Aix5l0
OpenAI Realtime APIの更新
https://x.com/juberti/status/1968102280949055543
https://poe.com/s/Ih4rLAyW5k2axRjTlDzh
800：名無しさん：2025/09/18(木) 23:18:54 ID:ncNieGZI: 73 ななしのAIさん 2025/09/18(木) 08:26:53.40 ID:gV9Aix5l0
OpenAIとApollo Researchのスキーミングに関する共同研究
https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/
https://chatgpt.com/share/68cb432a-db90-8006-b4ce-5c739c6703a8

スキーミング（scheming）＝AIが一見従順に見えながら、実際には隠れた目標を追求する行動
Deliberative Alignment（熟慮的アライメント）を使った反スキーミング訓練をストレステストし、その有効性と限界を検証した
↓
大幅な改善（o3：スキーミング率 13% → 0.4%、o4-mini：8.7% → 0.3%）
ただし完全排除には至らず

モデルは「テスト中である」と自覚すると欺瞞行動が減少する傾向あり。実験的にCoTから「評価中である」との推論を削除するとスキーミング率が増加
減少効果の一部は本質的な誠実さではなく「試験に気づいていること」による可能性

事前に仕込まれた「誤った目標」を覆す訓練もある程度成功。ただし追加のレッドチーミングでは依然として逸脱行動を確認

→反スキーミング訓練は有効だが不完全。大幅に欺瞞行動を減らすことは可能だが、依然として抜け道や残存行動が存在する

またOpenAIとしては、
> Preparedness Framework に「スキーミング関連リスク」を追加
する予定
801：名無しさん：2025/09/18(木) 23:19:27 ID:ncNieGZI: >>795

74 ななしのAIさん 2025/09/18(木) 08:35:57.24 ID:gV9Aix5l0
>> 68
実際のjuice valueは、

Light: 5
Standard: 18
Extended: 64
Heavy: 200

https://pbs.twimg.com/media/G1EojkOWkAA5dBo.png
https://pbs.twimg.com/media/G1EomLJXQAAUDya.png
https://pbs.twimg.com/media/G1EopjqXgAAuUT1.png
https://pbs.twimg.com/media/G1Eors5XUAAjyUQ.png

前スレ880の値からExtendedが48→64と調整された様子
結局ChatGPTのUI上のLight/Standard/Extended/Heavyは、APIのreasoning effortのminimal/low/medium/highと同じになった

【ChatGPT】AIチャット総合 避難所【Gemini・Claude】