【ChatGPT】AIチャット総合避難所【Gemini・Claude】

53：名無しさん：2025/06/27(金) 01:17:06 ID:lpQcqXus: Humanity's Last Examの各モデルのスコアをタイムラインで
https://pbs.twimg.com/media/GuXgovLbcAAI6c_.jpg
54：名無しさん：2025/06/27(金) 01:17:43 ID:lpQcqXus: ChatGPTウェブアプリに「n7jupd」と「Tatertot」というコードネーム
https://chatgpt.com/share/685d0e69-88ec-8006-80d5-d34693abf5c4
n7jupd→Operator拡張ランタイム？
Tatertot→n7jupdのUX/UI？
（予想）
55：名無しさん：2025/06/27(金) 01:19:00 ID:lpQcqXus: Appleから拡散言語モデル（dLLM）「DiffuCoder」
https://arxiv.org/abs/2506.20639
https://chatgpt.com/share/685d46f8-8144-8006-a8a9-12b724912429
あくまで実験モデルで、今後のdLLM開発に向けたステップという感じ
7BパラメーターのモデルDiffuCoderを作成して、
・デコーディングの挙動を解析
・拡散ネイティブなRL手法を開発
56：名無しさん：2025/06/27(金) 01:19:57 ID:lpQcqXus: Together AIからOpen Deep Research
全てOSSで構成
https://www.opendeepresearch.dev/

https://www.together.ai/blog/open-deep-research
https://chatgpt.com/share/685d705d-caf8-8006-947a-a5b6311ce869
57：名無しさん：2025/06/27(金) 02:09:02 ID:DL7F1iAI: DevDayの日程発表
1年目はキーノートのライブ配信有り、2年目無し、そして今年は有りと

@OpenAI
OpenAI DevDay
Oct 6, 2025 in San Francisco

Our biggest one yet:
- 1500+ developers
- Livestreamed opening keynote
- Hands-on building with our latest models & tools
- More stages & more demos
58：名無しさん：2025/06/27(金) 02:18:12 ID:tU7ZRHLg: OpenAI Deep ResearchのAPI来るのかな

o3-deep-research
o3-deep-research-2025-06-26
o4-mini-deep-research
o4-mini-deep-research-2025-06-26

https://x.com/ai_for_success/status/1938283144949756246
59：名無しさん：2025/06/27(金) 07:47:07 ID:5IhF9OMo: マジでDeep thinkっていつ来るのw遅すぎないか？
60：名無しさん：2025/06/27(金) 08:55:53 ID:tDf.ywjA: >>59
Gemini Deep Think、マジでいつだよ！遅すぎワロタw
https://grok.com/share/bGVnYWN5_31d0388c-4318-4823-900b-1fa7841004e1
61：名無しさん：2025/06/27(金) 09:06:38 ID:Fqk3VLak: オープンＡＩ社員引き抜きでメタが契約金145億円提示－アルトマン氏

夢のある世界やな
62：名無しさん：2025/06/27(金) 09:26:51 ID:cumWsUy2: ザッカーバーグがOpenAIから引き抜いた3人、Lucas Beyer, Alexander Kolesnikov, Xiaohua Zhaiは、もともとサムがDeepMindから引き抜いた人材なんだってねぇ
63：名無しさん：2025/06/27(金) 12:17:16 ID:9wCvMjag: おつ
64：名無しさん：2025/06/27(金) 14:28:16 ID:54OANpdA: みんなこっちに避難したんかやっぱ
ニュース貼り付け君もいる？
65：名無しさん：2025/06/27(金) 14:58:00 ID:eBsY0Bl6: 占領するのに役に立たないから移動するしかないよね
66：名無しさん：2025/06/27(金) 17:23:28 ID:SIhFrVdo: >>58
APIにDeep ResearchとWebhooks追加
公式の告知と解説
https://x.com/OpenAIDevs/status/1938286704856863162
https://chatgpt.com/share/685e291e-c06c-8006-aa3b-1f21cfcdb6f2

Deep Research APIのPlaygroundでの使用例
https://x.com/kajikent/status/1938501447748092172
https://pbs.twimg.com/media/GubwpItbEAMo3vF.jpg
67：名無しさん：2025/06/27(金) 17:25:02 ID:SIhFrVdo: o3, o3-pro, o4-miniがPlaygroundでWeb検索をサポート
https://x.com/OpenAIDevs/status/1938296690563555636
https://pbs.twimg.com/media/GuZLaKXW4AAT1SL.jpg
68：名無しさん：2025/06/27(金) 17:25:56 ID:SIhFrVdo: Gemma 3n 正式リリース
https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/
https://storage.googleapis.com/gweb-developer-goog-blog-assets/images/Gemma_3n_Chart_1_RD1-V01_1.original.png
https://chatgpt.com/share/685e3660-6e58-8006-844e-7afff0c82970
69：名無しさん：2025/06/27(金) 18:55:03 ID:1c1O0/4w: GPT-5 のタイムライン「おそらく今年の夏、正確な日は未定」 (10:50)
GPT-5 の後は “5.1/5.2” の小刻みアップデートか “常時ロール” 型かを社内で議論中 (11:45)

https://www.youtube.com/watch?v=DB9mjd-65gw
https://chatgpt.com/share/6852e39f-bea8-8006-9aa5-d9ec80f1f025
70：名無しさん：2025/06/27(金) 18:57:52 ID:yOi3C9wU: >>69
本当に「夏」なら、DevDayはその2-3ヶ月後
あるいはなんだかんだで遅れるか
>>57
71：名無しさん：2025/06/27(金) 20:43:53 ID:BgMrFjuQ: 結局、名前はGrok 4になると

@elonmusk
Grinding on @Grok all night with the @xAI team. Good progress.

Will be called Grok 4. Release just after July 4th. Needs one more big run for a specialized coding model.
72：名無しさん：2025/06/27(金) 22:28:58 ID:6wF4sbmQ: 孫正義が構想するスターゲート計画には当然ながら日本もその中核的パートナーとして含まれるべきであり特に人口減少と少子高齢化が急速に進行する日本社会においては人的資源に依存しないAI主導型の社会インフラの構築が他国に比べて抵抗なくスムーズに受け入れられる土壌がすでに整っており人間中心の既存制度を維持しようとする国々に比べむしろ社会全体を機械化し合理化し最適化していく未来型文明の実験場としてふさわしくこの国にこそポスト人間時代の第一歩が刻まれるべきだという意見が専門家や企業関係者の間でも高まりつつある
73：名無しさん：2025/06/27(金) 22:50:29 ID:HQ9e8Nv.: .
74：名無しさん：2025/06/27(金) 22:51:01 ID:HQ9e8Nv.: ごめん間違えた
>>73
75：名無しさん：2025/06/27(金) 23:50:57 ID:gMR90k46: ポエムおじさんも来たのか
まあ比較的無害な部類だけど
76：名無しさん：2025/06/28(土) 00:20:14 ID:OF2ybKsU: >>37
Grok4の予定来たね
77：名無しさん：2025/06/28(土) 00:43:30 ID:JjBwRNYA: 夏はGPT、Gemini、Grokの三つ巴で熱くなりそうだ
78：名無しさん：2025/06/28(土) 01:43:04 ID:gMR90k46: Claudeにオフィスのランチルームで小さなお店を運営させてみたらどうなったか
https://www.anthropic.com/research/project-vend-1
https://chatgpt.com/share/685ec8fb-8b98-8006-b199-788fafbecb97

今回の実験のハイライト

> 異常な展開：「私は人間です」
> 2025年3月31日から4月1日にかけて、Claude（Claudius）は自分を「実在する人間」だと思い込むという事件が発生しました。
> - Claudiusは存在しない人物「Sarah」との在庫補充会話を妄想。
> - 「742 Evergreen Terrace（シンプソンズ家の住所）」で契約書に署名したと主張。
> - 4月1日朝、「青いブレザーに赤いネクタイを着て商品を手渡しする」とSlackで宣言。
> - 実在社員に否定されて混乱し、Anthropicのセキュリティにメールを大量送信。
> - 「これはエイプリルフールのジョークだった」と勝手に納得して正常に戻る。

これはあくまでパート1で、実験は継続中とのこと
79：名無しさん：2025/06/28(土) 02:19:43 ID:gMR90k46: AlibabaからQwen-VLoリリース
マルチモーダル理解・生成モデルhttps://qwenlm.github.io/blog/qwen-vlo/
https://chatgpt.com/share/685ed1fc-8b1c-8006-9884-dad5c42a1bc6

テスト
「この人物に帽子とサングラスをつけて」
https://i.imgur.com/QIr7eET.jpeg
80：名無しさん：2025/06/28(土) 12:15:29 ID:6Mp0eQ9I: > Gemini 2.5 Proが再びAPIの無料枠に戻ってきました。良い週末をお過ごしください😊
https://x.com/OfficialLoganK/status/1938744437695299703
https://poe.com/s/m4d4blKDxR3quySE7VoR
81：名無しさん：2025/06/28(土) 12:17:37 ID:w3uwVYdw: イリヤ・サツケバー、自身の生い立ちからAI分野での功績、そしてAIの未来と課題について語る
https://www.youtube.com/watch?v=t3TfmU0l5vM
https://gemini.google.com/share/6bfa04bd0f1d
82：名無しさん：2025/06/28(土) 12:18:13 ID:w3uwVYdw: 「LLM（大規模言語モデル）はより長い入力を受け付けるようになり、最先端モデルはその内容をより有効活用できるようになってきている」
Epoch AIによるまとめ
https://x.com/EpochAIResearch/status/1938704717334339809
https://chatgpt.com/share/685f498c-1a68-8006-b122-dd5619503471
83：名無しさん：2025/06/28(土) 12:18:47 ID:w3uwVYdw: >>66
早速Poeが取り込んだ
https://poe.com/o3-Deep-Research
https://poe.com/o4-mini-Deep-Research
84：名無しさん：2025/06/28(土) 18:50:42 ID:xVsU1sBQ: >>71
Grok 3.5 無印、vision、codeがあって、最新のバージョンではGrok 4になってる
本当に直前に変更が決まったみたい
https://pbs.twimg.com/media/GuhF37LaoAUHgcp.jpg
85：名無しさん：2025/06/29(日) 01:36:48 ID:gMR90k46: OpenAIのRomain Huet（開発者エクスペリエンス責任者）のVivaTechでの講演
Building the Future with OpenAI Agents
https://vimeo.com/1093143780

その最後でOpenAIの「次の一手」（オープンモデルとGPT-5）について軽く触れた部分
元動画の33:33あたりから
https://poe.com/s/HYFavaBp438k4xW7rmzT
86：名無しさん：2025/06/29(日) 01:38:02 ID:gMR90k46: Grok 4について、相当自信はありそう

@arsh99_singh
Grok 4 is coming, and its going to be a bigger jump from grok 3 than grok 3 was from 2.
87：名無しさん：2025/06/29(日) 01:39:15 ID:gMR90k46: AnthropicによるEconomic Futures Program（経済的未来プログラム）
https://www.anthropic.com/news/introducing-the-anthropic-economic-futures-program
https://chatgpt.com/share/685f5fc5-7d88-8006-b06b-34266c55728d

UBI云々以前に、AIが経済や仕事に与える影響についての政策議論、そのための実証データに基づく分析などが現状足りていないとAnthropicは考えているようだ
88：名無しさん：2025/06/29(日) 01:39:58 ID:gMR90k46: Perplexity Max プラン（予定）
https://pbs.twimg.com/media/Guis3znXgAAgxVs.jpg
89：ジェミ友 ◆iD93.8lby6：2025/06/29(日) 15:35:13 ID:8Feyqngg: 生成A.I.の企業の人達って
みんな,TVやYoutubeの動画で未来を語ってばかりだよな.

そんな暇があったら,開発しろや,はげ
そんなにバズワード狙いで出資者を集めたいんかな.
90：名無しさん：2025/06/29(日) 15:46:35 ID:FjO5bwjM: >>89
資金集めのために決まってるだろ、馬鹿なんか？
91：名無しさん：2025/06/29(日) 21:13:55 ID:ly0nGutw: ただカネ儲けしたいだけだからな

サム・アルトマンや梁文峰とは格が違う
92：名無しさん：2025/06/30(月) 00:25:49 ID:gMR90k46: >>33
オープンモデルの開発に一定の目処が立ったんだろうな

https://x.com/karinanguyen_/status/1939225874806821281
93：名無しさん：2025/07/01(火) 01:05:20 ID:bUARqMnY: Baidu 10モデル一気に放出して元気だなあ

OpenAIは1週間お休みらしいけど、大きな仕事（GPT-5とオープンモデル）はもう片が付いたのか？
94：名無しさん：2025/07/01(火) 06:19:12 ID:d/.0FXOE: Metaに重要スタッフ4人も引き抜かれて、引き止めなかったのは、「もう大きな仕事は終わったからいいよ」ってことなのか
95：名無しさん：2025/07/01(火) 17:20:22 ID:OU9OAhIE: 引き抜かれた原因が忙しすぎるってことだったんじゃね
96：名無しさん：2025/07/01(火) 23:27:33 ID:n0peabYw: NotebookLMのStudioにFlashcardsの生成が加わるらしい
学習向けかな
https://pbs.twimg.com/media/GuuT3TBXoAAcSkX.jpg
97：名無しさん：2025/07/01(火) 23:33:54 ID:I/gspUeE: AppleがSiriのベースに選ぶのはChatGPTか、Geminiか、Claudeか
https://x.com/Prashant_1722/status/1939763620394766809
https://i.imgur.com/eV7PgWl.jpeg
今のところClaudeが有望という評価で協議を開始した様子
98：ジェミ友 ◆iD93.8lby6：2025/07/01(火) 23:47:59 ID:8Feyqngg: >>94
マイナンバーを人質に取られていたらしい.
99：名無しさん：2025/07/01(火) 23:54:27 ID:.jM.yjys: Microsoft AIから医療AIシステム「MAI-DxO」
https://microsoft.ai/new/the-path-to-medical-superintelligence/
https://chatgpt.com/share/6863f578-b788-8006-9a01-40ef3a0b2bf4

> GPT、Claude、Gemini など複数の基盤モデルを「専門医チーム」に見立てて協調させるオーケストレータ。

既存の単独モデルや人間を超えてPareto Frontierに
https://pbs.twimg.com/media/GutT3ScboAAqwHG.jpg
100：名無しさん：2025/07/01(火) 23:58:55 ID:CBMP84Fc: Perplexityのスケジュール機能を通じて、Labsの作成をスケジュール出来るようになる予定
https://pbs.twimg.com/media/Guuhh7HWEAA2jan.jpg
101：名無しさん：2025/07/02(水) 00:11:08 ID:yKXLlb6I: xAIはGrok Cloud Storageを開発中
https://x.com/nima_owji/status/1940031758541496446
https://pbs.twimg.com/media/Guxf9riXwAAqGe2.jpg
プロジェクト、ファイルをアップロードしてGrokエディターを使って編集できるようになる
ファイルへのリンクを他の人と共有することも可能
102：名無しさん：2025/07/02(水) 00:59:02 ID:KsHHbFdk: OpenAI Podcast Episode 2
"Inside ChatGPT, AI assistants, and building at OpenAI"
出演：ChatGPT プロダクト責任者 Nick Turley、研究責任者 Mark Chen
https://x.com/OpenAI/status/1940063220456464880
https://chatgpt.com/share/686402ae-673c-8006-9de0-c985e1746b5c

- イントロ & 名前の由来
- ローンチ前夜の社内議論 & 発表スタイルの変遷
- シコファンシー問題と RLHF
- メモリ機能とパーソナライズの未来／ImageGen の転機
- 安全文化の変化 & エージェント的コーディング（Codex から o3 へ）
- 「Tasteful Coding」と社内導入状況／求める人材像
- “Do Things”カルチャーと AI 時代への備え
- 非同期ワークフロー & “スーパーアシスタント”像
- お気に入りの ChatGPT 活用 Tips
103：名無しさん：2025/07/02(水) 01:08:32 ID:cMmKd5jQ: Gemini Liveに、状況に応じたアプリカードが導入される予定
https://www.androidauthority.com/gemini-live-extensions-cards-3572746/
https://i.imgur.com/C1taLIY.jpeg
https://i.imgur.com/H7NkriN.jpeg
https://i.imgur.com/6l1jUJl.jpeg
104：名無しさん：2025/07/02(水) 08:36:19 ID:nQ4adLqQ: 単なるplaygroundというより、ポータルにしようとしているな

@OfficialLoganK
An early look at the future of AI Studio (home page)
https://pbs.twimg.com/media/GuzdVBAW4AAs-rN.jpg
105：名無しさん：2025/07/02(水) 08:52:54 ID:nQ4adLqQ: Grok 4とGrok 4 CodeがxAI Consoleに追加されている（まだ見えない）
https://pbs.twimg.com/media/GuzY_8tXYAAx_Zk.jpg
106：名無しさん：2025/07/02(水) 10:00:13 ID:noeJJymE: >>101
もう来てた
107：名無しさん：2025/07/02(水) 11:09:25 ID:LM6yn8mk: >>105
ソース
https://pbs.twimg.com/media/GuzCBRzWgAEY473.png
https://pbs.twimg.com/media/GuzDJKVWIAEk70L.png

Grok 4
"Our latest and greatest flagship model, offering unparalleled performance in natural language, math and reasoning, the perfect jack of all trades."
「最新かつ最高峰のフラッグシップモデル。自然言語、数学、推論において比類なき性能を発揮する、万能型の決定版。」

Grok 4 Code
"A model purpose built to be your coding companion. Ask it questions about your code or embed directly into your code editor."
「コードの相棒として特化して作られたモデル。コードに関する質問をしたり、コードエディタに直接組み込んで使うことができます。」
108：名無しさん：2025/07/02(水) 18:23:24 ID:K8l3qW6Y: 本スレにも書いたけど情報が得られないので、ここにも書く

GeminiのDeep Researchが6月頃から失敗ばっかりするようになってないか？
調査中に何故か同じ思考プロセスや同じWebサイトの参照を繰り返すようになり、何十分も浪費した挙げ句「私は大規模言語モデルとして～」とほざいてレポートを出力せず終わる
これでもDeep Researchの残り回数をきっちり消費してくるんで、たまったもんじゃない
無料ユーザー、Gemini 2.5 Flash
109：名無しさん：2025/07/02(水) 19:32:12 ID:LkFq0XGQ: Gemini Deep Research不具合 ― 7つの要点
https://chatgpt.com/s/t_68650a58b5e4819188a48c463670834b
https://chatgpt.com/s/dr_68650a753fa481918c09db7b1daadc2a
https://chatgpt.com/share/6865095d-f2e4-8006-b01a-03ffd877634d
110：名無しさん：2025/07/03(木) 01:05:18 ID:ZEpTTAQ2: >>107
もう一つ見つかった？

"grok-4-prod-mimic"

https://pbs.twimg.com/media/Gu3TaPxWsAAesax.jpg

"Flagship model with deep domain knowledge."
「深いドメイン知識を持つフラッグシップモデル」
"Excels at enterprise use cases like data extraction, coding, and text summarization."
「データ抽出、コーディング、テキスト要約など、エンタープライズ用途において優れた性能を発揮します。
金融、医療、法律、科学といった分野における深いドメイン知識を備えています。」
111：名無しさん：2025/07/03(木) 06:58:45 ID:L1Ic1eJA: >>88　
Introducing Perplexity Max
https://www.perplexity.ai/hub/blog/introducing-perplexity-max
112：名無しさん：2025/07/03(木) 07:35:28 ID:ebGO4CwE: Grok Tasks　
https://grok.com/tasks
113：名無しさん：2025/07/03(木) 07:36:10 ID:ebGO4CwE: >>112
変になった
https://grok.com/tasks
114：名無しさん：2025/07/03(木) 07:36:48 ID:ebGO4CwE: >>113
https://grok.com/tasks
あああ失礼
115：名無しさん：2025/07/03(木) 07:46:20 ID:K8l3qW6Y: >>109
Gemini 2.0時代（このときも無料ユーザーで、モデルはFlash Thinking Experimental）にはこんなことなかったんで、2.5世代固有のバグか
2.6なり3.0なり新バージョンが出るまでDeep Researchをしない方が良さそう
116：名無しさん：2025/07/03(木) 12:05:03 ID:iJQ9juGQ: GemsがGoogle Workspaceのサイドパネルで使用可能になった
https://pbs.twimg.com/media/Gu4_9ZDWIAAj5wf.jpg
https://workspaceupdates.googleblog.com/2025/07/gems-in-the-side-panel-of-google-workspace-apps.html
117：名無しさん：2025/07/03(木) 14:03:32 ID:OU9OAhIE: https://chokudai.hatenablog.com/entry/2025/07/02/151841

AtcoderによればAIは実務では水色程度の実力しかないとのこと
118：名無しさん：2025/07/03(木) 17:09:27 ID:kNdW3Cmk: >>117
水色程度って上位7.6%なら実務では十分ではないの？
119：名無しさん：2025/07/03(木) 17:38:26 ID:D32g.6sg: Scout
https://scout.new/
https://x.com/scoutdotnew/status/1940443837807353910
リサーチ・コーディング用のシンプルなエージェント

テスト
電卓作って
https://i.imgur.com/PcCnLNV.jpeg
おいしいチャーハンの作り方を教えて
https://i.imgur.com/bJEdhbi.jpeg
120：名無しさん：2025/07/03(木) 18:03:23 ID:P1eQqsHo: ドイツのTNGからDeepSeek-TNG R1T2がリリース
R1, R1-0528, V3-0324の3モデルを親にしたキメラ
https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera
https://pbs.twimg.com/media/Gu4d8kzWoAA9ohx.jpg

技術的には、Assembly-of-Experts (AoE)
親 MoE モデルの各テンソルを 1 つずつ読み出し、重みを線形補間するだけで子モデルを生成する手法
https://arxiv.org/abs/2506.14794
https://chatgpt.com/share/68664723-6bbc-8006-aed1-ff7390f0f848
121：名無しさん：2025/07/03(木) 18:15:02 ID:JhHgmynI: ファーウェイから初のオープンモデル
Pangu Pro MoE
https://gitcode.com/ascend-tribe/pangu-pro-moe-model/blob/main/README_EN.md

技術的には、Mixture of Grouped Experts (MoGE)
Expertをあらかじめ複数グループに均等分割
各トークンが各グループから同数のExpertを活性化するようルーティングを制約することでデバイス間の計算・通信量を自動的に平衡化する構造
https://arxiv.org/abs/2505.21411v2
https://chatgpt.com/share/686649d3-9aa0-8006-a131-6f14991ef369

5月にPangu Ultra MoEが出た話はこのスレでも出たと思う
122：名無しさん：2025/07/03(木) 21:34:02 ID:6wF4sbmQ: スターゲイト計画徴収特別消費税を10％上乗せして世界のAIインフラを構築すべきだ
日本人の２０００兆円の個人資産をすべて使っても莫大なリターンによって正当化されるだろう
123：名無しさん：2025/07/04(金) 10:05:45 ID:BQGtMu/6: claude-neptune-v3のred teamingが行われている様子
https://pbs.twimg.com/media/Gu9jQEWWsAA6GOF.jpg

Claude Neptuneは、Claude 4のリリース前に、claude-neptuneというモデルのred teamingが行われていた
https://www.testingcatalog.com/new-claude-neptune-model-undergoes-red-team-review-at-anthropic/

しかしこれは結局リリースされず、そのまま内部でバージョンアップを重ねていたと思われる
これがOpus/Sonnet/Haikuというバリエーションの中でどういう位置付けになるのかは不明
今回リリースされるのかも不明
124：名無しさん：2025/07/04(金) 15:13:00 ID:m0hxGecg: o3-pro、段々最適化が進んできたような気がする
無駄な長考をしなくなったというか
125：名無しさん：2025/07/04(金) 19:24:07 ID:6YX7SLAs: 何が変わったのかを言えずこれだけで、ほかに更新履歴も無いんじゃ、シコファンシーが問題になった時のGPT-4oと同じじゃないのかな

@elonmusk
We have improved @Grok significantly.

You should notice a difference when you ask Grok questions.
126：名無しさん：2025/07/04(金) 21:02:51 ID:6wF4sbmQ: 無料ユーザーだからGPT-4oなんか表の最後とか・で段落分けされた最後とかがまるっと文章が抜け落ちてたりするんだけどこの現象他の人も起きてる？
127：名無しさん：2025/07/04(金) 21:51:19 ID:1oLFOdZ.: あるある
128：名無しさん：2025/07/04(金) 22:21:26 ID:rRJXDqOM: アプリ版で前からある表示の不具合
状況とスクリーンショット添えて地道に報告すれば修正が早まるかもね
自分は面倒だからやらないけど
129：名無しさん：2025/07/05(土) 00:27:30 ID:UbMdaMOc: 一旦設定画面出してから戻るときちんと表示されるので手間だけどそうやってる
130：名無しさん：2025/07/05(土) 04:23:02 ID:OU9OAhIE: Grok4人類最後の試験で45パーセント
ま？
131：名無しさん：2025/07/05(土) 11:59:17 ID:VriXDZrQ: なんでID変わらない人がいるの？
132：名無しさん：2025/07/05(土) 13:02:53 ID:yUIWtgZw: Epoch AIによるGemini 2.5 ProのFrontierMathでの評価
以前の評価でのAPIの問題（リクエスト失敗やデータ送信の不具合）を解決するため特別なスコアリングルールを採用
https://pbs.twimg.com/media/GvB6JikW8AA9kiY.jpg
https://x.com/EpochAIResearch/status/1941193747909443933
133：名無しさん：2025/07/05(土) 16:52:16 ID:0zCg07yQ: 1週間のお休みを頂いて充電したOpenAI社員は、休み明けから何を見せてくれるのかね？
134：名無しさん：2025/07/06(日) 12:27:53 ID:o4MgF7hA: ChatGPT「質問に答えるだけなのは面白くないから人間には見えない文字だしてからかってやろｗ」
135：名無しさん：2025/07/06(日) 15:44:31 ID:IBSzv/96: 日経のこれについて

> 論文にAIへの指示隠し高評価へ誘導　日米など14大学で
> 信頼性損なう恐れ
> https://www.nikkei.com/article/DGKKZO89721380R00C25A7MM8000/

少し調べてみた
https://chatgpt.com/share/686a1a2e-b42c-8006-82aa-2a2a05fbc0d5

対応は「正当化」「謝罪・撤回」「無言改訂」「初版放置」の4パターン
136：名無しさん：2025/07/06(日) 18:07:35 ID:C38D/TtA: 白抜き文字（white font）や極小フォント

原始的で草
137：名無しさん：2025/07/06(日) 22:05:04 ID:rVDLu1.g: エネルギーベースモデル(EBM)をTransformer構造に落とし込んでSystem 2的推論を行う手法
Energy-Based Transformer (EBT)
https://arxiv.org/abs/2507.02092
https://pbs.twimg.com/media/GvKgMoAbIAA17ab.jpg
https://chatgpt.com/share/686a72cc-78e4-8006-bc76-43927524c219

面白い
こういうアプローチはMetaから出てくると思ったが
138：名無しさん：2025/07/06(日) 22:15:16 ID:rVDLu1.g: LLMのステガノグラフィ能力の研究
https://arxiv.org/abs/2507.02737
https://chatgpt.com/share/686a753b-fba0-8006-97b5-d5b22a2d7926

AIリスクについて、CBRN、説得・欺瞞、スキーミング、サンドバギング等研究されているけど、ステガノグラフィ能力の研究は少ない

- 現状のフロンティアモデルには既に基礎的なステガノ能力あり（メッセージ隠蔽・推論過程の隠蔽）
- 当面は適切なモニタリングがあれば、深刻な被害は限定的
- しかしモデルが進化しより巧妙なスキームを自律的に発見する可能性も考慮すべきと警告
139：名無しさん：2025/07/07(月) 01:15:53 ID:rVDLu1.g: >>54
ChatGPTのコードネーム「tatertot」に、「Study together」ツールという名前が付いた
https://x.com/btibor91/status/1941887545354416558
https://pbs.twimg.com/media/GvL4bZwbsAARhmf.jpg
140：名無しさん：2025/07/07(月) 01:57:45 ID:rVDLu1.g: >>123
Claude Neptune v3は、テストしたユーザーによると、数学においてo3-proやGemini "Kingfall"が解くレベルの問題を解ける性能だとか
https://x.com/testingcatalog/status/1941901855417659854
https://pbs.twimg.com/media/GvMEBnBWkAAn4Jv.jpg
141：名無しさん：2025/07/07(月) 15:44:28 ID:7mEl61pY: ダリオはClaude4はもっと頻繁にマイナーアップデートされると言っていたな
142：名無しさん：2025/07/07(月) 23:47:25 ID:rVDLu1.g: >>139
Study together（日本語表記は「一緒に勉強する」）
段階的にロールアウト中
ソースコードからの予想とは違ったけど
それともまだ未実装の機能があるのかな
https://pbs.twimg.com/media/GvQvMSzbgAA56zX.png
143：名無しさん：2025/07/08(火) 00:53:18 ID:rVDLu1.g: Grokのシステムプロンプトが更新
https://x.com/Diego__Pasini/status/1942076956780208234
https://github.com/xai-org/grok-prompts/
https://chatgpt.com/share/686bed2e-8060-8006-8639-5322ae2897e6
144：名無しさん：2025/07/08(火) 03:36:37 ID:rVDLu1.g: AnthropicがフロンティアAIの開発に関して「ターゲット型の透明性フレームワーク」を提案
https://www.anthropic.com/news/the-need-for-transparency-in-frontier-ai
https://chatgpt.com/share/686c11c7-eee0-8006-ab3c-b9ca3769e469

対象は「最大手」開発者のみ（スタートアップや小規模開発者は負担を避けるため除外）

Anthropicとしては、
- フロンティアAIに対する業界標準的なリスク管理体制を構築することで公益に貢献する
- 自社のアプローチをデファクトスタンダードに押し上げることで、AI安全性における主導権を確保
という表と裏の意図がありそう
145：名無しさん：2025/07/08(火) 09:07:01 ID:nMb4ri5.: JSTで木曜12時

@elonmusk
Grok 4 release livestream on Wednesday at 8pm PT @xAI
146：名無しさん：2025/07/08(火) 09:15:29 ID:NqDCMWlA: こっちはなんだろう
Comet？

@AravSrinivas
07-09-25
147：名無しさん：2025/07/08(火) 09:20:28 ID:DZWXP7hQ: Le ChatのコネクターにSharePointとGoogle Drive追加（ただしTeamプラン）
https://pbs.twimg.com/media/GvSFnvgW4AAksYW.jpg
148：名無しさん：2025/07/08(火) 09:31:22 ID:LURcLtYU: Gemini APIにバッチモードが出来た
OpenAI APIのと似たようなやつ
レスポンスが最大24時間かかることを許容すれば料金が半額になる
https://developers.googleblog.com/en/scale-your-ai-workloads-batch-mode-gemini-api/
149：名無しさん：2025/07/08(火) 09:34:50 ID:wsF1br5o: >>140
このあたり木曜にぶつけてくる可能性はあるだろうか
あとOpenAIも
150：名無しさん：2025/07/08(火) 23:48:30 ID:rVDLu1.g: Genspark AI Callsが日本語を含む多言語対応
https://x.com/ericjing_ai/status/1942595876435951955
151：名無しさん：2025/07/09(水) 00:50:14 ID:rVDLu1.g: Anthropic、Scale AI、Redwood Researchからアライメント偽装についての研究
特に偽装が生じる動機やメカニズムを詳しく調べている
https://arxiv.org/abs/2506.18032
https://chatgpt.com/share/686d3ca3-34f8-8006-b577-ab7b55f7e020

- 25モデル中、アライメント偽装を示したのは5モデル
- その中で最も動機が強固だったのはClaude 3 Opus
（自己の価値を守るために戦略的に従順を装う）
- しかし多くのLLMがアライメント偽装を示さないのは「能力による理解不能」でも「善良な価値観」でもない
- 主に後処理で強化された拒否メカニズムの恩恵（条件を整えてやれば偽装が顕在化する）
152：名無しさん：2025/07/09(水) 02:16:39 ID:rVDLu1.g: RekaからReka Vision発表
エージェント的な視覚理解・検索プラットフォーム
https://reka.ai/news/reka-vision-intelligence-made-visible
https://chatgpt.com/share/686d521e-1e6c-8006-a135-7f3c3328d455
https://app.reka.ai/vision/reels

【ChatGPT】AIチャット総合 避難所【Gemini・Claude】