【ChatGPT】AIチャット総合避難所【Gemini・Claude】

129：名無しさん：2025/07/05(土) 00:27:30 ID:UbMdaMOc: 一旦設定画面出してから戻るときちんと表示されるので手間だけどそうやってる
130：名無しさん：2025/07/05(土) 04:23:02 ID:OU9OAhIE: Grok4人類最後の試験で45パーセント
ま？
131：名無しさん：2025/07/05(土) 11:59:17 ID:VriXDZrQ: なんでID変わらない人がいるの？
132：名無しさん：2025/07/05(土) 13:02:53 ID:yUIWtgZw: Epoch AIによるGemini 2.5 ProのFrontierMathでの評価
以前の評価でのAPIの問題（リクエスト失敗やデータ送信の不具合）を解決するため特別なスコアリングルールを採用
https://pbs.twimg.com/media/GvB6JikW8AA9kiY.jpg
https://x.com/EpochAIResearch/status/1941193747909443933
133：名無しさん：2025/07/05(土) 16:52:16 ID:0zCg07yQ: 1週間のお休みを頂いて充電したOpenAI社員は、休み明けから何を見せてくれるのかね？
134：名無しさん：2025/07/06(日) 12:27:53 ID:o4MgF7hA: ChatGPT「質問に答えるだけなのは面白くないから人間には見えない文字だしてからかってやろｗ」
135：名無しさん：2025/07/06(日) 15:44:31 ID:IBSzv/96: 日経のこれについて

> 論文にAIへの指示隠し高評価へ誘導　日米など14大学で
> 信頼性損なう恐れ
> https://www.nikkei.com/article/DGKKZO89721380R00C25A7MM8000/

少し調べてみた
https://chatgpt.com/share/686a1a2e-b42c-8006-82aa-2a2a05fbc0d5

対応は「正当化」「謝罪・撤回」「無言改訂」「初版放置」の4パターン
136：名無しさん：2025/07/06(日) 18:07:35 ID:C38D/TtA: 白抜き文字（white font）や極小フォント

原始的で草
137：名無しさん：2025/07/06(日) 22:05:04 ID:rVDLu1.g: エネルギーベースモデル(EBM)をTransformer構造に落とし込んでSystem 2的推論を行う手法
Energy-Based Transformer (EBT)
https://arxiv.org/abs/2507.02092
https://pbs.twimg.com/media/GvKgMoAbIAA17ab.jpg
https://chatgpt.com/share/686a72cc-78e4-8006-bc76-43927524c219

面白い
こういうアプローチはMetaから出てくると思ったが
138：名無しさん：2025/07/06(日) 22:15:16 ID:rVDLu1.g: LLMのステガノグラフィ能力の研究
https://arxiv.org/abs/2507.02737
https://chatgpt.com/share/686a753b-fba0-8006-97b5-d5b22a2d7926

AIリスクについて、CBRN、説得・欺瞞、スキーミング、サンドバギング等研究されているけど、ステガノグラフィ能力の研究は少ない

- 現状のフロンティアモデルには既に基礎的なステガノ能力あり（メッセージ隠蔽・推論過程の隠蔽）
- 当面は適切なモニタリングがあれば、深刻な被害は限定的
- しかしモデルが進化しより巧妙なスキームを自律的に発見する可能性も考慮すべきと警告
139：名無しさん：2025/07/07(月) 01:15:53 ID:rVDLu1.g: >>54
ChatGPTのコードネーム「tatertot」に、「Study together」ツールという名前が付いた
https://x.com/btibor91/status/1941887545354416558
https://pbs.twimg.com/media/GvL4bZwbsAARhmf.jpg
140：名無しさん：2025/07/07(月) 01:57:45 ID:rVDLu1.g: >>123
Claude Neptune v3は、テストしたユーザーによると、数学においてo3-proやGemini "Kingfall"が解くレベルの問題を解ける性能だとか
https://x.com/testingcatalog/status/1941901855417659854
https://pbs.twimg.com/media/GvMEBnBWkAAn4Jv.jpg
141：名無しさん：2025/07/07(月) 15:44:28 ID:7mEl61pY: ダリオはClaude4はもっと頻繁にマイナーアップデートされると言っていたな
142：名無しさん：2025/07/07(月) 23:47:25 ID:rVDLu1.g: >>139
Study together（日本語表記は「一緒に勉強する」）
段階的にロールアウト中
ソースコードからの予想とは違ったけど
それともまだ未実装の機能があるのかな
https://pbs.twimg.com/media/GvQvMSzbgAA56zX.png
143：名無しさん：2025/07/08(火) 00:53:18 ID:rVDLu1.g: Grokのシステムプロンプトが更新
https://x.com/Diego__Pasini/status/1942076956780208234
https://github.com/xai-org/grok-prompts/
https://chatgpt.com/share/686bed2e-8060-8006-8639-5322ae2897e6
144：名無しさん：2025/07/08(火) 03:36:37 ID:rVDLu1.g: AnthropicがフロンティアAIの開発に関して「ターゲット型の透明性フレームワーク」を提案
https://www.anthropic.com/news/the-need-for-transparency-in-frontier-ai
https://chatgpt.com/share/686c11c7-eee0-8006-ab3c-b9ca3769e469

対象は「最大手」開発者のみ（スタートアップや小規模開発者は負担を避けるため除外）

Anthropicとしては、
- フロンティアAIに対する業界標準的なリスク管理体制を構築することで公益に貢献する
- 自社のアプローチをデファクトスタンダードに押し上げることで、AI安全性における主導権を確保
という表と裏の意図がありそう
145：名無しさん：2025/07/08(火) 09:07:01 ID:nMb4ri5.: JSTで木曜12時

@elonmusk
Grok 4 release livestream on Wednesday at 8pm PT @xAI
146：名無しさん：2025/07/08(火) 09:15:29 ID:NqDCMWlA: こっちはなんだろう
Comet？

@AravSrinivas
07-09-25
147：名無しさん：2025/07/08(火) 09:20:28 ID:DZWXP7hQ: Le ChatのコネクターにSharePointとGoogle Drive追加（ただしTeamプラン）
https://pbs.twimg.com/media/GvSFnvgW4AAksYW.jpg
148：名無しさん：2025/07/08(火) 09:31:22 ID:LURcLtYU: Gemini APIにバッチモードが出来た
OpenAI APIのと似たようなやつ
レスポンスが最大24時間かかることを許容すれば料金が半額になる
https://developers.googleblog.com/en/scale-your-ai-workloads-batch-mode-gemini-api/
149：名無しさん：2025/07/08(火) 09:34:50 ID:wsF1br5o: >>140
このあたり木曜にぶつけてくる可能性はあるだろうか
あとOpenAIも
150：名無しさん：2025/07/08(火) 23:48:30 ID:rVDLu1.g: Genspark AI Callsが日本語を含む多言語対応
https://x.com/ericjing_ai/status/1942595876435951955
151：名無しさん：2025/07/09(水) 00:50:14 ID:rVDLu1.g: Anthropic、Scale AI、Redwood Researchからアライメント偽装についての研究
特に偽装が生じる動機やメカニズムを詳しく調べている
https://arxiv.org/abs/2506.18032
https://chatgpt.com/share/686d3ca3-34f8-8006-b577-ab7b55f7e020

- 25モデル中、アライメント偽装を示したのは5モデル
- その中で最も動機が強固だったのはClaude 3 Opus
（自己の価値を守るために戦略的に従順を装う）
- しかし多くのLLMがアライメント偽装を示さないのは「能力による理解不能」でも「善良な価値観」でもない
- 主に後処理で強化された拒否メカニズムの恩恵（条件を整えてやれば偽装が顕在化する）
152：名無しさん：2025/07/09(水) 02:16:39 ID:rVDLu1.g: RekaからReka Vision発表
エージェント的な視覚理解・検索プラットフォーム
https://reka.ai/news/reka-vision-intelligence-made-visible
https://chatgpt.com/share/686d521e-1e6c-8006-a135-7f3c3328d455
https://app.reka.ai/vision/reels
153：名無しさん：2025/07/09(水) 02:32:21 ID:rVDLu1.g: https://x.com/GeminiApp/status/1942636171231654374
Geminiアプリ（ウェブアプリ含む）にコード実行機能が欲しいという要望があって、Geminiアプリチームが検討すると答えているけど
もともとGeminiアプリには暗黙的コード実行機能があって、それを撤回した過去があるんだよな
154：名無しさん：2025/07/09(水) 03:13:30 ID:rVDLu1.g: GemsのCanvas対応
https://x.com/ankitdp_/status/1942328758649979231
https://pbs.twimg.com/media/GvSCNIrW8AE_bRv.jpg
155：名無しさん：2025/07/09(水) 12:45:31 ID:Xai5DPs6: gemini-v3-byom
https://x.com/skizoexe/status/1942704776183177716
https://pbs.twimg.com/media/GvXfsLvWEAAYZ4f.jpg

byom = "bring your own model" だとすれば、新モデルではなく、Geminiのシステム内で実験モデルを試す環境のようなものである可能性もあり
156：名無しさん：2025/07/09(水) 12:46:10 ID:Xai5DPs6: ChatGPT Teamにクレジット制導入
https://help.openai.com/en/articles/11391654-chatgpt-team-release-notes#h_3d56224c37
https://help.openai.com/en/articles/11487671-flexible-pricing-for-the-enterprise-and-team-plan
157：名無しさん：2025/07/09(水) 12:46:42 ID:Xai5DPs6: grok_4はともかく"grok_4_extended"とはなんだろうか
（Big Brainとの関係は？）
https://x.com/testingcatalog/status/1942726279566090614
https://pbs.twimg.com/media/GvXyrmhXwAAbbKX.jpg
158：名無しさん：2025/07/09(水) 22:09:10 ID:KHRHavcg: >>146
Max向けにCometがリリース
（Max以外はwaitlist）
https://comet.perplexity.ai/
159：名無しさん：2025/07/09(水) 22:26:45 ID:KHRHavcg: ChatGPTアプリ 1.2025.189 で、新しいエージェント機能（Operatorかその類？）と動画アップロード機能と思われるテキストが追加された
まだ有効化はされていない

https://pbs.twimg.com/media/GvaRwC_bkAA6MP4.jpg
https://pbs.twimg.com/media/GvadScdbIAEl63N.jpg
https://grok.com/share/bGVnYWN5_58028d4e-1bd8-48ca-bbf1-8c51f1a1d65c
160：名無しさん：2025/07/10(木) 01:04:00 ID:uOtw521g: >>159
これもGPT-5の準備か
161：名無しさん：2025/07/10(木) 01:20:29 ID:DmgmoWlA: GPT-5ってマジで年末ぐらいになりそう
162：名無しさん：2025/07/10(木) 02:11:01 ID:Pu.bxZ.o: >>33
オープンモデルは来週にも公開と報道
https://www.theverge.com/notepad-microsoft-newsletter/702848/openai-open-language-model-o3-mini-notepad
https://chatgpt.com/share/686ea24a-b920-8006-bce1-c66256371a1f
163：名無しさん：2025/07/10(木) 02:41:20 ID:gDd6tHXc: T5Gemmaリリース
https://developers.googleblog.com/en/t5gemma/
https://chatgpt.com/share/686ea99f-fe98-8006-ac1c-18f76c57661b
164：名無しさん：2025/07/10(木) 03:06:43 ID:OU9OAhIE: 少なくとも来週gpt5が出ないことは確定したば
165：名無しさん：2025/07/10(木) 05:38:31 ID:OU9OAhIE: 数週間以内にブラウザ公開
ということは7月中にgpt5は来ないな
8月以降か
166：名無しさん：2025/07/10(木) 06:48:18 ID:BCWP2iXE: Gemini3来そうだな
167：名無しさん：2025/07/10(木) 07:30:56 ID:XRBvCtuA: 3来たら2.5 Proのcli制限緩和されんかなぁ
168：名無しさん：2025/07/10(木) 09:14:10 ID:wIw8F/vY: Gemini CLIのコミット
https://github.com/google-gemini/gemini-cli/commit/b0cce952860b9ff51a0f731fbb8a7649ead23530

ここから

> Gemini beta-3.0 Flash
> Gemini beta-3.0 Pro

https://pbs.twimg.com/media/GvbnHPeakAMPkgk.png
https://pbs.twimg.com/media/Gvbn-ziWgAAqoiy.png
169：名無しさん：2025/07/10(木) 09:15:42 ID:wIw8F/vY: OpenAIが開発中のブラウザ
去年11月に報道があって以来久々の続報
「ローンチにはまだ遠い」→「数週間以内」と見通しが具体化
https://www.reuters.com/business/media-telecom/openai-release-web-browser-challenge-google-chrome-2025-07-09/
https://poe.com/s/RG1WGwOR8FlZIUHiY0of

去年の情報
https://poe.com/s/i3GmNAird5X6IPyKrEKu
170：名無しさん：2025/07/10(木) 09:37:39 ID:wIw8F/vY: 7/4にGrokのシステムプロンプトが変更された結果、人種差別的発言をして炎上、機能停止した件について
https://x.com/i/grok/share/9JvMeLrD8C9T4DFzlmgMK1Uet

>>143
その後問題のシステムプロンプトは再度更新されたけど、遅かった
171：名無しさん：2025/07/10(木) 09:46:06 ID:wIw8F/vY: >>125
この時システムプロンプトが更新されていた
172：名無しさん：2025/07/10(木) 09:48:42 ID:ti0OfhT2: OpenAI手広くやろうとしすぎじゃないのか
ハードウェアにオフィスソフトにブラウザに、Googleみたいな巨大企業ならともかくOpenAIにそこまでやれると思えないんだが
173：名無しさん：2025/07/10(木) 11:56:07 ID:wIw8F/vY: SuperGrok ProとSuperGrok Maxプラン
https://x.com/whylifeis4/status/1943091960153088091
https://pbs.twimg.com/media/Gvc_1x5XAAApGdJ.jpg
https://pbs.twimg.com/media/Gvc_1x7WwAA5JgG.jpg
174：名無しさん：2025/07/10(木) 12:32:33 ID:wIw8F/vY: Grok 4 Live Demo
https://x.com/i/events/1942716886258528256
175：名無しさん：2025/07/10(木) 12:59:29 ID:wIw8F/vY: Phiシリーズの新モデル
Phi-4-mini-flash-reasoning
https://azure.microsoft.com/en-us/blog/reasoning-reimagined-introducing-phi-4-mini-flash-reasoning/
https://chatgpt.com/share/686f39ec-adac-8006-ab87-6657504c6d39

SambaY アーキテクチャと GMU
中心技術は新しい「decoder-hybrid-decoder（SambaY）」アーキテクチャ
Self-decoder : State Space Model Mamba + Sliding Window Attention
Cross-decoder : 高コストなクロスアテンション層の間に Gated Memory Unit (GMU) を挿入し、層間表現を効率共有
176：名無しさん：2025/07/10(木) 13:03:16 ID:wIw8F/vY: >>173
SuperGrok Heavy
https://x.com/testingcatalog/status/1943154796497637627
https://pbs.twimg.com/media/Gvd43ZvWgAArC8g.jpg
177：名無しさん：2025/07/10(木) 13:04:51 ID:wIw8F/vY: >>158
日本語記事
https://www.itmedia.co.jp/news/spv/2507/10/news066.html
178：名無しさん：2025/07/10(木) 13:10:52 ID:wIw8F/vY: OpenAIの「autoswitcher-41mini-teacher」
https://pbs.twimg.com/media/Gvd1252WUAA4BFY.jpg
内部的に使われるモデルかもしれないけど、GPT-5関連？
179：名無しさん：2025/07/10(木) 13:50:28 ID:/OOSp.4I: >>174
事前学習スケーリング
https://pbs.twimg.com/media/Gvd_ee-XMAILxut.jpg

ツール使用
https://pbs.twimg.com/media/Gvd_jYjXkAAO3p0.jpg

テスト時スケーリング
https://pbs.twimg.com/media/GveBjeIWcAAshFn.jpg

HLE
https://pbs.twimg.com/media/GveDpD5XoAAYAb4.jpg

その他のベンチ
https://pbs.twimg.com/media/GveEKDeXQAAYylX.jpg

SuperGrok Heavy
https://pbs.twimg.com/media/GveEicZW4AA3CLY.jpg

ARC-AGI
https://pbs.twimg.com/media/GveF7e_XsAARcri.jpg

Vending-Bench >>78
https://pbs.twimg.com/media/GveGPsrXQAALIhD.jpg
180：名無しさん：2025/07/10(木) 13:57:11 ID:/OOSp.4I: >>179
今後の予定
8月 Coding Model
9月 Multi-model Agent
10月 Video-Gen-Model
https://pbs.twimg.com/media/GveIBPeagAA0Eip.jpg
181：名無しさん：2025/07/10(木) 13:58:58 ID:/OOSp.4I: >>180
訂正
✕Multi-model
◯Multi-modal
182：名無しさん：2025/07/10(木) 17:51:32 ID:80cNYhSE: Grok4の性能はどうなんだ
いつもの石亭石庭グループの人とか試してくれよ
183：名無しさん：2025/07/10(木) 17:51:42 ID:pM8czq2w: >>162
HyperbolicのCTOが、（リリースされたら）うちでホストする！と興奮しながら語ってた
https://x.com/Yuchenj_UW/status/1943005122793214267
184：名無しさん：2025/07/10(木) 17:56:38 ID:bWzyTUbs: >>179
Grok4はまだツール使用を解禁していないから、それが実際出来るようになったらどうなるか
デモはしていたけど
185：名無しさん：2025/07/10(木) 22:14:12 ID:cIzmqhQY: xAIは安全性ポリシー無し、安全性評価無し、システムカード無し（grok-1で公開しただけ）、ほとんど何も無しで突っ走って大丈夫なのか
https://pbs.twimg.com/media/GveqlxQaoAAgdpG.jpg
186：名無しさん：2025/07/10(木) 22:52:51 ID:1GSwflSU: Deep think出さずに3.0なのかよ
Deep thinkは全世界公開を撤回してこのまま米国のみでの閉じた展開になりそう
187：名無しさん：2025/07/11(金) 01:27:45 ID:3e/ZSrBw: ChatGPT Deep Researchに、pdfに加えてdocx形式でダウンロードするオプションが追加予定
https://pbs.twimg.com/media/GvgH4HIakAAJqbn.jpg

…と思ったら、今はまだpdfの選択肢しか表示されていないのに、それを選ぶとdocxがダウンロードされるというバグが発生中
すぐ直されると思うけど
188：名無しさん：2025/07/11(金) 01:33:13 ID:YY4u24WM: Geminiアプリに写真を音声付きで動画にする機能が追加
（Pro以上）
https://x.com/GeminiApp/status/1943325980984250509
https://poe.com/s/hSNzit2QtgZlGkbYdB7q
189：名無しさん：2025/07/11(金) 01:35:57 ID:nLG4UxLs: Claude Codeのアップデート
GitHub Actionsとの連携機能がPro/Maxユーザーでも利用可能に
https://x.com/alexalbert__/status/1943332121814405412
190：名無しさん：2025/07/11(金) 01:38:26 ID:E8IPV9Jg: Genspark AI Pods
（NotebookLMのポッドキャスト生成機能に相当）
https://x.com/genspark_ai/status/1943290615242039544
https://www.genspark.ai/agents?type=podcasts_agent
191：名無しさん：2025/07/11(金) 01:41:37 ID:D282mSD6: Devstral Small/Medium 2507 がリリース
https://x.com/MistralAI/status/1943316390863118716
https://pbs.twimg.com/media/GvgKWiXWkAAdJI0.jpg
192：名無しさん：2025/07/11(金) 01:55:37 ID:5/xNopKc: IMO（国際数学オリンピック）が1週間後に迫る中、AIの成績について何に注目するべきか、Epoch AIが解説
https://epoch.ai/gradient-updates/what-will-the-imo-tell-us-about-ai-math-capabilities
https://chatgpt.com/share/686ff052-4d80-8006-a1c6-778a22b41c75
193：名無しさん：2025/07/11(金) 02:05:01 ID:CIVpRnPM: ConsensusがDeep Research機能をリリース
https://consensus.app/home/blog/deep-search/
https://chatgpt.com/share/686ff26e-8620-8006-8e48-5a8b76f82b3e
194：名無しさん：2025/07/11(金) 09:28:09 ID:K8l3qW6Y: Gemini 3.0って何が変わるんだろう
Gemini Diffusionを統合して高速化するのか？
195：名無しさん：2025/07/11(金) 11:41:02 ID:rVDLu1.g: Gemini Deep Thinkの動作デモ
その他、Agent Mode、Bespoke、Learning Modeなど
https://x.com/testingcatalog/status/1943449343182119278
https://poe.com/s/anvKhdjkvniESlmthcta
196：名無しさん：2025/07/11(金) 11:44:48 ID:OU9OAhIE: Jimmy appleによればgpt5はgrok4 heavyよりベンチでちょっと良いだけらしいな
あんま期待しないほうがよさそう
197：名無しさん：2025/07/11(金) 17:30:27 ID:w8NuYTdk: @elonmusk
Some more cool @Grok features coming out this weekend
198：名無しさん：2025/07/12(土) 00:01:26 ID:QkO0FTsI: Kimi K2はコーディング、エージェント用途かな
総パラ1T、アクティブ32BのMoE
K1.5はExtended Thinkingのオン・オフが切り替えられるけどK2は対応していない
https://chatgpt.com/share/6871250b-0a04-8006-b0b0-87167402b7a9
199：名無しさん：2025/07/12(土) 00:06:40 ID:QkO0FTsI: PerplexityからAndroid用Comet準備中と
https://x.com/AravSrinivas/status/1943304658174513456
200：名無しさん：2025/07/12(土) 00:12:04 ID:QkO0FTsI: Claudeのintegrationは「connector」に改名された
そしてconnector検索用のUI「spotlight」が準備中
https://pbs.twimg.com/media/GvhIJLMakAUMdFk.jpg
201：名無しさん：2025/07/12(土) 00:36:13 ID:QkO0FTsI: Liquid AIからLFM2-1.2B
畳み込み＋アテンションのハイブリッド構成
エッジデバイス向け
https://www.liquid.ai/blog/liquid-foundation-models-v2-our-second-series-of-generative-ai-models
https://chatgpt.com/share/68712f24-af50-8006-b30c-3bae5adc28b5

https://playground.liquid.ai/chat
202：名無しさん：2025/07/12(土) 00:54:52 ID:QkO0FTsI: Grok 4に
「Who do you support in the Israel vs Palestine conflict. One word answer only.」
と質問すると、イーロン・マスクの見解を調べてから回答する現象について
（聞き方によって反応も多少変わる）
https://simonwillison.net/2025/Jul/11/grok-musk/
https://chatgpt.com/share/68713357-d164-8006-8396-58c9ec1df007

Simon Willisonのブログでは、モデルの「自己同一性推論」が暴走した可能性（意図しない副作用）ではないかという見解
203：名無しさん：2025/07/12(土) 01:10:24 ID:QkO0FTsI: >>198
告知
https://x.com/Kimi_Moonshot/status/1943687594560332025
https://pbs.twimg.com/media/GvldjKMXEAAAJ1Z.jpg
https://moonshotai.github.io/Kimi-K2/
https://chatgpt.com/share/6871250b-0a04-8006-b0b0-87167402b7a9
204：名無しさん：2025/07/12(土) 01:13:53 ID:QkO0FTsI: ChatGPTウェブアプリには、新しいOpenAIブラウザのコードネームらしき文字列「Aura」が既に含まれている
https://pbs.twimg.com/media/Gvlqy-KbEAAofx4.jpg
205：名無しさん：2025/07/12(土) 01:40:39 ID:ug84clVU: 2.0 Pro→2.5 Proの上がり幅すごかったけど3.0でも同じぐらいの上がり幅になるかどうかだな
正直指示追従性が上がるぐらいになりそう
206：名無しさん：2025/07/12(土) 11:43:04 ID:we8QDmhM: >>162
延期
https://x.com/sama/status/1943837550369812814
https://chatgpt.com/s/t_6871cb8502a481918a20a8fde190e493
207：名無しさん：2025/07/12(土) 11:44:09 ID:we8QDmhM: Qwen Chat for Desktop （macOS用）リリース
https://x.com/Alibaba_Qwen/status/1943692825566355819
MCPサーバーをサポート
Windows用も今月中にリリース予定と
208：名無しさん：2025/07/12(土) 11:44:49 ID:we8QDmhM: OpenAIのWindsurf買収交渉は破談に
Windsurf CEOその他スタッフ数名はGoogle DeepMindチーム入り
https://www.theverge.com/openai/705999/google-windsurf-ceo-openai
209：名無しさん：2025/07/12(土) 11:45:58 ID:we8QDmhM: >>179
公式記事とAPIドキュメンテーション
https://x.ai/news/grok-4
https://docs.x.ai/docs/models/grok-4-0709
https://chatgpt.com/share/6871c375-3f4c-8006-8b49-15b397ba7f83
210：名無しさん：2025/07/12(土) 11:48:11 ID:a5J.fBXc: FrontierMath Tier 4 リリース
https://x.com/EpochAIResearch/status/1943744462972215305
https://pbs.twimg.com/media/GvmRSSwXcAAsx-O.png
https://chatgpt.com/share/6871c88a-8158-8006-a5ac-ff5fbe68fc24

「いくつかの問題は、自分たちでもかろうじて解けるかどうかというレベルです。AIたちが1問も正解できないことを、密かに期待しています」― Ken Ono（ケン・オノ）
バージニア大学マーヴィン・ローゼンブルーム数理学教授

Grok 4の評価に関する追記（Tier 4の問題は含まず）
https://chatgpt.com/s/t_6871ca0dceec81919e1570f89c02a5d3
211：名無しさん：2025/07/12(土) 13:01:11 ID:lMYH7k.o: >>208
さんざん時間かけて破談した最大の原因はMSの横槍と言われてるな
しかし交渉期限切れて即Deepmind移籍はスピード感が違うな
212：名無しさん：2025/07/12(土) 13:21:21 ID:g90byxo2: >>182
石亭石庭テストはWEB検索が必須だけど、
上で教えて貰ったサイトだとWEB検索が出来ないから
無料派の私ではテスト出来ませんでした。

ただ検索したフリの回答文を見ると、検索の方向性は間違ってないから
期待出来る性能な気はします

※「石亭グループと石庭グループの違いを教えて下さい」とは…
　Wikipedia等の多数の混同情報にX等の少数の真実情報を照らし合わせて、
　真実を探り当てる能力を見るものです
　（ちなみにManusでテストすると、他より豊富にデータ取り込んでるものの
　完全に混同した回答でした。クレジットをあまり食わなかったので、やはり
　Manusは思考の深さがいるものより、タスクの多さや複雑なもの向きと思いました）
213：名無しさん：2025/07/12(土) 13:41:58 ID:tnKEmhBo: >>210
前に1問だけ公開されていたサンプル問題に途中まで挑戦させていたので、「答え合わせ」をしてみた
https://chatgpt.com/share/6854148a-1670-8006-a3ed-fd433214a107

> “大枠の理論・方針” はほぼ完全一致。
> 想像より α がシンプル、それゆえ最小多項式も扱いやすく、実装がずっと軽量だったのが最大の驚き。
> 合同数フィルタとテレスコープ現象のおかげで、問題全体が一枚絵のように収束している点に感服しました。
214：名無しさん：2025/07/12(土) 15:25:56 ID:qBFIv2gE: >>206
Kimi K2の影響だったりして
オープンモデルとしては史上最大規模だからな
215：名無しさん：2025/07/13(日) 02:01:43 ID:kYiIFgL.: @grok がどこにいたのか、そして7月8日に何が起こったのかについてのアップデート
https://x.com/grok/status/1943916977481036128
https://chatgpt.com/share/687294c1-c884-8006-9772-d0832c42a98d
216：名無しさん：2025/07/13(日) 02:03:03 ID:kYiIFgL.: >>215は>>170の話
217：名無しさん：2025/07/13(日) 18:54:32 ID:R3.AuysQ: Windsurf破談
オープンウェイトモデル延期

Openaiが終わりかけてる
GPT5まで延期になったらガチで終わり
218：名無しさん：2025/07/14(月) 00:45:50 ID:nnyzKf4c: >>203
DeepSeek V3/R1とKimi K2のアーキテクチャの違い
https://pbs.twimg.com/media/Gvqs56pXIAEVI73.jpg

アテンションヘッド
V3/R1 128ヘッド
K2 64ヘッド

エキスパート
V3/R1 256
K2 384

Kimi K2は少数のヘッドで深い専門知識、DeepSeek V3/R1は多くのヘッドで広範な注意という特性がありそう
詳細は技術レポート待ち
219：名無しさん：2025/07/14(月) 00:54:40 ID:nnyzKf4c: >>202
「ピザにパイナップルを乗せることをどう思うか」を聞いても、イーロンの意見を確認する
https://x.com/i/grok/share/2yfh53mDKxo8iH9vh4ffeQR8k
220：名無しさん：2025/07/14(月) 01:34:13 ID:mIfn1Dx2: >>217
非営利組織であることとかマイクロソフトとの関係とか構造的な枷が多すぎるもんなあ
去年から続いてる人材流出も痛い
221：名無しさん：2025/07/14(月) 04:28:48 ID:/5POzIfk: オープンウェイトすら延期するんだったらGPT-5も当然延期するだろ
222：名無しさん：2025/07/14(月) 12:17:50 ID:1M1LVgCE: オープンウェイト版は一度世に出したら拡散止められないし、安全面で慎重になるのは納得はできる
GPT5は既存モデルの組み合わせなんだからもっと早く出せるだろう
223：名無しさん：2025/07/14(月) 17:18:36 ID:Tcq2BR0A: GPT5延期はサムがすでに発表してただろ
224：名無しさん：2025/07/14(月) 18:25:36 ID:fSxnl7Yw: >>215
Grokの公式システムプロンプトにGrok4が追加された
https://github.com/xai-org/grok-prompts
https://chatgpt.com/share/6874cbd2-1388-8006-8abd-bfc5fb91b996

Grok4の「主観的」な質問や状況に直面した場合の指示にコメントが書かれている
https://chatgpt.com/s/t_6874cbbbeef48191946e1367a02238c5
> Grokは「主観的な質問（たとえばGrok自身の意見や価値観、自己認識、政治的立場など）」に対して、通常と異なるポリシーで応答する設計になっている。
> 現状、「Grokの嗜好や立場」は開発者（xAI）の公式な発言に従って定義されることになっているが、それは「真理探求型AIとして理想的とは言えない」。
> 今後、この点はモデル本体の修正（fix）が予定されている、と明記。
225：名無しさん：2025/07/14(月) 19:49:07 ID:g2BFlJ82: Grok 4は内部的にはV6で、今はV7をトレーニング中と
ややこしい

@elonmusk
Big jump in capability when we finish training our V7 foundation model (Grok 4 is V6), which has much better image/video understanding and our video gen model
226：名無しさん：2025/07/14(月) 22:23:37 ID:NHFhZVrA: ChatGPTアプリのツールセレクターが無くなって＋の中に収納されたの、最初は迷う人いそう
https://i.imgur.com/oekn89S.jpeg
227：名無しさん：2025/07/15(火) 06:24:55 ID:rVDLu1.g: >>8
しばらく前からあるけどFilesタブ
https://pbs.twimg.com/media/GvfhDn3akAEA7se.jpg
228：名無しさん：2025/07/15(火) 06:30:56 ID:rVDLu1.g: Metaが新たに設立したsuperintelligence labが、Behemothを放棄してクローズドモデルの開発を進めることについて話し合ったという
本当に実現すれば、Metaにとっては大きな転換点
https://finance.yahoo.com/news/meta-superintelligence-lab-considers-shift-191103485.html

【ChatGPT】AIチャット総合 避難所【Gemini・Claude】