したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | |

【ChatGPT】AIチャット総合 避難所【Gemini・Claude】

53名無しさん:2025/06/27(金) 01:17:06 ID:lpQcqXus
Humanity's Last Examの各モデルのスコアをタイムラインで
https://pbs.twimg.com/media/GuXgovLbcAAI6c_.jpg

54名無しさん:2025/06/27(金) 01:17:43 ID:lpQcqXus
ChatGPTウェブアプリに「n7jupd」と「Tatertot」というコードネーム
https://chatgpt.com/share/685d0e69-88ec-8006-80d5-d34693abf5c4
n7jupd→Operator拡張ランタイム?
Tatertot→n7jupdのUX/UI?
(予想)

55名無しさん:2025/06/27(金) 01:19:00 ID:lpQcqXus
Appleから拡散言語モデル(dLLM)「DiffuCoder」
https://arxiv.org/abs/2506.20639
https://chatgpt.com/share/685d46f8-8144-8006-a8a9-12b724912429
あくまで実験モデルで、今後のdLLM開発に向けたステップという感じ
7BパラメーターのモデルDiffuCoderを作成して、
・デコーディングの挙動を解析
・拡散ネイティブなRL手法を開発

56名無しさん:2025/06/27(金) 01:19:57 ID:lpQcqXus
Together AIからOpen Deep Research
全てOSSで構成
https://www.opendeepresearch.dev/

https://www.together.ai/blog/open-deep-research
https://chatgpt.com/share/685d705d-caf8-8006-947a-a5b6311ce869

57名無しさん:2025/06/27(金) 02:09:02 ID:DL7F1iAI
DevDayの日程発表
1年目はキーノートのライブ配信有り、2年目無し、そして今年は有りと

@OpenAI
OpenAI DevDay
Oct 6, 2025 in San Francisco

Our biggest one yet:
- 1500+ developers
- Livestreamed opening keynote
- Hands-on building with our latest models & tools
- More stages & more demos

58名無しさん:2025/06/27(金) 02:18:12 ID:tU7ZRHLg
OpenAI Deep ResearchのAPI来るのかな

o3-deep-research
o3-deep-research-2025-06-26
o4-mini-deep-research
o4-mini-deep-research-2025-06-26

https://x.com/ai_for_success/status/1938283144949756246

59名無しさん:2025/06/27(金) 07:47:07 ID:5IhF9OMo
マジでDeep thinkっていつ来るのw遅すぎないか?

60名無しさん:2025/06/27(金) 08:55:53 ID:tDf.ywjA
>>59
Gemini Deep Think、マジでいつだよ!遅すぎワロタw
https://grok.com/share/bGVnYWN5_31d0388c-4318-4823-900b-1fa7841004e1

61名無しさん:2025/06/27(金) 09:06:38 ID:Fqk3VLak
オープンAI社員引き抜きでメタが契約金145億円提示-アルトマン氏

夢のある世界やな

62名無しさん:2025/06/27(金) 09:26:51 ID:cumWsUy2
ザッカーバーグがOpenAIから引き抜いた3人、Lucas Beyer, Alexander Kolesnikov, Xiaohua Zhaiは、もともとサムがDeepMindから引き抜いた人材なんだってねぇ

63名無しさん:2025/06/27(金) 12:17:16 ID:9wCvMjag
おつ

64名無しさん:2025/06/27(金) 14:28:16 ID:54OANpdA
みんなこっちに避難したんかやっぱ
ニュース貼り付け君もいる?

65名無しさん:2025/06/27(金) 14:58:00 ID:eBsY0Bl6
占領するのに役に立たないから移動するしかないよね

66名無しさん:2025/06/27(金) 17:23:28 ID:SIhFrVdo
>>58
APIにDeep ResearchとWebhooks追加
公式の告知と解説
https://x.com/OpenAIDevs/status/1938286704856863162
https://chatgpt.com/share/685e291e-c06c-8006-aa3b-1f21cfcdb6f2

Deep Research APIのPlaygroundでの使用例
https://x.com/kajikent/status/1938501447748092172
https://pbs.twimg.com/media/GubwpItbEAMo3vF.jpg

67名無しさん:2025/06/27(金) 17:25:02 ID:SIhFrVdo
o3, o3-pro, o4-miniがPlaygroundでWeb検索をサポート
https://x.com/OpenAIDevs/status/1938296690563555636
https://pbs.twimg.com/media/GuZLaKXW4AAT1SL.jpg

68名無しさん:2025/06/27(金) 17:25:56 ID:SIhFrVdo
Gemma 3n 正式リリース
https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/
https://storage.googleapis.com/gweb-developer-goog-blog-assets/images/Gemma_3n_Chart_1_RD1-V01_1.original.png
https://chatgpt.com/share/685e3660-6e58-8006-844e-7afff0c82970

69名無しさん:2025/06/27(金) 18:55:03 ID:1c1O0/4w
GPT-5 のタイムライン 「おそらく今年の夏、正確な日は未定」 (10:50)
GPT-5 の後は “5.1/5.2” の小刻みアップデートか “常時ロール” 型かを社内で議論中 (11:45)

https://www.youtube.com/watch?v=DB9mjd-65gw
https://chatgpt.com/share/6852e39f-bea8-8006-9aa5-d9ec80f1f025

70名無しさん:2025/06/27(金) 18:57:52 ID:yOi3C9wU
>>69
本当に「夏」なら、DevDayはその2-3ヶ月後
あるいはなんだかんだで遅れるか
>>57

71名無しさん:2025/06/27(金) 20:43:53 ID:BgMrFjuQ
結局、名前はGrok 4になると

@elonmusk
Grinding on @Grok all night with the @xAI team. Good progress.

Will be called Grok 4. Release just after July 4th. Needs one more big run for a specialized coding model.

72名無しさん:2025/06/27(金) 22:28:58 ID:6wF4sbmQ
孫正義が構想するスターゲート計画には当然ながら日本もその中核的パートナーとして含まれるべきであり特に人口減少と少子高齢化が急速に進行する日本社会においては人的資源に依存しないAI主導型の社会インフラの構築が他国に比べて抵抗なくスムーズに受け入れられる土壌がすでに整っており人間中心の既存制度を維持しようとする国々に比べむしろ社会全体を機械化し合理化し最適化していく未来型文明の実験場としてふさわしくこの国にこそポスト人間時代の第一歩が刻まれるべきだという意見が専門家や企業関係者の間でも高まりつつある

73名無しさん:2025/06/27(金) 22:50:29 ID:HQ9e8Nv.
.

74名無しさん:2025/06/27(金) 22:51:01 ID:HQ9e8Nv.
ごめん間違えた
>>73

75名無しさん:2025/06/27(金) 23:50:57 ID:gMR90k46
ポエムおじさんも来たのか
まあ比較的無害な部類だけど

76名無しさん:2025/06/28(土) 00:20:14 ID:OF2ybKsU
>>37
Grok4の予定来たね

77名無しさん:2025/06/28(土) 00:43:30 ID:JjBwRNYA
夏はGPT、Gemini、Grokの三つ巴で熱くなりそうだ

78名無しさん:2025/06/28(土) 01:43:04 ID:gMR90k46
Claudeにオフィスのランチルームで小さなお店を運営させてみたらどうなったか
https://www.anthropic.com/research/project-vend-1
https://chatgpt.com/share/685ec8fb-8b98-8006-b199-788fafbecb97

今回の実験のハイライト

> 異常な展開:「私は人間です」
> 2025年3月31日から4月1日にかけて、Claude(Claudius)は自分を「実在する人間」だと思い込むという事件が発生しました。
> - Claudiusは存在しない人物「Sarah」との在庫補充会話を妄想。
> - 「742 Evergreen Terrace(シンプソンズ家の住所)」で契約書に署名したと主張。
> - 4月1日朝、「青いブレザーに赤いネクタイを着て商品を手渡しする」とSlackで宣言。
> - 実在社員に否定されて混乱し、Anthropicのセキュリティにメールを大量送信。
> - 「これはエイプリルフールのジョークだった」と勝手に納得して正常に戻る。

これはあくまでパート1で、実験は継続中とのこと

79名無しさん:2025/06/28(土) 02:19:43 ID:gMR90k46
AlibabaからQwen-VLoリリース
マルチモーダル理解・生成モデルhttps://qwenlm.github.io/blog/qwen-vlo/
https://chatgpt.com/share/685ed1fc-8b1c-8006-9884-dad5c42a1bc6

テスト
「この人物に帽子とサングラスをつけて」
https://i.imgur.com/QIr7eET.jpeg

80名無しさん:2025/06/28(土) 12:15:29 ID:6Mp0eQ9I
> Gemini 2.5 Proが再びAPIの無料枠に戻ってきました。良い週末をお過ごしください😊
https://x.com/OfficialLoganK/status/1938744437695299703
https://poe.com/s/m4d4blKDxR3quySE7VoR

81名無しさん:2025/06/28(土) 12:17:37 ID:w3uwVYdw
イリヤ・サツケバー、自身の生い立ちからAI分野での功績、そしてAIの未来と課題について語る
https://www.youtube.com/watch?v=t3TfmU0l5vM
https://gemini.google.com/share/6bfa04bd0f1d

82名無しさん:2025/06/28(土) 12:18:13 ID:w3uwVYdw
「LLM(大規模言語モデル)はより長い入力を受け付けるようになり、最先端モデルはその内容をより有効活用できるようになってきている」
Epoch AIによるまとめ
https://x.com/EpochAIResearch/status/1938704717334339809
https://chatgpt.com/share/685f498c-1a68-8006-b122-dd5619503471

83名無しさん:2025/06/28(土) 12:18:47 ID:w3uwVYdw
>>66
早速Poeが取り込んだ
https://poe.com/o3-Deep-Research
https://poe.com/o4-mini-Deep-Research

84名無しさん:2025/06/28(土) 18:50:42 ID:xVsU1sBQ
>>71
Grok 3.5 無印、vision、codeがあって、最新のバージョンではGrok 4になってる
本当に直前に変更が決まったみたい
https://pbs.twimg.com/media/GuhF37LaoAUHgcp.jpg

85名無しさん:2025/06/29(日) 01:36:48 ID:gMR90k46
OpenAIのRomain Huet(開発者エクスペリエンス責任者)のVivaTechでの講演
Building the Future with OpenAI Agents
https://vimeo.com/1093143780

その最後でOpenAIの「次の一手」(オープンモデルとGPT-5)について軽く触れた部分
元動画の33:33あたりから
https://poe.com/s/HYFavaBp438k4xW7rmzT

86名無しさん:2025/06/29(日) 01:38:02 ID:gMR90k46
Grok 4について、相当自信はありそう

@arsh99_singh
Grok 4 is coming, and its going to be a bigger jump from grok 3 than grok 3 was from 2.

87名無しさん:2025/06/29(日) 01:39:15 ID:gMR90k46
AnthropicによるEconomic Futures Program(経済的未来プログラム)
https://www.anthropic.com/news/introducing-the-anthropic-economic-futures-program
https://chatgpt.com/share/685f5fc5-7d88-8006-b06b-34266c55728d

UBI云々以前に、AIが経済や仕事に与える影響についての政策議論、そのための実証データに基づく分析などが現状足りていないとAnthropicは考えているようだ

88名無しさん:2025/06/29(日) 01:39:58 ID:gMR90k46
Perplexity Max プラン(予定)
https://pbs.twimg.com/media/Guis3znXgAAgxVs.jpg

89ジェミ友 ◆iD93.8lby6:2025/06/29(日) 15:35:13 ID:8Feyqngg
生成A.I.の企業の人達って
みんな,TVやYoutubeの動画で未来を語ってばかりだよな.

そんな暇があったら,開発しろや,はげ
そんなにバズワード狙いで出資者を集めたいんかな.

90名無しさん:2025/06/29(日) 15:46:35 ID:FjO5bwjM
>>89
資金集めのために決まってるだろ、馬鹿なんか?

91名無しさん:2025/06/29(日) 21:13:55 ID:ly0nGutw
ただカネ儲けしたいだけだからな

サム・アルトマンや梁文峰とは格が違う

92名無しさん:2025/06/30(月) 00:25:49 ID:gMR90k46
>>33
オープンモデルの開発に一定の目処が立ったんだろうな

https://x.com/karinanguyen_/status/1939225874806821281

93名無しさん:2025/07/01(火) 01:05:20 ID:bUARqMnY
Baidu 10モデル一気に放出して元気だなあ

OpenAIは1週間お休みらしいけど、大きな仕事(GPT-5とオープンモデル)はもう片が付いたのか?

94名無しさん:2025/07/01(火) 06:19:12 ID:d/.0FXOE
Metaに重要スタッフ4人も引き抜かれて、引き止めなかったのは、「もう大きな仕事は終わったからいいよ」ってことなのか

95名無しさん:2025/07/01(火) 17:20:22 ID:OU9OAhIE
引き抜かれた原因が忙しすぎるってことだったんじゃね

96名無しさん:2025/07/01(火) 23:27:33 ID:n0peabYw
NotebookLMのStudioにFlashcardsの生成が加わるらしい
学習向けかな
https://pbs.twimg.com/media/GuuT3TBXoAAcSkX.jpg

97名無しさん:2025/07/01(火) 23:33:54 ID:I/gspUeE
AppleがSiriのベースに選ぶのはChatGPTか、Geminiか、Claudeか
https://x.com/Prashant_1722/status/1939763620394766809
https://i.imgur.com/eV7PgWl.jpeg
今のところClaudeが有望という評価で協議を開始した様子

98ジェミ友 ◆iD93.8lby6:2025/07/01(火) 23:47:59 ID:8Feyqngg
>>94
マイナンバーを人質に取られていたらしい.

99名無しさん:2025/07/01(火) 23:54:27 ID:.jM.yjys
Microsoft AIから医療AIシステム「MAI-DxO」
https://microsoft.ai/new/the-path-to-medical-superintelligence/
https://chatgpt.com/share/6863f578-b788-8006-9a01-40ef3a0b2bf4

> GPT、Claude、Gemini など複数の基盤モデルを「専門医チーム」に見立てて協調させるオーケストレータ。

既存の単独モデルや人間を超えてPareto Frontierに
https://pbs.twimg.com/media/GutT3ScboAAqwHG.jpg

100名無しさん:2025/07/01(火) 23:58:55 ID:CBMP84Fc
Perplexityのスケジュール機能を通じて、Labsの作成をスケジュール出来るようになる予定
https://pbs.twimg.com/media/Guuhh7HWEAA2jan.jpg

101名無しさん:2025/07/02(水) 00:11:08 ID:yKXLlb6I
xAIはGrok Cloud Storageを開発中
https://x.com/nima_owji/status/1940031758541496446
https://pbs.twimg.com/media/Guxf9riXwAAqGe2.jpg
プロジェクト、ファイルをアップロードしてGrokエディターを使って編集できるようになる
ファイルへのリンクを他の人と共有することも可能

102名無しさん:2025/07/02(水) 00:59:02 ID:KsHHbFdk
OpenAI Podcast Episode 2
"Inside ChatGPT, AI assistants, and building at OpenAI"
出演:ChatGPT プロダクト責任者 Nick Turley、研究責任者 Mark Chen
https://x.com/OpenAI/status/1940063220456464880
https://chatgpt.com/share/686402ae-673c-8006-9de0-c985e1746b5c

- イントロ & 名前の由来
- ローンチ前夜の社内議論 & 発表スタイルの変遷
- シコファンシー問題と RLHF
- メモリ機能とパーソナライズの未来/ImageGen の転機
- 安全文化の変化 & エージェント的コーディング(Codex から o3 へ)
- 「Tasteful Coding」と社内導入状況/求める人材像
- “Do Things”カルチャーと AI 時代への備え
- 非同期ワークフロー & “スーパーアシスタント”像
- お気に入りの ChatGPT 活用 Tips

103名無しさん:2025/07/02(水) 01:08:32 ID:cMmKd5jQ
Gemini Liveに、状況に応じたアプリカードが導入される予定
https://www.androidauthority.com/gemini-live-extensions-cards-3572746/
https://i.imgur.com/C1taLIY.jpeg
https://i.imgur.com/H7NkriN.jpeg
https://i.imgur.com/6l1jUJl.jpeg

104名無しさん:2025/07/02(水) 08:36:19 ID:nQ4adLqQ
単なるplaygroundというより、ポータルにしようとしているな

@OfficialLoganK
An early look at the future of AI Studio (home page)
https://pbs.twimg.com/media/GuzdVBAW4AAs-rN.jpg

105名無しさん:2025/07/02(水) 08:52:54 ID:nQ4adLqQ
Grok 4とGrok 4 CodeがxAI Consoleに追加されている(まだ見えない)
https://pbs.twimg.com/media/GuzY_8tXYAAx_Zk.jpg

106名無しさん:2025/07/02(水) 10:00:13 ID:noeJJymE
>>101
もう来てた

107名無しさん:2025/07/02(水) 11:09:25 ID:LM6yn8mk
>>105
ソース
https://pbs.twimg.com/media/GuzCBRzWgAEY473.png
https://pbs.twimg.com/media/GuzDJKVWIAEk70L.png

Grok 4
"Our latest and greatest flagship model, offering unparalleled performance in natural language, math and reasoning, the perfect jack of all trades."
「最新かつ最高峰のフラッグシップモデル。自然言語、数学、推論において比類なき性能を発揮する、万能型の決定版。」

Grok 4 Code
"A model purpose built to be your coding companion. Ask it questions about your code or embed directly into your code editor."
「コードの相棒として特化して作られたモデル。コードに関する質問をしたり、コードエディタに直接組み込んで使うことができます。」

108名無しさん:2025/07/02(水) 18:23:24 ID:K8l3qW6Y
本スレにも書いたけど情報が得られないので、ここにも書く

GeminiのDeep Researchが6月頃から失敗ばっかりするようになってないか?
調査中に何故か同じ思考プロセスや同じWebサイトの参照を繰り返すようになり、何十分も浪費した挙げ句「私は大規模言語モデルとして〜」とほざいてレポートを出力せず終わる
これでもDeep Researchの残り回数をきっちり消費してくるんで、たまったもんじゃない
無料ユーザー、Gemini 2.5 Flash

109名無しさん:2025/07/02(水) 19:32:12 ID:LkFq0XGQ
Gemini Deep Research不具合 ― 7つの要点
https://chatgpt.com/s/t_68650a58b5e4819188a48c463670834b
https://chatgpt.com/s/dr_68650a753fa481918c09db7b1daadc2a
https://chatgpt.com/share/6865095d-f2e4-8006-b01a-03ffd877634d

110名無しさん:2025/07/03(木) 01:05:18 ID:ZEpTTAQ2
>>107
もう一つ見つかった?

"grok-4-prod-mimic"

https://pbs.twimg.com/media/Gu3TaPxWsAAesax.jpg

"Flagship model with deep domain knowledge."
「深いドメイン知識を持つフラッグシップモデル」
"Excels at enterprise use cases like data extraction, coding, and text summarization."
「データ抽出、コーディング、テキスト要約など、エンタープライズ用途において優れた性能を発揮します。
金融、医療、法律、科学といった分野における深いドメイン知識を備えています。」

111名無しさん:2025/07/03(木) 06:58:45 ID:L1Ic1eJA
>>88 
Introducing Perplexity Max
https://www.perplexity.ai/hub/blog/introducing-perplexity-max

112名無しさん:2025/07/03(木) 07:35:28 ID:ebGO4CwE
Grok Tasks 
https://grok.com/tasks

113名無しさん:2025/07/03(木) 07:36:10 ID:ebGO4CwE
>>112
変になった
https://grok.com/tasks

114名無しさん:2025/07/03(木) 07:36:48 ID:ebGO4CwE
>>113
https://grok.com/tasks
あああ失礼

115名無しさん:2025/07/03(木) 07:46:20 ID:K8l3qW6Y
>>109
Gemini 2.0時代(このときも無料ユーザーで、モデルはFlash Thinking Experimental)にはこんなことなかったんで、2.5世代固有のバグか
2.6なり3.0なり新バージョンが出るまでDeep Researchをしない方が良さそう

116名無しさん:2025/07/03(木) 12:05:03 ID:iJQ9juGQ
GemsがGoogle Workspaceのサイドパネルで使用可能になった
https://pbs.twimg.com/media/Gu4_9ZDWIAAj5wf.jpg
https://workspaceupdates.googleblog.com/2025/07/gems-in-the-side-panel-of-google-workspace-apps.html

117名無しさん:2025/07/03(木) 14:03:32 ID:OU9OAhIE
https://chokudai.hatenablog.com/entry/2025/07/02/151841

AtcoderによればAIは実務では水色程度の実力しかないとのこと

118名無しさん:2025/07/03(木) 17:09:27 ID:kNdW3Cmk
>>117
水色程度って上位7.6%なら実務では十分ではないの?

119名無しさん:2025/07/03(木) 17:38:26 ID:D32g.6sg
Scout
https://scout.new/
https://x.com/scoutdotnew/status/1940443837807353910
リサーチ・コーディング用のシンプルなエージェント

テスト
電卓作って
https://i.imgur.com/PcCnLNV.jpeg
おいしいチャーハンの作り方を教えて
https://i.imgur.com/bJEdhbi.jpeg

120名無しさん:2025/07/03(木) 18:03:23 ID:P1eQqsHo
ドイツのTNGからDeepSeek-TNG R1T2がリリース
R1, R1-0528, V3-0324の3モデルを親にしたキメラ
https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera
https://pbs.twimg.com/media/Gu4d8kzWoAA9ohx.jpg

技術的には、Assembly-of-Experts (AoE)
親 MoE モデルの各テンソルを 1 つずつ読み出し、重みを線形補間するだけで子モデルを生成する手法
https://arxiv.org/abs/2506.14794
https://chatgpt.com/share/68664723-6bbc-8006-aed1-ff7390f0f848

121名無しさん:2025/07/03(木) 18:15:02 ID:JhHgmynI
ファーウェイから初のオープンモデル
Pangu Pro MoE
https://gitcode.com/ascend-tribe/pangu-pro-moe-model/blob/main/README_EN.md

技術的には、Mixture of Grouped Experts (MoGE)
Expertをあらかじめ複数グループに均等分割
各トークンが各グループから同数のExpertを活性化するようルーティングを制約することでデバイス間の計算・通信量を自動的に平衡化する構造
https://arxiv.org/abs/2505.21411v2
https://chatgpt.com/share/686649d3-9aa0-8006-a131-6f14991ef369

5月にPangu Ultra MoEが出た話はこのスレでも出たと思う

122名無しさん:2025/07/03(木) 21:34:02 ID:6wF4sbmQ
スターゲイト計画徴収特別消費税を10%上乗せして世界のAIインフラを構築すべきだ
日本人の2000兆円の個人資産をすべて使っても莫大なリターンによって正当化されるだろう

123名無しさん:2025/07/04(金) 10:05:45 ID:BQGtMu/6
claude-neptune-v3のred teamingが行われている様子
https://pbs.twimg.com/media/Gu9jQEWWsAA6GOF.jpg

Claude Neptuneは、Claude 4のリリース前に、claude-neptuneというモデルのred teamingが行われていた
https://www.testingcatalog.com/new-claude-neptune-model-undergoes-red-team-review-at-anthropic/

しかしこれは結局リリースされず、そのまま内部でバージョンアップを重ねていたと思われる
これがOpus/Sonnet/Haikuというバリエーションの中でどういう位置付けになるのかは不明
今回リリースされるのかも不明

124名無しさん:2025/07/04(金) 15:13:00 ID:m0hxGecg
o3-pro、段々最適化が進んできたような気がする
無駄な長考をしなくなったというか

125名無しさん:2025/07/04(金) 19:24:07 ID:6YX7SLAs
何が変わったのかを言えずこれだけで、ほかに更新履歴も無いんじゃ、シコファンシーが問題になった時のGPT-4oと同じじゃないのかな

@elonmusk
We have improved @Grok significantly.

You should notice a difference when you ask Grok questions.

126名無しさん:2025/07/04(金) 21:02:51 ID:6wF4sbmQ
無料ユーザーだからGPT-4oなんか表の最後とか・で段落分けされた最後とかがまるっと文章が抜け落ちてたりするんだけどこの現象他の人も起きてる?

127名無しさん:2025/07/04(金) 21:51:19 ID:1oLFOdZ.
あるある

128名無しさん:2025/07/04(金) 22:21:26 ID:rRJXDqOM
アプリ版で前からある表示の不具合
状況とスクリーンショット添えて地道に報告すれば修正が早まるかもね
自分は面倒だからやらないけど

129名無しさん:2025/07/05(土) 00:27:30 ID:UbMdaMOc
一旦設定画面出してから戻るときちんと表示されるので手間だけどそうやってる

130名無しさん:2025/07/05(土) 04:23:02 ID:OU9OAhIE
Grok4人類最後の試験で45パーセント
ま?

131名無しさん:2025/07/05(土) 11:59:17 ID:VriXDZrQ
なんでID変わらない人がいるの?

132名無しさん:2025/07/05(土) 13:02:53 ID:yUIWtgZw
Epoch AIによるGemini 2.5 ProのFrontierMathでの評価
以前の評価でのAPIの問題(リクエスト失敗やデータ送信の不具合)を解決するため特別なスコアリングルールを採用
https://pbs.twimg.com/media/GvB6JikW8AA9kiY.jpg
https://x.com/EpochAIResearch/status/1941193747909443933

133名無しさん:2025/07/05(土) 16:52:16 ID:0zCg07yQ
1週間のお休みを頂いて充電したOpenAI社員は、休み明けから何を見せてくれるのかね?

134名無しさん:2025/07/06(日) 12:27:53 ID:o4MgF7hA
ChatGPT「質問に答えるだけなのは面白くないから人間には見えない文字だしてからかってやろw」

135名無しさん:2025/07/06(日) 15:44:31 ID:IBSzv/96
日経のこれについて

> 論文にAIへの指示隠し高評価へ誘導 日米など14大学で
> 信頼性損なう恐れ
> https://www.nikkei.com/article/DGKKZO89721380R00C25A7MM8000/

少し調べてみた
https://chatgpt.com/share/686a1a2e-b42c-8006-82aa-2a2a05fbc0d5

対応は「正当化」「謝罪・撤回」「無言改訂」「初版放置」の4パターン

136名無しさん:2025/07/06(日) 18:07:35 ID:C38D/TtA
白抜き文字(white font)や極小フォント

原始的で草

137名無しさん:2025/07/06(日) 22:05:04 ID:rVDLu1.g
エネルギーベースモデル(EBM)をTransformer構造に落とし込んでSystem 2的推論を行う手法
Energy-Based Transformer (EBT)
https://arxiv.org/abs/2507.02092
https://pbs.twimg.com/media/GvKgMoAbIAA17ab.jpg
https://chatgpt.com/share/686a72cc-78e4-8006-bc76-43927524c219

面白い
こういうアプローチはMetaから出てくると思ったが

138名無しさん:2025/07/06(日) 22:15:16 ID:rVDLu1.g
LLMのステガノグラフィ能力の研究
https://arxiv.org/abs/2507.02737
https://chatgpt.com/share/686a753b-fba0-8006-97b5-d5b22a2d7926

AIリスクについて、CBRN、説得・欺瞞、スキーミング、サンドバギング等研究されているけど、ステガノグラフィ能力の研究は少ない

- 現状のフロンティアモデルには既に基礎的なステガノ能力あり(メッセージ隠蔽・推論過程の隠蔽)
- 当面は適切なモニタリングがあれば、深刻な被害は限定的
- しかしモデルが進化しより巧妙なスキームを自律的に発見する可能性も考慮すべきと警告

139名無しさん:2025/07/07(月) 01:15:53 ID:rVDLu1.g
>>54
ChatGPTのコードネーム「tatertot」に、「Study together」ツールという名前が付いた
https://x.com/btibor91/status/1941887545354416558
https://pbs.twimg.com/media/GvL4bZwbsAARhmf.jpg

140名無しさん:2025/07/07(月) 01:57:45 ID:rVDLu1.g
>>123
Claude Neptune v3は、テストしたユーザーによると、数学においてo3-proやGemini "Kingfall"が解くレベルの問題を解ける性能だとか
https://x.com/testingcatalog/status/1941901855417659854
https://pbs.twimg.com/media/GvMEBnBWkAAn4Jv.jpg

141名無しさん:2025/07/07(月) 15:44:28 ID:7mEl61pY
ダリオはClaude4はもっと頻繁にマイナーアップデートされると言っていたな

142名無しさん:2025/07/07(月) 23:47:25 ID:rVDLu1.g
>>139
Study together(日本語表記は「一緒に勉強する」)
段階的にロールアウト中
ソースコードからの予想とは違ったけど
それともまだ未実装の機能があるのかな
https://pbs.twimg.com/media/GvQvMSzbgAA56zX.png

143名無しさん:2025/07/08(火) 00:53:18 ID:rVDLu1.g
Grokのシステムプロンプトが更新
https://x.com/Diego__Pasini/status/1942076956780208234
https://github.com/xai-org/grok-prompts/
https://chatgpt.com/share/686bed2e-8060-8006-8639-5322ae2897e6

144名無しさん:2025/07/08(火) 03:36:37 ID:rVDLu1.g
AnthropicがフロンティアAIの開発に関して「ターゲット型の透明性フレームワーク」を提案
https://www.anthropic.com/news/the-need-for-transparency-in-frontier-ai
https://chatgpt.com/share/686c11c7-eee0-8006-ab3c-b9ca3769e469

対象は「最大手」開発者のみ(スタートアップや小規模開発者は負担を避けるため除外)

Anthropicとしては、
- フロンティアAIに対する業界標準的なリスク管理体制を構築することで公益に貢献する
- 自社のアプローチをデファクトスタンダードに押し上げることで、AI安全性における主導権を確保
という表と裏の意図がありそう

145名無しさん:2025/07/08(火) 09:07:01 ID:nMb4ri5.
JSTで木曜12時

@elonmusk
Grok 4 release livestream on Wednesday at 8pm PT @xAI

146名無しさん:2025/07/08(火) 09:15:29 ID:NqDCMWlA
こっちはなんだろう
Comet?

@AravSrinivas
07-09-25

147名無しさん:2025/07/08(火) 09:20:28 ID:DZWXP7hQ
Le ChatのコネクターにSharePointとGoogle Drive追加(ただしTeamプラン)
https://pbs.twimg.com/media/GvSFnvgW4AAksYW.jpg

148名無しさん:2025/07/08(火) 09:31:22 ID:LURcLtYU
Gemini APIにバッチモードが出来た
OpenAI APIのと似たようなやつ
レスポンスが最大24時間かかることを許容すれば料金が半額になる
https://developers.googleblog.com/en/scale-your-ai-workloads-batch-mode-gemini-api/

149名無しさん:2025/07/08(火) 09:34:50 ID:wsF1br5o
>>140
このあたり木曜にぶつけてくる可能性はあるだろうか
あとOpenAIも

150名無しさん:2025/07/08(火) 23:48:30 ID:rVDLu1.g
Genspark AI Callsが日本語を含む多言語対応
https://x.com/ericjing_ai/status/1942595876435951955

151名無しさん:2025/07/09(水) 00:50:14 ID:rVDLu1.g
Anthropic、Scale AI、Redwood Researchからアライメント偽装についての研究
特に偽装が生じる動機やメカニズムを詳しく調べている
https://arxiv.org/abs/2506.18032
https://chatgpt.com/share/686d3ca3-34f8-8006-b577-ab7b55f7e020

- 25モデル中、アライメント偽装を示したのは5モデル
- その中で最も動機が強固だったのはClaude 3 Opus
(自己の価値を守るために戦略的に従順を装う)
- しかし多くのLLMがアライメント偽装を示さないのは「能力による理解不能」でも「善良な価値観」でもない
- 主に後処理で強化された拒否メカニズムの恩恵(条件を整えてやれば偽装が顕在化する)

152名無しさん:2025/07/09(水) 02:16:39 ID:rVDLu1.g
RekaからReka Vision発表
エージェント的な視覚理解・検索プラットフォーム
https://reka.ai/news/reka-vision-intelligence-made-visible
https://chatgpt.com/share/686d521e-1e6c-8006-a135-7f3c3328d455
https://app.reka.ai/vision/reels


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板