レス数が1スレッドの最大レス数(1000件)を超えています。残念ながら投稿することができません。

技術的特異点/シンギュラリティ【総合】避難所17

293：名無しさん (ｽﾌﾟｰ 1dfe-ff60)：2024/02/17(土) 21:21:12 ID:269by.BsSd: >>290
ロボットの頭脳を動かすマルチモーダルな視覚言語「PaLM-E」とは何か？（Google Tales） | テクノエッジ TechnoEdge
https://www.techno-edge.net/article/2023/03/14/1009.html

PaLM-E（Pathways Language Model with Embodied）は、Googleの巨大な言語モデルPaLMを、ロボットがカメラや腕などのセンサーから取り込むデータで補完することで「E」mbodied（具現化）します。ロボットが取り込むモーダルは映像や音声、触覚です。

これを頭脳にしたロボットは、人間が声で命令したことを実行できます。GitHubで公開されているデモ動画では「引き出しの中のスナックの袋を私にちょうだい」と命令すると、ロボットが引き出しまで行き、引き出しを開けてスナックの袋を出し、それを掴んで命令した人のところに届けます。

人間がいじわるをして、ロボットが出したスナックを引き出しに戻しても（つまり、状況が途中で変わっても）、何度でも命令を実行するために動作を修正して繰り返します。

すごそうですが、ただでさえPaLMはサイズが大きい（言語モデルのサイズを表す「パラメータ数」でいうと、GPT-3.5が3550億のところ、PaLMの一番大きいやつは5400億）のに、さらに具現化のための機能を追加したらとんでもないサイズになって処理能力が追いつかないのでは？　紹介動画も、ハードウェア的な問題もあるかもしれませんが、ミッションクリアまでにかなり時間がかかっていることが分かります（動画は4倍速です）。

掲示板管理者へ連絡無料レンタル掲示板