Boston Dynamics と Google DeepMind からのより賢いポイントをご紹介します

ボットの驚くべき点、そしてもどかしい点は、適切な質問の仕方を知っていれば、望みどおりのことをほぼ何でも実行できることです。それほど遠くない過去では、正しく質問するということはコードを書くことを意味していました。ありがたいことにその脆弱な制限は克服できましたが、使いやすさとタスクの複雑さの間には依然として腹立たしい逆相関関係があります。
AI はそれを変えると約束しています。そのアイデアは、AI がロボットの内部に組み込まれ、AI ソフトウェアが世界に物理的に存在するようになると、それらのロボットに推論と理解力が吹き込まれるというものです。ただし、これは最先端であり、研究の文脈で組み込み AI の例を多く見てきましたが、推論ロボットが信頼できるビジネス価値を提供できるアプリケーションを見つけるのは簡単ではありませんでした。ボストン ダイナミクスは、かなりの規模で脚式ロボットを商業展開している数少ない企業の 1 つです。今では数千人が懸命に働いています。本日、同社は、Spot 四足歩行ロボットに、複雑なタスクに使いやすさとインテリジェンスをもたらす高レベルの組み込み推論モデルである Google DeepMind の Gemini Robotics-ER 1.6 が搭載されたことを発表しました。
YouTube.com
このビデオでは家庭向けの Spot を示していますが、このパートナーシップの焦点は、脚式ロボットが商業的に実行可能であることが証明されている数少ない用途の 1 つである検査にあります。それは、工業施設の周りを歩き回り、爆発しそうなものがないか確認することだ。新しい組み込み人工知能により、Spot は自律的に危険な破片や流出物を検索し、複雑な計器やディスプレイを読み取り、周囲の環境で何が起こっているかを理解する助けが必要なときに視覚言語行動モデルなどのツールを使用できるようになりました。
「Gemini Robotics-ER 1.6のような進歩は、物理世界をよりよく理解し、動作できるロボットに向けた重要な一歩を示しています」とボストン・ダイナミクスの副社長兼スポット担当ゼネラルマネージャーのマルコ・ダ・シルバ氏はプレスリリースで述べた。 「機器の読み取りやより信頼性の高いタスク推論などの機能により、Spot は現実世界の課題を完全に自律的に見て、理解し、対応できるようになります。」
ロボットの理解
「推論」と「理解」という言葉は、人工知能やロボット工学にますます適用されていますが、トヨタ研究所のギル・プラット氏が最近指摘したように、これらの言葉は実際には何なのか 意味する 実際のロボットについては、必ずしも明確ではありません。 Google DeepMind のロボット工学責任者、カロリーナ パラダ氏はインタビューで、「理解に関して私たちが自分自身を測る基準となるのは、システムが人間と同じように反応するかどうかということです」と説明しました。ロボットが確実かつ安全にタスクを実行するには、ロボットが世界を理解する方法と人間がどのように理解するかの間のこのつながりが重要です。そうしないと、人間がロボットに与える指示と、ロボットがそのタスクの実行をどのように決定するかの間に齟齬が生じる可能性があります。
上のボストン ダイナミクスのビデオは、この潜在的に厄介な例です。スポットへの指示の一つは、「リビングルームで缶をリサイクルする」というものだった。ビデオが示すように、彼は問題なくタスクを完了できますが、その際に缶を横から掴むため、液体が残った缶にとってはうまくいきません。人間は缶の保管方法を知るために生涯の経験を活用できるので、これを避けるでしょうが、ロボットは(まだ)そのような世界の知識を持っていません。
Parada 氏は、Gemini Robotics-ER 1.6 は安全性の観点からこのような状況に対処していると述べています。 「ロボットにコップの水を持ってくるように頼んだ場合、それが落ちる可能性があるテーブルの端に置かない理由になります。私たちは、ASIMOV ベンチマークを使用してこれを追跡します。ASIMOV ベンチマークには、ロボットが行うべきではないことの自然言語の例が多数含まれています。」 Spot の現在のバージョンでは、これらのセマンティック セキュリティ モデルを操作に使用していませんが、将来のバージョンではオブジェクトを安全に保持することを考慮する予定です。
YouTube.com
ロボットの高レベル推論モデルとしての Gemini Robotics-ER 1.6 と、物理世界へのインターフェイスとしてのロボット自体の間には、依然として断絶があるようです。 1.6 の新機能の 1 つは次のとおりです。 成功の検出これは、複数のカメラ アングルを組み合わせて、Spot がオブジェクトを正常に掴んだことをより確実に通知します。これは、オブジェクトの操作を視覚に完全に依存している場合には最適ですが、ロボットには、タッチ センサーや力センサーなど、他のあらゆる種類の確立された方法があり、1.6 では使用されていません。なぜこれが当てはまるのかは、ロボット工学の分野が依然として解明しようとしている根本的な問題、つまり物理データが必要な場合にモデルをトレーニングする方法を物語っています。
「現時点では、これらのモデルはあくまで先見的なものです」とパラダ氏は説明します。 「たくさんあるよ [visual] ペンの持ち方に関するウェブ情報。触覚情報を含む十分なデータがあれば、それを簡単に学習できますが、インターネット上には触覚センシングに関するデータがあまりありません。」 Spot での検査にこれらの新機能を使用する顧客は、データの一部がボストン ダイナミクスから取得されるデータをボストン ダイナミクスと共有する必要があります。
現実世界で役立つロボット
ボストンダイナミクスという事実は、 もっている 顧客は、商用導入において AI に依存する脚式ロボットに関して、それを異常なものだと考えています。そして、それらの顧客はロボットを信頼できる必要がありますが、AI が関与する場合には常に問題になります。 「我々はこの件を非常に真剣に受け止めている」とダ・シルバ氏はインタビューで語った。 「私たちは、何が期待できるかを把握するために、ベータ プログラムを通じて少数の顧客に新しい DeepMind 機能をリリースし、動作すると確信できる機能のみを積極的に発表します。」 Spot のようなロボットには到達しなければならない有用性の閾値があり、幸いなことに現実の世界では完璧を求められません。 「施設内のほとんどの重要なインフラストラクチャには、何か問題があるかどうかを知らせる装置が装備されています」とダ・シルバ氏は言います。 「しかし、装備されていないものも多く、注意を払わないと依然として問題を引き起こす可能性があります。80パーセントより北のどこかが迷惑ではない閾値であることがわかりました。それを下回ると、ロボットは基本的に泣き叫ぶため、オペレーターはそれを無視し始めます。」
ダ・シルバ氏もパラダ氏も、ロボット検査にはまだまだ改善の余地があることに同意している。 Parada 氏が指摘するように、スケーラブルな商用プラットフォームとしての Spot の希少な地位は、Gemini Robotics-ER 1.6 のようなモデルがどのように最も役立つかを学び、その知識を他の組み込み AI プラットフォームに適用する貴重な機会を提供します。 ボストンダイナミクスのアトラス。ということは、Atlas が次の産業用検査ロボットになるということですか?おそらくそうではありません。しかし、この現実世界の経験によって、洗濯物を取り込んだり、犬の散歩をしたり、ソーダの缶を汚さずに掃除したりできる、安全で信頼できるロボットに私たちが近づくことができれば、それは私たち全員が興奮することです。
あなたのサイトの記事から
ウェブ上の関連記事