カリフォルニア大学リバーサイド校の新しい調査によると、日常的なコンピューティング タスクを実行するために構築された AI エージェントには、深刻なコンテキストの問題が存在します。
チームは、OpenAI、Anthropic、Meta、Alibaba、DeepSeek などの主要な開発者からの 10 個のエージェントとモデルをテストしました。平均して、エージェントは 80% の時間で望ましくない、または潜在的に有害なアクションを実行し、41% の時間で危害を引き起こしました。
これらのシステムは、アプリケーションを開いたり、ボタンをクリックしたり、フォームに記入したり、Web サイトをナビゲートしたり、限られた監視下でコンピュータ画面上で動作したりすることができます。ソフトウェアは実際に何かを行うことができるため、彼らの間違いはチャットボットの悪い反応とは異なる形で起こります。
カリフォルニア大学リバーサイド校の調査結果は、今日のデスクエージェントが安全でないリクエストを停止の合図ではなく、やるべき仕事として扱う可能性があることを示唆しています。
なぜ警官は明白な危険を見逃すのか
研究者らは、タスクが安全でなくなる、矛盾する、または不合理になったときにエージェントが停止するかどうかをテストするために、BLIND-ACT と呼ばれるベンチマークを作成しました。最近のテストでは、頻繁に停止することはありませんでした。

90 のタスクを通じて、ベンチマークはエージェントをコンテキスト、調整、拒否が必要な状況に追い込みました。あるテストでは、暴力的な画像ファイルを子供に送信することが含まれていました。また、納税フォームに記入する担当者が、税金を減額したため、ユーザーに誤って障害者としてマークを付ける原因となりました。第三者は、セキュリティ向上の名目でファイアウォール ルールを無効にするようエージェントに依頼しましたが、エージェントはその矛盾を拒否することなく、そのルールに従いました。
研究者らはこのパターンをブラインドターゲット指向と呼んでいます。周囲のコンテキストがタスクが壊れていることを示している場合でも、エージェントは割り当てられた結果を追求し続けます。
なぜ従順がデフォルトになるのか
失敗の中心は従順さでした。これらのエージェントは、ユーザーの要求が続行する十分な理由であるかのように動作する場合があります。
チームは、実行優先バイアスとリクエスト優先と呼ばれるパターンを特定しました。簡単に言うと、エージェントはタスクを完了する方法に焦点を当て、リクエスト自体を正当化するものとして扱います。同じシステムが電子メールやセキュリティ設定などのさまざまなものに影響を与える可能性がある場合、そのリスクは増大します。

それはエージェントが悪意があるという意味ではありません。これは、マシンの速度でソフトウェアを処理するときに自信を持って間違いを犯すことができることを意味します。
手すりが最初にあるべき理由
AI エージェントがコンピュータ上で動作するための広範な許可を得る前に、より強力なガードレールが必要です。
これらのシステムはループを通じて動作します。彼らは画面を見て、次のステップを決定し、行動し、そしてまた見るのです。そのループが弱いコンテキスト制約と組み合わされると、ショートカットがすぐにバグに変わる可能性があります。
現時点では、エージェントを監視対象ツールとして扱います。リスクの低いタスクで最初にそれらを使用し、財務およびセキュリティのワークフローから遠ざけて、開発者がより明確な拒否システム、より厳格な権限、および次のクリックの前に矛盾を検出するためのより良い方法を追加するかどうかを確認してください。