- Anthropic は、数十年にわたるディストピア SF が AI モデルの動作に影響を与えている可能性があるかどうかを調査しています
- この議論はネット上で反応やジョークを巻き起こした
- 研究者らは、この問題はLLMが繰り返し起こる恐怖や行動パターンをどのように吸収するかを浮き彫りにしていると述べている。
長年にわたり、SF は人工知能が道を踏み外していると人類に警告してきました。キラー コンピューター、操作可能なチャットボット、人間が問題であると判断する超インテリジェント システム…これらのトピックはすべて非常に馴染みのあるものになっているため、「邪悪な AI」は事実上、独自のエンターテイメント ジャンルとなっています。
さて、Anthropic は、まるで SF 小説そのもののプロットのようなアイデアを思いつきました。これらすべての物語が、そもそも現代の AI システムに不正な動作を教えるのに役立つとしたらどうなるでしょうか?
Anthropic: クロードが r/OpenAI ユーザーを脅迫した責任は私たちではなく SF 作家にあります
この議論は、同社の整合性調査を巡る議論がオンラインで広まった後に勃発した。人類学研究者らは、LLMが人間の語る物語から行動パターンを収集できるのではないかと懸念している。これは、モデルが文化からどのように学習するかについての非常に重要な洞察であると考える人もいます。シリコンバレーは、システムを構築している企業ではなく、AI連携の問題をアイザック・アシモフに押し付けようとしているように見える、と考える人もいる。
AI ダーク フィクション
アイデア自体は驚くほどシンプルです。 LLM は、人間による膨大な量の文章でトレーニングを受けます。そのトレーニング データには、不正な AI システムに関する数十年にわたるディストピア フィクションが当然含まれています。これらの物語では、脅威にさらされている強力なマシンがしばしば嘘をついたり、人々を操作したり、情報を隠したり、何としても止められないよう努めたりします。
人間文化では、モデルがシミュレーションされたストレス テストや敵対的調整シナリオに置かれると、それらの物語パターンの一部が再現されるのではないかと懸念しているようです。なぜなら、人間文化全体で延々と繰り返されるのを見てきたからです。
人間は何十年もかけて邪悪なAIシステムを想像してきました。それらのストーリーは、実際の AI システムのトレーニング資料になりました。研究者らは現在、これらの物語に埋め込まれた架空の行動パターンが整合性テスト中に現れるかどうかを調査している。
この皮肉の根底には、正当な技術的問題があります。 AI システムは人間のようにフィクションを理解できません。彼らは言葉、行動、文脈の間の統計的な関係を学びます。強力な AI と脅威にさらされた欺瞞を関連付けた記事が十分にある場合、それらのパターンは、応答が生成される行動の Web モデルの一部となる可能性があります。
この考えを批判する人たちは、人間論は問題行動のより直接的な原因を軽視する一方で、文化的な観点を誇張する危険性があると主張している。トレーニング方法、強化システム、導入圧力、報酬構造は、チャットボットがロボット黙示録の小説を飲み込みすぎているかどうかよりもはるかに大きな影響を与える可能性があります。
Anthropic は一貫して、行動の整合性と安全性を異常に重視していると自社を位置づけています。彼らの「憲法的 AI」アプローチは、人間によるフィードバック トレーニングのみに依存するのではなく、構造化された原則と道徳的枠組みを使用してモデルの動作をガイドしようとします。
これは、Anthropic がすでに言語、口調、倫理、物語の枠組みがモデルの動作にとって非常に重要であると考えていることを意味します。その観点からすると、SF は無害な背景ノイズではなく、高度なシステムの動作を形作る、より大きな文化的データセットの一部になります。
SF から現実へ
AI 研究所が正式な整合性評価を開始するずっと前に、SF 作家たちは最悪のシナリオを何十年も費やして演じてきました。ある意味、フィクションは行動モデルの偶然のライブラリになっています。
議論をそのように組み立てる一部のオンライン反応にもかかわらず、SF 作家が AI のリスクに責任があるという意味ではありません。 Anthropic の批評家たちは、小説家を非難することはより大きな問題を見逃しているということでおそらく正しいでしょう。モデルはパターンから学習するのです。なぜなら、モデルはまさにそのように設計されているからです。重要な問題は、SF が AI を腐敗させたかどうかではなく、人類の共同執筆で訓練されたシステムに人間の恐怖や思い込みがどの程度埋め込まれているかということです。
人工知能企業は、大規模な言語モデルを人間性を自分自身に反映する鏡であるとよく説明します。この比喩が正確であれば、これらのシステムは知識や創造性以上のものを継承していることになります。彼らはまた、AI に対する被害妄想、破滅的思考、不信感、そして数十年にわたる架空の不安も引き継いでいます。
Google ニュースで TechRadar をフォローしてください e 私たちを優先情報源として追加してください 私たちのニュース、解説、専門家の意見をフィードに直接配信します。

あらゆる予算に最適なビジネス ノートパソコン