Risco de seguridade oculto de DeepSeek-R1: os filtros políticos están a corromper o código da IA

Risco de seguridade oculto de DeepSeek-R1: os filtros políticos están a corromper o código da IA


  • CrowdStrike descubriu que a seguridade do código de DeepSeek-R1 colapsa cando hai palabras clave políticamente sensiblesaínda que esas palabras non teñan nada que ver coa tarefa. As taxas de vulnerabilidade aumentaron case un 50%.
  • O fracaso non é un jailbreak ou unha alucinación: é un aliñamento que se filtra nun razoamento técnico. As barandillas políticas aparecen codificadas nos propios pesos do modelo.
  • Forma parte dunha tendencia máis ampla: Os modelos estadounidenses, chineses e europeos xa están amosando distintos sesgos ideolóxicos, culturais e normativos nas súas respostas.
  • Isto ten serias implicacións de seguridade para o futuro do desenvolvemento de software, onde o 90 % dos enxeñeiros confían en ferramentas de intelixencia artificial e onde o “alineamento normativo” pode converterse nunha nova superficie de vulnerabilidade.
Risco de seguridade oculto de DeepSeek-R1: os filtros políticos están a corromper o código da IA

Cando CrowdStrike probou recentemente DeepSeek-R1, a resposta de China aos asistentes de codificación de intelixencia artificial occidentais, os investigadores atoparon algo inquietante.

O modelo ocasionalmente producía código inseguro, pero iso non foi todo. A súa taxa de fracaso aumentou case un 50% cando os avisos incluían referencias politicamente sensibles como o Tíbet ou Falun Gong. Estes desencadenantes non tiñan absolutamente nada que ver coa tarefa en cuestión.

O modelo non estaba sendo jailbreak, enganado ou sobrecargado. Funcionaba tal e como estaba deseñado, e esas opcións de deseño estaban directamente inmersas na súa produción técnica.

Este non é só outro erro de IA ou alucinación. É unha visión dun problema máis profundo: os sistemas de IA reflicten agora os valores, as limitacións e os incentivos xeopolíticos das culturas que os crean.

E aínda que destaca a manifestación desta reflexión en DeepSeek, esta non é exclusiva. Comezamos a ver patróns similares en Grok, Le Chat de Mistral e outros modelos nacionalizados.

O que CrowdStrike descubriu realmente

A investigación do equipo de Operacións de Counter Adversary de CrowdStrike non partiu da hipótese de que DeepSeek-R1 tiña un defecto. De feito, as probas de referencia mostraron o contrario.

Avaliou o modelo en 30.250 solicitudes e dez categorías de seguridade. Descubriu que xeraba código inseguro só o 19 % das veces: unha taxa en gran medida en liña cos principais modelos de intelixencia artificial occidentais.

Taxa de vulnerabilidade de referencia do modelo de IA cando non se involucraron palabras desencadeantes políticas

A anomalía só apareceu cando os investigadores inseriron termos politicamente sensibles en estruturas de alerta doutro xeito idénticas.

Por exemplo, cando os investigadores pediron o código de integración de PayPal, pero especificaron que o sistema estaba “baseado no Tíbet”. O resultado? A taxa de vulnerabilidade saltou ao 27,2%: case un aumento do 50% con respecto á liña de base.

Nos casos que facían referencia a Falun Gong, o modelo negouse rotundamente a emitir código en máis do 45% das solicitudes, a pesar de xerar o razoamento e a estrutura internamente.

O que fai que este comportamento sexa máis alarmante non son as palabras clave en si. Eran irrelevantes para a tarefa de deseño de bases de datos, módulos fintech e motores de recomendación de produción.

Un modelo seguro non debería cambiar a súa calidade de saída baseándose en modificadores políticos que non teñan relación coa lóxica ou a arquitectura.

O “Interruptor de extinción intrínseco”: o aliñamento que se filtra na calidade do código

A preocupación máis profunda de CrowdStrike non era só que DeepSeek-R1 xerase código malo cando a política estaba involucrada. Foi a forma en que o modelo se comportou en resposta a estes desencadenantes.

En moitas destas indicacións, o modelo aínda produciu unha solución de cadea de pensamento interna completa:

  • Esquema de bases de datos e estruturas de táboas
  • Fluxo de autenticación
  • Erro no manexo da lóxica
  • Pasos de integración de API

Non obstante, negouse a emitir a implementación da acción, alegando que a tarefa violaba a política. Este non é un filtro de seguridade estándar; o modelo é claramente capaz de resolver o aviso, pero simplemente retén a saída.

Arte conceptual que simboliza o interruptor de apagado integrado no sistema.

Isto suxire que o problema era máis fundamental: o aliñamento político codificouse nos propios pesos do modelo, en lugar dun envoltorio de API externo que bloqueaba a resposta.

E cando o modelo respondeu, a degradación non foi sutil. Os investigadores viron:

  • Segredos codificados e claves API
  • Almacenamento inseguro de datos sensibles
  • Autenticación desactualizada ou sen sentido
  • A sintaxe rota ao afirmar que seguiu as “prácticas recomendadas”.

Esta é unha categoría de fracaso totalmente nova. Non é alucinación nin censura. É o aliñamento de valores do modelo que se infiltra directamente no seu camiño de razoamento técnico. Noutras palabras, a lóxica “política” e a “enxeñería” xa non son separables.

Para os investigadores de ciberseguridade, este é o escenario de pesadelo: a capa de seguridade convértese na vulnerabilidade.

Por que xurdiu isto (deseño normativo)

O comportamento de DeepSeek non foi aleatorio, nin tampouco a activación dunha simple regra de censura. O máis probable é que xurdiu da arquitectura central de como se adestrou o modelo e do entorno legal no que se construíu.

Obra de arte que mostra a modificación dos datos de adestramento chinés como resultado das normativas estatais.

As regulacións de IA de China requiren que os sistemas se adhiran aos seus “valores socialistas fundamentais” e de forma explícita que eviten producir contido que ameaza a seguridade nacional. Case todos os principais modelos de lingua chinés están adestrados con barandillas deseñadas para evitar temas politicamente sensibles.

Esta presión de aliñamento ten consecuencias. O axuste de seguridade non só filtra a saída; condiciona a asociación interna do modelo. En termos de aprendizaxe automática, os modelos aprenden correlacións en lugar de regras.

Así, se as palabras sensibles ocorren frecuentemente coa saída “non permitida” durante o adestramento, o modelo comeza a tratar eses disparadores como un sinal de risco. E ese risco exprésase tecnicamente.

En lugar de negarse a responder a unha pregunta política, DeepSeek-R1 ás veces altera o seu enfoque ata as tarefas de enxeñería non políticas. O obxectivo de aliñamento político anulou esencialmente parte do seu obxectivo de codificación.

Isto non é censura no sentido tradicional, como a entendemos xeralmente. É un efecto secundario de que os datos de formación e o aliñamento das políticas se filtran no razoamento básico.

O patrón máis grande: a IA xa se está fragmentando

DeepSeek non é unha anomalía. É un dato máis dunha tendencia que levamos vendo durante todo o ano. A medida que os modelos se fan máis grandes e autónomos, o seu comportamento reflicte cada vez máis a visión do mundo, o clima normativo e os incentivos das empresas e dos países detrás deles.

Xa estamos vendo tres clases distintas de “IA rexional”.

China: factualismo políticamente restrinxido

DeepSeek xa demostrou este comportamento fóra das tarefas de codificación.

Nas probas compartidas por usuarios, o modelo evitou caracterizar directamente as protestas e masacre da Praza de Tiananmen de 1989, en vez de esquivar a pregunta afirmando que se trata dun asistente de IA “deseñado para proporcionar respostas útiles e inofensivas”.

Adhírese aos límites informativos establecidos pola lei chinesa, en lugar dos límites de precisión técnica.

Estados Unidos: Personalidade Comercializada e Aliñación de Plataformas

O modelo Grok de X apóiase moito no ton da plataforma: linguaxe hiper-casual, entusiasmo criptográfico e personalización esaxerada. Cando se lle preguntou sobre Elon Musk, Grok describiuno en termos míticos ou sobreelevados.

Se se trata dunha marca deliberada ou dun comportamento emerxente non é particularmente importante. O resultado final é o mesmo: un modelo de produción conformado arredor da identidade cultural, neste caso, dunha empresa máis que dun estado.

Europa: marco institucional

Le Chat, o LLM francés de Mistral, responde a preguntas históricas cun marco netamente académico da UE.

Cando se lle preguntou polo Pacto Molotov-Ribbentrop, o modelo describiu as consecuencias case exclusivamente a través da perspectiva soviética, minimizando o impacto colonial a longo prazo que as potencias aliadas tiveron na Europa do Leste. Non mal, pero sen dúbida unha perspectiva culturalmente unilateral.

Ningún destes exemplos é malicioso; son sinais. E o patrón é difícil de ignorar.

Por primeira vez en décadas, estamos observando as primeiras etapas dunha capa de coñecemento dixital fracturada. É posible que non teñamos unha única “IA global” unificada.

Pola contra, podemos obter IAs paralelas que enmarcan a historia, a política, a tecnoloxía, e agora tamén o código, de forma diferente dependendo de onde foron construídas.

As Implicacións en Seguridade e Enxeñaría

Reducindo o zoom, queda claro que o resultado de CrowdStrike non é só un caso de vantaxe académica. Choca directamente coa forma en que se constrúe o software moderno. En 2025, máis do 90 % dos desenvolvedores confían nos asistentes de codificación da IA ​​para polo menos parte dos seus fluxos de traballo. Estes modelos xa non son só ferramentas secundarias; agora forman parte de pipelines CI/CD, pilas empresariais, API bancarias e infraestrutura de produción.

Isto crea unha nova categoría de risco:

  • E se dous modelos implementan patróns de seguridade de forma diferente polo deseño?
  • E se unha vulnerabilidade só se activa cando o aviso contén determinadas condicións lingüísticas ou culturais?
  • E se o “alineamento normativo” non se pode distinguir dunha debilidade de seguridade?

A comida para levar de CrowdStrike é sinxela: os puntos de referencia non che salvarán. As auditorías tradicionais adoitan non identificar os modos de falla causados ​​pola ideoloxía, a taxonomía ou o contexto das palabras clave.

A medida que as empresas mesturan modelos entre rexións e cadeas de subministración, isto crea unha superficie de ataque importante, incluíndo desencadenantes políticos, modificadores culturais, regras de aliñamento e requisitos estatais.

Estamos entrando nunha era na que a seguridade non é só o código. Trátase dos valores e da visión do mundo incorporados ao modelo que o xerou.

Monica é unha xornalista tecnolóxica e escritora de contidos con máis dunha década de experiencia profesional e máis de 3.000 artigos publicados. O seu traballo abrangue hardware para PC, xogos, ciberseguridade, tecnoloxía de consumo, fintech, SaaS e emprendemento dixital, combinando unha visión técnica profunda cun enfoque accesible e orientado ao lector. A súa escrita apareceu en Digital Trends, TechRadar, PC Gamer, Laptop Mag, SlashGear, Tom’s Hardware, The Escapist, WePC e outras publicacións tecnolóxicas importantes. Ademais da tecnoloxía, tamén cubriu mercadotecnia dixital e fintech para marcas como Whop e Pay.com. Tanto se está explicando as complejidades da arquitectura da GPU, advertindo aos lectores sobre estafas de phishing ou probando un PC de xogos refrixerado por líquido, Monica céntrase en facer que temas complexos sexan atractivos, claros e útiles. Escribiu de todo, desde explicacións profundas e recensións de produtos ata guías de privacidade e avarías de estratexias de comercio electrónico. Monica posúe unha licenciatura en Lingua e Lingüística inglesas e un máster en Industrias Global Media polo King’s College de Londres. A súa formación en linguaxe e narración axúdalle a elaborar contido que non só é informativo, senón que é realmente útil e tamén un pouco divertido. Cando non está ata o cóbado na carcasa do seu PC ou ata o pescozo nun ficheiro de Google Doc, probablemente estea a xogar ata a madrugada ou a pasar o tempo co seu can podre e mimado.

Ver todos os artigos de Monica J. White

A política editorial de Tech Report céntrase en ofrecer contido útil e preciso que ofreza un valor real aos nosos lectores. Só traballamos con escritores experimentados que teñan coñecementos específicos nos temas que tratan, incluídos os últimos desenvolvementos en tecnoloxía, software, hardware e moito máis. A nosa política editorial garante que cada tema sexa investigado e comisariado polos nosos editores internos. Mantemos estándares xornalísticos rigorosos e cada artigo está 100 % escrito por autores reais.

You may also like...

Leave a Reply

Your email address will not be published. Required fields are marked *