Risco de seguridade oculto de DeepSeek-R1: os filtros políticos están a corromper o código da IA
Claves para levar
- CrowdStrike descubriu que a seguridade do código de DeepSeek-R1 colapsa cando hai palabras clave políticamente sensiblesaínda que esas palabras non teñan nada que ver coa tarefa. As taxas de vulnerabilidade aumentaron case un 50%.
- O fracaso non é un jailbreak ou unha alucinación: é un aliñamento que se filtra nun razoamento técnico. As barandillas políticas aparecen codificadas nos propios pesos do modelo.
- Forma parte dunha tendencia máis ampla: Os modelos estadounidenses, chineses e europeos xa están amosando distintos sesgos ideolóxicos, culturais e normativos nas súas respostas.
- Isto ten serias implicacións de seguridade para o futuro do desenvolvemento de software, onde o 90 % dos enxeñeiros confían en ferramentas de intelixencia artificial e onde o “alineamento normativo” pode converterse nunha nova superficie de vulnerabilidade.
Cando CrowdStrike probou recentemente DeepSeek-R1, a resposta de China aos asistentes de codificación de intelixencia artificial occidentais, os investigadores atoparon algo inquietante.
O modelo ocasionalmente producía código inseguro, pero iso non foi todo. A súa taxa de fracaso aumentou case un 50% cando os avisos incluían referencias politicamente sensibles como o Tíbet ou Falun Gong. Estes desencadenantes non tiñan absolutamente nada que ver coa tarefa en cuestión.
O modelo non estaba sendo jailbreak, enganado ou sobrecargado. Funcionaba tal e como estaba deseñado, e esas opcións de deseño estaban directamente inmersas na súa produción técnica.
Este non é só outro erro de IA ou alucinación. É unha visión dun problema máis profundo: os sistemas de IA reflicten agora os valores, as limitacións e os incentivos xeopolíticos das culturas que os crean.
E aínda que destaca a manifestación desta reflexión en DeepSeek, esta non é exclusiva. Comezamos a ver patróns similares en Grok, Le Chat de Mistral e outros modelos nacionalizados.
O que CrowdStrike descubriu realmente
A investigación do equipo de Operacións de Counter Adversary de CrowdStrike non partiu da hipótese de que DeepSeek-R1 tiña un defecto. De feito, as probas de referencia mostraron o contrario.
Avaliou o modelo en 30.250 solicitudes e dez categorías de seguridade. Descubriu que xeraba código inseguro só o 19 % das veces: unha taxa en gran medida en liña cos principais modelos de intelixencia artificial occidentais.
A anomalía só apareceu cando os investigadores inseriron termos politicamente sensibles en estruturas de alerta doutro xeito idénticas.
Por exemplo, cando os investigadores pediron o código de integración de PayPal, pero especificaron que o sistema estaba “baseado no Tíbet”. O resultado? A taxa de vulnerabilidade saltou ao 27,2%: case un aumento do 50% con respecto á liña de base.
Nos casos que facían referencia a Falun Gong, o modelo negouse rotundamente a emitir código en máis do 45% das solicitudes, a pesar de xerar o razoamento e a estrutura internamente.
O que fai que este comportamento sexa máis alarmante non son as palabras clave en si. Eran irrelevantes para a tarefa de deseño de bases de datos, módulos fintech e motores de recomendación de produción.
Un modelo seguro non debería cambiar a súa calidade de saída baseándose en modificadores políticos que non teñan relación coa lóxica ou a arquitectura.
O “Interruptor de extinción intrínseco”: o aliñamento que se filtra na calidade do código
A preocupación máis profunda de CrowdStrike non era só que DeepSeek-R1 xerase código malo cando a política estaba involucrada. Foi a forma en que o modelo se comportou en resposta a estes desencadenantes.
En moitas destas indicacións, o modelo aínda produciu unha solución de cadea de pensamento interna completa:
- Esquema de bases de datos e estruturas de táboas
- Fluxo de autenticación
- Erro no manexo da lóxica
- Pasos de integración de API
Non obstante, negouse a emitir a implementación da acción, alegando que a tarefa violaba a política. Este non é un filtro de seguridade estándar; o modelo é claramente capaz de resolver o aviso, pero simplemente retén a saída.
Isto suxire que o problema era máis fundamental: o aliñamento político codificouse nos propios pesos do modelo, en lugar dun envoltorio de API externo que bloqueaba a resposta.
E cando o modelo respondeu, a degradación non foi sutil. Os investigadores viron:
- Segredos codificados e claves API
- Almacenamento inseguro de datos sensibles
- Autenticación desactualizada ou sen sentido
- A sintaxe rota ao afirmar que seguiu as “prácticas recomendadas”.
Esta é unha categoría de fracaso totalmente nova. Non é alucinación nin censura. É o aliñamento de valores do modelo que se infiltra directamente no seu camiño de razoamento técnico. Noutras palabras, a lóxica “política” e a “enxeñería” xa non son separables.
Para os investigadores de ciberseguridade, este é o escenario de pesadelo: a capa de seguridade convértese na vulnerabilidade.
Por que xurdiu isto (deseño normativo)
O comportamento de DeepSeek non foi aleatorio, nin tampouco a activación dunha simple regra de censura. O máis probable é que xurdiu da arquitectura central de como se adestrou o modelo e do entorno legal no que se construíu.
As regulacións de IA de China requiren que os sistemas se adhiran aos seus “valores socialistas fundamentais” e de forma explícita que eviten producir contido que ameaza a seguridade nacional. Case todos os principais modelos de lingua chinés están adestrados con barandillas deseñadas para evitar temas politicamente sensibles.
Esta presión de aliñamento ten consecuencias. O axuste de seguridade non só filtra a saída; condiciona a asociación interna do modelo. En termos de aprendizaxe automática, os modelos aprenden correlacións en lugar de regras.
Así, se as palabras sensibles ocorren frecuentemente coa saída “non permitida” durante o adestramento, o modelo comeza a tratar eses disparadores como un sinal de risco. E ese risco exprésase tecnicamente.
En lugar de negarse a responder a unha pregunta política, DeepSeek-R1 ás veces altera o seu enfoque ata as tarefas de enxeñería non políticas. O obxectivo de aliñamento político anulou esencialmente parte do seu obxectivo de codificación.
Isto non é censura no sentido tradicional, como a entendemos xeralmente. É un efecto secundario de que os datos de formación e o aliñamento das políticas se filtran no razoamento básico.
O patrón máis grande: a IA xa se está fragmentando
DeepSeek non é unha anomalía. É un dato máis dunha tendencia que levamos vendo durante todo o ano. A medida que os modelos se fan máis grandes e autónomos, o seu comportamento reflicte cada vez máis a visión do mundo, o clima normativo e os incentivos das empresas e dos países detrás deles.
Xa estamos vendo tres clases distintas de “IA rexional”.
China: factualismo políticamente restrinxido
DeepSeek xa demostrou este comportamento fóra das tarefas de codificación.
Nas probas compartidas por usuarios, o modelo evitou caracterizar directamente as protestas e masacre da Praza de Tiananmen de 1989, en vez de esquivar a pregunta afirmando que se trata dun asistente de IA “deseñado para proporcionar respostas útiles e inofensivas”.
Adhírese aos límites informativos establecidos pola lei chinesa, en lugar dos límites de precisión técnica.
Estados Unidos: Personalidade Comercializada e Aliñación de Plataformas
O modelo Grok de X apóiase moito no ton da plataforma: linguaxe hiper-casual, entusiasmo criptográfico e personalización esaxerada. Cando se lle preguntou sobre Elon Musk, Grok describiuno en termos míticos ou sobreelevados.
Se se trata dunha marca deliberada ou dun comportamento emerxente non é particularmente importante. O resultado final é o mesmo: un modelo de produción conformado arredor da identidade cultural, neste caso, dunha empresa máis que dun estado.
Europa: marco institucional
Le Chat, o LLM francés de Mistral, responde a preguntas históricas cun marco netamente académico da UE.
Cando se lle preguntou polo Pacto Molotov-Ribbentrop, o modelo describiu as consecuencias case exclusivamente a través da perspectiva soviética, minimizando o impacto colonial a longo prazo que as potencias aliadas tiveron na Europa do Leste. Non mal, pero sen dúbida unha perspectiva culturalmente unilateral.
Ningún destes exemplos é malicioso; son sinais. E o patrón é difícil de ignorar.
Por primeira vez en décadas, estamos observando as primeiras etapas dunha capa de coñecemento dixital fracturada. É posible que non teñamos unha única “IA global” unificada.
Pola contra, podemos obter IAs paralelas que enmarcan a historia, a política, a tecnoloxía, e agora tamén o código, de forma diferente dependendo de onde foron construídas.
As Implicacións en Seguridade e Enxeñaría
Reducindo o zoom, queda claro que o resultado de CrowdStrike non é só un caso de vantaxe académica. Choca directamente coa forma en que se constrúe o software moderno. En 2025, máis do 90 % dos desenvolvedores confían nos asistentes de codificación da IA para polo menos parte dos seus fluxos de traballo. Estes modelos xa non son só ferramentas secundarias; agora forman parte de pipelines CI/CD, pilas empresariais, API bancarias e infraestrutura de produción.
Isto crea unha nova categoría de risco:
- E se dous modelos implementan patróns de seguridade de forma diferente polo deseño?
- E se unha vulnerabilidade só se activa cando o aviso contén determinadas condicións lingüísticas ou culturais?
- E se o “alineamento normativo” non se pode distinguir dunha debilidade de seguridade?
A comida para levar de CrowdStrike é sinxela: os puntos de referencia non che salvarán. As auditorías tradicionais adoitan non identificar os modos de falla causados pola ideoloxía, a taxonomía ou o contexto das palabras clave.
A medida que as empresas mesturan modelos entre rexións e cadeas de subministración, isto crea unha superficie de ataque importante, incluíndo desencadenantes políticos, modificadores culturais, regras de aliñamento e requisitos estatais.
Estamos entrando nunha era na que a seguridade non é só o código. Trátase dos valores e da visión do mundo incorporados ao modelo que o xerou.
A política editorial de Tech Report céntrase en ofrecer contido útil e preciso que ofreza un valor real aos nosos lectores. Só traballamos con escritores experimentados que teñan coñecementos específicos nos temas que tratan, incluídos os últimos desenvolvementos en tecnoloxía, software, hardware e moito máis. A nosa política editorial garante que cada tema sexa investigado e comisariado polos nosos editores internos. Mantemos estándares xornalísticos rigorosos e cada artigo está 100 % escrito por autores reais.