¿Están los gobiernos utilizando la IA como arma para reformular el discurso público y encubrir sus crímenes?
Los denunciantes de la Organización de Integridad de Meta han compartido datos con International Corruption Watch (ICW), revelando evidencia de una estrategia de censura masiva que abusa del sistema de informes de Meta.
/image%2F1488937%2F20250827%2Fob_7806d9_image-68.png)
Proceso de desmontaje normal
- Informes de usuario: cualquier usuario de Facebook puede marcar una publicación.
- Cribado de IA: La publicación es primero verificada por un modelo de IA de cumplimiento del contenido que revisa el texto y los medios asociados. Si el modelo está seguro, eliminará la publicación.
- Revisión humana: si el modelo no es seguro, el informe se enviará a un revisor humano.
- Bucle de entrenamiento: si un humano aprueba la eliminación, la publicación se etiqueta como un dato de entrenamiento y se retroalimenta al conjunto de datos de entrenamiento de la IA, lo que permite que el modelo se adapte en tiempo real.
La descripción pública de Meta de este proceso está disponible en https://transparency.meta.com/enforcement/detecting-violations/how-enforcement-technology-works .
Dar prioridad a las solicitudes del gobierno
Los gobiernos y las entidades privilegiadas tienen acceso especial para enviar solicitudes de retirada. Estas solicitudes tienen prioridad y se envían directamente a revisores humanos. Pueden enviarse mediante formulario o correo electrónico directo a Meta, según el país iimplicado.
Estos informes se procesan con mayor rapidez y tienen mayor probabilidad de ser eliminados. De igual forma, cuando son aprobados por un usuario, se les asigna una etiqueta y se añaden al conjunto de datos de entrenamiento.
Cuando se aprueban grandes cantidades de solicitudes enviadas por el gobierno, el modelo de IA recibe una avalancha de ejemplos etiquetados con los que se entrena aún más.
Cuando se abusa de él, este es un ejemplo de un ataque de aprendizaje automático llamado "envenenamiento de datos". El modelo eventualmente se sesga considerablemente hacia la eliminación del contenido que coincide con el patrón de los informes.
Investigación de International Corruption Watch
/image%2F1488937%2F20250827%2Fob_f87e58_34844d18-a3f9-45c7-9831-6808a2fc93e0-7.png)
El ICW teoriza que gobiernos como el israelí utilizan la información masiva durante una crisis para influir en la opinión pública. En este informe, el ICW recopiló datos y analizó las solicitudes de eliminación de contenido del gobierno israelí.
Antes del ataque del 7 de octubre, el gobierno israelí reportaba un promedio de aproximadamente 100 al día. Tras el ataque, el volumen diario se disparó a entre 150 y 400 reportes.
Cada informe está asociado al país de origen de la publicación. A diferencia de otros países, los datos muestran que Israel se centró en las publicaciones originadas en países vecinos, como Egipto, Jordania, Palestina, Argelia y Yemen. Estos pocos países vecinos representaron un impresionante 69% de sus informes. Los informes israelíes sobre publicaciones originadas en EE. UU. representaron solo el 0,7% del volumen total de informes.
/image%2F1488937%2F20250827%2Fob_c8cb21_dab920fb-b0de-41d5-8ca8-516f0049a7d9-7.png)
Al hacer zoom, podemos ver cómo la actividad aumentó después del 7 de octubre y cambió el enfoque de Palestina a la región circundante. También cabe señalar la disminución de los informes cada siete días, coincidiendo con el Shabat.
Aunque Israel tiene la mayor cantidad de solicitudes de eliminación per cápita, hay otros gobiernos que también envían grandes cantidades de informes, incluidos Pakistán, Malasia, Brasil, Bangladesh, India, Indonesia y los Emiratos Árabes Unidos.
Sorprendentemente, estos países se centran en eliminar publicaciones dentro de sus propios países y por categorías de eliminación bastante diferentes (“localmente ilegales”).
A continuación se muestra un gráfico del informe que muestra los principales países informantes en comparación con las naciones sobre las que informaron:
/image%2F1488937%2F20250827%2Fob_bf7157_68652475-bde9-4ea4-b09d-58c6b2277ddc-6.png)
El equipo de ICW examinó la correlación entre todos los informes marcados automáticamente como "terroristas" por la IA de Meta en cada país. Como puede observarse, se produjo un pico considerable tras el 7 de octubre. Esto sugiere un sobreajuste del modelo.
/image%2F1488937%2F20250827%2Fob_7bbaba_7425c9b6-dcf9-4cba-a17b-7308f25111f8-8.png)
La inteligencia artificial de Meta se volvió hipersensible a cualquier contenido que incluyera imágenes de noticias o debates sobre Palestina, lo que provocó una eliminación a gran escala en todo el mundo.
Esto equivale a que el contenido esté censurado en todos los países al mismo tiempo.
Según el informe de ICW, el gobierno israelí presentó una plantilla única para cada solicitud de retirada. Esta contenía:
- Una descripción del ataque del 7 de octubre y un relato oficial israelí
- Citas de leyes antiterroristas israelíes
- Enlaces a múltiples publicaciones denunciadas
El informe afirma que se enviaron solicitudes idénticas decenas de miles de veces sin ningún contexto o razonamiento adicional para cada publicación.
Los datos indican que Meta aprobó estos informes el 94 % de las veces, con una revisión humana promedio de 30 segundos. Esta tasa de aprobación fue mucho más exitosa y rápida que en otros países.
Esto sugiere que hay un sesgo inusual hacia los informes de origen israelí.
ICW estima que aproximadamente 38,8 millones de publicaciones han sido procesadas por el envenenamiento de datos del Modelo de Control de Contenido. Las publicaciones se eliminaron no porque infringieran la política, sino porque el modelo estaba sobreentrenado con informes masivos del gobierno.
El informe de ICW podría verse reforzado por un análisis anterior de Human Rights Watch que demostró que Israel utiliza la información masiva para reprimir a las críticas, calificando las publicaciones como spam. Meta reconoció posteriormente la censura involuntaria y emitió una disculpa.
Esto indica un nuevo paradigma de censura asistida por IA donde se utiliza un ciclo de retroalimentación:
Informes gubernamentales privilegiados y de gran volumen —> Aprobación humana rápida —> Reentrenamiento de IA —> IA optimizada para censurar contenido similar
Cuando las entradas a la IA de contenido son manipuladas y aceptadas, el sesgo del modelo resultante puede silenciar el discurso legítimo.
Sería extremadamente preocupante si los gobiernos utilizaran la IA como arma para reformular el discurso público y encubrir sus crímenes.
Dado que este tipo de actividad no es nueva y Meta la reconoció, es improbable que veamos una moderación justa en ninguna plataforma grande. Se necesitan urgentemente plataformas descentralizadas alternativas.
/image%2F1488937%2F20250827%2Fob_f708df_tbot-ep10-meta-clear-1.jpg)