La imposibilidad de la insesgadez: el sesgo de ignorar el sesgo en IA
Foto: trukdotcom · Wikimedia Commons · CC BY-SA 3.0
El discurso público sobre sesgos en IA opera bajo una asunción no examinada: que existe un estado de equilibrio —la insesgadez— al que un sistema bien diseñado podría converger. Esa asunción es falsa por razones formales, no políticas. El espacio de sesgos sociales es combinatorio, los criterios de equidad son mutuamente incompatibles, y omitir una dimensión del análisis es una toma de posición sobre ella. Lo único decidible es qué sesgos se hacen explícitos.
1. El espacio de sesgos es combinatorio
Sea $\mathcal{A} = \{a_1, a_2, \dots, a_n\}$ el conjunto de atributos socialmente relevantes —edad, género, etnia, clase, discapacidad, orientación, religión, nacionalidad, lengua, código postal, formación, estado de salud, situación migratoria, estructura familiar, ocupación, y un largo etcétera. El conjunto de sesgos potencialmente atribuibles a un sistema no es $\mathcal{A}$, sino el conjunto potencia $2^{\mathcal{A}}$ enriquecido con interacciones, porque la discriminación interseccional es real: el trato a una mujer mayor migrante no se reduce a la suma de los tres ejes.
Para $|\mathcal{A}| = 30$ —una estimación conservadora— el espacio de configuraciones evaluables supera $10^9$. Ningún procedimiento de auditoría, presupuesto regulatorio o conjunto de datos puede cubrirlo. Toda evaluación de sesgo es necesariamente una proyección sobre un subespacio. Esa proyección —qué ejes se miden y cuáles no— constituye ya una decisión normativa.
2. Los criterios de equidad son incompatibles
El resultado de Kleinberg, Mullainathan y Raghavan (2016), reforzado por Chouldechova (2017), establece que tres criterios razonables de equidad —calibración entre grupos, igualdad de tasas de falsos positivos e igualdad de tasas de falsos negativos— no pueden satisfacerse simultáneamente salvo en el caso degenerado en el que la prevalencia de la base sea idéntica entre grupos o el clasificador sea perfecto. Es un teorema, no una limitación de ingeniería.
Cualquier sistema que opere sobre poblaciones con prevalencias distintas y emita predicciones imperfectas —es decir, todo sistema real— viola al menos uno de los tres criterios. Optimizar uno empuja a los demás. La elección de qué criterio sacrificar es irreductiblemente normativa.
3. La asignación bajo restricción produce asimetría
Considérese un agente que distribuye un presupuesto fijo $B$ entre $k$ poblaciones $P_1, \dots, P_k$, cada una asociada a un atributo de $\mathcal{A}$. Sea $x_i \geq 0$ la asignación a $P_i$, sujeta a $\sum_i x_i = B$.
donde $u_i$ es el umbral mínimo de necesidad para $P_i$. Cuando $\sum_i u_i > B$ —la condición típica de la política social real— ninguna distribución satisface todos los principios razonables de equidad. Cualquier asignación es vulnerable a la acusación de discriminación desde algún eje. Gastar en discapacidad y no en mayores es edadista; lo inverso, capacitista. Repartir uniformemente ignora intensidad de necesidad. Repartir por necesidad introduce evaluaciones impugnables. La estructura matemática del problema garantiza que algo será etiquetable como sesgo.
4. El meta-sesgo: ignorar el sesgo es sesgar
De lo anterior se sigue una observación estructural raramente formulada. Sea $M$ el conjunto de dimensiones $a_i$ que un equipo de desarrollo decide auditar y mitigar; sea $\bar{M} = \mathcal{A} \setminus M$ el complementario. La pretensión de neutralidad respecto a $\bar{M}$ es incoherente: no medir equivale a aceptar la distribución inducida por los datos sobre esa dimensión, que casi nunca es la distribución moralmente neutra.
El acto mismo de seleccionar $M$ —qué sesgos cuentan como sesgos— es una prescripción normativa de orden superior. Llamémoslo meta-sesgo: el sesgo introducido por la elección del conjunto de sesgos a corregir. Toda IA opera bajo algún $M$, explícito o implícito. Una IA «sin sesgos» sería una IA con $M = \mathcal{A}$, lo cual es operativamente imposible (apartado 1) y lógicamente imposible (apartado 2).
El relativismo diría que todos los sesgos son equivalentes y la elección da igual. Este argumento dice lo contrario: que hay elecciones de $M$ mejor justificadas que otras, y que la tarea seria es defenderlas explícitamente.
Lo que niega es que exista una elección vacía, que no sea ya una posición. La supuesta neutralidad es siempre alguna posición disfrazada de no posición.
No es que la IA pueda ser sesgada o insesgada. Es que solo puede ser sesgada de un modo explícito y defendible, o de un modo implícito e impugnable.
5. Consecuencia operativa
La pregunta «¿es esta IA insesgada?» está mal planteada. Las preguntas bien planteadas son tres: ¿qué subconjunto $M$ de dimensiones se ha auditado?, ¿qué criterio del trilema de Kleinberg-Chouldechova se ha priorizado y por qué?, y ¿qué reglas de asignación bajo restricción se asumen y bajo qué justificación ética? Solo una IA capaz de responder esas tres preguntas con argumentos puede aspirar a ser defendiblemente sesgada, que es lo máximo a lo que cualquier sistema decisional —humano o artificial— puede aspirar.
El objetivo regulatorio sensato no es la insesgadez, que es incoherente, sino la trazabilidad del sesgo: que cada elección normativa incorporada al sistema sea identificable, justificable y revisable. Es la traducción al dominio algorítmico de la misma exigencia que se aplica al juez, al legislador y al médico. No se les pide ausencia de criterio. Se les pide criterio explícito.
Comentarios
Discusión pública vía GitHub Discussions. Requiere cuenta de GitHub para comentar.