Los benchmarks actuales en inteligencia artificial (IA) están siendo cuestionados debido a su incapacidad para evaluar adecuadamente el rendimiento real de estos sistemas en situaciones del mundo real. Por mucho tiempo, el enfoque se ha centrado en medir la capacidad de la IA en tareas aisladas, donde se espera que los modelos superen a los humanos en precisión y velocidad. Sin embargo, esta perspectiva es engañosa y limitada. En la vida real, la IA no realiza tareas de manera aislada; interactúa constantemente con equipos humanos en flujos de trabajo complejos. Este desajuste entre cómo se mide la IA y cómo se utiliza en la práctica lleva a malinterpretaciones sobre su eficacia y potencial, destacando la urgente necesidad de un cambio hacia métodos de evaluación más integradores y contextuales.
Las organizaciones, tanto gubernamentales como del sector privado, utilizan los resultados de los benchmarks de IA para tomar decisiones críticas sobre la implementación de tecnología en sus operaciones. Sin embargo, como se ha observado en múltiples casos, incluso modelos de IA que brillan en pruebas de benchmarks pueden fallar estrepitosamente al trasladarse a entornos laborales reales. Por ejemplo, han surgido problemas en la implementación de IA médica, donde los sistemas no logran replicar la complejidad y colaboración que caracterizan las decisiones clínicas en equipos multidisciplinarios. La falta de alineación entre la evaluación en laboratorio y el contexto de uso demuestra que las calificaciones altas no siempre se traducen en un impacto positivo en el trabajo real.
Para abordar esta brecha, Angela Aristidou propone una nueva metodología de evaluación llamada benchmarks HAIC, que significa Evaluación Humano–IA, Específica del Contexto. Este enfoque se centra en el rendimiento dentro de equipos de trabajo y considera el impacto a largo plazo de la IA en lugar de solo resultados inmediatos. Aristidou sugiere que, al ampliar la unidad de análisis de tareas individuales a flujos de trabajo colaborativos, se puede obtener una imagen más precisa de cómo la IA interactúa con los humanos e influye en el proceso de toma de decisiones. Esto no solo cambiaría cómo evaluamos el rendimiento de la IA, sino también cómo ajustamos nuestras expectativas en términos de su integración en la vida diaria.
Además de redefinir la unidad de análisis, los benchmarks HAIC proponen un enfoque más dinámico que implica observar el desempeño de la IA a lo largo del tiempo. Esta metodología reconoce que las habilidades necesarias para el rendimiento en el mundo real son relacionales y emergen a partir de interacciones continuas. En un estudio de caso en el sector humanitario, se observó cómo un sistema de IA funcionó en un contexto laboral real durante 18 meses, midiendo su capacidad para detectar y corregir errores. Este enfoque no solo revela la efectividad de la IA en tareas específicas, sino que también ayuda a establecer guardarraíles que fomenten la confianza entre los humanos y la IA, poniendo de relieve la necesidad de atención constante y mejora continua.
Finalmente, aunque el enfoque HAIC puede ser más complejo y requerir recursos considerables para su implementación, representa un paso necesario hacia mediciones más pertinentes del impacto de la IA en el mundo laboral. En un entorno donde las decisiones se basan en datos y análisis, es crucial entender no solo cómo un modelo de IA opera de manera independiente, sino también cómo afecta las dinámicas colaborativas y de rendimiento del equipo. Si nuestra meta es desplegar la IA de manera responsable en situaciones del mundo real, es vital que nuestras evaluaciones reflejen estos aspectos y no se limiten a resultados óptimos en condiciones artificiales.










