Xataka – La IA académica vive su crisis más silenciosa: publicar importa más que investigar

Durante el pasado mes de marzo ICML (International Conference on Machine Learning), la conferencia académica dedicada al aprendizaje automático (machine learning) más antigua del mundo, rechazó de golpe 497 artículos científicos después de detectar que 506 revisores habían recurrido a la inteligencia artificial (IA) para escribir sus evaluaciones. Habían violado una norma que ellos mismos habían acordado respetar.

Esta conferencia está organizada por la International Machine Learning Society (IMLS), una organización sin ánimo de lucro, y se celebra anualmente desde 1980. Cada año los investigadores que desarrollan su actividad en el ámbito de la IA envían sus artículos científicos a finales de enero o principios de febrero a ICML. Esos papers son revisados por un comité constituido por otros investigadores de este campo con el propósito de evaluarlos y publicarlos si finalmente superan una revisión minuciosa que normalmente dura varios meses.

Las decisiones de aceptación o rechazo de los artículos suelen comunicarse a los autores durante el mes de mayo, y la conferencia ICML se celebra habitualmente en julio. Publicar en ICML, NeurIPS (Conference and Workshop on Neural Information Processing Systems) o ICLR (International Conference on Learning Representations) equivale a lo que en otras disciplinas sería publicar en las revistas científicas Nature o Science. Pero ICML tiene un problema grave: su autoridad está siendo cuestionada en r/MachineLearning, una comunidad de Reddit especializada en machine learning que tiene más de 2,5 millones de suscriptores.

Una perversión en la que los revisores no tienen tiempo para revisar

Antes de seguir adelante merece la pena que nos detengamos en un hito muy importante: el número de artículos científicos que recibe ICML está creciendo año tras año de una forma abrumadora. En 2023 recibió 6.538 papers, y en 2024 nada menos que 9.653 artículos, lo que representa un crecimiento del 48%. La raíz del problema reside en el hecho de que el número de revisores cualificados no está incrementándose con el mismo ritmo con el que lo hace el número de artículos científicos que es necesario evaluar.

Como he mencionado unas líneas más arriba, las normas de ICML establecen que los revisores no pueden recurrir con ligereza a la IA para llevar a cabo sus evaluaciones debido a que este procedimiento puede introducir sesgos. De hecho, un estudio realizado sobre ICLR 2024 ha revelado que los artículos científicos evaluados con modelos de IA suelen recibir puntuaciones más altas que los revisados con el procedimiento convencional. Este es el problema. Para la edición de 2026 ICML ofreció a los evaluadores elegir entre dos políticas: una que prohibía usar la IA y otra que la permitía, pero con condiciones. Solo fueron sancionados quienes eligieron la primera opción y la incumplieron.

De los 506 infractores solo 398 eran evaluadores recíprocos que habían presentado un ‘paper’

No obstante, hay un dato relevante que merece la pena que no pasemos por alto: los 497 artículos científicos que han sido rechazados en marzo de este año fueron revisados por evaluadores recíprocos infractores. Esto significa, sencillamente, que son investigadores que ejercen simultáneamente como autores y revisores, por lo que su artículo científico fue penalizado debido a su infracción de las normas de actuación de ICML. De los 506 infractores solo 398 eran evaluadores recíprocos que habían presentado un paper.

Curiosamente, el sistema de detección que ha utilizado ICML consiste en ocultar instrucciones específicas dentro de los PDF de los artículos pendientes de revisión. Esas instrucciones son invisibles para un lector humano, pero cualquier modelo de IA que procese el documento las interpreta e incluye frases específicas y rastreables en la evaluación. ICML no ha usado detectores genéricos de IA. Eso sí, cada caso detectado fue verificado manualmente para comprobar que realmente se había cometido una infracción al preparar la evaluación.

Lo que está sucediendo refleja una realidad inapelable: el sistema de revisión ha fallado y es necesario reconstruirlo. Los revisores no dan abasto. Ni los de ICML, ni los de NeurIPS, ni los de ICLR. El número de revisores cualificados debería crecer al mismo ritmo que la cantidad de artículos científicos que es necesario evaluar, y no está sucediendo. Además, este escenario ha introducido otro problema: las decisiones de aceptación o rechazo han adquirido un cariz aleatorio que amenaza la consistencia y la fiabilidad de las evaluaciones.

Aún no está del todo claro cuál es el camino que se debe seguir para resolver este problema más allá de la necesidad de incrementar el número de evaluadores cualificados. Una opción consiste en mejorar la transparencia del proceso de revisión publicando todas las evaluaciones. Incluso las de los artículos rechazados. También se podría transformar el proceso de evaluación en un procedimiento bidireccional en el que los autores también evalúan la calidad de las revisiones que reciben. De este modo los evaluadores tendrán un historial que acreditará su buen hacer. Veremos qué estrategia implementan finalmente las conferencias. En 2027 saldremos de dudas.

Imagen | Charlesdeluvio (Unsplash)

Más información | ICML

En Xataka | Con DeepSeek V4, China ha ganado algo más que un modelo IA: ha desbloqueado el potencial de sus chips nacionales


La noticia

La IA académica vive su crisis más silenciosa: publicar importa más que investigar

fue publicada originalmente en

Xataka

por

Laura López

.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *