Las herramientas de detección de IA analizan un documento terminado y generan una puntuación de probabilidad. Esta puntuación puede iniciar un debate, pero no lo zanja. Diversas investigaciones demuestran que estas herramientas generan acusaciones falsas contra hablantes no nativos de inglés, no detectan el contenido parafraseado por IA y no pueden probar —ni refutar— si un estudiante escribió realmente su propio trabajo. Las instituciones que desean decisiones fundamentadas sobre la integridad académica necesitan evidencia del proceso, no solo puntuaciones de resultados.
¿Qué hacen realmente las herramientas de detección?
Es útil comprender la mecánica antes de evaluar las limitaciones.
Los detectores de IA miden dos cosas: perplejidad y variabilidad. La perplejidad se refiere a la previsibilidad de las elecciones lingüísticas. La IA tiende a seleccionar la palabra estadísticamente más común en cualquier secuencia, lo que la hace menos sorprendente y más fácil de detectar. La variabilidad se refiere a la variación en la longitud y la estructura de las oraciones. La escritura humana tiende a variar más, mientras que la IA tiende a ser más plana.
El problema es que muchos escritores humanos obtienen malos resultados en ambas medidas. Los hablantes no nativos de inglés tienden a escribir de forma más sencilla en su segundo idioma. Los estudiantes con vocabulario limitado, alta ansiedad académica o patrones de escritura neurodivergentes también producen textos que se parecen estadísticamente a los generados por la IA. El detector no puede distinguir entre «este estudiante usó IA» y «este estudiante escribe de forma restringida».
Un estudio de Stanford de 2023 sobre el sesgo de los detectores de IA puso a prueba siete detectores ampliamente utilizados en ensayos de hablantes no nativos de inglés, comparándolos con los de estudiantes estadounidenses de octavo grado. Los detectores fueron casi perfectos para los ensayos de los estudiantes estadounidenses. En el caso de los ensayos de hablantes no nativos, identificaron más del 61 % como generados por IA. En aproximadamente el 20 % de los casos, los siete detectores coincidieron en que un ensayo escrito por un humano era en realidad un resultado de IA. Esto representa una tasa significativa de falsas acusaciones, aplicada a una población que ya está cursando estudios superiores en un segundo idioma.
El problema de la escala: incluso las tasas de error bajas generan un gran número de acusaciones falsas.
Las tasas de falsos positivos de los detectores de pago más comunes suelen citarse como bajas, generalmente entre el 1 % y el 4 %. Esto suena tranquilizador hasta que se analiza lo que significa a gran escala.
Un análisis de 2025 del centro nacional de IA Jisc del Reino Unido explicó las cifras. Una institución que realiza 480 000 evaluaciones al año, con una tasa de falsos positivos del 1 %, generaría aproximadamente 4800 acusaciones falsas anualmente. Cada una requiere investigación, tiempo del profesorado, angustia para los estudiantes y recursos institucionales. Y estos son los casos que involucran a estudiantes inocentes.
Esa aritmética explica en parte por qué varias universidades optaron deliberadamente por dejar de usar la detección por IA en 2024 y 2025. UCLA, UC San Diego, Cal State LA, la Universidad de Vanderbilt y la Universidad Curtin en Australia desactivaron las funciones de detección por IA o emitieron recomendaciones para no depender de ellas. No se trata de instituciones pequeñas ni con recursos limitados. Tomaron esta decisión tras sopesar las tasas de error documentadas frente al coste institucional de corregir dichos errores.
El problema de la evasión: la herramienta no puede capturar lo que no puede ver.
Las herramientas de detección tienen una segunda debilidad fundamental. Analizan el texto que se envió, pero no tienen forma de saber qué sucedió antes del envío.
Los estudiantes que desean evitar ser detectados no necesitan técnicas sofisticadas. Basta con introducir la salida de la IA en una herramienta de parafraseo, ajustar el vocabulario o simplemente pedirle a la IA que reescriba su propio texto con un estilo más variado para reducir significativamente los índices de detección. El estudio de Stanford lo demostró directamente: pedirle a ChatGPT que reformulara su propio texto con un vocabulario más sofisticado redujo la tasa de falsos positivos en ensayos de hablantes no nativos del 61 % a alrededor del 12 %. Si esta misma indicación reduce los falsos positivos para estudiantes inocentes, también reduce las detecciones reales para estudiantes que intentan evadir la herramienta deliberadamente.
Un estudio de la Universidad de Reading realizado en 2024 reveló que las respuestas de examen generadas por ChatGPT pasaron desapercibidas en el 94 % de los casos, y que, en promedio, las respuestas de IA obtuvieron calificaciones más altas que los trabajos reales de los estudiantes. Las herramientas de detección no representaron una barrera significativa. El contenido fue detectado.
Este es el problema de la carrera armamentística. El análisis de AI Time Journal de 2025 describió la dinámica con claridad: un artículo marcado no equivale a mala conducta, y un informe limpio no garantiza la autoría auténtica. La herramienta no puede confirmar ninguna de las dos conclusiones con certeza.
El problema probatorio: una puntuación no puede probar lo que sucedió.
Incluso dejando de lado las tasas de falsos positivos y las técnicas de evasión, existe un problema más fundamental. Una puntuación de probabilidad no es una prueba. Es una señal.
Un informe de Idaho Pressbooks sobre la revisión de la detección de IA en la educación superior establece claramente la recomendación institucional: los resultados de la detección de IA deben ser solo un componente de una investigación más amplia. Ninguna institución debe utilizarlos como única prueba en procedimientos por mala conducta académica.
La razón es legal y ética, no solo procesal. Cuando un estudiante impugna una acusación de mala conducta, tiene derecho a comprender las pruebas en su contra y a responder a ellas. Un sistema de puntuación de probabilidad opaco no le proporciona esa posibilidad. Varias demandas recientes, incluidas las presentadas contra la Universidad de Yale en 2025 y la Universidad de Minnesota en 2025, se han centrado en parte en esta deficiencia. Las instituciones que basaron sus casos de mala conducta en una puntuación de detección se encontraron en situaciones difíciles cuando los estudiantes se opusieron.
Visualización sugerida: Resultado de la detección vs. evidencia del proceso: una tabla comparativa. Una tabla de tres columnas con filas para: Qué se mide, Qué demuestra, Puede ser impugnado, Riesgo de falsa acusación, Puede ser eludido, Útil como evidencia única en procedimientos por mala conducta. Columnas: Detector de IA (puntuación de probabilidad), Revisión del profesorado humano, Documentación del proceso (registro de la sesión de redacción). Formato: tabla comparativa clara, ubicada en el medio del artículo. Valor: proporciona a los responsables de la integridad académica una referencia rápida para evaluar la contribución de cada herramienta a una investigación sin necesidad de leer múltiples artículos de investigación.
¿Qué debe acompañar a la detección?
La investigación es clara en cuanto a cómo sería un enfoque más completo. Diversas fuentes, incluyendo la actualización de Jisc AI and Assessment 2025 , la guía HumTech de UCLA y el informe de políticas de Idaho Pressbooks , coinciden en la misma conclusión: los enfoques basados únicamente en la detección deben reemplazarse por sistemas por capas. A continuación, se describe cómo se ven esas capas en la práctica.
Diseño de evaluación que dificulta la sustitución por IA. Las tareas basadas en el contexto personal, los borradores por etapas y las anotaciones reflexivas no pueden completarse en una sola sesión de IA. Un estudiante que debe relacionar un concepto con su propio trabajo de campo o explicar los cambios entre su primer y segundo borrador, genera evidencia de su propio razonamiento de forma inherente. Esto reduce el problema de la mala conducta antes de que sea necesario detectarla.
Revisión humana que va más allá de la calificación. Los profesores que conocen a sus estudiantes, su estilo de escritura a lo largo del curso y el contexto de la tarea están mejor posicionados para evaluar un trabajo que cualquier algoritmo. Muchas universidades ahora consideran las señales de alerta como una invitación a conversar con el estudiante, no como un veredicto. Esa conversación, junto con la revisión de borradores o trabajos previos, produce conclusiones mucho más sólidas.
Documentación del proceso que registra la trayectoria de la escritura. Cuando se graba la sesión de escritura de un estudiante, incluyendo pulsaciones de teclas, secuencias de revisión, pausas para pensar y eventos de copiar y pegar, el registro resultante es radicalmente distinto de un simple escaneo posterior a la entrega. Muestra cómo se construyó el documento y distingue a un estudiante que se involucró profundamente en su argumento a lo largo de varias sesiones de un estudiante cuyo texto apareció en un solo evento de pegado sin ninguna actividad previa de redacción. Este registro de comportamiento es revisable, explicable y resistente a las técnicas de evasión que burlan las herramientas de escaneo.
Coherencia a nivel departamental e institucional. Uno de los principales factores que generan estrés entre el profesorado en relación con la mala conducta en IA es la ausencia de un marco común. Cuando cada miembro del profesorado maneja las sospechas de manera diferente, los resultados son inconsistentes y la exposición institucional aumenta. Los departamentos que concuerdan en qué pruebas se requieren antes de emitir una resolución formal y en cómo se desarrolla el proceso de investigación, reducen tanto las acusaciones falsas como las disputas sin resolver.
El cambio que ya está ocurriendo
En la educación superior, el enfoque está cambiando. La pregunta ya no es “¿cómo detectamos el uso de IA?”, sino “¿cómo verificamos que un estudiante realmente realizó el trabajo?”. Son preguntas diferentes que requieren herramientas distintas.
Las universidades que actualizan sus políticas en 2025 y 2026 solicitan cada vez más historiales de versiones, evidencia de marcas de tiempo y registros de iteraciones para trabajos extensos. El objetivo no es detectar a los estudiantes en una sola sesión de IA, sino confirmar que hubo una interacción visible y rastreable con la tarea a lo largo del tiempo. Se recomienda a las instituciones que licencian herramientas de detección que verifiquen cualquier alerta con al menos otra fuente de evidencia antes de iniciar procedimientos formales.
Esta tendencia convierte la documentación de procesos no solo en una mejor herramienta probatoria, sino también en una mejor inversión institucional. Las herramientas de detección seguirán mejorando. Las herramientas de generación de IA mejorarán aún más rápido. Las instituciones que construyen su infraestructura de integridad en torno a la evidencia del trabajo de los estudiantes, en lugar de basarse en la coincidencia de patrones en lo que presentan, están creando algo que no quedará obsoleto.
Para los responsables de la integridad académica y los administradores que buscan reducir la brecha entre la detección y las decisiones justificables, DocuMark de Trinka registra el proceso de escritura a nivel de sesión, proporcionando el tipo de evidencia de autoría que convierte una puntuación de probabilidad desde un punto de partida en una conclusión fundamentada.