Razón, Sinrazón y Comportamiento Económico: Anatomía del feedback docente: hallazgos y regularidades.

Esta nota describe regularidades observadas al analizar juicios docentes en los boletines de calificaciones a partir de dos espacios conceptuales complementarios. En un primer espacio conceptual, basado en el trabajo de Burnett (2002), los juicios se analizan según el tipo de explicación implícita que el docente ofrece sobre el desempeño del estudiante —atribuciones centradas en capacidades o en el esfuerzo desplegado— y según el tono evaluativo con que dicha explicación es comunicada. Un segundo espacio conceptual se articula a partir del trabajo de Hattie y Timperley (2007), desde el cual el juicio docente se caracteriza por la función pedagógica que cumple el mensaje —orientar metas, describir el estado actual del aprendizaje o señalar cursos de acción futuros— y por el aspecto del aprendizaje que el docente decide enfatizar. Considerados de forma conjunta, estos espacios permiten describir cómo se organiza el contenido evaluativo y pedagógico del juicio docente tal como se manifiesta en la práctica, sin presuponer criterios normativos sobre el “buen” feedback.

Desde el punto de vista metodológico, el análisis utiliza modelos de inteligencia artificial para articular dos estrategias complementarias de lectura del juicio docente. En primer lugar, se implementa una evaluación interpretativa mediante un panel de evaluadores sintéticos generados por IA, configurados para aplicar una rúbrica común en la interpretación de cada juicio como unidad discursiva. En segundo lugar, se emplea un conteo léxico ponderado que estima la proximidad semántica entre el lenguaje utilizado por el docente y categorías conceptuales definidas a partir de conjuntos de palabras semilla. La articulación de ambas estrategias permite contrastar regularidades captadas a partir de marcas léxicas explícitas con aquellas que emergen de la interpretación global del mensaje.

Los análisis se aplican a un corpus de juicios docentes producidos en boletines de evaluación de un centro de educación primaria de Montevideo durante el año lectivo 2025. El corpus incluye aproximadamente 16.000 juicios correspondientes a 650 estudiantes que cursaron entre primero y sexto grado. El procesamiento se realizó utilizando dos modelos de inteligencia artificial alternativos: OpenAI y Gemini. Las regularidades descriptas a continuación deben interpretarse como patrones emergentes de este contexto institucional y temporal específico, sin pretensión de generalización más allá del colectivo analizado.

La valencia y el sentido atribucional en los juicios docentes

La carga positiva o negativa del mensaje tiene una asociación clara con el desempeño: mejores notas se asocian con mayor positividad y peores notas con mayor negatividad. No obstante, esta relación es recogida con distinta intensidad según la aproximación metodológica considerada. Mientras que el análisis léxico identifica una menor presencia de términos explícitamente negativos, la evaluación interpretativa detecta estos conceptos con mayor frecuencia. Este contraste sugiere que los docentes optan por cuidar la intensidad del vocabulario utilizado frente a contenido evaluativo crítico.

El análisis sugiere la presencia de modulaciones leves en la valencia evaluativa asociadas al género del estudiante. En particular, frente a desempeños bajos, los juicios dirigidos a varones tienden a exhibir una mayor carga negativa relativa, mientras que frente a desempeños altos los juicios dirigidos a niñas concentran una mayor carga positiva. Estas diferencias no alcanzan niveles de significación estadística por lo que deben interpretarse con cautela. No obstante, su recurrencia parcial en distintos análisis las vuelve indicativas de un posible patrón que merece ser examinado con mayor profundidad en corpus más amplios.

Por su parte, en el plano atribucional, el lenguaje de los juicios docentes presenta una mayor presencia relativa de referencias a la capacidad que al esfuerzo. La mayor centralidad de la capacidad se identifica sistemáticamente en las mediciones con conteo léxico ponderado y en los paneles de OpenAI. No obstante, la evaluación interpretativa realizada con Gemini no la reproduce introduciendo un matiz de cautela en la lectura del resultado.

Finalmente, las referencias al esfuerzo, aunque menos frecuentes que las atribuciones a la capacidad, presentan una asociación positiva tanto con el uso de lenguaje positivo como con el desempeño académico en los juicios de primero a tercero. Este patrón se observa de manera consistente en ese tramo del ciclo y no se replica con la misma claridad en los grados superiores. La localización temporal de estas regularidades sugiere que el esfuerzo podría operar como un recurso explicativo especialmente relevante en los primeros años de la escolaridad, sin constituirse en el eje principal del discurso evaluativo a lo largo de todo el ciclo.

Función y foco del feedback

El espacio conceptual de Hattie y Timperley permite observar cómo se estructura pedagógicamente el mensaje docente. A diferencia de las dimensiones atribucionales y de valencia, estas dimensiones presentan patrones menos polarizados y una mayor estabilidad relativa, lo que sugiere que capturan aspectos más estructurales del formato del juicio que de su tono evaluativo.

En relación con la función del feedback, los resultados muestran un predominio claro y consistente del feedback diagnóstico (“feed-back”), orientado a describir el desempeño actual del estudiante. Este patrón se observa de forma robusta en ambos ciclos educativos y en los dos modelos de IA utilizados. Las funciones de feed-up y feed-forward aparecen de manera sistemática, pero con un peso claramente secundario y relativamente equilibrado entre sí.

En cuanto al foco del feedback, el lenguaje evaluativo se distribuye de forma relativamente balanceada entre referencias a la tarea, a la autorregulación y, en menor medida, al proceso. El foco en proceso es sistemáticamente el menos activado en todos los escenarios analizados, lo que constituye la regularidad más estable de esta dimensión. Esta estabilidad puede interpretarse como una pauta institucional o profesional del formato del feedback escrito, pero también plantea interrogantes metodológicos sobre el grado en que estas dimensiones capturan variación pedagógica efectiva en este tipo de corpus.

El análisis conjunto de los resultados revela que el desempeño académico es el principal organizador del lenguaje evaluativo. La asociación más clara se observa entre valencia y desempeño, mientras que no se consiguen establecer relaciones claras con características idiosincráticas de los alumnos. De forma complementaria, se observa que el momento evaluativo del año también introduce modulaciones sistemáticas en el lenguaje del juicio. Esto es particularmente claro en el juicio final del año, que tiende a concentrar mayor carga positiva y una función pedagógica más explícita.

En conjunto, estos resultados sugieren que el lenguaje evaluativo de los juicios docentes responde a coordenadas relativamente estables —como el desempeño académico y el formato institucional del feedback—, pero también a modulaciones asociadas al momento evaluativo. La convergencia entre estrategias metodológicas y modelos de IA refuerza la plausibilidad descriptiva de los hallazgos, al tiempo que señala límites y oportunidades para su exploración en corpus más amplios y diversos.