martes, 3 de febrero de 2026

Anatomía del feedback docente: hallazgos y regularidades.

Esta nota describe regularidades observadas al analizar juicios docentes en los boletines de calificaciones a partir de dos espacios conceptuales complementarios. En un primer espacio conceptual, basado en el trabajo de Burnett (2002), los juicios se analizan según el tipo de explicación implícita que el docente ofrece sobre el desempeño del estudiante —atribuciones centradas en capacidades o en el esfuerzo desplegado— y según el tono evaluativo con que dicha explicación es comunicada. Un segundo espacio conceptual se articula a partir del trabajo de Hattie y Timperley (2007), desde el cual el juicio docente se caracteriza por la función pedagógica que cumple el mensaje —orientar metas, describir el estado actual del aprendizaje o señalar cursos de acción futuros— y por el aspecto del aprendizaje que el docente decide enfatizar. Considerados de forma conjunta, estos espacios permiten describir cómo se organiza el contenido evaluativo y pedagógico del juicio docente tal como se manifiesta en la práctica, sin presuponer criterios normativos sobre el “buen” feedback.

Desde el punto de vista metodológico, el análisis utiliza modelos de inteligencia artificial para articular dos estrategias complementarias de lectura del juicio docente. En primer lugar, se implementa una evaluación interpretativa mediante un panel de evaluadores sintéticos generados por IA, configurados para aplicar una rúbrica común en la interpretación de cada juicio como unidad discursiva. En segundo lugar, se emplea un conteo léxico ponderado que estima la proximidad semántica entre el lenguaje utilizado por el docente y categorías conceptuales definidas a partir de conjuntos de palabras semilla. La articulación de ambas estrategias permite contrastar regularidades captadas a partir de marcas léxicas explícitas con aquellas que emergen de la interpretación global del mensaje.

Los análisis se aplican a un corpus de juicios docentes producidos en boletines de evaluación de un centro de educación primaria de Montevideo durante el año lectivo 2025. El corpus incluye aproximadamente 16.000 juicios correspondientes a 650 estudiantes que cursaron entre primero y sexto grado. El procesamiento se realizó utilizando dos modelos de inteligencia artificial alternativos: OpenAI y Gemini. Las regularidades descriptas a continuación deben interpretarse como patrones emergentes de este contexto institucional y temporal específico, sin pretensión de generalización más allá del colectivo analizado.

La valencia y el sentido atribucional en los juicios docentes

La carga positiva o negativa del mensaje tiene una asociación clara con el desempeño: mejores notas se asocian con mayor positividad y peores notas con mayor negatividad. No obstante, esta relación es recogida con distinta intensidad según la aproximación metodológica considerada. Mientras que el análisis léxico identifica una menor presencia de términos explícitamente negativos, la evaluación interpretativa detecta estos conceptos con mayor frecuencia. Este contraste sugiere que los docentes optan por cuidar la intensidad del vocabulario utilizado frente a contenido evaluativo crítico.

El análisis sugiere la presencia de modulaciones leves en la valencia evaluativa asociadas al género del estudiante. En particular, frente a desempeños bajos, los juicios dirigidos a varones tienden a exhibir una mayor carga negativa relativa, mientras que frente a desempeños altos los juicios dirigidos a niñas concentran una mayor carga positiva. Estas diferencias no alcanzan niveles de significación estadística por lo que deben interpretarse con cautela. No obstante, su recurrencia parcial en distintos análisis las vuelve indicativas de un posible patrón que merece ser examinado con mayor profundidad en corpus más amplios.

Por su parte, en el plano atribucional, el lenguaje de los juicios docentes presenta una mayor presencia relativa de referencias a la capacidad que al esfuerzo. La mayor centralidad de la capacidad se identifica sistemáticamente en las mediciones con conteo léxico ponderado y en los paneles de OpenAI. No obstante, la evaluación interpretativa realizada con Gemini no la reproduce introduciendo un matiz de cautela en la lectura del resultado.

Finalmente, las referencias al esfuerzo, aunque menos frecuentes que las atribuciones a la capacidad, presentan una asociación positiva tanto con el uso de lenguaje positivo como con el desempeño académico en los juicios de primero a tercero. Este patrón se observa de manera consistente en ese tramo del ciclo y no se replica con la misma claridad en los grados superiores. La localización temporal de estas regularidades sugiere que el esfuerzo podría operar como un recurso explicativo especialmente relevante en los primeros años de la escolaridad, sin constituirse en el eje principal del discurso evaluativo a lo largo de todo el ciclo.

Función y foco del feedback

El espacio conceptual de Hattie y Timperley permite observar cómo se estructura pedagógicamente el mensaje docente. A diferencia de las dimensiones atribucionales y de valencia, estas dimensiones presentan patrones menos polarizados y una mayor estabilidad relativa, lo que sugiere que capturan aspectos más estructurales del formato del juicio que de su tono evaluativo.

En relación con la función del feedback, los resultados muestran un predominio claro y consistente del feedback diagnóstico (“feed-back”), orientado a describir el desempeño actual del estudiante. Este patrón se observa de forma robusta en ambos ciclos educativos y en los dos modelos de IA utilizados. Las funciones de feed-up y feed-forward aparecen de manera sistemática, pero con un peso claramente secundario y relativamente equilibrado entre sí.

En cuanto al foco del feedback, el lenguaje evaluativo se distribuye de forma relativamente balanceada entre referencias a la tarea, a la autorregulación y, en menor medida, al proceso. El foco en proceso es sistemáticamente el menos activado en todos los escenarios analizados, lo que constituye la regularidad más estable de esta dimensión. Esta estabilidad puede interpretarse como una pauta institucional o profesional del formato del feedback escrito, pero también plantea interrogantes metodológicos sobre el grado en que estas dimensiones capturan variación pedagógica efectiva en este tipo de corpus.

El análisis conjunto de los resultados revela que el desempeño académico es el principal organizador del lenguaje evaluativo. La asociación más clara se observa entre valencia y desempeño, mientras que no se consiguen establecer relaciones claras con características idiosincráticas de los alumnos. De forma complementaria, se observa que el momento evaluativo del año también introduce modulaciones sistemáticas en el lenguaje del juicio. Esto es particularmente claro en el juicio final del año, que tiende a concentrar mayor carga positiva y una función pedagógica más explícita.

En conjunto, estos resultados sugieren que el lenguaje evaluativo de los juicios docentes responde a coordenadas relativamente estables —como el desempeño académico y el formato institucional del feedback—, pero también a modulaciones asociadas al momento evaluativo. La convergencia entre estrategias metodológicas y modelos de IA refuerza la plausibilidad descriptiva de los hallazgos, al tiempo que señala límites y oportunidades para su exploración en corpus más amplios y diversos.

Anatomía del feedback docente: estrategias de identificación

El uso de herramientas de inteligencia artificial habilita el procesamiento masivo de juicios docentes para detectar regularidades atribucionales, evaluativas y pedagógicas que no siempre son visibles en textos aislados. Aunque cada juicio incluido en los boletines de calificaciones es breve y altamente contextualizado, el marco teórico sugiere que en la forma en que los docentes construyen su feedback se repiten ciertos patrones discursivos. Estos patrones pueden pasar inadvertidos en la lectura individual de un juicio, pero emergen cuando se analiza de manera conjunta la producción completa de feedback. En este sentido, la inteligencia artificial no aporta una “lectura mejor” de cada caso particular, sino la capacidad de procesar grandes volúmenes de texto de forma estable y sistemática, permitiendo observar cómo categorías conceptuales bien definidas dejan huellas lingüísticas en la práctica cotidiana de la docencia.

El análisis metodológico que se propone parte de la idea de que, al buscar estimular el aprendizaje, los docentes toman decisiones comunicacionales al construir sus juicios escritos. En ese proceso, eligen distintos aspectos sustantivos sobre los que centrar su feedback, dando lugar a patrones que pueden ser descriptos analíticamente. Al elaborar un feedback, el docente decide qué aspectos del desempeño enfatizar, qué tipo de información ofrecer y desde qué foco pedagógico orientar su mensaje, en función del contexto, del momento del proceso educativo y de sus propios criterios profesionales. El marco teórico no define una forma correcta de feedback, sino un conjunto de categorías que permite describir esas decisiones comunicacionales de manera sistemática. Desde esta perspectiva, el objetivo del análisis no es evaluar ni jerarquizar prácticas docentes, sino identificar regularidades en la manera en que esas elecciones se expresan en el lenguaje cuando se observan grandes conjuntos de juicios escritos.

La identificación de las características del feedback se apoya en dos enfoques complementarios: la detección de regularidades en el vocabulario empleado y la interpretación del sentido global del mensaje. El conteo léxico ponderado permite captar patrones distribuidos en las palabras y expresiones utilizadas, en función de su proximidad semántica con los conceptos definidos teóricamente. Por su parte, la evaluación interpretativa analiza cada juicio como una unidad discursiva completa mediante un panel de evaluadores que aplica criterios comunes de forma sistemática.

El conteo léxico ponderado, la primera de las dos aproximaciones metodológicas, permite identificar patrones discursivos en el feedback docente mediante el uso de herramientas de inteligencia artificial para estimar la proximidad semántica entre el vocabulario empleado y dimensiones conceptuales definidas teóricamente. El aporte central del método reside en que no se limita a contabilizar la frecuencia con la que ciertas palabras aparecen en los juicios, sino que pondera su uso en función de su cercanía conceptual con las categorías teóricas de interés. Las listas léxicas se construyen a partir de términos efectivamente utilizados por los docentes en sus propios juicios, lo que asegura una alta adherencia al lenguaje en la práctica. De este modo, la metodología evita apoyarse en listas rígidas o externas y combina el uso empírico del vocabulario con una organización conceptual que permite describir regularidades discursivas de manera sistemática.

Para operacionalizar esta aproximación, cada dimensión conceptual se representa mediante un conjunto de palabras-semilla que funcionan como núcleos de referencia. Estas palabras-semilla no buscan agotar el significado del concepto, sino delimitar un espacio semántico de interés a partir del cual se organiza el análisis. Mediante el uso de modelos de lenguaje, que capturan regularidades semánticas en grandes volúmenes de texto, los términos presentes en el corpus se evalúan según su proximidad conceptual a esas semillas, lo que permite construir un indicador continuo de similitud semántica. Este indicador estima en qué medida cada juicio docente se aproxima a una u otra dimensión conceptual, facilitando la comparación sistemática entre textos.

Este enfoque resulta especialmente potente para captar dimensiones del feedback que se expresan de manera consistente a través del vocabulario evaluativo, aunque presenta límites cuando el sentido del mensaje no se apoya en marcas léxicas muy específicas. Dimensiones como la valencia positiva o negativa suelen manifestarse con claridad en el uso de adjetivos y expresiones evaluativas, lo que las vuelve particularmente adecuadas para el análisis léxico ponderado. En cambio, otros aspectos del feedback, como la función pedagógica o el nivel en el que se focaliza el mensaje, dependen menos de palabras aisladas y más de la estructura y el significado global del juicio. Reconocer estos límites es central para evitar una lectura reduccionista del lenguaje docente y para justificar la complementariedad con enfoques interpretativos.

Complementariamente el estudio incorpora una evaluación interpretativa basada en inteligencia artificial que analiza cada juicio como una unidad discursiva completa. A diferencia del enfoque léxico, este análisis no se centra en palabras aisladas, sino en el sentido general del mensaje, atendiendo a cómo el docente orienta el aprendizaje, qué foco pedagógico privilegia y qué tipo de información pone a disposición del estudiante. La evaluación busca capturar la riqueza semántica del texto apoyándose en criterios explícitos derivados del marco conceptual, aplicados de manera iterada a través de múltiples evaluaciones independientes para aumentar la consistencia de la interpretación.

La evaluación interpretativa se implementa mediante un panel de evaluadores sintéticos que aplican una rúbrica común, manteniendo sensibilidades analíticas diferenciadas. Cada juicio es analizado de forma independiente por cada evaluador siguiendo los mismos criterios conceptuales, cuya agregación permite enriquecer y estabilizar la interpretación del mensaje. El uso de un panel no busca validar ni juzgar el contenido del feedback, sino sistematizar la lectura interpretativa y asegurar que el análisis se concentre en dimensiones relevantes definidas teóricamente. De este modo, el panel funciona como un instrumento metodológico para fortalecer la robustez del análisis interpretativo y complementar el enfoque léxico ponderado.

En conjunto, este abordaje metodológico permite describir de manera sistemática cómo los docentes configuran su feedback escrito a partir de decisiones comunicacionales que dejan trazos observables en el lenguaje. La articulación entre el conteo léxico ponderado y la evaluación interpretativa no busca establecer jerarquías entre enfoques, sino aprovechar la complementariedad de dos miradas analíticas que operan sobre el mismo objeto desde niveles distintos. Mientras el análisis léxico permite observar la presencia y la intensidad relativa con la que ciertas dimensiones se distribuyen en el vocabulario, la evaluación interpretativa recupera el sentido global del mensaje y la forma en que esas dimensiones se integran en una unidad discursiva. La comparación entre ambos enfoques enriquece la lectura del feedback docente al permitir identificar no solo qué dimensiones están presentes, sino también cómo se manifiestan y con qué énfasis.

Anatomía del feedback docente: marco conceptual

El feedback constituye una de las herramientas más relevantes del proceso educativo porque conecta la enseñanza con el aprendizaje efectivo. Es la mejor oportunidad que tiene un docente para influir positivamente en la reducción de la distancia entre el desempeño actual de un estudiante y un estándar de referencia que orienta ese desempeño. Para que haya feedback en sentido estricto, la información recibida debe ser comprensible, utilizable y capaz de activar algún tipo de ajuste en la acción del estudiante, en el sentido clásico propuesto por Sadler (1989). Cuando esto ocurre, el feedback puede incidir en cómo se interpretan los errores, en cómo se reorganizan los esfuerzos y en cómo se regulan los procesos de aprendizaje.

Los docentes brindan feedback de manera permanente y a través de múltiples formas, no siempre explícitas ni formalizadas. El feedback puede ser verbal o escrito, directo o implícito, individual o colectivo, planificado o espontáneo; puede expresarse en un comentario, en un gesto, en una pregunta, en una corrección en el margen o en una devolución oral en el aula. Esta diversidad de formas y situaciones hace que el feedback sea un fenómeno profundamente heterogéneo, tanto en sus soportes como en sus destinatarios y funciones. Dentro de ese universo amplio, existe una modalidad particularmente estructurada: el juicio docente escrito que acompaña a una calificación en los boletines. En estos casos, el feedback no solo dialoga con la nota, ampliando o matizando su significado, sino que especialmente en los primeros años, incluye a la familia del alumno. La producción regular de estos juicios, en momentos definidos del año y para la totalidad de los estudiantes, genera un conjunto de textos planificados, comparables y persistentes en el tiempo, lo que los vuelve un objeto privilegiado para el análisis.

El feedback docente puede ser interpretado desde distintos espacios conceptuales, cada uno orientado a responder preguntas diferentes sobre su funcionamiento y su significado pedagógico. En este trabajo se articulan dos de esos espacios que no son mutuamente excluyentes ni compiten entre sí. Por un lado, el espacio conceptual desarrollado por Burnett (2002) se centra en el contenido del lenguaje evaluativo del juicio docente y se organiza en torno a dos dimensiones: el sentido atribucional del feedback y su valencia. Por otro lado, el espacio conceptual propuesto por Hattie y Timperley (2007) aborda la función pedagógica del feedback y también distingue dos dimensiones centrales: las preguntas que el feedback responde y los niveles en los que se focaliza.

La primera de las dos dimensiones que estructuran el espacio conceptual de Burnett es el sentido atribucional del feedback docente. Desde esta perspectiva, los juicios docentes transmiten explicaciones implícitas sobre las causas del desempeño. El feedback puede atribuirse a la habilidad o capacidad del alumno, o a su esfuerzo, dedicación o compromiso. Estas atribuciones no son neutras. Según Burnett, las referencias a la capacidad o habilidad del estudiante tienden a construir explicaciones de tipo disposicional, mientras que las referencias al esfuerzo o a la dedicación se apoyan en explicaciones más ligadas a la acción y al comportamiento. El efecto pedagógico de estas atribuciones no está dado de antemano, sino que depende de cómo el docente las formula y contextualiza en su juicio.

La segunda de las dos dimensiones que estructuran el espacio conceptual de Burnett es la valencia del juicio docente, es decir, la carga evaluativa positiva o negativa que transmite el feedback. Los juicios comunican una valoración: pueden reconocer, aprobar o destacar aspectos del trabajo del estudiante, o bien señalar insuficiencias, dificultades o aspectos por mejorar. Esa valencia no se expresa únicamente en “etiquetas” explícitas, sino también en elecciones lingüísticas más sutiles —por ejemplo, el uso de adjetivos y expresiones evaluativas— que tiñen el mensaje de aprobación o desaprobación. En ese sentido, la valencia describe el tipo de carga positiva o negativa que el docente elige para poner en circulación su juicio.

La primera de las dos dimensiones que estructuran el espacio conceptual de Hattie y Timperley se vincula con la función pedagógica que cumple el feedback en el proceso de aprendizaje. Según los autores, el feedback puede entenderse a partir de las preguntas que responde: ¿hacia dónde voy? (feed-up), ¿cómo lo estoy haciendo? (feed-back) y ¿qué puedo hacer a continuación para mejorar? (feed-forward). Cada una de estas preguntas cumple una función distinta al orientar, regular o proyectar el aprendizaje del estudiante. Los docentes pueden privilegiar una u otra función según el momento del proceso educativo, el tipo de tarea o los objetivos que persiguen, sin que exista una secuencia única o una combinación “correcta” en términos generales.

La segunda dimensión del espacio conceptual de Hattie y Timperley refiere a los niveles en los que se focaliza el feedback dentro del mensaje docente. Desde esta perspectiva, los juicios pueden centrarse en la tarea realizada, en los procesos utilizados para resolverla, en la autorregulación del aprendizaje o en la persona del estudiante. A diferencia de la dimensión funcional, los autores introducen un componente normativo explícito al señalar que el feedback dirigido al self —cuando se limita a elogios o valoraciones personales— aporta poca información relevante para el aprendizaje. En cambio, los restantes niveles refieren a distintos focos posibles del mensaje pedagógico, cuya elección depende del contexto, del tipo de tarea y de los objetivos que el docente persigue.

En conjunto, estos espacios conceptuales permiten describir el feedback docente como una configuración específica de decisiones discursivas. Cada docente elige de manera explícita o implícita qué explicar sobre el desempeño, qué valorar, qué función priorizar y en qué nivel focalizar su mensaje. Distintas tareas, momentos del año, trayectorias de aprendizaje o contextos institucionales pueden dar lugar a combinaciones diferentes de dimensiones dentro de un mismo marco conceptual. El feedback por tanto refleja elecciones contextuales del docente más que la adhesión a un esquema normativo cerrado.

Estas elecciones dejan huellas observables en el lenguaje con el que los docentes construyen sus juicios escritos. El feedback se materializa en textos concretos, y la manera en que se articulan atribuciones, valencias, funciones y focos pedagógicos puede rastrearse a través de las palabras y expresiones que componen esos textos, así como del sentido general que emerge de su lectura. Esa huella lingüística permite abordar el feedback docente escrito como un objeto analizable, ya sea identificando regularidades léxicas asociadas a determinadas dimensiones conceptuales, o interpretando el significado global del mensaje en su contexto. Este punto abre la puerta a distintas estrategias de análisis empírico, que permiten estudiar de forma sistemática cómo se construye el feedback en la práctica docente.

Referencias

Burnett, P. C. (2002). Teacher Praise and Feedback and Students’ Perceptions of the Classroom Environment. Educational Psychology, 22(1), 5–16. https://doi.org/10.1080/01443410120101215

Hattie, J., & Timperley, H. (2007). The Power of Feedback. Review of Educational Research, 77(1), 81–112. https://doi.org/10.3102/003465430298487

Sadler, D. R. (1989). Formative assessment and the design of instructional systems. Instructional Science, 18(2), 119–144. https://doi.org/10.1007/BF00117714