Rúbricas de evaluación de competencias
3
ELEMENTOS CONCEPTUALES Y DEL CONTENIDO
El interés por una mejora cualitativa de la metodología de evaluación de los aprendizajes en los distintos ámbitos de la Enseñanza es una variable de presencia constante desde hace más de 20 años, que ha reforzado, entre otras estrategias evaluadoras, el uso y generalización de las rúbricas. Por ejemplo, Herman, Aschbacher y Winters (1992) consideran como términos sinónimos evaluación auténtica, evaluación alternativa y evaluación basada en el desempeño, contraponiéndolas a la evaluación convencional mediante cuestionarios o exámenes.
Los 2 principales atributos de cualquier método o instrumento de evaluación son la fiabilidad y validez de los mismos, en las distintas acepciones que constan desde hace varias décadas (Joint Comittee on Standars for Educational Evaluation, 1988, 1994…). Proponer herramientas de evaluación fiables y válidas es un desafío complejo para cualquier tipo de técnica evaluadora, del que tampoco están exentas las rúbricas.
Seguidamente, con ayuda de diferentes estudios, artículos y guías de uso, se presentarán, de modo resumido, en qué consiste una rúbrica de evaluación educativa, sus distintas aplicaciones, su estructura, ventajas e inconvenientes de las rúbricas, y el proceso para su diseño.
Las rúbricas de evaluación educativa son guías precisas para evaluar los aprendizajes y productos del mismo, que utilizan tablas para desglosar los distintos niveles del desempeño de las tareas de los/as estudiantes, en un aspecto determinado, con criterios específicos preestablecidos sobre el rendimiento (Gatica-Lara y Uribarren, 2013; Mertler, 2001).
En otras palabras, se trata de herramientas de calificación cualitativa del trabajo del/a aprendiz o de su desempeño auténtico, que incluyen criterios y dimensiones importantes, así como normas para la consecución de los logros indicados en los referidos criterios (Jonsson y Svingby, 2007).
Atendiendo al formato, las rúbricas de evaluación son tablas de doble entrada en las cuales la primera columna contiene las variables objeto de medida, la primera fila los distintos valores y las siguientes filas los detalles de los criterios e indicadores correspondientes a cada variable.
Las rúbricas de evaluación son una de las herramientas alternativas a las técnicas convencionales de cuestionario o exámenes, tal y como reconocen algunos autores (Alsina, 2013; Oakleaf, 2009), en el contexto de una evaluación auténtica o basada en el desempeño, tal y como se ha comentado anteriormente (Herman, Aschbacher y Winters, 1992).
Concretamente, las escalas de Likert, Thurstone o Guttman pueden considerarse, en cierto sentido, como precursoras de las actuales rúbricas de evaluación (Alsina, 2013). El elemento común de todas ellas es ofrecer explicaciones claras y discriminantes de cada grado o puntuación de una escala numérica o de atributos.
Esto es, ¿qué significa un 7 sobre 10?, ¿cómo se justifica la diferencia entre un insuficiente y un suficiente?, o por qué razones se ha otorgado una calificación final de 6 puntos en un programa de aprendizaje a un determinado aprendiz?
Los dos tipos de rúbricas de evaluación, acerca de cuyas características hay un notable consenso (Moskal, 2000; Mertler, 2001; Jonsson y Svingby, 2007; López Carrasco, 2007; Gatica-Lara y Uribarren; 2013), son las holísticas y las analíticas.
Las rúbricas holísticas únicamente utilizan una variable global para evaluar el desempeño, aunque se especifiquen convenientemente cada uno de los valores de la escala, mientras que las analíticas diversifican los contenidos de la evaluación en varias dimensiones, descritas rigurosamente, así como las especificaciones de los grados de la escala correspondientes. Si, además, se acompañan ejemplos de los detalles de los distintos criterios, las rúbricas analíticas son preferibles a las holísticas, tal y como reconocen Jonsson y Svingby (2007).
En relación con la justificación de las rúbricas, Alsina (2013) las admite en cualquier nivel de enseñanza, con el fin de poder compartir entre las personas interesadas los criterios de evaluación; Green y Bowser (2006) extienden su empleo tanto a la evaluación formativa como a la sumativa y Malini y Andrade (2010), además, para cualquier tipo de disciplinas, particularmente, en la Enseñanza Superior. Las razones más profusamente aludidas para su empleo (Moskal, 2000; Jonsson y Svingby, 2007; Oakleaf, 2009; Gatica-Lara y Uribarren, 2013) son su capacidad de:
Clarificar los objetivos de aprendizaje.
Facilitar la autoevaluación o la evaluación por pares.
Guiar el feedback o reconocimiento a los aprendices.
Promocionar o inducir, consecuentemente, con mayor facilidad, el aprendizaje.
Respecto a la consistencia y seguridad de las rúbricas, se constata que éstas poseen una fiabilidad inferior a otras herramientas psicométricas (Jonsson y Svingby, 2007). Tierney y Simon (2004) subrayan, entre los factores de fiabilidad y validez de las rúbricas, los propios criterios de desempeño, la diferenciación precisa entre los distintos niveles o grados de la escala de evaluación, así como la calidad de los descriptores de los mismos. El mayor problema sobre la fiabilidad y la validez de las rúbricas es, a veces, su dificultad de comprensión (Andrade, 2000), o la ambigüedad de su terminología.
Estas deficiencias suelen achacarse a la falta de estandarización de los calificativos y los atributos utilizados en ellas (Tierney y Simon, 2004), o a una excesiva especificidad versus demasiada generalidad de sus categorías y descriptores (Popham, 1997). Además, el excesivo tiempo de dedicación para su diseño y validación es otra desventaja, si bien esta crítica sería aceptable sólo a corto plazo, porque la eficiencia de una rúbrica de probada fiabilidad y validez es muy alta, aunque el período de construcción y ratificación pueda ser dilatado.
Son pocos los estudios que explican el proceso de diseño de una rúbrica de evaluación; por tanto, tal vez fuera conveniente señalar el sugerido por Mertler (2001), que apunta una serie de pasos recomendables para cualquier diseño de los criterios de evaluación de la herramienta, a saber:
Reexaminar los objetivos de aprendizaje para convertirlos en tareas.
Identificar atributos específicos observables en el proceso de aprendizaje o en los productos del desempeño.
Describir mediante brainstorming las características de cada atributo.
En las rúbricas holísticas, describir los grados excelente e insuficiente, incorporando las descripciones de los atributos, en cada caso.
En las rúbricas analíticas, completar las descripciones de los conceptos y el resto de los niveles.
Revisar las descripciones de la rúbrica, cuando sea conveniente.
4
ESCALAS BASADAS EN INFORMACIÓN SOBRE CONDUCTAS
Los resultados de la evaluación en el ámbito de la Enseñanza, con carácter general, y por analogía con las medidas de magnitudes físicas, se solían expresar mediante una escala lineal numérica de 0 a 10 puntos, en principio, sin ningún otro tipo de explicaciones, y, más tarde, dividiendo esta escala en varios intervalos, denominados por medio de atributos como: muy deficiente, insuficiente, suspenso, aprobado, suficiente, bien, notable o sobresaliente.
El correlato de este tipo de escalas son las escalas gráficas de evaluación, que admiten diversos tipos. A partir de éstas se desarrollaron las ya citadas escalas de Likert, Thurstone o Guttman, con el fin de proponer algunos criterios más concretos para definir las categorías. Las escalas gráficas de evaluación permiten a la persona que evalúa una mayor libertad para cuantificar sus juicios y realizar una discriminación muy precisa entre los distintos valores atribuidos (Landy y Farr, 1980).
Sin embargo, el concepto de competencia, cual estilo de trabajo eficaz, de conformidad con los criterios establecidos en una norma de calidad del desempeño (Basoredo, 2013), obliga a especificar hasta donde sea posible estos criterios dentro de las propias herramientas de evaluación, independientemente de cuál sea su formato, por lo que las escalas gráficas lineales se quedan cortas (Borman, 1986) por su excesiva generalidad para la evaluación de competencias.
Además, después de haber identificado la competencia con el desempeño eficaz de tareas, estos criterios han de versar necesariamente sobre los procesos de la ejecución de las mismas o sus productos, y así queda claramente delimitado el dominio de las rúbricas de evaluación de competencias. Criterios basados en expresiones numéricas o en calificativos sin referencias expresas a los estándares de procedimiento o producto, aunque describan diferencias de grado o nivel, podrán utilizarse de forma complementaria, pero no son los elementos primordiales de la formulación de las rúbricas de evaluación de competencias, porque eluden la especificación de los comportamientos o de los resultados de la ejecución de las tareas.
Por ello, como antecedentes genuinos de las rúbricas de evaluación de competencias, a continuación, se explicarán las escalas de información referida a conductas. Existen infinidad de estudios de investigación sobre los diversos tipos de escalas conductuales y su fiabilidad y validez para la evaluación del desempeño. Entre todas éstas, por tratarse de aquellas que tienen una aplicación más sencilla para el diseño de rúbricas de evaluación, se han elegido las Escalas de Anclajes Conductuales (BARS), (Smith y Kendall, 1963), y las Escalas de Observación Conductual (BOS), (Latham y Wesley, 1977).
Escalas de anclajes conductuales (BARS)
El formato de una BARS es similar al de una escala gráfica de evaluación en posición vertical, pero donde se especifican alguno de los valores de la escala mediante ejemplos que definen operativamente las características de la dimensión evaluada (Smith y Kendall, 1963; Landy y Farr, 1980; Debnath, Lee y Tandon, 2015).
El esmerado procedimiento de diseño de una BARS parte de una primera elección de las dimensiones a evaluar y su definición, a continuación se formulan especificaciones para un desempeño superior, medio e insuficiente de la tarea, se aportan ejemplos de estas tres cualidades, y diversos jueces, hasta en tres ocasiones independientes, analizan la asociación realizada entre cada ejemplo y la calificación que le corresponde, eliminando unos u otras en el caso de falta de consistencia (Smith y Kendall, 1963). Estos ejemplos se van recopilando a lo largo del tiempo con ayuda de la técnica de incidentes críticos (Flanagan, 1954).
El resultado de un procedimiento como éste es una excelente discriminación de los ejemplos y un elevado nivel de fiabilidad (Smith y Kendall, 1963), porque se basan en tareas para las que acotan y especifican su desempeño, graduándolo mediante comportamientos observables para los distintos niveles de efectividad de la ejecución (Debnath, Lee y Tandon, 2015).
Entre sus principales limitaciones hay que citar: Un alto coste en tiempos y medios, la dificultad de acuerdo entre los jueces respecto a los incidentes relacionados con el grado medio del desempeño (Debnath, Lee y Tandon, 2015) y ciertos tipos de sesgos al poner la atención sobre conductas que pudieran no ser tan significativas o condicionar la evaluación por el ajuste exclusivo a las descripciones de los anclajes (Murphy y Constans, 1987).
Escalas de observación conductual (BOS)
El diseño de una BOS parte de la recogida de una multiplicidad de incidentes críticos para la identificación de las variables de tarea objeto de evaluación. Posteriormente estos incidentes se clasifican, por la analogía de su contenido, obteniéndose un listado de enunciados de desempeño, con una escala de 1 a 6 puntos para comprobar el grado de frecuencia en la ejecución de la tarea. Seguidamente, con ayuda de las técnicas estadísticas de análisis factorial, se sintetizan las dimensiones concretas para la evaluación y se comprueba la validez de cada enunciado, por su consistencia en la asignación a una misma dimensión por parte de diversos/as evaluadores/as y su importancia para las dimensiones a evaluar (Latham y Wesley, 1977; Tziner, Kopelman y Livneh, 1993).
La fiabilidad y validez de las BOS es moderadamente alta, similar a la de las BARS, con las que se ha comparado en diversas ocasiones, porque en ambos tipos de escalas se dan ejemplos concretos de las mejores y peores conductas del desempeño de las tareas, a criterio de personas expertas en el dominio que se trate (Latham y Wesley, 1977). Asimismo, desde la perspectiva de los procesos de aprendizaje, las BOS minimizan las barreras para entenderse y, consecuentemente, reducen la ambigüedad de los procesos de tarea, lo que mejora la actitud y el compromiso con el trabajo (Tziner y Kopelman, 2002). Dicho de otro modo, las BOS clarifican los objetivos de aprendizaje, aumentan la satisfacción con el proceso de evaluación, incrementan el grado de aceptación de las tareas y mejoran el rendimiento en las evaluaciones posteriores (Tziner, Kopelman y Livneh, 1993).
Debido a la gran similitud entre los métodos de ambos tipos de escalas, a las BOS se les atribuyen idénticas desventajas que a las BARS, altos costes de tiempos y medios, dificultad de discriminación del desempeño de grado medio y peligro de ciertos sesgos por diversas razones, los cuales pudieran llegar a distorsionar la competencia de los/as evaluadores/as.
En cualquier caso, un sistema de evaluación que proporciona información sobre las conductas del desempeño es siempre más creíble, sobre todo en casos de litigio, que cualquier escala gráfica lineal (Murphy y Constans, 1987).