Rúbricas de evaluación de competencias

1

INTRODUCCIÓN Y FINALIDAD

Desde hace dos décadas, aproximadamente, el incremento del número de artículos o estudios sobre el uso de las rúbricas de evaluación en los ámbitos de la Educación y la Enseñanza, en países de lengua castellana, es muy significativo, presentando esta metodología como una buena alternativa al empleo de otros instrumentos más convencionales, del tipo cuestionarios, exámenes escritos, etc.

Los primeros datos sobre la validez de las rúbricas, bajo esta denominación o cualquier otra, como matrices de evaluación, escalas de anclajes o similares, se remontan a la década de 1960 y, cuando aquello, las rúbricas se destinaban, preferentemente, a la evaluación del desempeño de tareas laborales.

No obstante, actualmente subsisten variedades tan diferentes de rúbricas de evaluación, que sería conveniente dar a conocer las características definitorias de cada una de ellas para poder juzgar acerca de su validez.

El hecho de agrupar criterios de evaluación en un formato semejante al de una rúbrica no avala, por sí solo, la validez de este instrumento.

La experiencia, durante más de 20 años, en el empleo satisfactorio de rúbricas de evaluación, tanto para la estimación de los niveles de aptitudes específicas, como del desempeño pasado mediante entrevistas conductuales estructuradas, ha suscitado de nuevo el interés por la difusión del método.

Concretamente, la finalidad del presente análisis es describir con mayor profusión que en alguna otra ocasión anterior, las características de la validez de las rúbricas para la evaluación de competencias, a partir de la teoría general del desempeño de tareas.

A continuación, tras un breve resumen de esta teoría del desempeño competente, que sirva de contexto para fundamentar el uso de las rúbricas de evaluación, se comentarán los aspectos más destacados de éstas y la metodología de las escalas de observación de conductas y de anclajes conductuales. Por último, se propondrán algunos modelos para el análisis de fiabilidad de las rúbricas y se dará cuenta de una variedad de sesgos e inexactitudes en el diseño de rúbricas, cuya prevención es el mejor modo de asegurar su validez.

Ni que decir tiene que todos los modelos de docencia, cuyo objetivo general sea el desarrollo de competencias, como el aprendizaje por proyectos, el aprendizaje basado en problemas (Marina, Pellicer y Manso, 2015), el aprendizaje por tareas, etc. deben necesariamente de utilizar rúbricas de evaluación para operativizar los distintos criterios y graduar los logros obtenidos por cada aprendiz. De todos modos, el empleo de rúbricas no necesariamente tiene por qué sustituir ningún método válido de evaluación de rasgos, conocimientos o destrezas, aunque ciertamente éste sea uno de los métodos más adecuados para la evaluación del desempeño de tareas.

Difundir el procedimiento y las condiciones de este tipo de rúbricas de evaluación del desempeño competente es, por tanto, el reto principal en esta ocasión.

2

DESEMPEÑO Y COMPETENCIA

El marco conceptual que ofrece uno de los soportes más firmes para el empleo de rúbricas de evaluación son las teorías del desempeño y de las competencias. Estas teorías, que devienen del mundo del trabajo, son, con todo, de total aplicación a la hora de explicar los principales fenómenos del aprendizaje.

Seguidamente, se realizará una brevísima síntesis de los elementos claves de estas teorías, en apoyo, una vez más, al uso del paradigma de las competencias también con fines didácticos, por entender que es una de las maneras más sencillas de aportar el debido fundamento a las rúbricas de evaluación de los aprendizajes:

1

Concepto de desempeño

Viswesvaran (2001) acotó la noción del desempeño de tareas en torno a la ejecución de conductas observables y relevantes, a juicio de la entidad que las hubiere programado, para la realización de una labor, en todo aquello que queda bajo el control del sujeto que la realiza. De esta manera el desempeño es uno de los integrantes necesarios del rendimiento, aunque éste depende, además, de otros factores ajenos a la acción individual.

Todas las conductas relevantes para el desempeño competente pueden clasificarse en conductas de tarea y conductas contextuales (Motowidlo, Borman y Schmit (1997). Las conductas de tarea son aquellas que tienen una finalidad explícita, relacionada con las metas previstas, mientras que las conductas contextuales tienen un carácter complementario de soporte y mantenimiento de las buenas relaciones sociales dentro del grupo. A estas dos categorías hay que añadir una tercera, de conductas relevantes, pero negativas, para la organización, como son las conductas contraproductivas (Sackett y DeVore, 2001).

Entre las variables del desempeño, sintetizadas por Viswesvaran (2001), todas ellas de aplicación también para evaluar el desempeño de las tareas de aprendizaje, podríamos citar: la productividad y la calidad de los productos terminados, la experiencia, la cantidad de esfuerzo para obtener un buen producto, la competencia interpersonal, la competencia comunicativa, la competencia de coordinación, la aceptación de reglas o el liderazgo.

2

Determinantes directos e indirectos del desempeño

De cualquier acción son predicables unos antecedentes y también unas consecuencias, entre ellas, los resultados. Pues bien, en lo que se refiere al desempeño de tareas, Schmidt y Hunter (1992) confirman la relación causal entre la aptitud y el conocimiento del trabajo con la habilidad para el desempeño de una tarea, tesis que Hunter ya había formulado algunos años antes. A su vez, Borman y sus colaboradores (1991) ordenan la cadena de antecedentes y determinantes del desempeño, empezando por la inteligencia, el conocimiento, la habilidad para el desempeño y las propias conductas del desempeño. Algo después, todos estos antecedentes personales fueron clasificados en 2 categorías, los determinantes directos del desempeño y los determinantes indirectos, que actúan sobre los anteriores, mientras que aquellos inciden inmediatamente sobre la ejecución de las tareas (Campbell, Gasser y Oswald, 1996). Son determinantes directos, los conocimientos, las habilidades o destrezas y las actitudes, a la par que los rasgos intelectuales, los de personalidad, los intereses y otros factores motivacionales se consideran como determinantes indirectos.

3

Criterios del desempeño

Dentro de la teoría del desempeño de tareas otro de los elementos más importantes es el criterio de bondad de la ejecución. Un criterio es una norma, un patrón o una regla que permite la comparación o medida de cualquier objeto o fenómeno, con el fin de expresar un juicio de valor, argumentado y válido, sobre ellos. Gorriti y López Basterra (2010) distinguen entre leyes, estándares e indicadores. Un criterio de desempeño, formulado mediante una ley, permite reconocer si una tarea está mal o bien realizada, mediante un único enunciado, sin ninguna otra precisión. Por su parte, los estándares concretan mucho más el enunciado de la ley, aludiendo a la comparación entre la ejecución de las operaciones de la tarea y las condiciones establecidas para una buena realización de la misma. En tercer lugar, los indicadores son señales del cumplimiento de la ley y de los estándares correspondientes, así como puntualizaciones detalladas sobre las consecuencias positivas o negativas del desempeño de cada tarea.

Las rúbricas de evaluación, como se podrá observar en una sección posterior, son un modo de especificar y organizar los criterios del desempeño de tareas.

4

Las competencias

Como consecuencia del planteamiento anterior, cabe identificar el desempeño competente con uno de los significados concretos del término de competencia. En este sentido, una competencia es un estilo de trabajo eficaz, conforme a los criterios y especificaciones incluidas en una norma, donde se determinan las características definitorias de la calidad y el valor de los productos o resultados del trabajo (Basoredo, 2013).

Las competencias, que como ya se ha dicho en otras ocasiones, trascienden los objetivos de conocimiento, destreza o actitud (Basoredo, 2016) y deben entenderse no como el mejor desempeño alcanzado en las condiciones más favorables, sino como un desempeño típico y habitual, en circunstancias ordinarias (Klehe y Anderson, 2007), y, por tanto, el empleo de rúbricas de evaluación permite la constatación del nivel alcanzado, en ausencia de excepcionalidad.

Rúbricas de evaluación de competencias

3

ELEMENTOS CONCEPTUALES Y DEL CONTENIDO

El interés por una mejora cualitativa de la metodología de evaluación de los aprendizajes en los distintos ámbitos de la Enseñanza es una variable de presencia constante desde hace más de 20 años, que ha reforzado, entre otras estrategias evaluadoras, el uso y generalización de las rúbricas. Por ejemplo, Herman, Aschbacher y Winters (1992) consideran como términos sinónimos evaluación auténtica, evaluación alternativa y evaluación basada en el desempeño, contraponiéndolas a la evaluación convencional mediante cuestionarios o exámenes.

Los 2 principales atributos de cualquier método o instrumento de evaluación son la fiabilidad y validez de los mismos, en las distintas acepciones que constan desde hace varias décadas (Joint Comittee on Standars for Educational Evaluation, 1988, 1994…). Proponer herramientas de evaluación fiables y válidas es un desafío complejo para cualquier tipo de técnica evaluadora, del que tampoco están exentas las rúbricas.

Seguidamente, con ayuda de diferentes estudios, artículos y guías de uso, se presentarán, de modo resumido, en qué consiste una rúbrica de evaluación educativa, sus distintas aplicaciones, su estructura, ventajas e inconvenientes de las rúbricas, y el proceso para su diseño.

Las rúbricas de evaluación educativa son guías precisas para evaluar los aprendizajes y productos del mismo, que utilizan tablas para desglosar los distintos niveles del desempeño de las tareas de los/as estudiantes, en un aspecto determinado, con criterios específicos preestablecidos sobre el rendimiento (Gatica-Lara y Uribarren, 2013; Mertler, 2001).

En otras palabras, se trata de herramientas de calificación cualitativa del trabajo del/a aprendiz o de su desempeño auténtico, que incluyen criterios y dimensiones importantes, así como normas para la consecución de los logros indicados en los referidos criterios (Jonsson y Svingby, 2007).

Atendiendo al formato, las rúbricas de evaluación son tablas de doble entrada en las cuales la primera columna contiene las variables objeto de medida, la primera fila los distintos valores y las siguientes filas los detalles de los criterios e indicadores correspondientes a cada variable.

Las rúbricas de evaluación son una de las herramientas alternativas a las técnicas convencionales de cuestionario o exámenes, tal y como reconocen algunos autores (Alsina, 2013; Oakleaf, 2009), en el contexto de una evaluación auténtica o basada en el desempeño, tal y como se ha comentado anteriormente (Herman, Aschbacher y Winters, 1992).

Concretamente, las escalas de Likert, Thurstone o Guttman pueden considerarse, en cierto sentido, como precursoras de las actuales rúbricas de evaluación (Alsina, 2013). El elemento común de todas ellas es ofrecer explicaciones claras y discriminantes de cada grado o puntuación de una escala numérica o de atributos.

Esto es, ¿qué significa un 7 sobre 10?, ¿cómo se justifica la diferencia entre un insuficiente y un suficiente?, o por qué razones se ha otorgado una calificación final de 6 puntos en un programa de aprendizaje a un determinado aprendiz?

Los dos tipos de rúbricas de evaluación, acerca de cuyas características hay un notable consenso (Moskal, 2000; Mertler, 2001; Jonsson y Svingby, 2007; López Carrasco, 2007; Gatica-Lara y Uribarren; 2013), son las holísticas y las analíticas.

Las rúbricas holísticas únicamente utilizan una variable global para evaluar el desempeño, aunque se especifiquen convenientemente cada uno de los valores de la escala, mientras que las analíticas diversifican los contenidos de la evaluación en varias dimensiones, descritas rigurosamente, así como las especificaciones de los grados de la escala correspondientes. Si, además, se acompañan ejemplos de los detalles de los distintos criterios, las rúbricas analíticas son preferibles a las holísticas, tal y como reconocen Jonsson y Svingby (2007).

En relación con la justificación de las rúbricas, Alsina (2013) las admite en cualquier nivel de enseñanza, con el fin de poder compartir entre las personas interesadas los criterios de evaluación; Green y Bowser (2006) extienden su empleo tanto a la evaluación formativa como a la sumativa y Malini y Andrade (2010), además, para cualquier tipo de disciplinas, particularmente, en la Enseñanza Superior. Las razones más profusamente aludidas para su empleo (Moskal, 2000; Jonsson y Svingby, 2007; Oakleaf, 2009; Gatica-Lara y Uribarren, 2013) son su capacidad de:

Clarificar los objetivos de aprendizaje.

Facilitar la autoevaluación o la evaluación por pares.

Guiar el feedback o reconocimiento a los aprendices.

Promocionar o inducir, consecuentemente, con mayor facilidad, el aprendizaje.

Respecto a la consistencia y seguridad de las rúbricas, se constata que éstas poseen una fiabilidad inferior a otras herramientas psicométricas (Jonsson y Svingby, 2007). Tierney y Simon (2004) subrayan, entre los factores de fiabilidad y validez de las rúbricas, los propios criterios de desempeño, la diferenciación precisa entre los distintos niveles o grados de la escala de evaluación, así como la calidad de los descriptores de los mismos. El mayor problema sobre la fiabilidad y la validez de las rúbricas es, a veces, su dificultad de comprensión (Andrade, 2000), o la ambigüedad de su terminología.

Estas deficiencias suelen achacarse a la falta de estandarización de los calificativos y los atributos utilizados en ellas (Tierney y Simon, 2004), o a una excesiva especificidad versus demasiada generalidad de sus categorías y descriptores (Popham, 1997). Además, el excesivo tiempo de dedicación para su diseño y validación es otra desventaja, si bien esta crítica sería aceptable sólo a corto plazo, porque la eficiencia de una rúbrica de probada fiabilidad y validez es muy alta, aunque el período de construcción y ratificación pueda ser dilatado.

Son pocos los estudios que explican el proceso de diseño de una rúbrica de evaluación; por tanto, tal vez fuera conveniente señalar el sugerido por Mertler (2001), que apunta una serie de pasos recomendables para cualquier diseño de los criterios de evaluación de la herramienta, a saber:

Reexaminar los objetivos de aprendizaje para convertirlos en tareas.

Identificar atributos específicos observables en el proceso de aprendizaje o en los productos del desempeño.

Describir mediante brainstorming las características de cada atributo.

En las rúbricas holísticas, describir los grados excelente e insuficiente, incorporando las descripciones de los atributos, en cada caso.

En las rúbricas analíticas, completar las descripciones de los conceptos y el resto de los niveles.

Revisar las descripciones de la rúbrica, cuando sea conveniente.

4

ESCALAS BASADAS EN INFORMACIÓN SOBRE CONDUCTAS

Los resultados de la evaluación en el ámbito de la Enseñanza, con carácter general, y por analogía con las medidas de magnitudes físicas, se solían expresar mediante una escala lineal numérica de 0 a 10 puntos, en principio, sin ningún otro tipo de explicaciones, y, más tarde, dividiendo esta escala en varios intervalos, denominados por medio de atributos como: muy deficiente, insuficiente, suspenso, aprobado, suficiente, bien, notable o sobresaliente.

El correlato de este tipo de escalas son las escalas gráficas de evaluación, que admiten diversos tipos. A partir de éstas se desarrollaron las ya citadas escalas de Likert, Thurstone o Guttman, con el fin de proponer algunos criterios más concretos para definir las categorías. Las escalas gráficas de evaluación permiten a la persona que evalúa una mayor libertad para cuantificar sus juicios y realizar una discriminación muy precisa entre los distintos valores atribuidos (Landy y Farr, 1980).

Sin embargo, el concepto de competencia, cual estilo de trabajo eficaz, de conformidad con los criterios establecidos en una norma de calidad del desempeño (Basoredo, 2013), obliga a especificar hasta donde sea posible estos criterios dentro de las propias herramientas de evaluación, independientemente de cuál sea su formato, por lo que las escalas gráficas lineales se quedan cortas (Borman, 1986) por su excesiva generalidad para la evaluación de competencias.

Además, después de haber identificado la competencia con el desempeño eficaz de tareas, estos criterios han de versar necesariamente sobre los procesos de la ejecución de las mismas o sus productos, y así queda claramente delimitado el dominio de las rúbricas de evaluación de competencias. Criterios basados en expresiones numéricas o en calificativos sin referencias expresas a los estándares de procedimiento o producto, aunque describan diferencias de grado o nivel, podrán utilizarse de forma complementaria, pero no son los elementos primordiales de la formulación de las rúbricas de evaluación de competencias, porque eluden la especificación de los comportamientos o de los resultados de la ejecución de las tareas.

Por ello, como antecedentes genuinos de las rúbricas de evaluación de competencias, a continuación, se explicarán las escalas de información referida a conductas. Existen infinidad de estudios de investigación sobre los diversos tipos de escalas conductuales y su fiabilidad y validez para la evaluación del desempeño. Entre todas éstas, por tratarse de aquellas que tienen una aplicación más sencilla para el diseño de rúbricas de evaluación, se han elegido las Escalas de Anclajes Conductuales (BARS), (Smith y Kendall, 1963), y las Escalas de Observación Conductual (BOS), (Latham y Wesley, 1977).

Escalas de anclajes conductuales (BARS)

El formato de una BARS es similar al de una escala gráfica de evaluación en posición vertical, pero donde se especifican alguno de los valores de la escala mediante ejemplos que definen operativamente las características de la dimensión evaluada (Smith y Kendall, 1963; Landy y Farr, 1980; Debnath, Lee y Tandon, 2015).

El esmerado procedimiento de diseño de una BARS parte de una primera elección de las dimensiones a evaluar y su definición, a continuación se formulan especificaciones para un desempeño superior, medio e insuficiente de la tarea, se aportan ejemplos de estas tres cualidades, y diversos jueces, hasta en tres ocasiones independientes, analizan la asociación realizada entre cada ejemplo y la calificación que le corresponde, eliminando unos u otras en el caso de falta de consistencia (Smith y Kendall, 1963). Estos ejemplos se van recopilando a lo largo del tiempo con ayuda de la técnica de incidentes críticos (Flanagan, 1954).

El resultado de un procedimiento como éste es una excelente discriminación de los ejemplos y un elevado nivel de fiabilidad (Smith y Kendall, 1963), porque se basan en tareas para las que acotan y especifican su desempeño, graduándolo mediante comportamientos observables para los distintos niveles de efectividad de la ejecución (Debnath, Lee y Tandon, 2015).

Entre sus principales limitaciones hay que citar: Un alto coste en tiempos y medios, la dificultad de acuerdo entre los jueces respecto a los incidentes relacionados con el grado medio del desempeño (Debnath, Lee y Tandon, 2015) y ciertos tipos de sesgos al poner la atención sobre conductas que pudieran no ser tan significativas o condicionar la evaluación por el ajuste exclusivo a las descripciones de los anclajes (Murphy y Constans, 1987).

Escalas de observación conductual (BOS)

El diseño de una BOS parte de la recogida de una multiplicidad de incidentes críticos para la identificación de las variables de tarea objeto de evaluación. Posteriormente estos incidentes se clasifican, por la analogía de su contenido, obteniéndose un listado de enunciados de desempeño, con una escala de 1 a 6 puntos para comprobar el grado de frecuencia en la ejecución de la tarea. Seguidamente, con ayuda de las técnicas estadísticas de análisis factorial, se sintetizan las dimensiones concretas para la evaluación y se comprueba la validez de cada enunciado, por su consistencia en la asignación a una misma dimensión por parte de diversos/as evaluadores/as y su importancia para las dimensiones a evaluar (Latham y Wesley, 1977; Tziner, Kopelman y Livneh, 1993).

La fiabilidad y validez de las BOS es moderadamente alta, similar a la de las BARS, con las que se ha comparado en diversas ocasiones, porque en ambos tipos de escalas se dan ejemplos concretos de las mejores y peores conductas del desempeño de las tareas, a criterio de personas expertas en el dominio que se trate (Latham y Wesley, 1977). Asimismo, desde la perspectiva de los procesos de aprendizaje, las BOS minimizan las barreras para entenderse y, consecuentemente, reducen la ambigüedad de los procesos de tarea, lo que mejora la actitud y el compromiso con el trabajo (Tziner y Kopelman, 2002). Dicho de otro modo, las BOS clarifican los objetivos de aprendizaje, aumentan la satisfacción con el proceso de evaluación, incrementan el grado de aceptación de las tareas y mejoran el rendimiento en las evaluaciones posteriores (Tziner, Kopelman y Livneh, 1993).

Debido a la gran similitud entre los métodos de ambos tipos de escalas, a las BOS se les atribuyen idénticas desventajas que a las BARS, altos costes de tiempos y medios, dificultad de discriminación del desempeño de grado medio y peligro de ciertos sesgos por diversas razones, los cuales pudieran llegar a distorsionar la competencia de los/as evaluadores/as.

En cualquier caso, un sistema de evaluación que proporciona información sobre las conductas del desempeño es siempre más creíble, sobre todo en casos de litigio, que cualquier escala gráfica lineal (Murphy y Constans, 1987).

Rúbricas de evaluación de competencias

5

DISTINTOS GRADOS DE EVALUACIÓN DE UNA RÚBRICA

El uso de cualquier escala de evaluación en Enseñanza supone la elección discrecional respecto al número de categorías o grados en los que se divide. Cuando solamente se consideran 2 rangos, se habla de suspenso de 0 a 4 puntos y aprobado, entre 5 y 10 puntos, ambos inclusive. Tal vez el número de intervalos más extendido sea de 5 o 6, dos grados para el caso de rendimiento insuficiente y tres o cuatro para expresar un rendimiento suficiente, bueno o muy bueno. Además, si se operativiza el procedimiento mediante una tabla de especificaciones de los contenidos, suelen expresarse los resultados en términos de aproximaciones decimales, lo que da una sensación de mayor objetividad y exactitud en la medida, de dudosa validez práctica, tratándose de la evaluación de competencias.

Como forma de estandarizar las rúbricas de evaluación de competencias, seguidamente se ofrecen argumentos a favor de la elección de 4 grados a partir de un estadio inicial de ausencia prácticamente total de competencia o imposibilidad de evaluación de la misma, que no necesita ningún tipo de ejemplificación.

Las dos vías o fuentes argumentales principales, utilizadas en esta ocasión para explicar los distintos grados progresivos del aprendizaje de una competencia, son el proceso de adquisición de cualquier destreza (Anderson, 1982; Kanfer y Ackerman, 1989; VanLehn, 1996) y las bases generales de la adquisición del conocimiento experto (Ericsson y Charness, 1994; Ericsson, 2005; Dreyfus y Dreyfus, 1986; Berliner, 1994).

Una destreza, sencillamente, no es más que un procedimiento estandarizado, por medio de sucesivos pasos, para ejecutar una tarea. Para aprender cualquier destreza hay que tener algunos conocimientos sobre el tema en primer lugar, saber cómo hacer la tarea, después, y, por último, saber ejecutarla realmente.

Anderson (1982) se refirió a la fase cognitiva o declarativa, la fase asociativa o de compilación del conocimiento y la fase procedimental de ejecución autónoma de la tarea. VanLehn (1996) atribuye al segundo momento el planeamiento y la solución del problema, mientras que corresponde al tercero el progreso o mejora del grado de precisión y aumento de la velocidad de la ejecución de la tarea.

Cuando el/a aprendiz reconoce la dificultad de realizar exitosamente la tarea, retrocede a cualquier momento de una de las fases anteriores, de modo que un buen indicador de la consolidación de la destreza es la disminución de los incidentes de retorno (Kanfer y Ackerman, 1989).

Un análisis perspicaz de los incidentes críticos del desempeño de cualquier tarea, a la luz de este esquema, permite estimar el grado de competencia que ejemplifican.

Cuando, por otra parte, se reflexiona sobre las características distintivas del comportamiento de personas con escasa experiencia sobre un tema respecto al de personas expertas, igualmente es posible percibir diferencias de grado en el aprendizaje de competencias.

La experticia es el grado superior de la competencia. Para ser una persona competente no es necesario llegar a tanto, pero todas las personas expertas lo son. Las personas expertas prácticamente no cometen errores, emplean mucho menos tiempo para ejecutar muy bien cualquier tarea del campo que dominan, ponen su énfasis en atender los aspectos más importantes de ésta y atienden a toda la problemática relacionada con ella.

Por el contrario, las personas noveles se centran demasiado en los atributos más superficiales, elaboran menos sus juicios, tienen muchos más errores, trabajan con mayor lentitud y siguen el procedimiento de forma estereotipada. El desarrollo del conocimiento experto es el resultado de largos períodos de práctica deliberada, esto es, de un aprendizaje supervisado y del reconocimiento y motivación de parte de quien realiza la supervisión (Ericsson, 2005).

El grado de experto en un campo se logra cuando se dominan todos los aspectos relevantes del conocimiento y todas las destrezas que requiere el referido campo (Ericsson y Charness, 1994).

Dreyfus y Dreyfus (1986) lograron estandarizar los resultados de las investigaciones sobre el conocimiento experto en una escala de cinco grados o niveles, a) principiante, b) principiante avanzado, c) competente, d) perito y e) experto. Berliner (1994) adapta la escala para evaluar la competencia docente y profundiza en la descripción de cada uno de ellos.

Las principales características de estos 5 niveles son las siguientes:

1

Nivel de principiante

Actúa siguiendo reglas estereotipadas, sin atender a las condiciones del contexto. Se suele mantener a la expectativa, porque no sabe qué hacer. Manifiesta un grado de autonomía muy reducido, que le induce a realizar constantes demandas. Trabaja por ensayo y error, con abundantes fallos, de modo que únicamente puede hacerse cargo de tareas muy fáciles.

2

Nivel de principiante avanzado

Muestra ya alguna destreza, de las más fáciles, pero su saber aún es fragmentario y tiene dificultad para encontrar la información que necesita. Desempeña las tareas con más autonomía, pero aún necesita bastante supervisión. Todavía no es capaz de realizar la mayoría de las tareas.

3

Nivel competente

Ya es capaz de distinguir los aspectos importantes para solucionar un problema. Sus conocimientos están bien contextualizados. Domina las destrezas fundamentales para realizar las tareas. Sabe interpretar las reglas principales, por lo que trabaja con escasos errores, de manera autónoma, y, en consecuencia, la supervisión constante del proceso ya no es necesaria.

4

Nivel de perito o competente avanzado

Sus conocimientos son abundantes, están bien contextualizados y son fácilmente aplicables. Domina todas las destrezas, mayormente en un alto grado. Trabaja con bastante rapidez y con mucha soltura, sin apenas errores. Acepta riesgos personalmente y ya puede supervisar el trabajo de otras personas.

5

Nivel de experto

Trabaja con total automatización del conocimiento. Domina un volumen de información muy superior, incluso al que corresponde al nivel de perito. Manifiesta infinidad de recursos para apropiarse del conocimiento y para realizar las tareas. Realiza sus tareas con rapidez y absoluta efectividad, aunque tal vez le cueste explicar sus procedimientos de modo pormenorizado. Por tanto, está muy capacitado/a para impartir docencia sobre sus áreas de conocimiento y entrenamiento de las destrezas asociadas a tales áreas.

6

TAREAS DE APRENDIZAJE, CRITERIOS Y OBJETIVOS

El empleo de rúbricas de evaluación para el aprendizaje de competencias requiere, obviamente, de una programación por competencias, al menos en el nivel micro de enseñanza individualizada o del grupo de aula.

Utilizar rúbricas para la evaluación de objetivos de aprendizaje de conocimientos es posible, pero resulta menos fiable que una tabla de especificación de contenidos a la que se asocia una escala de puntuación proporcional.

Por tanto, cuando se programa y se desarrolla el aprendizaje de competencias, siguiendo varias de las estrategias propias de este paradigma, como, por ejemplo, por problemas, por proyectos, desarrollo de destrezas, etc., es cuando es recomendable el uso de rúbricas de evaluación de competencias.

Ciertamente, la planificación general vigente, el plan de centro u otros programas en los que se han de incardinar las programaciones habituales suelen emplear el sistema de objetivos y los contenidos temáticos, que aparecen reflejados, incluso, en los manuales y libros de texto correspondientes a cada curso, de tal manera que estas estructuras pudieran suponer una limitación aparentemente insalvable para una enseñanza por competencias.

No obstante, tales obstáculos son fácilmente eludibles, adoptando un planeamiento circular, en el sentido de las agujas del reloj, esto es, de los objetivos generales y contenidos temáticos establecidos a las tareas concretas de aprendizaje, de las que derivan, a continuación, los criterios del desempeño de las mismas y desde éstos, posteriormente, son deducibles los objetivos específicos, relacionados con los objetivos de los planes y programas preceptivos, cerrando así el círculo de la planificación.

1

Las tareas de aprendizaje

Los elementos de atención principal del programa de desarrollo de competencias son las tareas de aprendizaje, para cuya evaluación recomendamos el tipo de rúbricas sobre el que versa este artículo.

Por tareas de aprendizaje no han de entenderse los ejercicios o actividades académicas convencionales descontextualizadas y absolutamente carentes de interés para una buena parte del alumnado, aunque algunos de éstos hayan de considerarse como operaciones ineludibles en determinadas tareas o proyectos. Más bien se trata de tareas amplias, globales, asimilables a los quehaceres reales de cualquier situación vital, análogas a las que se consideraban en sistemas didácticos como el de los centros de interés de Decroly, las unidades didácticas del Plan Morrison, los complejos soviéticos o el trabajo en las escuelas freinetianas (Titone, 1979).

Una secuencia de programación de las sesiones de enseñanza para el desarrollo de competencias, según el modelo de los 4 componentes (Van Merriënboer y Kirschner, 2007), es como sigue: (1) descripción de las tareas de aprendizaje; (2) ordenación de todas las tareas por orden de complejidad; (3) formulación de los objetivos a partir de los criterios de bondad del desempeño de cada tarea; (4) especificación de la información de apoyo o marco conceptual de referencia que incluye los conocimientos declarativos necesarios para realizar exitosamente las tareas; (5) relación de las estrategias cognitivas como ejemplos, explicación de los procesos, etc.; (6) representación de los contenidos por medio de modelos mentales que faciliten la compilación del conocimiento y la ordenación del mismo mediante heurísticos útiles para la búsqueda de soluciones en el caso de las tareas no recurrentes; (7) disposición de la información procedimental, con sus correspondientes (8) reglas cognitivas de aplicación, así como (9) los conocimientos o las destrezas previas que se requieren para el uso eficaz de toda la información. Finalmente, las tareas más difíciles pueden exigir (10) la práctica adicional o el entrenamiento de algunas operaciones parciales, con anterioridad a la realización definitiva de las mismas, al objeto de no poner en riesgo el proceso de desempeño.

Este es uno de los modelos didácticos más consistentes para la utilización de las rúbricas de evaluación de competencia, cuyo diseño procede en paralelo con el desarrollo de la secuencia anteriormente descrita.

2

Tipos de criterios propios de las rúbricas

En una sección anterior se hacía referencia a tres tipos de formulación de los criterios de evaluación del desempeño, leyes, estándares o condiciones e indicadores (Gorriti y López Basterra, 2010). Cuando se trata de la evaluación del desempeño de tareas laborales esta clasificación es suficiente, porque el objeto de la evaluación suele centrarse más en el producto que en el propio proceso.

Sin embargo, la evaluación de cualquier aprendizaje en contextos de enseñanza, puesto que requiere atender igualmente al proceso, a los tres tipos de criterios referidos cabe añadir algún que otro criterio expreso sobre los prerrequisitos, tanto de conocimientos como de destreza o actitud, determinantes de la bondad de ejecución de las tareas.

En otras palabras, el diseño de una rúbrica de evaluación de competencia consta de una definición detallada de la tarea y de sus operaciones o dimensiones correspondientes y de cada uno de niveles o grados de desarrollo, anteriormente referidos, cuya configuración no son más que conjuntos de enunciados que atienden a cualquier tipo de criterios de evaluación, leyes, prerrequisitos, estándares de proceso o producto, e indicadores. Si bien, en una rúbrica, la proporción de cada uno de estos tipos no se ha determinado aún, lo cierto es que el menor porcentaje es el relativo a los criterios de prerrequisito, incluidos mayormente en los dos primeros grados de las escalas de evaluación.

3

Objetivos específicos de aprendizaje

Una vez más hay que afirmar que toda acción didáctica soportada por el paradigma de las competencias no puede prescindir jamás de los objetivos de aprendizaje. Este planteamiento lo que realmente hace es considerar los objetivos de aprendizaje desde la perspectiva de los resultados, en cuyo caso, además de expresar metas concretas a conseguir, los objetivos específicos se convierten en puntos de referencia o criterios de evaluación.

No se pone el acento en los objetivos como organizadores del programa de enseñanza, ya que son las tareas el centro de atención de la programación (Van Merriënboer y Kirschner, 2007), pero, y tal como se ha explicado anteriormente sobre el recurso de circularidad programática, se parte de los objetivos generales prescritos para seleccionar las tareas de aprendizaje y son los criterios de ejecución de las mismas las que se traducen en objetivos específicos coherentes con los objetivos generales de partida.

Desde la perspectiva de los objetivos de aprendizaje las primeras referencias a la competencia han de situarse en las categorías de aplicación, análisis, síntesis y evaluación, pertenecientes a una de las taxonomías de objetivos más completas y utilizadas durante ya hace más de medio siglo (Bloom, 1956), restringiendo al ámbito de los determinantes del desempeño competente las otras dos primeras categorías, las de adquisición y comprensión del conocimiento. Por tanto, el desarrollo de cualquier competencia implica el logro de muchos objetivos previos, de naturaleza más cognitiva, que hacen posible la expresión posterior mediante conductas del desempeño de tareas y de otras de carácter metacognitivo.

En definitiva, el análisis de cualquier rúbrica de evaluación de competencias hace posible una estimación bastante acertada de los objetivos específicos de aprendizaje.

Rúbricas de evaluación de competencias

7

DISEÑO Y VALIDACIÓN DE UNA RÚBRICA

Herman, Aschbacher y Winters (1992) explican, como sigue, el proceso de diseño de cualquier instrumento de evaluación del aprendizaje, que, obviamente, es de aplicación, también, en la construcción y validación de las rúbricas.

Especificar la naturaleza de las destrezas y de los logros que el/a aprendiz ha de conseguir.

Detallar las tareas del/a aprendiz, requeridas para alcanzar las metas.

Elaborar un instrumento de evaluación fiable.

Reunir pruebas de evidencia acerca de la validez de las inferencias derivadas del proceso de evaluación.

Utilizar los resultados para mejorar la evaluación y el procedimiento de feedback de los resultados.

Las tareas de diseño y validación de una rúbrica se centran en los pasos tercero y cuarto del anterior proceso. En los dos métodos analizados en una sección precedente, sobre las escalas conductuales (Smith y Kendall, 1963; Latham y Wesley, 1977), las pruebas de evidencia se eligieron previamente para acumular contenidos que permitieran realizar el propio diseño. Sin embargo, en el ámbito de la Enseñanza o la Formación, por la inmediatez que necesita la evaluación de los aprendizajes, es más recomendable un método de aproximaciones repetidas, al objeto de facilitar la operatividad del sistema.

I

Aproximaciones sucesivas para la construcción de rúbricas

La situación de partida, que indica la necesidad de una rúbrica de evaluación de competencias sobre tareas nuevas, en un dominio de conocimiento concreto, se inicia con una buena definición de las tareas y de los criterios de evaluación del desempeño de las mismas, al menos en términos de leyes.

En un segundo momento, atendiendo a los diversos componentes de la temática y, adoptando los distintos grados del conocimiento experto, se procede a una primera descripción de las operaciones o dimensiones a evaluar y de los cuatro niveles de complejidad, más el estadio inicial, o sea, un grado de competencia en desarrollo, un grado aceptable de competencia, un grado avanzado de competencia y un grado de competencia ejemplar.

En tercer lugar, conviene contrastar este primer protocolo, al menos, con dos expertos para alcanzar un consenso sobre las dimensiones a evaluar y los términos descriptivos de cada uno de los cuatro grados de la rúbrica.

La fase siguiente tiene por finalidad acumular pruebas de evidencia, recogiendo todo tipo de observaciones, ejemplos de operaciones de tarea, ejercicios e incidentes críticos para cada uno de los cuatro grados de competencia señalados.

Tras el análisis pormenorizado de todas las evidencias, se incorporarán las enmiendas, en forma de especificaciones diferentes de las dimensiones y nuevos estándares e indicadores del desempeño de las tareas en cada uno de los grados.

Los dos últimos pasos, de acumulación de evidencias y de revisión de los descriptores de la rúbrica deben repetirse, periódicamente, al menos una vez por curso o en todas las nuevas ediciones del programa.

II

Procedimientos de validación de la rúbrica

En una sección anterior se había comentado que la diferenciación precisa entre los distintos niveles o grados de la escala de evaluación (Tierney y Simon, 2004), la dificultad de comprensión de los términos o su ambigüedad (Andrade, 2000), son los problemas principales de validación de las rúbricas.

Por consiguiente, los procedimientos más recomendables de validación de una rúbrica se basan en el acuerdo entre varias personas expertas, el cual suele operativizarse con ayuda de determinados índices estadísticos.

Además, la fiabilidad y la validez de una rúbrica se ven afectadas por múltiples sesgos o inexactitudes, alguno de los cuales podría ocurrir durante el proceso de diseño (Morgeson y Campion, 1997). Los principales sesgos de naturaleza cognitiva, que habrían de evitarse necesariamente son los derivados de: la categorización de la información, los descuidos, la información superflua, la información inadecuada, el contraste de efectos, el halo o las actitudes de indulgencia y severidad.

Ante la eventualidad de un valor reducido de cualquiera de los índices estadísticos empleados, una buena medida de validación es analizar atentamente si ha ocurrido alguno de estos tipos de distorsión, que pueda ser corregido.

Existe una notable variedad de métodos estadísticos para la validación de una rúbrica. Entre ellos, se propone iniciar el proceso con el análisis de fiabilidad, con ayuda del índice kappa de Cohem (1960) o el promedio de desviaciones, AD, de Burke y Dunlap (2002), cuyas especificaciones se acompañan (fig., 1).

Figura 1: Métodos de fiabilidad o acuerdo entre evaluadores

Los análisis de fiabilidad o el grado de acuerdo entre evaluadores/as se hace aplicando una de las dos fórmulas ─o las dos, una tras otra, para poder hacer comparaciones─ a las calificaciones que un mínimo de 3 jueces independientes obtengan de la evaluación de más de 30 casos en los que se haya utilizado la rúbrica.

Si no se hubieran obtenido las puntuaciones mínimas, los contenidos de la rúbrica deben ser necesariamente revisados. En caso de haber obtenido una buena puntuación, podrá de decirse que, al menos, la rúbrica es fiable, siendo éste el primer indicador de su validez.

Por razones de eficiencia, estas pruebas de validación no es práctico realizarlas antes de las segunda o tercera revisión/aproximación.

Cualquier otro estudio posterior de validez de contenido, validez predictiva, etc., requiere de operaciones más complejas, que se aplazan para otra ocasión. En cierto sentido, una buena puntuación de fiabilidad, de donde se deduce que varios jueces han coincidido en considerar que la rúbrica es coherente, permite, al menos, suponer la validez hipotética del contenido de la misma.

8

EJEMPLO

Ejemplo de los primeros pasos del diseño de una rúbrica 

El objeto de este ejemplo es la rúbrica de evaluación de un curso de formación continua a distancia, mediante la plataforma Moodle, sobre Análisis del Trabajo en la Administración Pública.

La tarea a evaluar consistió en: “Analizar puestos de trabajo, elaborando un informe exhaustivo de aplicación en los distintos ámbitos de la gestión de los recursos humanos”. La figura nº 2 ofrece en miniatura los contenidos del protocolo inicial, que sirvió para la evaluación de 22 alumnos/as en la primera edición del referido programa de aprendizaje.

Figura, 2: Ejemplo de rúbrica de evaluación de competencias

Seguidamente, se compararán los enunciados de este primer protocolo (A) con los del segundo protocolo (B), previsto para la edición siguiente, tras incorporar los cambios derivados del análisis de los informes y los comentarios recogidos en el foro del curso.

Primera operación

Anteproyecto del plan de análisis de puestos (A.P):

Realizar un informe de unas 5 páginas para argumentar la necesidad de revisar las estructuras de organización del personal y diseñar una nueva Relación de Puestos de trabajo (RPT).

Estadio inicial (0-1) A

B

No es posible evaluar ningún nivel de competencia, por no resultar observable o manifestar información totalmente insuficiente sobre contexto, agentes, metodología, etc.

(Sin cambios)

Competencia en desarrollo (2-4)

B

Se limita a analizar los elementos jurídico normativos de la R.P.T, y las soluciones que aporta no son asimilables al marco de referencia de las metodologías del A. de Puestos. No contempla ni todos los agentes, ni las necesidades principales que dan origen al proyecto de A.P

Destaca, más bien, los elementos jurídico normativos de la R.P.T, y las soluciones que aporta son poco asimilables al marco de referencia de las metodologías del A. de Puestos. Explica escasamente los agentes o las fases del proyecto. Apenas alude a los recursos y herramientas o los que cita son inadecuados.

Nivel competente (5-6)

B

Identifica la problemática de la R.P.T. vigente. Reconoce los diversos agentes, los datos del contexto y las necesidades. Maneja un marco de referencia coherente sobre el A. de Puestos. Propone alguna solución metodológica adecuada, pero no ha visualizado las posibles ganancias.

Realiza un análisis de contexto algo general, pero identifica la problemática de la Relación de Puestos vigente. Identifica agentes, explica fases y recursos. Maneja un marco de referencia coherente sobre el A. de Puestos. Propone alguna solución metodológica adecuada, pero solamente ha visualizado alguna de las principales ganancias.

Nivel avanzado (7-8)

B

Identifica el modelo organizativo para las entidades burocráticas, los datos del contexto y los principales agentes. Tal vez no distinga adecuadamente las funciones de las tareas de los puestos. Identifica la problemática de la R.P.T. vigente. Maneja un marco de referencia coherente sobre el A. de Puestos. Propone variadas soluciones, tanto provisionales como definitivas y visualiza las posibles ganancias.

Realiza un análisis de contexto completo. Identifica el modelo organizativo para las entidades burocráticas, los datos del contexto y los principales agentes. Maneja un marco de referencia coherente sobre el A. de Puestos. Explica detalladamente las fases el tipo de recursos y herramientas, tal vez, aún un poco generales. Propone variadas soluciones, tanto provisionales como definitivas y visualiza las posibles ganancias.

Competencia ejemplar (9-10)

B

Identifica el modelo organizativo para las entidades burocráticas, los datos del contexto y todos los agentes. Distingue las políticas de las funciones y de las tareas de los puestos. Identifica la problemática de la R.P.T. vigente. Maneja un marco de referencia experto sobre el A. de Puestos. Propone variadas soluciones, tanto provisionales como definitivas para varios ámbitos de los recursos humanos.

Realiza un análisis de contexto completo, incluido el modelo organizativo y los principales agentes. El marco de referencia es muy riguroso y todo el anteproyecto es coherente. Explica detalladamente las fases el tipo de recursos y herramientas. Propone variadas soluciones, tanto provisionales como definitivas y visualiza las posibles ganancias. Alude, además, a diversas consecuencias positivas o negativas y visualiza, incluso, otros proyectos derivados.

Segunda operación

Redactar incidentes críticos (I.C.) para las funciones de un puesto

Redactar, por lo menos, 2 incidentes críticos para cada función (de 5 a 8) de un puesto de trabajo conocido. Los I.C. serán 1 positivo y otro negativo.

Estadio inicial (0-1) A

B

No es posible evaluar ningún nivel de competencia, por no resultar observable o manifestar desconocimiento de la técnica de I.C. o falta de destreza en la redacción de los incidentes.

(Sin cambios)

Competencia en desarrollo (2-4)

B

Los I.C. son poco trascendentes, o están incompletos o es difícil distinguir los que corresponden a un desempeño positivo o a un desempeño negativo. Los enunciados de función no se diferencian de los de tarea. En alguna de las funciones falta algún incidente crítico.

Los I.C. son poco trascendentes, o están incompletos o es difícil distinguir los que corresponden a un desempeño positivo o a un desempeño negativo. En alguna de las funciones puede faltar algún incidente crítico. O bien, se trata de incidentes críticos, cuya resolución fue imputada a otras personas ajenas.

Nivel competente (5-6)

B

Son, al menos, 10 incidentes, algunos positivos y otros negativos y todos significativos, aunque la redacción de varios de ellos es incompleta. Alguno de los enunciados de función no se diferencian de los de tarea y, por tanto, la relación entre incidentes y funciones es poco clara en estos casos.

Son, al menos, 6 incidentes, algunos positivos y otros negativos y todos significativos. La redacción de ellos ha de ser completa, aunque haya alguno incompleto. Algún otro puede haberse redactado aludiendo a la responsabilidad de un tercero, ajeno al sujeto del incidente.

Nivel avanzado (7-8)

B

Ha presentado al menos 10 incidentes, la mitad de cada categoría. Todos son significativos de un desempeño competente o incompetente. La redacción de cada uno es muy detallada en todos sus apartados. No obstante, algunos son escasamente denotativos de la dimensión de competencia que debieran identificar.

(sin cambios)

Competencia ejemplar (9-10)

B

Ha presentado al menos 14 incidentes, la mitad de cada categoría. Todos son significativos de un desempeño competente o incompetente. La redacción de cada uno es muy detallada en todos sus apartados y coherente respecto de la tarea relacionada con su función correspondiente. Todos los incidentes denotan con claridad una dimensión de competencia evaluable.

(sin cambios)

Tercera operación

Realizar el análisis de un puesto de trabajo de la Admón. Pública

Elegir la metodología idónea y elaborar un informe que permita extraer inferencias para varios ámbitos de recursos humanos: Organización, valoración de puestos, selección, formación y carrera administrativa.

Estadio inicial (0-1) A

B

No es posible evaluar ningún nivel de competencia, por no resultar observable o manifestar desconocimiento de los métodos distintos de A.P., según las necesidades.

(sin cambios)

Competencia en desarrollo (2-4)

B

Ha elegido un método de análisis idóneo, pero su informe refleja escasos datos e información que permitan extraer conclusiones operativas suficientes para cualquiera de los ámbitos de los recursos humanos.

Puede haber elegido un método de análisis idóneo, pero su informe refleja escasos datos e información que permitan extraer conclusiones operativas significativas para cualquiera de los ámbitos de los recursos humanos. Su proyecto es demasiado general, más propio de una etapa anterior del mismo curso.

Nivel competente (5-6)

B

Ha seleccionado un único método de análisis, pero lo ha aplicado con esmero, de modo que, de su informe, cabe extraer inferencias, al menos, para valorar el puesto y para seleccionar personal competente.

Ha identificado las necesidades y propuesto medidas oportunas. El informe incluye el análisis de funciones, de tareas o de criterios del desempeño, aunque apenas ha hecho referencias concretas a las diversas técnicas de análisis del trabajo específicas.

Nivel avanzado (7-8)

B

Ha identificado, por lo menos, necesidades de organización, valoración del puesto, selección y formación del personal. Ha elegido el método adecuado a cada necesidad, pero no ha cuidado demasiado los posibles sesgos de cada uno. Ha descrito someramente las tareas y algunos recursos de competencia.

Ha identificado, por lo menos, necesidades de organización, valoración del puesto, selección y formación del personal. Ha elegido un método útil, aunque se adecúe mejor a unas necesidades que a otras. No parece haber cuidado demasiado los posibles sesgos de la metodología. Ha descrito someramente las tareas y algunos recursos de competencia.

Competencia ejemplar (9-10)

B

Ha identificado, por lo menos, necesidades de organización, valoración del puesto, selección, formación del personal y carrera. Ha elegido el método adecuado a cada necesidad y cuidado los posibles sesgos de cada uno. Ha descrito exhaustivamente tareas y recursos de competencia.

(sin cambios)

La dificultad que, en la práctica, dentro de un sistema reglado de enseñanza, supone la acumulación previa de evidencias suficientes para diseñar y probar la idoneidad de una rúbrica, nos obliga a optar por algún otro método sustitutorio, como puede ser éste de aproximaciones sucesivas.

No obstante, el ejemplo explicado pone de manifiesto la necesidad de recoger evidencias, dado que, a pesar de haber elaborado una propuesta razonada y muy centrada en los contenidos de las tareas, los distintos comentarios del alumnado, a través del foro, así como los diversos contenidos de los trabajos objeto de evaluación han dado origen a los cambios propuestos para la segunda versión.

Con toda probabilidad, un análisis análogo, realizado después de la segunda edición del programa, permitiría mejorar aún más los criterios de evaluación contenidos en los distintos niveles de la rúbrica. Los resultados de una tercera edición ya serían objeto de un procedimiento de análisis estadístico para la validación definitiva del instrumento de evaluación de esta competencia.

9

CONCLUSIONES

Este estudio se ha centrado en analizar y describir las rúbricas para la evaluación de competencias, así como en proponer una metodología práctica para su diseño.

Como principales conclusiones se apuntan las siguientes:

1

No es admisible cualquier tipo de rúbrica para la evaluación de competencias, por muchas coincidencias superficiales que pudieran existir en la comparación entre varias propuestas.

2

El elemento esencial de cualquier rúbrica de evaluación de competencias es su validez probada, mediante evidencias acerca del desempeño de las tareas y sus indicadores de fiabilidad.

3

Disponer de un marco de referencia teórico riguroso, que en el caso de la evaluación de competencias no puede se otro que el de las teorías del desempeño de tareas, el aprendizaje de destrezas o el desarrollo del conocimiento experto, favorece la elaboración de propuestas de rúbricas idóneas, por los recursos que ofrecen y las reglas que sugieren las referidas teorías.

4

De todos modos, con el fin de evitar una cierta parálisis de la ejecución de los programas de aprendizaje, por las necesidades de la validación de la rúbrica, se ha propuesto una metodología de aproximaciones sucesivas para la acumulación de las obligadas evidencias para su validación.

5

Por último, cualquier pretensión de generalizar el empleo de una rúbrica de evaluación de competencias, exige la descripción exacta y exhaustiva de los procedimientos utilizados para su diseño y validación.


Bibliografía

Anderson, J.R. (1982). Acquisition of cognitive skills. Psychological Review, 89(4), 369-406

Andrade, H.G. (2000). Use rubrics to promote thinking and learning. Educational Leadership, 57(5), 13-18-

Alsina M, J. (2013). Rúbricas de evaluación de competencias. Cuadernos de docencia universitaria, nº 26. Barcelona: ICE-UB/Octaedro.

Basoredo L., C. (2013). Revisión del concepto de competencia para el desempeño de tareas, a la luz de algunas teorías sobre los estilos psicológicos. Quaderns Digitals, 75.

Basoredo L., C. (2016). Construyendo una didáctica sobre la estrategia de la competencia. INED 21  Consultado el 26-04-2016.

Berliner, D.C. (1994). Expertice, The wonder of exemplary performances. En J.N. Mangieri & C. Colins: Creating powerful thinking in teachers and students. Ft. Worth, (TX): Holt, Rinehart & Winston.

Bloom, B.S. (1956). Taxonomy of Educational Objectives, Handbook I: The cognitive domain. New York: David McKay Co Inc.

Borman, W.C. (1986). Borman, W. C., (1986). Behavior-based rating scales. En R. A. Berk (Ed.), Performance Assessment: Methods and Applications (pp. 100-120). Baltimore MD: Johns Hopkins University Press.

Borman, W. C., White, L. A., Pulakos, E. D. & Oppler, S. H., (1991). Models of supervisory job performance ratings. Journal of Applied Psychology, 76(6), 863-872.

Burke, M. & Dunlap, W. (2002). Estimating interrater agreement with the average deviation index: A user’s guide. Organizational Research Methods, 5(2), 159-172.

Campbell, J. P., Gasser, M. B. & Oswald F. L., (1996). The substantive nature of job performance variability. En K. R. Murphy (Ed.), Individual differences and behavior in organizations (pp. 258-299). San Francisco: Jossey Bass.

Cohen, J. (1960). A coefficient of agreement for nominal sacales. Educational and Psychological Measurement, 20, 37-46.

Denbat, S.C., Lee, B.B. & Tandon, S. (2015). Fifty years and going strong: What makes Behaviorally Anchored Rating Scales so perennial as an appraisal method? International Journal of Bussines and Social Science, 6(2), 16-25.

Dreyfus, H. & Dreyfus, S. (1986). Mint over machine. New York: The Free Press.

Ericsson, K. A. & Charness, N., (1994). Expert Performance. American Psychologist, 49(8), 725-747.

Ericsson, K.A. (2005). Recent advances in expertise research: A commentary on the contributions to the special issue. Applied Cognitive Psychology, 19, 233-241.

Flanagan, J. C. (1954). The critical incident technique. Psychological Bulletin, 51(4), 327-358.

Gatica-Lara, F. & Uribarren B. T.(2013). ¿Cómo elaborar una rúbrica? Investigación en Educación Médica, 2(1), 61-65.

Gorriti, M. López Basterra, J. (2010). Análisis de puestos de trabajo en la Administración Pública. Oñati (GI): IVAP.

Green, R. & Bowser, M. (2006). Observations from the field: Sharing a literature review rubric. Journal of Library Administration, 45-1(2), 185-202.

Herman, J., Aschbacher, P. & Winters, L. (1992). A practical guide to alternative assessment. Alexandria (VA): ASCD.

Jonsson, A. & Svingby, G. (2007). The use of scoring rubrics: Reliability, validity and educational consecuences. Educational Researchs Review, 2, 130-144.

Kanfer, R & Ackerman, P.L. (1989). Motivation and cognitive abilities: An integrative/aptitude-treatment interaction aproach to skill acquisition. Journal of Applied Psychology, 74, 657-690.

Klehe, U.C. & Anderson, N. (2007). El rol del desempeño típico y máximo en selección de personal. Revista de Psicología del Trabajo y de las Organizaciones, 23 (1), 151-178.

Landy, F.J. & Farr, J.L. (1980). Performance rating. Psychological Bulletin, 87(1), 72-107.

Latham, G.P. & Wexley, K.N. (1977). Behavioral Observation Scales for performance appraisal purposes. Personnel Psychology, 30, 255-268.

López Carrasco, M.(2007). Guía básica para la elaboración de rúbricas. Universidad Iberoamericana Puebla. México.

Malini, R. & Andrade, H.G. (2010). A review of rubric usue in higher education. Assessment & Evaluation in Higher Education, 35(4), 435-448.

Marina, A., Pellicer, C. & Manso, J. (2015). Libro blanco de la profesión docente y su entorno escolar. Madrid: Ministerio de Educación Cultura y Deporte.

Mertler C, A. (2001). Designing scoring rubrics for your classroom. Practical Assessment Research & Evaluation, 7(25).

Morgeson, F. & Campion, M. (1997). Social and cognitive sources of potential inaccuracy in job analysis. Journal of Applied Psychology, 82(5), 627-655.

Moskal, B.M. (2000). Scoring rubrics: what, when and how?. Practical Assessment Research & Evaluations, 7(3).

Motowidlo, S. J., Borman, W. C. & Schmit, M. J., (1997). A theory of individual differences in task and contextual performance. Human Performance, 10(2), 71-83.

Murphy, K. R. & Constans, J. I., (1987). Behavioral anchors as a source of bias in rating. Journal of Applied Psychology, 72(4), 573-577.

Oakleaf, M. (2009). Using rubrics to assess information literacy: An examination of methodology and interrater reliability. Journal of the American Society for Information Science and Technology, 971-973.

Popham, W.J. (1997). The role of instructional rubrics and self-assessment in learning to write: A snorgasbord of finding. A paper presentedat the anual meting of the American Educational Research Association. April, 21. Montreal, Canada.

Sackett, P. R. & DeVore, C. J., (2001). Counterproductive behaviors at work. En N. Anderson, D. S. Ones, H. K. Sinangil & C. Viswesvaran (Edts.), Handbook of Industrial Work & Organizational Psychology (pp. 145-163). London: SAGE.

Schmidt, F. L. & Hunter, J. E., (1992). Development of Causal Model of Processes Determining Job Performance. Current directions in Psychological Sciencie, 1-3, 89-92.

Smith, P. C. & Kendall, L. M., (1963). Retranslation of expectations: An approach to the construction of unambiguous anchors for rating scales. Journal of Applied Psychology, 47(2), 149-155.

Titone, R. (1979). Metodología didáctica. Madrid: Rialp.

Tierney, R. & Simon, M. (2004) . Whats still wrong with rubrics focusing on the consistency of performance criteria across scale levels. Practical Assessment Research and Evaluation, 9(2).

Tziner, A., Kopelman, R. E. & Livneh, N., (1993). Effects of performance appraisal format on perceived goal characteristics, appraisal process satisfaction and changes in rated performance: A field experiment. Journal of Psychology, 127(3), 557-574.

Tziner, A., Kopelman, R. E. (2002). Is there a preferred performance rating format? A non-psychometric perspective. Applied Psychology, an international review, 51(3), 479-503.

Van Merriënboer, J.J.G. & Kirschner, P. (2007). Ten step to complex learning: A systematic approach to Tour-Component Instructional Design. Hillsdale (NJ): Lawrence Erlbaum Associates, Inc., Publishers.

Viswesvaran, C., (2001). Assessment of individual job performance: A review of the past century and a look ahead. En N. Anderson, D. S. Ones, H. K. Sinangil & C. Viwesvaran (Edts.), Handbook of Industrial Work & Organizational Psychology (pp. 110-125). London: SAGE.