Métodos y momentos para

la elección de los criterios

El empleo de los anteriores tipos de criterios de evaluación es discrecional, pudiendo elegir unos u otros según los casos, si bien es absolutamente necesario utilizar siempre más de un único tipo. Aún cuando se hubiere optado por la redacción de un ejemplo completo, como contraste para la evaluación, la determinación del umbral mínimo de competencia precisa de la especificación de algún otro tipo, como los estándares o los indicadores correspondientes al umbral.

Lo más práctico es comenzar por la especificación de las condiciones de bondad del desempeño de cada tarea. Dicho de otro modo, definir los atributos y circunstancias explicativas de una buena respuesta, así como algunos ejemplos de una respuesta deficiente. Esto es, empezar a preguntarse por los estándares.

El segundo paso que recomiendan Gorriti y López Basterra (2014), autores de quienes se ha recogido este método, es la jerarquización de los enunciados que expresan las particularidades del desempeño de las tareas, conforme al siguiente protocolo:

1

Si no se cumple la condición enunciada ¿la tarea está bien, regular o mal realizada?

2

Cuando la respuesta sea que está mal ejecutada, hay que insistir en la misma cuestión hasta poder ratificar que, independientemente del resto de las particularidades, este primer atributo es absolutamente determinante para la ejecución de la tarea y, por ello, se le asignará la calificación de 1.

3

Si se hubiera respondido que se trata de una ejecución discreta o limitada, es necesario confirmar que efectivamente hay otras características más determinantes, siendo ésta una imperfección no invalidante. Entonces, a este rasgo se le atribuye un 2.

4

El criterio de evaluación más general se elabora partiendo de la síntesis de los enunciados a los que se ha otorgado un 1.

5

Todo el resto de enunciados no utilizados se emplea, a continuación, para completar la elaboración de los estándares del desempeño.

La programación del aprendizaje por tareas, problemas o proyectos, propia del paradigma las competencias, requiere la determinación de los criterios de evaluación desde el primer momento. Van Merriënboer y Kirschner (2007) realizan esta operación en tercer lugar, después de formular las tareas y haberlas clasificado de menor a mayor complejidad.

En un momento posterior, cuando hayan de elegirse o elaborar las pruebas de evaluación, cabe un replanteamiento moderado de los estándares, así como una elaboración detallada de los indicadores. Tal vez esta sea la ocasión para desarrollar los pormenores de los diferentes grados, para lo cual las rúbricas de evaluación son un instrumento muy apropiado.

Para la estimación del grado de competencia alcanzado es siempre necesario haber formulado uno o varios criterios de evaluación, con sus estándares e indicadores correspondientes. Igualmente, una medida complementaria muy adecuada consiste en disponer de algún modelo, mapa conceptual o ejemplo de un buen desempeño.

Asignación de criterios según

la complejidad de las tareas

La fiabilidad y precisión mejoran bastante al combinar dos o más tipos de criterios, de los que se han propuesto.

No obstante, en la práctica es poco probable que se empleen todos a la vez, de modo que una perspectiva más para la elección de los criterios de evaluación es la propia de la complejidad de la tarea, sabiendo que debemos siempre asegurar que todos los agentes interesados entiendan todos estos criterios del mismo modo. Drewes y Rune (2002), en este sentido, recomiendan utilizar ejemplos del comportamiento para cada uno de ellos.

En esta ocasión no puede abordarse un análisis más detallado sobre la complejidad de las tareas, acerca de cuyo tema, además, existen modelos muy variados (Basoredo, 2013b). Lo que sí se hará es distinguir entre tareas de procesos bien especificados, cuyo desempeño utiliza respuestas algorítmicas y determinadas, por una parte, y, por otra, tareas de proceso incierto para las cuales no tienen cabida los algoritmos, cuando las respuestas están sometidas a argumentaciones o decisiones indefinidas.

Jonassen (1997) distingue entre problemas bien estructurados y problemas mal estructurados. Los problemas bien estructurados son los que admiten soluciones convergentes, que implican un número limitado de principios o reglas, mientras que las diversas soluciones posibles a dar a los problemas mal estructurados mantienen un grado mucho mayor de incertidumbre sobre los conceptos, principios o reglas necesarias para darles respuesta.

La evaluación de competencias, en general, responde más bien al modelo de las tareas complejas o problemas mal definidos. En cambio, en la evaluación de conocimientos y destrezas ─determinantes directos de aquellas, como sabemos─ las respuestas obedecen a patrones fijos y constantes, de modo similar a los de los problemas bien definidos.

El procedimiento más sencillo para la asignación de criterios de evaluación de conocimientos o destrezas consiste en formular el enunciado del criterio general, preparar el patrón de respuesta completo, determinar los contenidos e indicadores del criterio umbral y distribuir el resto de las calificaciones proporcionalmente a los distintos grados, por encima y por debajo del umbral.

En cambio, la evaluación del desempeño de tareas complejas necesita, a su vez, del señalamiento de estándares e indicadores para cada uno de los grados de competencia, por encima y por debajo del umbral. Y si se proporcionan modelos y ejemplos sobre los distintos estándares de cada grado, tal y como  sugieren Drewes y Rune (2002), es mucho mejor.

Ejemplos de especificación

de criterios de evaluación

El ejemplo presentado en la tabla 1 es un caso para la evaluación del desempeño de una tarea sencilla, de aplicación en el aprendizaje de tareas laborales de la categoría correspondiente.

A continuación, en esta sección se describirá la asignación de criterios en otros dos casos más, el primero para la evaluación de conocimientos y el segundo sobre la evaluación del desempeño de una tarea algo más compleja.

Atribución de criterios para la evaluación de conocimientos:

La tarea de este primer caso consiste en la elaboración de un apartado del guión radiofónico para una programa de difusión de la obra de J.P. Sartre, por medio de la emisora del centro de enseñanza.

El contenido para preparar esta tarea (tabla, 2) es el objeto de evaluación para el que se han de elaborar los criterios de evaluación. El criterio general de evaluación es la exactitud de la información disponible sobre Sartre.

Por tanto, un proceder eficiente, ya comentado en una sección precedente, es establecer los estándares del grado umbral de competencia, que corresponde con  una calificación mínima aceptable, y deduciendo el resto de las calificaciones proporcionalmente de las unidades de información utilizadas por encima y por debajo de el referido umbral.

Los contenidos que configuran este umbral de competencia son los siguientes:

  • Filósofo francés que vivió desde primeros del siglo XX hasta el último cuarto del mismo siglo.
  • Intelectual muy activo, presente en multitud de actividades culturales y políticas.
  • En su primera época expone su pensamiento ontológico existencial.

Tabla 2: Contenidos de la información para la evaluación de conocimientos 

  • En su segunda época revisó el pensamiento marxista, al que asoció sus tesis existencialistas.
  • De la primera época algunas de sus obras son: El ser y la nada, El existencialismo es un humanismo o Ensayo de ontología fenomenológica.
  • La obra más importante de la segunda época es La crítica de la razón dialéctica.

Un guión que incluyera los anteriores enunciados sería suficiente para la emisión de este apartado del programa de radio, si bien otro más completo, por ejemplo, que citara las fechas exactas, la fundación de la revista u otros detalles de la biografía de Sastre, o alguna de sus otras obras, etc., justificarían una calificación más alta.

Criterios de evaluación del desempeño

de una tarea más compleja

Supongamos que la tarea consiste en comentar por radio la anterior síntesis de la biografía del filósofo francés, tras haber preparado el guión a partir de diversas fuentes, y, posteriormente, la presentación radiada de dicho contenido, dentro de la sección del programa correspondiente.

En tales circunstancias, la evaluación del desempeño requiere la elaboración de una rúbrica con los estándares e indicadores oportunos para cada grado de competencia, a saber:

Primera operación: Preparar el guión, tras consultar fuentes fidedignas (35% de la calificación total).

Inicial En desarrollo Competente Avanzado Ejemplar
.Mera copia

.Difícil comprensión.

.Fuente dudosa.

 

.Sin contraste de fuentes.

.Fuentes no especialiazadas.

 

.Al menos contraste de 2 fuentes.

.Enciclopedias.

.Fuentes variadas y contrastadas: Internet/Hª Fª .Además, ha consultado a algún experto/a
1 fuente 2-3 fuentes >3 fuentes >3 fuentes >3 fuentes

 

Contenido: Exactitud de la información del guión (25% del total).

Inicial En desarrollo Competente Avanzado Ejemplar
.Ideas generales y escasas para el guión.

.Anécdotas mas que hechos destacables.

. Algún dato biográfico de interés.

.No diferencia las distintas épocas.

 

.Datos biográficos relevantes.

.Alguna referencia temporal.

.Obras de las 2 épocas.

 

.Datos biográficos relevantes.

.Fechas exactas.

.Algún comentario sobre sus obras.

.Además, ha comentado el objeto y tesis de cada obra, distinguiendo claramente las épocas.
>5 ideas >10 ideas,

>2 obras/époc

>12 ideas,

>2 obras/époc

 

 

Segunda operación: Transmisión por radio (40% de la calificación total).

Inicial En desarrollo Competente Avanzado Ejemplar
.No puede prescindir de la lectura.

.Tono monótono

.Si no lee:

.Disartrias.

.Muletillas.

 

.Tono monótono

.Lee con fluidez, pero se le nota.

.Excesiva rapidez.

.Introducción deficiente.

.Puede que lea, pero apenas se le nota.

.Alguna muletilla.

.Introducción adecuada.

.Inflexiones.

.Fluidez.

.Capacidad expresiva.

.Duración ajustada.

.Similar a un/a locutor/a profesional:

.Parafrasea.

.Buena dicción.

.Proyecta la voz.

.Maneja bien el micrófono.

 

>2 errores leves. 1-2 errores leves. 0 errores. 0 errores.

>1 muestra de reconocimiento.

 

 

Este segundo ejemplo consta de una tarea de dos operaciones con sus productos correspondientes, la primera, la consulta de fuentes para elaborar el guión y la segunda la transmisión radiada del mismo, dentro de un programa de difusión de la vida y obra del filósofo francés. La complejidad de la tarea reside en la necesidad de elegir diferentes procedimientos y ejecutarlos en un cierto clima de incertidumbre, derivado de la falta de un tipo unívoco de respuestas.

Por consiguiente, ha de mostrarse una competencia global o estilo eficaz de trabajo consistente y estable, para cuya evaluación han de seleccionarse distintos estándares y algunos indicadores que confirmen las diferentes condiciones de ejecución. Cabe, a su vez, una graduación concreta y adecuada a un contexto determinado. En un contexto diferente, por ejemplo, la actuación de un profesional, la competencia umbral tal vez fuera lo que en el contexto escolar supone el grado más alto.

Además, disponer de varios ejemplos tiene un valor complementario notable para la evaluación, aunque no podrían suplir alguno de los estándares e indicadores señalados. En este caso se ha previsto la ponderación de cada una de las operaciones y productos, decisión discrecional y oportuna para la evaluación del desempeño, la cual no habría sido posible únicamente mediante el empleo de modelos. Haber señalado solamente enunciados generales de los criterios, aún habiendo optado por una pluralidad de éstos, igualmente hubiera resultado un proceder escaso.

Conclusiones

La defensa del paradigma del aprendizaje de competencias supone un replanteamiento de todas las prácticas de la evaluación, entre otras, porque no se trata solamente de un problema del ámbito de los contenidos, sino también del rigor profesional de la intervención docente. En esta ocasión nos referimos a una solución a dar a la cuestión epistemológica, tantan veces ya estudiada, del criterio.

Precisamente, la sistematización de los diversos componentes del criterio de evaluación y de sus interacciones con todos los objetos de aprendizaje era la finalidad principal de este artículo.

Del análisis realizado sobre cómo reorganizar los elementos criteriales se han derivado los siguientes principios:

La importancia de clarificar al máximo el umbral de evaluación de cada competencia, en referencia con la expresión ejemplar de la misma, o lo que supone un desempeño en su grado experto.

La necesidad de detallar los estándares del aprendizaje, relativos a todos los grados de la escala de competencia, así como los indicadores o señales cuantitativas, que vengan al caso, en cada uno de los estándares.

La conveniencia de complementar el detalle de los criterios con ejemplos representativos de un buen desempeño o de una ejecución deficiente.

La idoneidad de las rúbricas de evaluación, instrumentos que tienen la función de presentar de modo ordenado los distintos criterios de evaluación.

Por último, tal vez la consecuencia operativa más relevante de este estudio sea la urgencia de abandonar ciertas prácticas convencionales, aún demasiado extendidas, que persisten ya sea en la elección de instrumentos de evaluación, ya sea en la elaboración de inferencias para otorgar valores y calificaciones en ausencia de referentes de criterio expresos.

Podrían citarse multitud de ejemplos reales al respecto, como proceder a la redacción de exámenes inmediatamente después de la presentación de un tema, encomendar la evaluación de tesis de grado o postgrado a comisiones calificadoras que sólo se reúnen para emitir sus veredictos, mediante elección “democrática”, etc.

Todas éstas y cualquier otra práctica afin, que eludan la determinación previa a la acción de evaluar de los criterios específicos expresamente y de los cuales se ha dado la correspondiente información a todos los agentes interesados, han de ser desterradas definitivamente, porque no cumplen, ni con mucho, el umbral de competencia de cualquier profesional docente, por lo que respecta a la función de evaluar.


Referencias bibliográficas

Anderson, L. W., Krahwohl, D. R., Printich, P. & Wittrock, M. (2001). A taxonomy for learning, teaching and assessing: A revision of Bloom’s Taxonomy of educational objectives: Complete edition, New York : Longman.

Austin, J.T. & Villanova, P. (1992). The Criterion Problem:1917-1992. Journal of Applied Psichology, 77, 836-874.

Balmes, L. (1968). El criterio. Barcelona: Círculo de Lectores.

Basoredo L., C. (2011). Una perspectiva y un modo de explicar la competencia desde el ámbito del desempeño de las tareas. Anales de Psicología 27(2), 457-472.

Basoredo L., C. (2013a). Revisión del concepto de competencia para el desempeño de tareas, a la luz de algunas teorías sobre los estilos psicológicos.  Quaderns Digitals, 75.

Basoredo L., C. (2013b). Una premisa del trabajo eficaz: El conocimiento de las tareas (II). Observatorio de recursos humanos y relaciones laborales, 75, 53-58.

Basoredo L., C. (2017). «Características deseables de las rúbricas de evaluación de competencias». INED 21. Consultado el 25-04-2017.

Batersby, M. (1999). So, What’s a learning outcome anyway? Vancouver: Center for Curriculum, Transfer and Technology.

Binning, J. F. & Barret, G. V., (1989). Validity of Personnel Decisions: A conceptual analysis of the inferential and evidential bases. Journal of Applied Psychology, 74(3), 478-494.

Bloom, B.S. (1956). Taxonomy of Educational Objectives, Handbook I: The cognitive domain. New York: David McKay Co Inc.

Cabrera. A.F., Colbeck, C.L. & Terenzini, P.T. (1999). Desarrollo de indicadores de rendimiento para evaluar las practices de enseñanza en el aula: El caso de la ingeniería. Indicadores para la Universidad: información y decisiones, 105-128.

Camilloni, A. (2009). Estándares, evaluación y currículo. Archivos de Ciencias de la Educación (4ª época), 3(3), 55-68.

Campbell, J. P., Gasser, M. B. & Oswald F. L., (1996). The substantive nature of job performance variability. En K. R. Murphy (Ed.), Individual differences and behavior in organizations (pp. 258-299). San Francisco: Jossey Bass.

Choi, I. & Jonassen, D. (2000). Learning Objectives from the Perspective of the Experienced Cognition Framrwork.  Educational Technology, 37-40.

De la Orden, A. (2000). Estándares en la evaluación educativa. Ponencia presentada en las Primeras Jornandas de Medición y Evaluación, (marzo, 2000). Valencia: Universidad de Valencia.

De la Orden, A. (2009). Evaluación y calidad: Análisis de un modelo. Estudios sobre Educación, 16, 17-36.

Drewes, G., & Runde, B. (2002). Performance appraisal. Psychological management of individual performance, 1, 137-154.

Dreyfus, H. & Dreyfus, S. (1986). Mint over machine. New York: The Free Press.

García Izquierdo, M. & García Izquierdo, A.L. (2006). Utilidad de los criterios compuestos y multiples mediante eficacia discriminative en selección de personal. Psicothema, 18 (2), 243-248.

Gorriti, M. López Basterra, J. (2014). Guía para la validación de sistemas de acceso a la Función Pública. Oñati (GI): IVAP.

Gander, S.L. (2006). Throw out learning objectives! In support of a new  taxonomy. Performance Improvement, 45(3), pp. 9-15.

Guion, R. M., (1997). Criterion measures and the criterion dilemma. En N. Anderson & P. Herriot, International Handbook of Selection and Assessment (pp. 267-286). Chichester UK: John Wiley & Sons.

Harden, R.M. (2002). Learning outcomes and instructional objectives: is there a difference? Medical Teacher, 24(2), Medical Teacher, 24(2), 151-155.

Hussey, T. & Smith, P. (2003). The uses of learning outcomes. Teaching in Higher Education, 8(3), 357-368.

Jaeger, R. M. (1978). 7: About Educational Indicators: Statistics on the Conditions and Trends in Education. Review of research in education, 6(1), 276-315.

Jonassen, D. & Tessmer, M.(1996). An outcomes-based taxonomy for instructional systems design, evaluation and research. Training Research Journal, 2, 11-46.

Jonassen, D. (2000). Toward a design theory of problema solving. Educational Technology Research & Development, 48(4), 63-85.

Jornet, J. & González, J. (2009). Evaluación criterial: determinación de estándares de interpretación (EE) para pruebas de rendimiento educativo. Estudios sobre Educación, 16, 103-123.

Jornet, J., González, J., Suárez, J. & Peraless, J. (2011). Diseño de procesos de evaluación de competencias: consideraciones acerca de los estándares en el dominio de las competencias. Bordón, 63 (1), 125-145.

Klehe, U.C. & Anderson, N. (2007). El rol del desempeño típico y máximo en selección de personal. Revista de Psicología del Trabajo y de las Organizaciones, 23 (1), 151-178.

Koopmans, L., Bernaards, C., Hilderbrandt, V., Schaufeli, W., De Vet, H. & Van der Beek, A. (2011). Conceptual frameworks of individual work performance: A systematic review. Journal of occupational and environmental medicine, 53(8), 856-866.

Landy, F.J. & Farr, J.L. (1980). Performance rating. Psychological Bulletin, 87(1), 72-107.

Martínez Rizo, F. (2010). Los indicadores como herramientas para la evaluación de la calidad de los sistemas educativos. Sinéctica, 1-17.

Mayer, R. (2002). Rote versus Meaningful Learning. Theory into Practice, 41(4), 226-232.

Moon, J. (2002). The module and programme development handbook. London: Routledge Falmer.

Morales V., P. (1995). Los objetivos didácticos. Cuadernos monográficos del ICE. Bilbao: Universidad de Deusto.

Morduchovicz, A. (2006). Los indicadores educativos y las dimensiones que los integran. Instituto Internacional de Planeamiento de la Educación. Buenos Aires: UNESCO.

Nieciunski, S. & Kulczyki, J. (2005). Aportaciones al debate sobre los estándares de la educación en la Europa Unida. Escuela Abierta, 8, 309-314.

Sanders, J.R.,(presidente).(1998). Estándares para la evaluación de programas. Comité conjunto de estándares para la evaluación educativa. Bilbao: Mensajero.

Shavelson, R. J. (1991). What Are Educational Indicators and Indicator Systems? ERIC/TM Digest.

Titone, R. (1979). Metodología didáctica. Madrid: Rialp.

Tourón, J. (2009). El establecimiento de estándares del rendimiento en los sistemas educativos. Estudios sobre Educación, 16, 127-146.

Van Iddekinge, Ch. & Ployhart, R. (2008). Development in the criterion-related validation of selection procedures: A critical review and recommendations for practice. Personnel Psychology, 61(4), 871-925.

Van Merriënboer, J.J.G. & Kirschner, P. (2007). Ten step to complex learning: A systematic approach to Tour-Component Instructional Design. Hillsdale (NJ): Lawrence Erlbaum Associates, Inc., Publishers.

Villardón, L. (2006). Evaluación del aprendizaje para promover el desarrollo de competencias. Educatio, siglo XXI, 24, 57-76.

Viswesvaran, C., (2001). Assessment of individual job performance: A review of the past century and a look ahead. En  N. Anderson, D. S. Ones, H. K. Sinangil & C. Viwesvaran (Edts.), Handbook of Industrial Work & Organizational Psychology (pp. 110-125). London: SAGE.

Yela, M. (1990). Evaluar qué y para qué. El problema del criterio. Papeles del Psicólogo, 46-47.

Compartir
POST ANTERIORMIEDO, ¿POR QUÉ?
SIGUIENTE POSTARCHIPIÉLAGO COMO METÁFORA

Doctor en Psicología de la Educación por la Universidad de Deusto, es responsable del área de Formación en el Servicio de Recursos Humanos de la Dirección de Función Pública del Gobierno Vasco. Autor de dos libros y una docena de artículos, sobre temas relacionados con la competencia profesional y el aprendizaje. Su última obra: ¿Cómo desarrollar y evaluar competencias de naturaleza compleja?