LA EVALUACIÓN COMO PROCESO DE MEJORA DE LOS SISTEMAS EDUCATIVOS II

El rendimiento de los alumnos españoles en los estudios internacionales: una mirada a PISA, TIMSS y PIRLS

No parece necesario señalar ahora las características específicas de PISA (Programme for International Student Assessment), TIMSS (Trends in International Mathematics and Science Study ) o PIRLS (Progress in Intemational Reading Literacy Study), sobre cualquiera de ellos hay abundante información en el Instituto Nacional de Evaluación Educativa (http://www.mecd.gob.es/inee), tanto sobre los marcos conceptuales en los que se apoyan como de los resultados ofrecidos hasta ahora.

Lo que pretendo en este apartado es ofrecer una visión rápida de la posición del sistema educativo español y el de las comunidades autónomas, cuando es posible, respecto a nuestros resultados en el contexto internacional.

Algunos de ellos no son estudios curriculares, particularmente PISA, que «se centra en averiguar hasta qué punto los alumnos son capaces de usar los conocimientos y destrezas que han aprendido y practicado en la escuela cuando se ven ante situaciones, muchas veces nuevas para ellos, en los que esos conocimientos pueden resultar relevantes.

Es decir, evalúa cómo los alumnos pueden hacer uso de su capacidad lectora para comprender e interpretar distintos tipos de material escrito con el que probablemente se van a encontrar al gestionar su vida diaria; de qué forma pueden utilizar su competencia matemática para resolver distintos tipos de retos y problemas relacionados con las matemáticas, y el modo en que los alumnos pueden hacer uso de sus conocimientos y destrezas científicas para comprender e interpretar distintos tipos de contextos científicos.

Las competencias adquiridas reflejarían la posibilidad de los alumnos de continuar aprendiendo a lo largo de su vida, aplicando lo que aprenden en la escuela y fuera de ella, evaluando sus opciones y tomando decisiones.» (INEE, 2007, p. 16).

Pero para ello me parece necesario abordar someramente algunas de las particularidades de las escalas de rendimiento, en las que se expresan los resultados de este tipo de estudios.

2.1.Las escalas de rendimiento: más allá de la media

Para explicar las escalas de rendimiento me apoyo en un texto escrito recientemente en mi propio blog (www.javiertouron.es) sobre este particular, derivado de un artículo publicado en la revista Estudios sobre Educación (Tourón, 2009c).

Los resultados de los informes internacionales como TIMSS, PIRLS o PISA utilizan para la expresión de los resultados del rendimiento de los alumnos las llamadas escalas de rendimiento.

Estas escalas, de construcción compleja, se elaboran a partir de las propiedades que ofrece la Teoría de respuesta al Item (TRI), que aborda los problemas de medida de manera más eficiente y adecuada que la Teoría Clásica de los Tests (TCT).

La Teoría de Respuesta al Item ofrece modelos que permiten relacionar la probabilidad de responder correctamente a un ítem con la capacidad de los sujetos, de modo que los sujetos más capaces tenderán a responder ítems más complejos y los menos capaces lo contrario.

O de otro modo, cuanto más difíciles sean los ítems que un sujeto responda correctamente, mayor será su capacidad. La dificultad de los ítems y la capacidad (o rasgo latente) están en la misma escala de manera que se pueden comparar.

No es este el lugar para explicar la metodología de su elaboración que, en estos estudios además se complica por otras razones como el muestreo que utilizan, la metodología de los valores plausibles, etc. (Cf. para una explicación detallada Martínez Arias, 2006, Martínez Arias, Hernández y Hernández, 2006 o Muñiz, 1997).

Todos ellos son de cierta complejidad matemática, pero nos permiten llegar a unos resultados fáciles de entender y de claras implicaciones educativas, que es de lo que aquí quiero tratar.

Baste para nuestro propósito saber que son escalas que, convencionalmente, tienen una media de 500 puntos y una desviación típica de 100 puntos y que se dividen en tramos o intervalos que vienen definidos por determinados ítems que se ordenan a lo largo de la escala en razón de su dificultad, de manera que, por lo dicho antes, la capacidad de los sujetos se determina en razón de la dificultad de los ítems que se responden correctamente con mayor probabilidad, no de su número como ocurre en la Teoría Clásica.

Aunque puede parecer un tanto contraintuitivo, la TRI nos permite estimar la competencia de los alumnos independientemente de la muestra de ítems empleada para ello y de las condiciones de los demás alumnos sometidos a evaluación, siempre que se cumplan los supuestos de los modelos utilizados, de modo que la estimación de la competencia de un alumno dado es independiente de la competencia de los demás (cosa que no ocurre cuando expresamos los resultados en porcentajes, por ejemplo).

Una vez que conocemos las dificultades de los ítems y las probabilidades de responderlos correctamente, estamos en condiciones de establecer intervalos en la escala que, en virtud de lo que los especialistas determinan que miden los ítems que las componen, nos permiten asociar una referencia cualitativa a esos intervalos de puntuación.

De esta manera no solo decimos que un país, o una comunidad autónoma, tiene una determinada media, sino que estamos en condiciones de decir qué significa esa media, o cualquier otro valor de la escala, en la disciplina que estemos tratando.

Es importante saber, sin embargo que en PIRLS-TIMSS o PISA las estimaciones de los parámetros solo son poblacionales, nunca imputables a un centro y menos a un alumno (ver a este respecto Martínez Arias, 2006).

Cuando el muestreo y otras condiciones, como la distribución de los ítems en los cuadernillos lo permiten, esto mismo que ahora solo se puede decir de la población de un país o comunidad sería aplicable a un alumno o centro educativo también, pero no con el diseño actual.

A modo de mero ejemplo de lo que quiero señalar, en el siguiente cuadro se muestran los intervalos de rendimiento calculados para TIMSS en su escala de rendimiento.

Sabiendo cuantos sujetos superan un determinado nivel y sabiendo qué conocimientos y capacidades están asociados a ese nivel, tendremos una visión clara del dominio o competencia obtenido por los alumnos evaluados.

Esto nos permitiría comparar lo que saben y saben hacer los alumnos con lo que se considera rendimiento satisfactorio en el sistema educativo, es decir, con los criterios que representan los conocimientos y capacidades deseables.

Algo que en nuestro país está sin determinar de manera adecuada todavía (hablaré de esto más adelante).

Para entender bien qué representan las escalas de rendimiento desde el punto de vista educativo y, por tanto, la medida en la que pueden maximizar el impacto de la evaluación en el sistema educativo, en la figura 1 se representa (como ejemplo) la escala de rendimiento de Matemáticas en TIMSS y en rojo los números que se refieren al porcentaje de alumnos que nuestro país tiene en cada tramo de la misma.

La escala se establece en orden de dificultad creciente, de manera que el porcentaje de un determinado intervalo señala cuántos alumnos dominan las destrezas de ese intervalo, pero no dominan las que están por encima (en los intervalos superiores).

Figura 1. Porcentajes de alumnos españoles que dominan o no dominan los aspectos evaluados por TIMSS en Matemáticas, elaborada a partir de los datos del INEE

Así vemos que el 31% de nuestros estudiantes dominan (es su modo de decir que poseen razonablemente esas destrezas y otras similares o asociadas) lo que se señala para el intervalo bajo, pero ninguna de las destrezas por encima de él. Lo mismo se puede decir de los intervalos siguientes: el 39% dominan o poseen las destrezas descritas para el intervalo medio, y también las del intervalo anterior, ya que como se explicó, la escala es acumulativa y quien está en un peldaño determinado también ha superado los de dificultad inferior.

De la misma forma entonces diremos que el 16% tienen las destrezas descritas para el nivel alto (y también las anteriores) y así sucesivamente. Podemos pensar en el salto de altura como un símil, y cada intervalo de la escala como una altura. Es obvio que el que salta 1.50 m también salta alturas inferiores, pero si esa es su mejor marca, no saltará alturas superiores. Pues cada intervalo de la escala representa una «altura» y los porcentajes nos indican cuantos de nuestros «atletas» la saltan.

Por otro lado, en la parte izquierda de la figura señalamos los porcentajes de alumnos que no dominan las destrezas señaladas (que no «saltan» determinada altura por seguir con el símil). Así, el 13% no dominan ninguna de las destrezas de la escala, el 44% (que es la suma de 13+31) no dominan ninguna de las capacidades que se indican, y así sucesivamente.

Analizando los conocimientos y destrezas señalados en la escala vamos -como se comprende- mucho más allá de la media, pues estamos asociando una referencia cualitativa al valor cuantitativo, indicando lo que significa respecto a la materia que se mide.

Si dispusiéramos de una clara descripción de lo que se debería saber y de las destrezas que deberían tener los alumnos, es decir, si tuviésemos los estándares de rendimiento establecidos para nuestro sistema educativo, sería directa la comparación entre lo logrado y lo deseado. Y de manera inmediata sabríamos cuáles deben ser las estrategias a poner en marcha para mejorar las situaciones no deseables en cada una de las unidades (centros, aulas, etc.) que componen nuestro sistema educativo. Conoceríamos cual es nuestro potencial de optimización.

Universidad y empleabilidad: qué buscan hoy los estudiantes al elegir dónde formarse

Mireia Portero, Mejor Docente de España 2025 en Educación No Formal

Cómo validar una factura electrónica correctamente

Software ERP para autónomos y pymes en la gestión diaria

La evaluación como proceso de mejora de los sistemas educativos II