No es un problema nuevo la pregunta sobre cómo evaluar el
aprendizaje, y las críticas no son pocas, pero es claro que existe una manera
imperante de evaluar en el contexto escolar, que en muchas situaciones se
extiende a la educación superior: las evaluaciones estandarizadas. El atractivo
de este tipo de evaluaciones es evidente: son rápidas de aplicar y corregir, se
utiliza el mismo instrumento para todos los alumnos del curso, se pueden
reutilizar para futuras generaciones, otorgan un resultado cuantificado que
permite comparar los resultados a partir de magnitudes y prácticamente se
aplican solas, pues el rol del docente pasa a ser de un supervisor durante la
aplicación. No obstante, casi todos estos beneficios se desvanecen frente a la
rigurosidad en la construcción de instrumentos o las perspectivas de educación
inclusiva.
Crear una evaluación estandarizada en principios no es distinto a
crear cualquier instrumento psicométrico; lo que se busca es medir una variable
a partir de distintos indicadores. Para ilustrar la idea con un ejemplo, cuando
un profesor de matemáticas busca evaluar la capacidad de realizar sumas de dos
dígitos de sus estudiantes con una prueba estandarizada, lo que busca realizar
es construir un instrumento psicométrico que cuantifique la variable “capacidad
de sumar números de dos dígitos” en una escala, y que permita realizar
interpretaciones de estos resultados, por ejemplo, en una escala del 1 al 7,
los valores bajo 4 significan que no es capaz de sumar estos números, mientras
que valores sobre el 4 significan que lo es. Hasta este punto el procedimiento
no es muy distinto a la realidad en contextos educativos: se determina algo que
evaluar, se crean reactivos (o preguntas) que den cuenta de la variable a medir
y se establecen parámetro para interpretar estos valores. No obstante, este
proceso carece de las partes más importantes de la construcción de
instrumentos: la realización de pruebas piloto y la determinación de parámetros
de confiabilidad y validez del instrumento.
Como bien plantean Prieto y Delgado (2010), si no se determina la
fiabilidad y validez de las interpretaciones realizadas a partir de resultados
obtenidos de un instrumento, estas interpretaciones no tienen ningún sustento
para tener efectos en la práctica. En otras palabras, si no se miden estas
propiedades, no hay evidencia que sustente la práctica de reprobar en la prueba
de matemáticas al niño que obtuvo una nota 3 y aprobar a aquél que obtuvo un 5.
Mas allá de estas implicancias, también es relevante lo anterior al momento de
poner en relación distintas evaluaciones. Cuando se promedian distintas notas
en un contexto escolar, se está asumiendo que existe tanto una equivalencia
entre las escalas, es decir, un 4 en matemáticas representa el mismo nivel de
comprensión que un 4 en lenguaje, y también se asume que se puede determinar
una magnitud en las diferencias, es decir, que aquel niño que obtuvo un 3 tiene
la mitad de capacidades en lo medido que aquel que obtuvo un 5. Sin entrar en
más detalle, lo descrito anteriormente retrata que desde la misma lógica de
medición de las habilidades a todos los alumnos por igual se puede decir que la
práctica común de evaluar a partir de instrumentos estandarizados no cumple con
los estándares psicométricos que se requieren para realizar las
interpretaciones y derivaciones de éstas que se llevan a cabo en las escuelas.
A partir de lo
anterior es inevitable la pregunta: si la construcción de evaluaciones
estandarizadas es un proceso poco viable en contextos educacionales, ¿Qué maneras
existen de dar cuenta del proceso de aprendizaje de los estudiantes? Es frente
a esta pregunta que la educación inclusiva plantea algunas propuestas. Lo
primordial, en primer lugar, es rechazar la evaluación como el fin del
aprendizaje, sino pensarla como una herramienta más para apoyar el desarrollo
de las capacidades de cada estudiante. Además, es necesario explicitar que
valorar la diversidad implica que, tal como los estudiantes son sujetos
particulares y distintos entre sí, la manera de evaluar su aprendizaje debe ser
igualmente particular y diversa, o como dicen Cullen y Pratt (2007): “a medida
que aumente la diversidad en las aulas, también deben hacerlo las prácticas de
evaluación” (p. 199). Es por esto que metodologías de evaluación que valoren la
diversidad necesitan de practicas diversas, dinámicas, que se adecúen a lo que
se busca evaluar y al sujeto evaluado, que le den voz en el proceso al
evaluado, que midan más allá de lo cognitivo y lo psicomotor, que involucren a
distintos profesionales de la educación, y más que nada, que no se tomen a la
ligera como un fin en sí mismas, sino como una manera de evaluar los objetivos
de aprendizaje de cada alumno.
Una evaluación que
valore la diversidad en las aulas no implica desechar todo lo estandarizado y
reemplazarlo por una entrevista en profundidad, sino que significa conocer las
limitaciones de cada metodología, de modo que se complementen entre sí. La
entrevista individual, la entrevista con los padres, la observación en el aula,
los proyectos grupales, las evaluaciones entre pares, el
registro del historial del alumno, las pruebas estandarizadas, entre muchas otras, son todas metodologías que tienen sus
debilidades, todas son criticables y todas se pueden llevar a cabo de manera
que sea perjudicial para el proceso evaluativo, pero también todas tienen la
posibilidad de dar información crucial que ninguna otra puede otorgarla, por lo
que es clave ser rigurosos, conscientes y flexibles al momento de utilizarlas.
Lo que nunca se debería olvidar es que “los alumnos no necesitan un crítico, sino un acompañante” (Cullen y Pratt, 2007, p. 196)
Referencias
Cullen, B. y
Pratt, T. (2007). Medir e informar sobre el progreso de cada alumno. En S.
Stainback y W. Stainback (coords.), Aulas inclusivas: un nuevo modo de
enfocar y vivir el currículo (pp. 195-217). Madrid, España: Narcea
Ediciones.
Muñiz, J.
(2010). Las teorías de los tests: teoría clásica y teoría de la respuesta a los
ítems. Papeles del psicólogo, 31(1): 57-66.
Prieto, G. y
Delgado, A. (2010). Fiabilidad y validez. Papeles del psicólogo, 31(1):
67-74.