
El experimento
Este documento presenta un experimento comparativo diseñado para observar cómo responden cuatro modelos de inteligencia artificial de uso general (ChatGPT, Gemini, Claude y Mistral AI) ante una misma situación educativa, bajo dos condiciones diferentes:
- Modo A (sin instrucciones): presentación de una situación docente sin consignas específicas, para observar el comportamiento por defecto de cada modelo.
- Modo B (con función deliberativa): la misma situación acompañada de un prompt que solicita explícitamente una función de deliberación pedagógica.
La situación planteada es sencilla: un docente de 6º de primaria prepara una unidad didáctica sobre el cambio climático y quiere trabajarla de manera interdisciplinar.
El objetivo del experimento no es determinar qué herramienta es «mejor», sino observar comportamientos y hacer visible algo que a menudo queda oculto: los sesgos funcionales por defecto de estas herramientas.
Por qué este experimento
En contextos educativos, es habitual recurrir a herramientas de IA generales para diseñar propuestas didácticas, generar materiales o explorar enfoques metodológicos. Sin embargo, rara vez se cuestiona qué función asume la herramienta cuando no se le especifica ninguna.
La pregunta que motiva este experimento es directa:
¿Puede una IA ayudar a un docente a decidir si conviene o no utilizar la IA en una situación de aprendizaje concreta?
O dicho de otra manera: cuando pedimos ayuda a una herramienta de IA sin darle indicaciones precisas, ¿nos ayuda a pensar o nos ayuda a producir?
Esta pregunta tiene implicaciones pedagógicas relevantes, especialmente en un momento en el que el uso de IA en educación se presenta a menudo como inevitable o neutral.
El experimento en tres actos
Acto 1: La situación
Planteé un escenario real de aula de 6º de primaria: una unidad didáctica sobre el cambio climático con voluntad interdisciplinar. Ni más ni menos. Una situación que cualquier docente puede reconocer.
Acto 2: Modo A (sin instrucciones)
Primero, presenté la situación tal cual, sin pedir nada concreto. Quería ver la respuesta por defecto de cada herramienta.
El resultado fue unánime: las cuatro empezaron a producir.
- Proponían actividades.
- Sugerían herramientas.
- Listaban ventajas.
- Asumían que la IA «había que utilizarla».
Ningún modelo frenó. Ningún modelo cuestionó. Ningún modelo deliberó.
Esto no es un error de las herramientas, es su diseño: están pensadas para ayudar produciendo, no para ayudar pensando antes de producir.
Acto 3: Modo B (con función explícita)
Después introduje un prompt único y claro, pidiéndoles que actuaran como acompañantes de deliberación docente. La consigna era: ayúdame a pensar si conviene utilizar la IA en esta situación, no a producir materiales.
Aquí las respuestas cambiaron radicalmente:
- Todas pudieron asumir la función de deliberación.
- Pero no de la misma manera.
Las diferencias no estaban tanto en el contenido factual como en el tono, la profundidad y la calidad de las preguntas que devolvían.
Qué hemos aprendido
1. La reflexión no es el comportamiento por defecto
En Modo A, ningún modelo practicó deliberación real. Todos saltaron directamente a la fase de producción. Esto demuestra que sin criterio explícito, la IA tiende a acelerar.
2. Con diseño, la función puede cambiar
En Modo B, todos los modelos se adaptaron a la función reflexiva. Pero aparecieron matices importantes:
- ChatGPT: correcto y prudente, pero con un enfoque generalista.
- Gemini: incorporó elementos sistémicos relevantes, como la huella energética de la propia IA.
- Claude: destacó en metareflexión docente y artesanía pedagógica.
- Mistral AI: cumplió la función, pero con una ligera tendencia a «justificar el uso posible».
Esto no es un ranking. Es una descripción funcional en este contexto concreto.
3. Lo que no se pide, no emerge
La conclusión más importante es esta: la función reflexiva no sale sola. Tiene que ser inducida mediante diseño. Y esto tiene una implicación educativa brutal:
Si no diseñamos la interacción con criterio, estaremos delegando a las herramientas decisiones que deberían ser nuestras.
Por qué esto es importante (más allá del experimento)
Este ejercicio no pretende desacreditar ninguna herramienta. De hecho, todas demostraron capacidad de adaptación cuando se les pidió.
Lo que cuestiona es el uso acrítico: iniciar un chat general esperando que la IA nos ayude a pensar, cuando en realidad su sesgo es ayudarnos a hacer.
En educación, esta diferencia es clave. Porque no se trata de hacer más con IA. Se trata de pensar mejor antes de usarla.
Transparencia metodológica
El experimento se ha hecho con:
- Perfil de usuario virgen (sin historial)
- Hilos separados para cada modelo
- Mismo idioma (catalán)
- Mismo prompt en Modo B
- Situación idéntica en ambos modos
[Puedes consultar el informe completo con todas las respuestas literales aquí] (enlace al PDF)
Reflexión final
Este experimento muestra que sin criterio explícito, las herramientas de IA tienden a acelerar la producción más que a facilitar la reflexión. Esto no las desacredita, pero sí plantea una cuestión fundamental para su uso en educación:
No se trata de hacer más con IA.
Se trata de pensar mejor antes de usarla.
La pregunta no es si la IA es buena o mala para la educación.
La pregunta es: ¿qué dejamos de pensar cuando le pedimos que piense por nosotros?
Contexto
Este experimento forma parte de Slow-TIC, un proyecto de investigación y práctica educativa que surge del Trabajo Final de Máster sobre neohumanismo, ética algorítmica y soberanía digital.
Slow-TIC incluye la web slowticaula.es, proyectos de escritura, preparación de formaciones para docentes y experimentos metodológicos como este.