El hallazgo, publicado el 17 de septiembre de 2025 en la revista Nature, confirma que entrenar a una IA con menos intervención humana es posible, aunque plantea retos de costo y crecimiento.
Aprendizaje por refuerzo
DeepSeek-R1 incorpora una fase de entrenamiento adicional bajo supervisión humana que utiliza recompensas como estímulo. A diferencia de otros modelos, aplica aprendizaje por refuerzo en lugar de depender de ejemplos humanos, lo que reduce costos y complejidad.
Resultados en distintas áreas
El modelo ha demostrado buenos resultados en pruebas de matemáticas, biología, física y química, además de destacar en concursos de programación. Estas capacidades lo posicionan como un referente entre los modelos de lenguaje a gran escala.
Limitaciones actuales
Entre las limitaciones señaladas, se encuentra que el modelo solo está optimizado para chino e inglés, además de mostrar pocas mejoras en tareas de ingeniería de software. Estas restricciones marcan los retos a superar en futuras versiones.
Futuro de la investigación
Los investigadores concluyen que perfeccionar el sistema de recompensas será clave para garantizar razonamientos más fiables. El avance abre la posibilidad de desarrollar modelos más potentes, baratos y con menor dependencia de supervisión humana.
/ajas/
Deja una respuesta