Investigadores demostraron que el modelo DeepSeek-R1 mejora su razonamiento cuando recibe recompensas por resolver problemas.

El hallazgo, publicado el 17 de septiembre de 2025 en la revista Nature, confirma que entrenar a una IA con menos intervención humana es posible, aunque plantea retos de costo y crecimiento.

Aprendizaje por refuerzo

DeepSeek-R1 incorpora una fase de entrenamiento adicional bajo supervisión humana que utiliza recompensas como estímulo. A diferencia de otros modelos, aplica aprendizaje por refuerzo en lugar de depender de ejemplos humanos, lo que reduce costos y complejidad.

Resultados en distintas áreas

El modelo ha demostrado buenos resultados en pruebas de matemáticas, biología, física y química, además de destacar en concursos de programación. Estas capacidades lo posicionan como un referente entre los modelos de lenguaje a gran escala.

Limitaciones actuales

Entre las limitaciones señaladas, se encuentra que el modelo solo está optimizado para chino e inglés, además de mostrar pocas mejoras en tareas de ingeniería de software. Estas restricciones marcan los retos a superar en futuras versiones.

Futuro de la investigación

Los investigadores concluyen que perfeccionar el sistema de recompensas será clave para garantizar razonamientos más fiables. El avance abre la posibilidad de desarrollar modelos más potentes, baratos y con menor dependencia de supervisión humana.

/ajas/

Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *