Investigadores demostraron que el modelo DeepSeek-R1 mejora su razonamiento cuando recibe recompensas por resolver problemas.

El hallazgo, publicado el 17 de septiembre de 2025 en la revista Nature, confirma que entrenar a una IA con menos intervención humana es posible, aunque plantea retos de costo y crecimiento.

Aprendizaje por refuerzo

DeepSeek-R1 incorpora una fase de entrenamiento adicional bajo supervisión humana que utiliza recompensas como estímulo. A diferencia de otros modelos, aplica aprendizaje por refuerzo en lugar de depender de ejemplos humanos, lo que reduce costos y complejidad.

Resultados en distintas áreas

El modelo ha demostrado buenos resultados en pruebas de matemáticas, biología, física y química, además de destacar en concursos de programación. Estas capacidades lo posicionan como un referente entre los modelos de lenguaje a gran escala.

Limitaciones actuales

Entre las limitaciones señaladas, se encuentra que el modelo solo está optimizado para chino e inglés, además de mostrar pocas mejoras en tareas de ingeniería de software. Estas restricciones marcan los retos a superar en futuras versiones.

Futuro de la investigación

Los investigadores concluyen que perfeccionar el sistema de recompensas será clave para garantizar razonamientos más fiables. El avance abre la posibilidad de desarrollar modelos más potentes, baratos y con menor dependencia de supervisión humana.

/ajas/

Investigadores demostraron que el modelo DeepSeek-R1 mejora su razonamiento cuando recibe recompensas por resolver problemas.

Aprendizaje por refuerzo

Resultados en distintas áreas

Limitaciones actuales

Futuro de la investigación

Comentarios

Deja una respuesta Cancelar la respuesta

Más entradas

Roberto Castro, del PDC, es el nuevo presidente de la Cámara de Diputados

Bolivia avanza hacia la reducción de bolsas plásticas

Ciudad de México: arrestan al hombre que acosó a la presidenta Sheinbaum

Interna de medicina fallece por rabia humana y estudiantes denuncian falta de apoyo