Versões
R1
By (ele mesmo, Deepseek R1) O modelo DeepSeek-R1 é uma evolução do DeepSeek-R1-Zero, projetado para superar desafios como repetição excessiva, baixa legibilidade e mistura de idiomas. Ele incorpora dados de cold-start antes do treinamento com aprendizado por reforço (RL), o que resulta em um desempenho aprimorado em tarefas de matemática, código e raciocínio, comparável ao OpenAI-o1. Além disso, para apoiar a comunidade de pesquisa, o DeepSeek-R1 e seus modelos derivados, como o DeepSeek-R1-Distill-Qwen-32B, foram disponibilizados em código aberto. Esse último, em particular, supera o OpenAI-o1-mini em diversos benchmarks, estabelecendo novos recordes para modelos densos.
Usage Recommendations
We recommend adhering to the following configurations when utilizing the DeepSeek-R1 series models, including benchmarking, to achieve the expected performance:
- Set the temperature within the range of 0.5-0.7 (0.6 is recommended) to prevent endless repetitions or incoherent outputs.
- Avoid adding a system prompt; all instructions should be contained within the user prompt.
- For mathematical problems, it is advisable to include a directive in your prompt such as: “Please reason step by step, and put your final answer within \boxed{}.”
- When evaluating model performance, it is recommended to conduct multiple tests and average the results.