Repetição de Prompt: Truque Simples para Potencializar LLMs

22/02/202622/02/2026

2 min

Repetição de Prompt: Um Método Simples para Aprimorar Modelos de Linguagem

Pesquisadores do Google Research apresentaram uma descoberta surpreendente: repetir o prompt de entrada pode melhorar significativamente o desempenho de Grandes Modelos de Linguagem (LLMs) quando eles não estão engajados em tarefas de raciocínio complexo.

O Que é a Repetição de Prompt?

Modelos de linguagem causal, como muitos LLMs populares, processam informações sequencialmente. A ordem dos tokens em uma consulta pode influenciar o resultado. A técnica de repetição de prompt simplesmente duplica a entrada original, transformando uma consulta “<PERGUNTA>” em “<PERGUNTA><PERGUNTA>”.

Essa duplicação permite que cada token do prompt original possa ‘atender’ a todos os outros tokens do prompt. Isso aborda a sensibilidade à ordem das informações, como a diferença entre apresentar o contexto antes da pergunta ou vice-versa.

Resultados Promissores sem Custo Adicional

Testes realizados com modelos como Gemini, GPT-4o, Claude 3 e Deepseek V3 demonstraram que a repetição de prompt melhora a precisão em diversas tarefas e benchmarks quando o raciocínio não é exigido. Em 47 de 70 combinações de modelo e benchmark, a repetição de prompt obteve vitórias estatisticamente significativas, sem registrar nenhuma perda de desempenho.

O mais notável é que essa melhoria de performance não vem acompanhada de um aumento no número de tokens gerados ou na latência. Isso significa que a técnica é eficiente e pode ser implementada sem custos computacionais adicionais ou lentidão na resposta.

Motivação e Aplicação

Observa-se que modelos de raciocínio, treinados com aprendizado por reforço, frequentemente aprendem a repetir partes da solicitação do usuário. A repetição de prompt automatiza esse processo de forma eficiente, movendo a duplicação para a fase de ‘prefill’, que pode ser paralelizada.

Além disso, a repetição de prompt não altera o formato das saídas geradas, facilitando a sua integração em sistemas existentes como uma solução ‘drop-in’. Usuários finais podem se beneficiar diretamente dessa otimização sem necessidade de adaptações.

Experimentos Detalhados

A pesquisa abrangeu sete modelos populares de diferentes provedores, incluindo Gemini 2.0 Flash e Lite, GPT-4o e GPT-4o-mini, Claude 3 Haiku e Sonnet, e Deepseek V3. Os testes foram conduzidos através das APIs oficiais em fevereiro e março de 2025.

Os benchmarks utilizados incluíram ARC (Challenge), OpenBookQA, GSM8K, MMLU-Pro, MATH, além de dois benchmarks customizados: NameIndex e MiddleMatch. Para tarefas de múltipla escolha, a ordem da pergunta e das opções foi variada para analisar o impacto.

Os resultados confirmaram a melhoria geral de precisão. Em tarefas específicas como NameIndex e MiddleMatch, os ganhos com a repetição de prompt foram particularmente expressivos, elevando a precisão do Gemini 2.0 Flash-Lite de 21.33% para 97.33% no benchmark NameIndex.

Variações e Eficiência

Variações da técnica, como repetição mais longa (x3) ou com verbosidade adicional, foram testadas, mostrando resultados similares ou até superiores em alguns casos. A técnica de preenchimento com pontos (padding) foi usada como controle e não demonstrou melhorias, validando que os ganhos se devem à repetição do prompt.

Em termos de eficiência, a latência e o comprimento da saída se mantiveram estáveis para a maioria dos modelos e tarefas, mesmo com a repetição. Exceções ocorreram com modelos da Anthropic em prompts muito longos, onde o tempo de prefill aumentou ligeiramente.

Conclusão e Direções Futuras

A repetição de prompt emerge como uma técnica simples, eficaz e eficiente para melhorar o desempenho de LLMs em cenários sem raciocínio. Sua fácil implementação a torna uma candidata a ser um padrão para muitos modelos e tarefas.

As pesquisas futuras exploram o fine-tuning de modelos com prompts repetidos, o uso em modelos de raciocínio para maior eficiência, e a aplicação em diferentes modalidades e cenários multi-turn.

Se quiser ler o o artigo completo vá em https://arxiv.org/html/2512.14982v1