Quanto custa a API do ChatGPT — e como reduzir a conta
A API do ChatGPT cobra por token — pedaços de texto que equivalem a cerca de ¾ de uma palavra em inglês (um pouco menos em português). Saber isso e saber como os custos se acumulam é o que separa projetos que escalam de projetos que estouram o orçamento. Veja como funciona a cobrança, os preços atuais dos modelos e 7 táticas para reduzir a conta sem sacrificar qualidade.
Como é calculado o custo da API do ChatGPT
A OpenAI cobra separadamente por tokens de entrada (o que você envia: prompt + contexto) e tokens de saída (o que o modelo responde). Tokens de saída costumam ser mais caros — faz sentido, pois exigem mais processamento.
Um token corresponde, em média, a 4 caracteres em inglês. Em português, por causa das palavras mais longas e acentuação, o mesmo texto geralmente consome mais tokens. Uma regra prática: 1.000 tokens ≈ 750 palavras em inglês, ou cerca de 600–650 palavras em português.
Os preços são calculados por milhão de tokens. Para os modelos principais, confira a tabela atualizada na página oficial de preços da OpenAI, que é a fonte de referência — os valores mudam com frequência e qualquer número aqui pode estar desatualizado antes da próxima revisão editorial.
Como referência para fins de comparação de escala (valores de jun/2026 — confirme sempre na página oficial):
- GPT-4.1: ~US$ 2,00 por milhão de tokens de entrada / ~US$ 8,00 por milhão de saída. Modelo principal de custo-benefício para a maioria das aplicações em 2026.
- GPT-4.1 mini: ~US$ 0,40 por milhão de tokens de entrada / ~US$ 1,60 por milhão de saída. Para tarefas simples e repetitivas.
- GPT-4.1 nano: ~US$ 0,10 por milhão de tokens de entrada / ~US$ 0,40 por milhão de saída. Opção mais econômica para classificação e extração de dados.
- GPT-4o: ~US$ 2,50 por milhão de tokens de entrada / ~US$ 10,00 por milhão de saída.
- GPT-4o mini: ~US$ 0,15 por milhão de tokens de entrada / ~US$ 0,60 por milhão de saída.
- o3 (raciocínio): ~US$ 2,00 por milhão de tokens de entrada / ~US$ 8,00 por milhão de saída. Para tarefas que exigem raciocínio complexo e multietapa.
- GPT-5: ~US$ 1,25 por milhão de tokens de entrada / ~US$ 10,00 por milhão de saída.
- GPT-5.5 (flagship): ~US$ 5,00 por milhão de tokens de entrada / ~US$ 30,00 por milhão de saída. Reservado para casos de uso que exigem máxima capacidade.
- Cache de tokens (Prompt Caching): 50% de desconto em tokens de entrada já processados.
- Batch API: 50% de desconto em input e output para processamentos assíncronos.
Sempre consulte a tabela oficial da OpenAI antes de estimar custos de um projeto.
Para um panorama mais amplo de como usar IA em negócios de forma econômica, veja nosso guia sobre IA para empresas.
Qual modelo de IA é mais barato para empresas
A escolha do modelo certo é, de longe, a maior alavanca de custo. Em 2026, a família GPT-4.1 substituiu o GPT-4o como principal recomendação de custo-benefício para aplicações comerciais. A diferença de preço entre o GPT-4.1 e o GPT-4.1 nano é de 20x — e para a maioria das tarefas rotineiras de negócios, os modelos menores entregam resultados adequados.
Uma forma prática de pensar nisso:
- Tarefas simples e repetitivas (classificação, extração de dados, geração de respostas curtas, triagem): use GPT-4.1 nano ou mini — os modelos mais baratos disponíveis.
- Tarefas que exigem boa capacidade geral (análise de documentos, resumos, geração de conteúdo): GPT-4.1 ou GPT-4o oferecem ótimo equilíbrio.
- Tarefas que exigem raciocínio complexo multietapa (código crítico, análise jurídica ou científica complexa): o3 ou GPT-5 justificam o custo.
- Prototipagem e testes: sempre inicie com o modelo mais barato. Suba de tier só se o resultado não for suficiente.
O que é cache de tokens e como economiza dinheiro
O Prompt Caching (cache de tokens) é um recurso da API da OpenAI que reutiliza partes do prompt que se repetem entre chamadas. Se você tem um prompt de sistema longo (instruções, contexto, documentos de referência) que aparece em todas as requisições, o cache evita que você pague pelo processamento desse trecho repetido a cada chamada.
Na prática: se seu prompt de sistema tem 2.000 tokens e você faz 10.000 chamadas por dia, sem cache você paga por 20 milhões de tokens de entrada só de instrução. Com cache, paga 50% menos nesses tokens — uma economia significativa em escala.
7 táticas para reduzir o custo da API
1. Use o modelo menor para tarefas simples
Mapeie suas chamadas por tipo de tarefa e direcione cada categoria para o modelo mais barato que entrega o resultado necessário. Não use GPT-4.1 para classificar e-mails em spam/não-spam — o nano resolve com fração do custo.
2. Ative o Prompt Caching
Estruture seus prompts para que as partes fixas (instrução, contexto, documentos de referência) venham antes das partes variáveis (a pergunta do usuário). A API aplica cache automaticamente em prompts que se repetem, com desconto de 50% nos tokens cacheados.
3. Escreva prompts enxutos
Cada palavra do prompt é um token cobrado. Instruções redundantes, exemplos desnecessários e contexto irrelevante inflam o custo sem melhorar o resultado. Revise seus prompts periodicamente para eliminar o que não é essencial.
4. Use a Batch API para processamentos não urgentes
Se você precisa processar documentos, analisar dados em lote ou gerar conteúdo em massa, a Batch API entrega os resultados em até 24 horas com 50% de desconto. Para fluxos que não precisam de resposta em tempo real, é uma das maiores economias disponíveis.
5. Prefira formatos compactos nas respostas
Quando precisar de dados estruturados, peça CSV em vez de JSON, ou JSON mínimo em vez de JSON verboso com campos desnecessários. Exemplo: {"nome":"Ana","valor":1200} consome menos tokens do que {"customer_name": "Ana", "transaction_value": 1200, "currency": "BRL"}.
6. Monitore o uso em tempo real
O dashboard da OpenAI mostra consumo por modelo e por projeto. Configure alertas de limite (spending limits) para não ser surpreendido por chamadas em loop ou bugs que disparam requisições desnecessárias. Um bug simples pode multiplicar seu custo por 100 antes que você perceba.
7. Defina limites máximos de tokens por resposta
O parâmetro max_tokens limita o tamanho da resposta do modelo. Se sua aplicação não precisa de respostas longas, defina um limite razoável. Respostas abertas e sem limite tendem a ser mais longas — e mais caras — do que o necessário.
Para aplicações práticas dessas táticas, veja como outros projetos as implementaram em nosso guia de softwares de IA para pequenas empresas.
Estimando o custo de um projeto real
Antes de lançar qualquer integração com a API, faça uma estimativa de custo em três passos:
- Estime o volume: quantas chamadas por dia/mês você espera?
- Calcule o tamanho médio: quantos tokens por chamada (entrada + saída)?
- Multiplique pelo preço do modelo escolhido e adicione uma margem de 30% para imprevistos.
Se você usa planilhas para controle financeiro da sua empresa, pode integrar esse monitoramento diretamente. Veja como fazer isso no nosso tutorial de como conectar o GPT com planilhas do Google Sheets para finanças.
Perguntas Frequentes
Como é calculado o custo da API do ChatGPT?
O custo é calculado por token — pedaços de texto de cerca de 4 caracteres. Você paga separadamente por tokens de entrada (o que envia) e tokens de saída (o que o modelo responde). Os preços variam por modelo e são cobrados por milhão de tokens. Consulte a tabela oficial da OpenAI para os valores atuais, pois eles mudam com frequência.
Qual modelo de IA é mais barato para empresas?
Para tarefas simples e repetitivas, o GPT-4.1 nano ou mini oferecem custo muito baixo com qualidade suficiente para a maioria dos casos de uso rotineiros. A estratégia mais eficiente é mapear suas tarefas por complexidade e usar o modelo mais barato que entrega o resultado necessário para cada categoria. Em 2026, a família GPT-4.1 é a recomendação principal de custo-benefício.
O que é cache de tokens e como economiza dinheiro?
Prompt Caching é um recurso da API que reutiliza partes fixas do prompt (instruções, contexto, documentos) entre chamadas, cobrando 50% menos por esses tokens. Para sistemas com prompts de sistema longos e muitas chamadas diárias, o cache pode reduzir o custo de entrada pela metade. Basta estruturar o prompt com as partes fixas no início.
