Avaliação de RAG sem romantizar: testes mínimos para produção
RAG sem avaliação contínua vira loteria: funciona no demo e falha no mundo real.
Problema real e contexto
Respostas aceitáveis em ambiente de teste não se sustentavam com dados vivos e perguntas reais.
Foi criado um processo de avaliação simples, repetível e integrado ao ciclo de release.
Decisões técnicas
- Golden set com perguntas críticas por domínio.
- Métricas de retrieval e qualidade de resposta.
- Testes de regressão antes de cada atualização de índice/modelo.
- Critérios claros para bloquear release.
Tip
Comece com um conjunto pequeno de casos críticos e aumente cobertura por prioridade de negócio.
Checklist final
- Montar golden set revisado por especialistas do domínio.
- Definir limiar mínimo de qualidade aceitável.
- Executar regressão automatizada em mudanças de prompt/índice/modelo.
- Reportar tendência de qualidade ao longo do tempo.
Erros comuns
- Avaliar apenas por percepção subjetiva.
- Não separar erro de retrieval de erro de geração.
- Atualizar índice sem rerodar suíte de regressão.
Keywords
- RAG evaluation
- retrieval metrics
- hallucination
- test harness
Related reading
- RAG em produção para CRM: LangChain + LlamaIndex AI Arquitetura prática para RAG com foco em recuperação confiável, latência controlada e limites operacionais.
- Observabilidade para LLM/RAG: o que medir e como instrumentar AI Métricas essenciais de latência, custo e qualidade para operações de IA com visibilidade ponta a ponta.
- MLflow na prática: versionamento, tracking e deploy AI Fluxo pragmático com MLflow para registrar experimentos, promover modelos e reduzir risco em produção.