Observabilidade para LLM/RAG: o que medir e como instrumentar
Sem observabilidade de IA, o time só descobre degradação quando o usuário reclama.
Problema real e contexto
Custos e latência variavam por rota e tipo de pergunta sem visibilidade por etapa.
A solução foi definir telemetria mínima para gestão contínua de qualidade e eficiência.
Decisões técnicas
- Métricas por etapa: retrieval, geração e pós-processamento.
- Tracing distribuído com correlação de request.
- Controle de custo por token e por fluxo de negócio.
- Alertas para degradação de qualidade e timeout.
Tip
Monitore qualidade com dataset fixo além de métricas de performance.
Checklist final
- Definir SLIs de latência e taxa de fallback.
- Adicionar tags de modelo, versão e tenant nas métricas.
- Consolidar custo diário por feature de produto.
- Criar painéis executivos e painéis de engenharia separados.
Erros comuns
- Medir apenas latência e ignorar qualidade.
- Falta de segmentação por modelo/tenant.
- Não correlacionar custo com valor entregue.
Keywords
- LLM observability
- OpenTelemetry
- Prometheus
- metrics
Related reading
- RAG em produção para CRM: LangChain + LlamaIndex AI Arquitetura prática para RAG com foco em recuperação confiável, latência controlada e limites operacionais.
- MLflow na prática: versionamento, tracking e deploy AI Fluxo pragmático com MLflow para registrar experimentos, promover modelos e reduzir risco em produção.
- Avaliação de RAG sem romantizar: testes mínimos para produção AI Conjunto mínimo de testes e métricas para evitar regressões silenciosas em aplicações RAG.