← Back to blog

Observabilidade para LLM/RAG: o que medir e como instrumentar

Sem observabilidade de IA, o time só descobre degradação quando o usuário reclama.

Problema real e contexto

Custos e latência variavam por rota e tipo de pergunta sem visibilidade por etapa.

A solução foi definir telemetria mínima para gestão contínua de qualidade e eficiência.

Decisões técnicas

  • Métricas por etapa: retrieval, geração e pós-processamento.
  • Tracing distribuído com correlação de request.
  • Controle de custo por token e por fluxo de negócio.
  • Alertas para degradação de qualidade e timeout.
Tip

Monitore qualidade com dataset fixo além de métricas de performance.

Checklist final

  • Definir SLIs de latência e taxa de fallback.
  • Adicionar tags de modelo, versão e tenant nas métricas.
  • Consolidar custo diário por feature de produto.
  • Criar painéis executivos e painéis de engenharia separados.

Erros comuns

  • Medir apenas latência e ignorar qualidade.
  • Falta de segmentação por modelo/tenant.
  • Não correlacionar custo com valor entregue.

Keywords

  • LLM observability
  • OpenTelemetry
  • Prometheus
  • metrics

Related reading

View all posts