What are the best TensorRT-LLM alternatives for production LLM serving?

For most teams, vLLM or TGI paired with ONNX Runtime provides strong performance with better portability than TensorRT-LLM. If you need hardware diversification, consider ROCm/MIGraphX on AMD or TVM/MLC-LLM for a broader device footprint.

How does vLLM compare to TensorRT-LLM in real workloads?

TensorRT-LLM can be faster on NVIDIA due to kernel-level optimizations, but vLLM’s paged attention and batching often deliver superior throughput under high concurrency. In many cases, system-level strategies like caching and speculative decoding offset kernel advantages.

Is ONNX Runtime a viable replacement for TensorRT-LLM?

Yes, ONNX Runtime is a pragmatic alternative when portability matters, especially with Execution Providers for NVIDIA, AMD (ROCm), and CPUs. Peak performance may trail TensorRT-LLM on NVIDIA, but operational flexibility and consistent APIs often compensate.

When should I choose AMD ROCm over NVIDIA with TensorRT-LLM?

Choose ROCm if GPU supply, pricing, or diversification is strategic and your team can invest in tuning. Expect improving but uneven performance across model families, and validate p95/p99 latencies with your actual prompts and context sizes.

What tactics reduce LLM inference cost without TensorRT-LLM?

Apply quantization (INT8 or 4-bit), use speculative decoding, and aggressively manage KV caches with systems like vLLM. These changes often produce larger cost reductions than micro-optimizing kernels and are portable across runtimes.

Alternativas ao TensorRT-LLM: Estratégia, Especialização e o Custo Real da Latência

Introdução: A Verdadeira Questão por Trás de “Alternativas ao TensorRT-LLM” Toda mudança na pilha de IA não se trata apenas de velocidade; trata-se de onde o valor se acumula. A busca por alternativas ao TensorRT-LLM é ostensivamente sobre o desempenho da inferência para modelos de linguagem grandes (LLMs), mas a questão estratégica subjacente é mais consequente: quem captura a margem na era da IA com restrição de GPU e sensível à latência? O TensorRT-LLM está na interseção de duas realidades: o domínio de hardware da NVIDIA e a complexidade operacional da inferência de produção. Qualquer alternativa credível deve 1) neutralizar o bloqueio de software da NVIDIA, 2) melhorar o custo total de propriedade (TCO) através da portabilidade e do autoescalonamento ou 3) criar novos pontos de agregação mais acima na pilha. Este artigo avalia as alternativas ao TensorRT-LLM através das lentes de modelos de negócios, restrições de desempenho e realidades de implantação, concentrando-se em quem vence e porquê.

A intenção do utilizador para a consulta “alternativas ao TensorRT-LLM” é transacional-informativa: as equipas estão perto da implementação, conscientes das vantagens de aceleração da NVIDIA e a explorar opções que preservem o desempenho, ao mesmo tempo que melhoram a portabilidade, o custo ou a velocidade do desenvolvedor. As apostas são simples. A economia da inferência determina as margens do produto. A latência determina a experiência do utilizador. E ambas são a jusante de escolhas de arquitetura que inclinam o poder para os fornecedores — ou para o seu próprio produto diferenciado.

Framework: Três Camadas de Vantagem de Inferência Para analisar alternativas, considere três camadas onde a vantagem se acumula:

Acoplamento de hardware: Acoplamento próximo a GPUs, kernels e planos de memória; desempenho absoluto máximo; maior bloqueio.

Orquestração de tempo de execução: Agrupamento dinâmico, descodificação especulativa, estratégias de quantização; desempenho através de agendamento em vez de kernels.

Distribuição de modelos e redes de serviço: Modelos pré-otimizados, roteamento multi-cloud e entrega edge/PoP; desempenho através de escala e agregação.

O TensorRT-LLM domina a primeira camada. A maioria das alternativas compete na segunda e terceira. O seu objetivo não é “vencer” a NVIDIA em kernels bare-metal; é alcançar um desempenho equivalente ou aceitável com melhor TCO e flexibilidade estratégica.

O Que o TensorRT-LLM Otimiza — e Por Que Isso Importa O TensorRT-LLM integra otimizações ao nível do kernel (atenção fundida, planeamento do layout da memória), compilação de grafos, suporte de quantização (por exemplo, INT8/FP8) e agrupamento dinâmico. Os benefícios são claros: menor latência, maior número de tokens por segundo e melhor utilização da GPU em hardware NVIDIA. O custo é o bloqueio do ecossistema: caminhos de código específicos da NVIDIA, portabilidade limitada entre AMD/CPU/ASIC e complexidade operacional que presume capacidade NVIDIA estável e de alta qualidade.

A resposta do mercado agrupa-se em três estratégias alternativas:

Compiladores e tempos de execução de inferência agnósticos de fornecedores: Visar um desempenho “bom o suficiente” em GPUs/CPUs.

Sistemas de serviço especializados: Vencer com orquestração — agrupamento, caching, descodificação especulativa, atenção paginada — sobre kernels brutos.

Redes de entrega de modelos agregadas: Distribuir a inferência através de clouds, regiões e fornecedores, mascarando completamente os detalhes específicos do hardware.

Mapeando o Panorama das Alternativas ao TensorRT-LLM Esta avaliação assume um requisito de nível empresarial: fiabilidade de produção, privacidade, controlo de custos e desempenho quase de última geração.

Compiladores e Tempos de Execução Agnósticos de Fornecedores

ONNX Runtime + EPs (Execution Providers):

O que é: Um motor de execução de grafos que visa vários backends (CUDA, TensorRT, DirectML, OpenVINO, ROCm) através de EPs.

Por que é importante: Portabilidade primeiro; pode executar o mesmo modelo em backends NVIDIA, AMD ou CPU. O desempenho varia de acordo com a maturidade do EP.

Compromissos: O desempenho da NVIDIA ainda é melhor através do TensorRT EP; os EPs não NVIDIA estão a melhorar, mas são desiguais.

TVM e Apache TVM Unity:

O que é: Uma pilha de compilador especializada em auto-otimizar kernels e otimizações ao nível do grafo em vários alvos de hardware.

Por que é importante: Controlo e portabilidade. O TVM dá às equipas de engenharia uma alavanca para reduzir a dependência em toolchains NVIDIA.

Compromissos: Requer experiência e tempo de construção; o desempenho de pico pode ficar atrás da pilha de fornecedores da NVIDIA nas GPUs mais recentes.

OpenVINO (Intel):

O que é: O conjunto de otimização de inferência da Intel para CPU, iGPU e aceleradores selecionados.

Por que é importante: O serviço centrado na CPU com quantização (INT8) pode ser económico quando os orçamentos de latência permitem; útil para implementações edge e orientadas para a conformidade.

Compromissos: Menos competitivo no rendimento puro da GPU NVIDIA; destaca-se na CPU e híbrido.

ROCm + MIGraphX (AMD):

O que é: O tempo de execução e o compilador de grafos da AMD para GPUs Radeon/Instinct.

Por que é importante: Alternativa real se apostar na capacidade e preços da AMD; melhorando o suporte para operações LLM e quantização.

Compromissos: O ecossistema de software e a maturidade do kernel ficam atrás da NVIDIA; a trajetória é positiva, mas desigual por família de modelos.

WebGPU / caminhos de inferência Vulkan (experimental/edge):

O que é: Aceleração de navegador/edge via WebGPU; projetos Vulkan do lado do servidor existem para portabilidade.

Por que é importante: Distribuição edge para baixo custo e privacidade; área de superfície de desenvolvedor emergente.

Compromissos: Cedo para serviço LLM empresarial em larga escala; promissor para modelos menores e UX híbrida.

Sistemas de Serviço Especializados (Agendamento > Kernels)

vLLM:

O que é: Um motor de serviço construído em torno de PagedAttention e gestão eficiente de cache KV.

Por que é importante: Grandes ganhos de rendimento através do agrupamento com eficiência de memória para LLMs; amplamente adotado, código aberto.

Compromissos: Os ganhos dependem da forma da carga de trabalho (sessões simultâneas, comprimentos de contexto, streaming); as otimizações brutas do kernel dependem do backend.

Derivados FasterTransformer e pilhas baseadas em Triton:

O que é: Bibliotecas e kernels adjacentes à NVIDIA; às vezes usados fora do TensorRT-LLM para pipelines personalizados.

Por que é importante: Controlo granular com peças de nível inferior se precisar de arquiteturas personalizadas.

Compromissos: Encargo de manutenção; ainda acoplado à NVIDIA.

Text Generation Inference (TGI):

O que é: Um servidor de produção da Hugging Face enfatizando o desempenho e a observabilidade; integra-se com quantização e agrupamento.

Por que é importante: Desempenho sólido, suporte do ecossistema e fácil implementação em clouds convencionais.

Compromissos: Menos controlo bare-metal; o teto de desempenho depende do backend e da família de modelos.

Ray Serve + kernels personalizados:

O que é: Uma camada de serviço distribuída ótima para elasticidade e autoescalonamento; conectável com vLLM/TGI.

Por que é importante: Ajuda a corresponder a capacidade à procura irregular, o que geralmente é mais impactante no custo do que espremer os últimos 10% de latência.

Compromissos: Complexidade operacional; não é um substituto para a aceleração ao nível do kernel.

MLC-LLM:

O que é: Um caminho de compilação e tempo de execução para executar LLMs em vários dispositivos (mobile, edge, GPUs) via TVM.

Por que é importante: Verdadeira portabilidade — inferência onde o utilizador está. Bom para casos de uso no dispositivo e que preservam a privacidade.

Compromissos: Ajuste intensivo; ainda não é um drop-in para rendimento massivo do lado do servidor.

Redes de Entrega de Modelos Agregadas e Plataformas Geridas

AWS SageMaker/Bedrock, Azure AI, Google Vertex AI:

O que são: Endpoints geridos com autoescalonamento, A/B, observabilidade e roteamento multi-modelo opcional.

Por que são importantes: Reduzir o encargo operacional; negociar a disponibilidade de hardware implicitamente.

Compromissos: Bloqueio do fornecedor; ajuste de desempenho opaco; prémio de custo.

Replicate, Modal, Anyscale:

O que são: Alojamento de modelos focado no desenvolvedor e inferência sem servidor.

Por que são importantes: Configuração rápida, economia de pagamento por uso; bom para experimentação e escala moderada.

Compromissos: Menos controlo ao nível do kernel; a curva de custo depende da carga sustentada.

OctoAI, Together, Mosaic (Databricks) e similares:

O que são: Plataformas de serviço LLM otimizadas com modelos selecionados e quantização.

Por que são importantes: Misturam ferramentas de desempenho com operações geridas; muitas vezes enfatizam a otimização de custo por token.

Compromissos: Dependência da plataforma; os caminhos de migração variam.

Camadas de inferência Edge/CDN (Cloudflare Workers AI, Fastly, pilhas baseadas em NVIDIA NIM):

O que são: Pontos de presença distribuídos para inferência de baixa latência.

Por que são importantes: Redução de latência via geografia; pode ser decisivo para UX interativa.

Compromissos: Restrições de tamanho do modelo; desafios de orquestração para contextos longos.

Framework de Decisão: Escolhendo uma Alternativa ao TensorRT-LLM A tentação é perguntar quem é “mais rápido”, mas a pergunta certa é o valor total entregue: metas de latência, fiabilidade, tempo do desenvolvedor e portabilidade. Use esta escada de decisão:

Comece com a forma da carga de trabalho e o SLA

Tem restrições de latência (latência de token abaixo de 100ms) ou restrições de rendimento (custo por milhão de tokens)?

Qual é a sua distribuição de simultaneidade: muitos prompts curtos ou poucas sessões longas?

Precisa de contextos longos (128k+) ou latência de cauda ultra-baixa?

Qual é o seu requisito de observabilidade e conformidade?

Escolha a camada de vantagem

Se precisar de maximizar o desempenho da NVIDIA: TensorRT-LLM, possivelmente combinado com vLLM ou TGI para agendamento.

Se a portabilidade for crítica: ONNX Runtime + EPs, TVM/MLC-LLM ou caminhos ROCm; aceite um delta de desempenho de 5 a 25% para flexibilidade estratégica.

Se a elasticidade operacional dominar: Plataformas geridas ou Ray Serve + vLLM/TGI para corresponder a capacidade à procura.

Aplique estratégias de quantização e memória

A quantização INT8/FP8 ou de 4 bits (AWQ, GPTQ) pode oferecer as maiores reduções de custo; garanta testes de precisão e calibração.

A gestão de cache KV e a atenção paginada frequentemente vencem as micro-otimizações do kernel quando a simultaneidade é alta.

Valide o TCO, não apenas os benchmarks

O rendimento de tokens por dólar (TT/$) é a métrica relevante, não os TFLOPS sintéticos.

Meça a latência p95/p99 sob simultaneidade realista; a experiência do utilizador final é moldada pelas latências de cauda.

Análise Comparativa: Onde Cada Alternativa Vence

vLLM + CUDA/ROCm: Melhor solução aberta de propósito geral quando controla a sua frota. PagedAttention é um desbloqueio significativo para sessões simultâneas. Adicione quantização para eficiência de custo.

ONNX Runtime + TensorRT EP: Um meio-termo pragmático na NVIDIA — use a portabilidade do ORT e ainda obtenha a velocidade do TensorRT. Para verdadeiras alternativas, troque os EPs para ROCm ou OpenVINO; as mudanças de desempenho, as operações permanecem semelhantes.

TGI com autoescalonamento num serviço de GPU gerido: Caminho mais rápido para a produção com desempenho aceitável. Menos heroísmo do kernel, mais fiabilidade.

TVM/MLC-LLM para edge ou estratégia multi-hardware: Quando o controlo a longo prazo e a implementação entre dispositivos importam mais do que a velocidade máxima absoluta.

ROCm/MIGraphX na AMD: Viável quando o fornecimento de GPU, o preço ou a diversificação de fornecedores são estratégicos. Espere mais engenharia; avalie rigorosamente o suporte por modelo.

Realidade de Desempenho: Por Que “Bom o Suficiente” Muitas Vezes Vence A Teoria da Agregação é instrutiva: em produtos voltados para o consumidor, os pontos de controlo movem-se para onde a procura se agrega. Em aplicações de IA, a procura agrega-se na interface do modelo — a caixa de chat, a API, o fluxo de trabalho do produto — porque os custos de mudança para os utilizadores são definidos por velocidade, precisão e integração, não pela proveniência do kernel. Isso significa que as decisões de infraestrutura devem priorizar o desempenho previsível e a velocidade do desenvolvedor sobre os ganhos marginais do kernel — a menos que o seu modelo de negócios seja vender tokens ou infraestrutura.

Dito de outra forma, as rendas económicas na inferência acumulam-se para quem reduz a incerteza na latência e no custo em escala. O TensorRT-LLM faz isso na NVIDIA; as alternativas devem replicar o resultado (baixa variação, rendimento previsível), mesmo que o caminho (compiladores, agendamento, roteamento multi-cloud) difira. Os vencedores são aqueles que transformam a variabilidade do hardware numa superfície de produto estável para os construtores.

Latência, Contexto e Descodificação Especulativa A próxima fronteira de desempenho é menos sobre kernels de núcleo único e mais sobre táticas ao nível do sistema:

Descodificação especulativa: Use um modelo de “rascunho” menor para prever vários tokens, verificados pelo modelo maior; os ganhos podem exceder 1,5–2x em cargas de trabalho comuns.

Caching e reutilização: A reutilização de prompt e cache KV diminui a latência e o custo para padrões recorrentes e aplicações pesadas em RAG.

Compressão e recuperação de contexto: Reduzir o contexto efetivo através da qualidade de incorporação e estratégias de chunking pode economizar 20–40% de computação em prompts longos.

Streaming UX: Os utilizadores percebem a velocidade através do tempo para o primeiro token; invista em agendamento e respostas parciais.

As alternativas que tornam estas táticas de primeira classe muitas vezes superam as pilhas de kernel brutas no uso do mundo real. É por isso que vLLM e TGI são amplamente adotados: eles operacionalizam os ganhos ao nível do sistema.

Modelo de Custo: O Preço Oculto do Bloqueio Existe uma razão pela qual as equipas ainda procuram alternativas ao TensorRT-LLM, mesmo quando a NVIDIA é mais rápida: a opcionalidade é um seguro. O bloqueio do fornecedor não é meramente uma preocupação de negociação; torna-se um risco operacional quando o fornecimento é apertado ou quando as mudanças na arquitetura do modelo quebram as suposições. Um portfólio equilibrado — NVIDIA para cargas de trabalho de caminho crítico e uma pilha portátil para o resto — pode reduzir o TCO a longo prazo, apesar de um delta de desempenho a curto prazo.

Considere também o custo do talento. A engenharia de kernel altamente especializada é escassa e cara. Plataformas e tempos de execução que minimizam o trabalho personalizado podem produzir um rendimento organizacional mais alto, o que importa mais do que um delta de benchmark quando o roadmap está cheio.

Considerações de Segurança e Conformidade Algumas alternativas oferecem histórias mais limpas para localidade de dados e implementações air-gapped (OpenVINO na CPU, ROCm para clusters AMD on-prem, TVM/MLC-LLM para incorporado/edge). Se os seus requisitos de governação forem rigorosos, “rápido o suficiente e compatível” vence “mais rápido, mas opaco.”

Juntando Tudo: Pilhas Representativas Sem TensorRT-LLM

Portabilidade primeiro, on-prem:

vLLM + ONNX Runtime (ROCm EP na AMD) + Ray Serve para autoescalonamento.

Quantização com AWQ/GPTQ; monitorize p95/p99; descodificação especulativa onde suportado.

Frota mista, otimizada para custo:

vLLM para nós NVIDIA; MLC-LLM/TVM para overflow AMD/CPU; roteamento via service mesh.

Cache KV entre sessões; explore o caching de prompt para RAG.

Gerido com SLAs de desempenho:

TGI ou vLLM num fornecedor de GPU gerido; autoescale para manter a latência de cauda.

Adicione feature flags para mudar o tráfego para a família de modelos com melhor desempenho por região.

Experiência aprimorada por edge:

Modelo destilado menor no edge (WebGPU ou mobile) + validação do servidor (padrão de descodificação especulativa).

Minimize round trips; priorize o tempo para o primeiro token.

Onde a Sider.AI Se Encaixa De uma perspetiva estratégica, a camada mais defensável para muitas equipas não é nem kernels nem orquestração personalizada, mas a camada de aplicação onde os utilizadores se agregam. Considere a Sider.AI: exemplifica como alavancar a análise baseada em IA e as ferramentas de desenvolvedor pode remodelar a tomada de decisões e os fluxos de trabalho independentemente de pilhas de hardware específicas. Para as equipas que avaliam alternativas ao TensorRT-LLM, a chave é construir alavancagem do produto — instrumentação, gestão de prompt, pipelines de recuperação e avaliação — de tal forma que o tempo de execução de inferência subjacente possa mudar sem interromper o valor do utilizador. As soluções que ajudam a padronizar essa camada tornam as escolhas de infraestrutura reversíveis, o que é a essência de uma boa estratégia.

Uma Checklist de Avaliação Prática

Desempenho e latência:

Meça o rendimento (tokens/seg), o tempo para o primeiro token e as latências de cauda sob simultaneidade alvo.

Valide com prompts reais e tamanhos de contexto; cargas sintéticas enganam.

Custo e utilização:

Compute TT/$ com e sem quantização; teste capacidade spot vs reservada.

Rastreie o headroom de memória da GPU — a pressão da cache KV muitas vezes gera custos surpresa.

Portabilidade e bloqueio:

Consegue mudar da NVIDIA para AMD/CPU dentro de um sprint? Quantos caminhos de código mudam?

Está amarrado ao autoescalonador ou registo de modelos de um único fornecedor?

Maturidade operacional:

Observabilidade: métricas ao nível do token, taxas de acerto de cache, eficácia spec-dec.

Modos de falha: Comportamento OOM, transbordamento de fila, controlos de contrapressão.

Segurança e conformidade:

Garantias de localidade de dados; proveniência de artefactos de modelo; SBOM e atestado.

Alinhamento do roadmap:

Suporte para contexto mais longo e multi-modal; cadência de atualização para novas famílias de modelos.

Dinâmica Competitiva: Por que a NVIDIA Ainda Vence — e Como Competir A vantagem da NVIDIA é uma integração full-stack do hardware ao software que se intensifica a cada geração de GPU. O TensorRT-LLM se beneficia do conhecimento privilegiado do kernel e da otimização antecipada para novas arquiteturas. As alternativas competem ao:

Agregar demanda em camadas superiores (serviço gerenciado, fluxos de trabalho de desenvolvedores) onde definem os padrões.

Reduzir os custos de troca entre hardwares por meio de compiladores e runtimes portáteis.

Concentrar-se em avanços no nível do sistema (decodificação especulativa, estratégias de cache) que mudam a fronteira de desempenho.

A implicação: não tente superar a NVIDIA, sendo a NVIDIA. Redefina o jogo escolhendo a camada onde sua organização pode construir uma vantagem crescente — experiência do produto, monopólios de dados ou excelência operacional.

Conclusão: Escolha a Opcionalidade, Meça a Realidade, Otimize o Sistema A pergunta “Quais são as alternativas para o TensorRT-LLM?” é realmente “Onde devemos colocar nossas apostas estratégicas na stack de IA?” Se o desempenho absoluto na NVIDIA é existencial, o TensorRT-LLM continua sendo a escolha certa, idealmente emparelhado com um mecanismo de serviço moderno. Se, no entanto, sua empresa exige portabilidade, custo previsível e a capacidade de se mover com o mercado, então compiladores independentes de fornecedores (ONNX Runtime, TVM/MLC-LLM), sistemas de serviço especializados (vLLM, TGI) e plataformas gerenciadas formam um portfólio confiável.

Três conclusões:

Táticas no nível do sistema superam heroísmos de kernel para muitas cargas de trabalho: decodificação especulativa, atenção paginada e caching oferecem ganhos enormes.

Portabilidade é seguro: alternativas que mantêm você flexível podem reduzir o Custo Total de Propriedade (TCO) ao longo do tempo, apesar das lacunas de desempenho de curto prazo.

Agregue onde os usuários estão: invista na superfície do aplicativo — instrumentação, avaliação e integração de fluxo de trabalho — para que a infraestrutura se torne uma decisão reversível.

No final, a melhor alternativa para o TensorRT-LLM não é uma única ferramenta, mas uma arquitetura que converte restrições de hardware em certeza do produto. É aí que a vantagem sustentável — e a margem — se acumularão.

Apêndice: Resumo Orientado a Palavras-Chave para Profissionais

Foco principal em palavras-chave: alternativas ao TensorRT-LLM.

Variantes de cauda longa integradas: melhores alternativas ao TensorRT-LLM, substituição de código aberto do TensorRT-LLM, vLLM vs TensorRT-LLM, ONNX Runtime para inferência de LLM, AMD ROCm LLM serving, otimização de TVM LLM, desempenho de TGI para LLMs, inferência de LLM independente de fornecedor, decodificação especulativa para LLMs, inferência de atenção paginada.

Intenção do leitor: equipes de produção otimizando para latência, custo e portabilidade.

Ação: benchmark com cargas de trabalho realistas; escolha a camada de vantagem; preserve a opcionalidade.

FAQ

P1: Quais são as melhores alternativas ao TensorRT-LLM para o serviço de LLM de produção? Para a maioria das equipes, vLLM ou TGI emparelhado com ONNX Runtime oferece forte desempenho com melhor portabilidade do que o TensorRT-LLM. Se você precisar de diversificação de hardware, considere ROCm/MIGraphX na AMD ou TVM/MLC-LLM para uma área de cobertura de dispositivo mais ampla.

P2: Como o vLLM se compara ao TensorRT-LLM em cargas de trabalho reais? O TensorRT-LLM pode ser mais rápido na NVIDIA devido às otimizações no nível do kernel, mas a atenção paginada e o batching do vLLM geralmente oferecem maior throughput sob alta concorrência. Em muitos casos, estratégias no nível do sistema, como caching e decodificação especulativa, compensam as vantagens do kernel.

P3: O ONNX Runtime é uma substituição viável para o TensorRT-LLM? Sim, o ONNX Runtime é uma alternativa pragmática quando a portabilidade é importante, especialmente com Provedores de Execução para NVIDIA, AMD (ROCm) e CPUs. O desempenho máximo pode ficar atrás do TensorRT-LLM na NVIDIA, mas a flexibilidade operacional e as APIs consistentes geralmente compensam.

P4: Quando devo escolher AMD ROCm em vez de NVIDIA com TensorRT-LLM? Escolha ROCm se o fornecimento de GPU, o preço ou a diversificação forem estratégicos e sua equipe puder investir em ajustes. Espere um desempenho melhorando, mas irregular, em todas as famílias de modelos e valide as latências p95/p99 com seus prompts e tamanhos de contexto reais.

P5: Quais táticas reduzem o custo de inferência de LLM sem TensorRT-LLM? Aplique quantização (INT8 ou 4 bits), use decodificação especulativa e gerencie agressivamente os caches KV com sistemas como vLLM. Essas mudanças geralmente produzem reduções de custo maiores do que micro-otimizar kernels e são portáteis entre runtimes.