LIBRISTO
LIBROAMANTO
задължително
Станете част от общност от любители на книгите от цял свят и получавате много предимства. Създай на безплатен акаунт
0
Безплатна доставка със Еконт над 69.99 €
Куриер Speedy 3.49 Пункт на Speedy 3.49 ЕКОНТ 3.99 Еконтомат/Офис на Еконт 3.99 Ekont Box 3.99 Sameday 3.99 Sameday box 3.99 Box Now 3.99

Над 4 милиона заглавия на английски и други езици! Открийте новата си история още днес! Безплатна доставка за поръчки над 69.99€

AI Inference Optimization Engineering

Quantization, Speculative Decoding, and Hardware-Specific LLM Deployment

Език Английски езикАнглийски език
Книга С меки корици
Книга AI Inference Optimization Engineering ChatVariety Team
Код Либристо: 52770465
Издателство Independently published, юни 2026
Slash LLM Deployment Costs and LatencyDeploying Large Language Models (LLMs) in production is a mass... Цялото описание
? points 28 b Подготвяме Подготвяме Нови Нови
11.41
22.32  лв
Очаква се зареждане Издание 07. 06. 2026

30 дни за връщане на стоката

Slash LLM Deployment Costs and Latency

Deploying Large Language Models (LLMs) in production is a massive economic and engineering hurdle. AI Inference Optimization Engineering is your comprehensive, hands-on guide to mastering the full stack of modern LLM optimization techniques. From memory-bandwidth solutions to hardware-specific compilation, this book bridges the gap between research-level models and enterprise-grade execution.

What you will master inside this book:
  • Hardware-Aware Optimization: Dive deep into KV cache mechanics, autoregressive decoding, and GPU memory hierarchies to eliminate latency bottlenecks.
  • State-of-the-Art Quantization: Apply GPTQ, AWQ, and GGUF compression algorithms to scale down massive neural networks without sacrificing model accuracy.
  • Advanced Acceleration Methods: Implement speculative decoding with draft models (like Medusa and Eagle), PagedAttention, and FlashAttention to boost throughput by 2-3x.
  • Production-Grade Serving: Build ultra-low-latency deployment infrastructures using vLLM, Triton Inference Server, and continuous batching.
  • Cross-Platform Deployment: Optimize models for specific target hardware, including NVIDIA H100 (TensorRT-LLM), Apple Silicon (llama.cpp/Metal), and Qualcomm mobile/edge accelerators.

Whether you are an ML infrastructure engineer, an AI platform architect, or a technical leader looking to scale LLMs cost-effectively, this book provides the production-ready code, equations, and architectural patterns you need to build hyper-efficient AI pipelines.

Героиня & Полиглот
EWA KASP за
Пусни видеото
Ewa Kasp
В Libristo има най-богатия избор от чуждоезична литература. Затова купувам книгите си тук.

Информация за книгата

Пълно заглавие AI Inference Optimization Engineering
Автор ChatVariety Team
Език Английски език
Корици Книга - С меки корици
Дата на издаване 2026
Брой страници 96
Баркод 9798199720021
Код Либристо 52770465
Издателство Independently published
Тегло 142
Размери 152 x 229 x 5
Подарете тази книга днес
Лесно е
1 Добавете книгата в количката си и изберете Доставка като подарък 2 В замяна ще ви изпратим ваучер 3 Книгата ще пристигне на адреса на получателя

Вход

Влезте в акаунта си. Още нямате акаунт за Libristo? Създайте го сега!

 
задължително
задължително

Нямате акаунт? Използвайте предимствата на акаунта за Libristo!

Благодарение на акаунта за Libristo държите всичко под контрол.

Създаване на акаунт за Libristo