Над 4 милиона заглавия на английски и други езици! Открийте новата си история още днес! Безплатна доставка за поръчки над 69.99€

Проверка на състоянието на поръчката

Станете част от общност от любители на книгите от цял свят и получавате много предимства. Създай на безплатен акаунт

Безплатна доставка със Еконт над 69.99 €

Куриер Speedy 3.49 € Пункт на Speedy 3.49 € ЕКОНТ 3.99 € Еконтомат/Офис на Еконт 3.99 € Ekont Box 3.99 € Sameday 3.99 € Sameday box 3.99 € Box Now 3.99 €

Контакт

Как се пазарува?

Помощ

Моят акаунт

▸ Празна :-(

AI Inference Optimization Engineering

Name: AI Inference Optimization Engineering
Brand: Independently published
SKU: 52770465
Price: 11.41 EUR
Availability: InStock
Author: ChatVariety Team
ISBN: 9798199720021

Quantization, Speculative Decoding, and Hardware-Specific LLM Deployment

ChatVariety Team

Език

Английски език

Книга С меки корици

Код Либристо: 52770465

Издателство Independently published, юни 2026

Slash LLM Deployment Costs and LatencyDeploying Large Language Models (LLMs) in production is a mass... Цялото описание

Код Либристо: 52770465

28 b

Подготвяме

Нови

11.41 €

22.32 лв

Очаква се зареждане Издание 07. 06. 2026

30 дни за връщане на стоката

Slash LLM Deployment Costs and Latency

Deploying Large Language Models (LLMs) in production is a massive economic and engineering hurdle. AI Inference Optimization Engineering is your comprehensive, hands-on guide to mastering the full stack of modern LLM optimization techniques. From memory-bandwidth solutions to hardware-specific compilation, this book bridges the gap between research-level models and enterprise-grade execution.

What you will master inside this book:

Hardware-Aware Optimization: Dive deep into KV cache mechanics, autoregressive decoding, and GPU memory hierarchies to eliminate latency bottlenecks.
State-of-the-Art Quantization: Apply GPTQ, AWQ, and GGUF compression algorithms to scale down massive neural networks without sacrificing model accuracy.
Advanced Acceleration Methods: Implement speculative decoding with draft models (like Medusa and Eagle), PagedAttention, and FlashAttention to boost throughput by 2-3x.
Production-Grade Serving: Build ultra-low-latency deployment infrastructures using vLLM, Triton Inference Server, and continuous batching.
Cross-Platform Deployment: Optimize models for specific target hardware, including NVIDIA H100 (TensorRT-LLM), Apple Silicon (llama.cpp/Metal), and Qualcomm mobile/edge accelerators.

Whether you are an ML infrastructure engineer, an AI platform architect, or a technical leader looking to scale LLMs cost-effectively, this book provides the production-ready code, equations, and architectural patterns you need to build hyper-efficient AI pipelines.

Героиня & Полиглот

EWA KASP за

Пусни видеото

В Libristo има най-богатия избор от чуждоезична литература. Затова купувам книгите си тук.

Информация за книгата

Пълно заглавие AI Inference Optimization Engineering

Автор ChatVariety Team

Език

Английски език

Корици Книга - С меки корици

Дата на издаване 2026

Брой страници 96

Баркод 9798199720021

Код Либристо 52770465

Издателство Independently published

Тегло 142

Размери 152 x 229 x 5

Често търсени

Categories

Authors

Publishers

Често търсени

Стоки

Categories

Authors

Publishers

Доставка

Наръчник за пазаруване

AI Inference Optimization Engineering

Quantization, Speculative Decoding, and Hardware-Specific LLM Deployment

Информация за книгата

Категории

Подарете тази книга днес

Лесно е

Често търсени

Categories

Authors

Publishers

AI Inference Optimization Engineering

Quantization, Speculative Decoding, and Hardware-Specific LLM Deployment

Информация за книгата

Категории

Подарете тази книга днес

Лесно е

Нямате акаунт? Използвайте предимствата на акаунта за Libristo!