Various: Cost Optimization and Performance Panel Discussion: Strategies for Running LLMs in Production

LLMOps Database

Tech

Various

Company

Various

Title

Cost Optimization and Performance Panel Discussion: Strategies for Running LLMs in Production

Industry

Tech

Link

https://www.youtube.com/watch?v=wxq1ZeAM9fc

Year

2023

Summary (short)

A panel discussion featuring experts from Neva, Intercom, Prompt Layer, and OctoML discussing strategies for optimizing costs and performance when running LLMs in production. The panel explores various approaches from using API services to running models in-house, covering topics like model compression, hardware selection, latency optimization, and monitoring techniques. Key insights include the trade-offs between API usage and in-house deployment, strategies for cost reduction, and methods for performance optimization.

Tags

cost_optimization

customer_support

knowledge_distillation

# LLMOps Panel Discussion on Cost and Performance Optimization ## Overview This case study covers a panel discussion featuring experts from various companies sharing their experiences and strategies for optimizing LLM deployments in production. The panel included representatives from: - Neva (private search solution) - Intercom (customer service platform) - Prompt Layer (LLM management platform) - OctoML (model optimization platform) ## Cost Optimization Strategies ### Model Selection and Deployment Approaches - Initial development with foundation model APIs - Moving to in-house deployment ### Hardware Optimization - Key threshold: Running on single A100 or A10 GPU - CPU deployment for certain components - Hardware selection based on actual requirements ### Technical Optimization Techniques - Structured printing and knowledge distillation - Smart API usage - Open source alternatives ## Latency Optimization ### Technical Approaches - Optimization libraries - Model compression techniques - Batch size optimization ### User Experience Considerations - Managing user expectations - API-specific considerations ## Monitoring and Evaluation ### Evaluation Approaches - Three main categories: - Critic modeling ### Performance Monitoring - Tracking tail latencies - Cost tracking - Quality assurance ## Key Learnings and Best Practices - Start with API services for rapid prototyping - Consider in-house deployment at scale - Focus on hardware-appropriate optimization - Implement comprehensive monitoring - Balance cost, latency, and quality requirements - Use appropriate evaluation techniques - Consider user experience in optimization decisions - Regular review and optimization of problematic cases

Start deploying reproducible AI workflows today

Enterprise-grade MLOps platform trusted by thousands of companies in production.

Book a Demo

Use Open Source