Production-grade RAG chatbot dengan video transcription, multi-stage retrieval, dan real-time context awareness
Full-Stack AI Engineering: End-to-end development dari data pipeline (Instagram scraping, video transcription) hingga production deployment dengan Docker dan cloud infrastructure.
Advanced RAG Architecture: Multi-stage retrieval system dengan semantic search, context-aware filtering, dan fallback mechanisms untuk ensure 100% response rate.
ML/AI Integration: Whisper AI untuk video transcription (500+ videos), AWS Bedrock untuk LLM inference, dan Qdrant vector database untuk semantic search.
Production-Ready: Automated data pipeline, cookie rotation untuk rate limit handling, error recovery, dan monitoring.
Multi-Stage Retrieval: Implemented fallback mechanism (strict filter → relaxed filter → general search) untuk ensure always ada hasil relevan. Ini critical untuk UX.
Context-Aware Filtering: Automatic time-based categorization (sarapan/makan_siang/nongkrong/makan_malam) berdasarkan current time atau query keywords. No manual filter needed.
Rich Metadata: Structured response dengan Instagram links, Google Maps links, menu, harga, jam operasional. Bukan cuma text recommendation.
Cookie Rotation: Implemented smart rotation dengan 3+ cookie files untuk avoid Instagram rate limits saat download 500+ videos. Include random delays dan retry logic.
Streaming Response: SSE implementation untuk better perceived performance. Response time turun dari 5-10s jadi under 2s (perceived).
Challenge: 637 Instagram posts dengan 806 columns, inconsistent format, info tersebar di caption/video/hashtags.
Solution:
Results: 806 columns → 18 relevant features, 500+ videos transcribed, ready untuk production RAG system.
Instagram Rate Limits: Implemented cookie rotation dengan 3+ accounts, random delays, dan retry logic untuk download 500+ videos tanpa permanent block.
Inconsistent Data: Built robust extraction pipeline dengan regex patterns, fallback logic, dan manual validation untuk handle inconsistent Instagram captions.
Context Window Optimization: Multi-stage retrieval untuk balance antara relevance dan coverage. Strict filter first, fallback to general search if needed.
Real-time Streaming: SSE implementation dengan proper error handling, connection management, dan graceful degradation.
Production Deployment: Docker containerization, environment management, monitoring setup, dan cost optimization untuk AWS Bedrock usage.
Read Full Story: Blog Post