Quay lại trang chủ

Gemini Live là gì?

💡

Định nghĩa

Gemini Live là API trò chuyện real-time của Google, hỗ trợ streaming audio/video và multi-turn conversation. Khác với REST API thông thường, Gemini Live duy trì session liên tục, cho phép bot nói chuyện tự nhiên như con người với độ trễ cực thấp.

Low Latency

Độ trễ cực thấp

Streaming audio real-time với latency dưới 500ms. Bot phản hồi gần như tức thì khi nhận audio input.

Multi-turn

Đa hội thoại

Duy trì context của cuộc trò chuyện qua nhiều lượt. Bot hiểu được câu hỏi trước đó và trả lời liên quan.

Video Streaming

Hỗ trợ Camera

Nhận diện hình ảnh từ camera ESP32-CAM hoặc camera điện thoại, phân tích và trả lời dựa trên những gì nhìn thấy.

Tool Calling

Tool Integration

Gọi external tools như Google Search, Knowledge Base, HomeAssistant thông qua function calling tự động.

🔑 Cấu hình API Key

1

Lấy Google API Key

Truy cập Google AI Studiohttps://aistudio.google.com/app/apikey → Tạo API Key mới hoặc sử dụng key đã có.

2

Đăng nhập Web Manager

Vào web.vietbot.vn → Đăng nhập tài khoản → Chọn Agent cần cấu hình.

3

Nhập API Key

Vào mục Plugin Information → Tìm trường Google Gemini API Key → Dán API Key của bạn → Bấm Lưu.

4

Kích hoạt Gemini Live

Vào tab LLM Model → Chọn model gemini-2.0-flash-live-001 → Bật toggle Use Gemini Live.

🤖 Models được hỗ trợ

ModelLoạiAudioVideoToolContext
gemini-2.0-flash-live-001Live (Streaming)1M token
gemini-2.5-flash-preview-05-20Preview1M token
gemini-2.5-pro-preview-06-05Preview2M token
⚠️

Lưu ý về Pricing

Gemini Live API sử dụng pricing theo token cho cả input và output. Kiểm tra bảng giá chính thức của Google trước khi sử dụng. Free tier có giới hạn RPD (Requests Per Day).

📡 Cách hoạt động

# Luồng xử lý Gemini Live trong VietBot # 1. Device kết nối → gửi audio stream lên server Audio Input (device) │ ▼ # 2. Server chuyển audio → Gemini Live API (WebSocket bidirectional) Gemini Live API ├── receive: audio chunks ├── process: real-time AI inference └── emit: text + audio response │ ▼ # 3. Nếu user hỏi về tool → trigger function calling Tool Handler ├── google_search → tìm kiếm web ├── google_documentation → truy vấn Knowledge Base └── home_assistant → điều khiển thiết bị

⚙️ Cấu hình nâng cao

Temperature

Độ sáng tạo

Điều chỉnh temperature từ 0.0 đến 1.0. Khuyến nghị: 0.3 - 0.7.

Voice Config

Cấu hình giọng nói

Chọn voice profile: Zephyr, Puck, Charon, Kore, Fenrir.

System Prompt

Persona Configuration

Viết system prompt để định nghĩa tính cách, vai trò và hành vi của AI Assistant.

Speech-to-Text

STT Engine

Hỗ trợ nhiều engine STT: Google STT (mặc định), Whisper, Vivox.

← Quay lại trang chủ Mở Web Manager →