Smart
Robot
Home
Specs
Architecture
Hardware
Pipeline
Roadmap
Graduation Project 2026
智能陪伴
桌面机器人
基于 ESP32 的语音交互智能硬件,集成语音识别、情感表达、OLED 显示与灯光联动,打造低成本多模态陪伴体验。
ESP32
FreeRTOS
Voice AI
IoT
MQTT
Open Source
ESP32
WROOM-32
// Key Metrics
核心性能指标
95.2%
语音识别准确率
安静环境 | 嘈杂环境 88.6%
97.8%
唤醒词召回率
1m 内有效 | 3m 外 91.3%
<800ms
端到端延迟
均值 720ms | P99 < 1200ms
6.5h
续航时间
2000mAh 电池连续使用
// System Architecture
四层系统架构
用户交互层
USER INTERACTION LAYER
语音输入
按键操控
APP远程
传感器
| | |
应用服务层
APPLICATION SERVICE LAYER
唤醒词检测
ASR
NLP
TTS
对话管理
| | |
平台支撑层
PLATFORM SUPPORT LAYER
FreeRTOS
MQTT
Wi-Fi
OTA
LittleFS
| | |
硬件驱动层
HARDWARE DRIVER LAYER
I2S音频
I2C/SPI
PWM
GPIO
ADC
// Hardware Modules
核心硬件模块
⚙
ESP32-WROOM-32
Main Controller
双核 Xtensa LX6 @ 240MHz
520KB SRAM + 4MB Flash
Wi-Fi 802.11 b/g/n + BLE 4.2
系统主控,运行 FreeRTOS
🎤
INMP441
Digital Microphone
I2S 数字输出,61dB SNR
采样率最高 44.1kHz
灵敏度 -26dBFS
高质量语音采集
🔊
MAX98357A
Audio Amplifier
I2S 直连,无需 DAC
3W 输出功率
AB/D 类可切换
驱动扬声器播放语音
💻
SSD1306 OLED
Display Module
128x64 像素,0.96寸
I2C 接口,低功耗
显示表情 / 状态 / 文字
⚙
SG90 舵机
Servo Motor
扭矩 1.8kg.cm
PWM 控制,180度旋转
机器人头部左右转动
✨
WS2812B RGB
LED Ring
16颗 LED 灯环
256级亮度可调
状态指示 + 氛围灯光
// Voice Pipeline
语音交互流程
01
唤醒检测
ESP-SR 本地运行
功耗 < 50mW
02
VAD 检测
端点检测
自动判断说话开始/结束
03
音频采集
I2S 16kHz/16bit
环形缓冲区
04
云端 ASR
WebSocket 流式上传
边录边识别
05
NLP 处理
意图识别 + 槽位提取
对话状态管理
06
回复生成
规则模板 / LLM
生成回复文本
07
TTS 合成
云端合成
流式下载播放
08
多模态表达
OLED 表情 + 舵机动作
+ 灯光效果联动
< 800ms
全链路端到端延迟
// Tech Stack
技术栈
⚙
ESP-IDF v5.x
底层驱动框架
⚡
FreeRTOS
实时多任务调度
📶
MQTT
EMQX 消息队列
🌐
WebSocket
流式音频传输
📄
cJSON
轻量 JSON 解析
💾
LittleFS
配置与缓存存储
📡
mDNS
局域网设备发现
🛠
OTA
远程固件升级
// Future Roadmap
未来展望
PHASE 1 - 3 MONTHS
接入大语言模型
完善对话能力,接入 LLM 实现更自然的多轮对话,提升情感回应质量。
PHASE 2 - 6 MONTHS
视觉感知模块
增加摄像头模块,实现人脸追踪与识别,多模态感知融合。
PHASE 3 - 12 MONTHS
产品化落地
开发配套 APP,支持多机协同,完成工业设计优化,推向市场。