Graduation Project 2026

智能陪伴
桌面机器人

基于 ESP32 的语音交互智能硬件,集成语音识别、情感表达、OLED 显示与灯光联动,打造低成本多模态陪伴体验。

ESP32 FreeRTOS Voice AI IoT MQTT Open Source
ESP32 WROOM-32
// Key Metrics

核心性能指标

95.2%
语音识别准确率
安静环境 | 嘈杂环境 88.6%
97.8%
唤醒词召回率
1m 内有效 | 3m 外 91.3%
<800ms
端到端延迟
均值 720ms | P99 < 1200ms
6.5h
续航时间
2000mAh 电池连续使用
// System Architecture

四层系统架构

用户交互层
USER INTERACTION LAYER
语音输入按键操控APP远程传感器
| | |
应用服务层
APPLICATION SERVICE LAYER
唤醒词检测ASRNLPTTS对话管理
| | |
平台支撑层
PLATFORM SUPPORT LAYER
FreeRTOSMQTTWi-FiOTALittleFS
| | |
硬件驱动层
HARDWARE DRIVER LAYER
I2S音频I2C/SPIPWMGPIOADC
// Hardware Modules

核心硬件模块

ESP32-WROOM-32
Main Controller
  • 双核 Xtensa LX6 @ 240MHz
  • 520KB SRAM + 4MB Flash
  • Wi-Fi 802.11 b/g/n + BLE 4.2
  • 系统主控,运行 FreeRTOS
🎤
INMP441
Digital Microphone
  • I2S 数字输出,61dB SNR
  • 采样率最高 44.1kHz
  • 灵敏度 -26dBFS
  • 高质量语音采集
🔊
MAX98357A
Audio Amplifier
  • I2S 直连,无需 DAC
  • 3W 输出功率
  • AB/D 类可切换
  • 驱动扬声器播放语音
💻
SSD1306 OLED
Display Module
  • 128x64 像素,0.96寸
  • I2C 接口,低功耗
  • 显示表情 / 状态 / 文字
SG90 舵机
Servo Motor
  • 扭矩 1.8kg.cm
  • PWM 控制,180度旋转
  • 机器人头部左右转动
WS2812B RGB
LED Ring
  • 16颗 LED 灯环
  • 256级亮度可调
  • 状态指示 + 氛围灯光
// Voice Pipeline

语音交互流程

01
唤醒检测
ESP-SR 本地运行
功耗 < 50mW
02
VAD 检测
端点检测
自动判断说话开始/结束
03
音频采集
I2S 16kHz/16bit
环形缓冲区
04
云端 ASR
WebSocket 流式上传
边录边识别
05
NLP 处理
意图识别 + 槽位提取
对话状态管理
06
回复生成
规则模板 / LLM
生成回复文本
07
TTS 合成
云端合成
流式下载播放
08
多模态表达
OLED 表情 + 舵机动作
+ 灯光效果联动
< 800ms
全链路端到端延迟
// Tech Stack

技术栈

ESP-IDF v5.x
底层驱动框架
FreeRTOS
实时多任务调度
📶
MQTT
EMQX 消息队列
🌐
WebSocket
流式音频传输
📄
cJSON
轻量 JSON 解析
💾
LittleFS
配置与缓存存储
📡
mDNS
局域网设备发现
🛠
OTA
远程固件升级
// Future Roadmap

未来展望

PHASE 1 - 3 MONTHS
接入大语言模型
完善对话能力,接入 LLM 实现更自然的多轮对话,提升情感回应质量。
PHASE 2 - 6 MONTHS
视觉感知模块
增加摄像头模块,实现人脸追踪与识别,多模态感知融合。
PHASE 3 - 12 MONTHS
产品化落地
开发配套 APP,支持多机协同,完成工业设计优化,推向市场。