Graduation Project 2026

智能陪伴
桌面机器人

基于 ESP32 的语音交互智能硬件，集成语音识别、情感表达、OLED 显示与灯光联动，打造低成本多模态陪伴体验。

ESP32 FreeRTOS Voice AI IoT MQTT Open Source

// Key Metrics

核心性能指标

95.2%

语音识别准确率

安静环境 | 嘈杂环境 88.6%

97.8%

唤醒词召回率

1m 内有效 | 3m 外 91.3%

<800ms

端到端延迟

均值 720ms | P99 < 1200ms

6.5h

续航时间

2000mAh 电池连续使用

// System Architecture

四层系统架构

用户交互层

USER INTERACTION LAYER

语音输入按键操控APP远程传感器

| | |

应用服务层

APPLICATION SERVICE LAYER

唤醒词检测ASRNLPTTS对话管理

| | |

平台支撑层

PLATFORM SUPPORT LAYER

FreeRTOSMQTTWi-FiOTALittleFS

| | |

硬件驱动层

HARDWARE DRIVER LAYER

I2S音频I2C/SPIPWMGPIOADC

// Hardware Modules

核心硬件模块

⚙

ESP32-WROOM-32

Main Controller

双核 Xtensa LX6 @ 240MHz
520KB SRAM + 4MB Flash
Wi-Fi 802.11 b/g/n + BLE 4.2
系统主控，运行 FreeRTOS

🎤

INMP441

Digital Microphone

I2S 数字输出，61dB SNR
采样率最高 44.1kHz
灵敏度 -26dBFS
高质量语音采集

🔊

MAX98357A

Audio Amplifier

I2S 直连，无需 DAC
3W 输出功率
AB/D 类可切换
驱动扬声器播放语音

💻

SSD1306 OLED

Display Module

128x64 像素，0.96寸
I2C 接口，低功耗
显示表情 / 状态 / 文字

⚙

SG90 舵机

Servo Motor

扭矩 1.8kg.cm
PWM 控制，180度旋转
机器人头部左右转动

✨

WS2812B RGB

LED Ring

16颗 LED 灯环
256级亮度可调
状态指示 + 氛围灯光

// Voice Pipeline

语音交互流程

01

唤醒检测

ESP-SR 本地运行
功耗 < 50mW

02

VAD 检测

端点检测
自动判断说话开始/结束

03

音频采集

I2S 16kHz/16bit
环形缓冲区

04

云端 ASR

WebSocket 流式上传
边录边识别

05

NLP 处理

意图识别 + 槽位提取
对话状态管理

06

回复生成

规则模板 / LLM
生成回复文本

07

TTS 合成

云端合成
流式下载播放

08

多模态表达

OLED 表情 + 舵机动作
+ 灯光效果联动

< 800ms

全链路端到端延迟

// Tech Stack

技术栈

⚙

ESP-IDF v5.x

底层驱动框架

⚡

FreeRTOS

实时多任务调度

📶

MQTT

EMQX 消息队列

🌐

WebSocket

流式音频传输

📄

cJSON

轻量 JSON 解析

💾

LittleFS

配置与缓存存储

📡

mDNS

局域网设备发现

🛠

OTA

远程固件升级

// Future Roadmap

未来展望

PHASE 1 - 3 MONTHS

接入大语言模型

完善对话能力，接入 LLM 实现更自然的多轮对话，提升情感回应质量。

PHASE 2 - 6 MONTHS

视觉感知模块

增加摄像头模块，实现人脸追踪与识别，多模态感知融合。

PHASE 3 - 12 MONTHS

产品化落地

开发配套 APP，支持多机协同，完成工业设计优化，推向市场。