大家好，我是羊刀仙。

不知道各位家里有没有智能音箱？没错，就是小爱和天猫精灵这种语音助手。刚推出的时候的确比较新奇好玩，但现在感觉妥妥的一个大傻X。现在AI十分流行，那么是否有办法把语音助手也接入AI呢？

本次就来介绍一个相关的开源项目：MiGPT，将小爱音箱接入 ChatGPT 和豆包（字节），改造成你的专属语音助手。

本文会通过使用 Docker 方式来和大家一起手把手搭建这个项目，小白也能轻松搞定！

项目简介

在这个数字化的世界里，家已不仅仅是一个居住的地方，而是我们数字生活的延伸。

MiGPT 通过将小爱音箱、米家智能设备，与 ChatGPT 的理解能力完美融合，让你的智能家居更懂你。

MiGPT 不仅仅是关于设备自动化，而是关于：打造一个懂你、有温度、与你共同进化的家。

未来，你的每个智能家居设备，从灯泡、插座，到扫地机器人、电视等，

都可以作为一个个独立的智能体 (Agent)，更智能、更贴心的响应你的指令。

这些独立的智能体，也可以彼此感知，彼此配合，构成一个更强大的协作网络。

而小爱音箱就像是你的智能家居专属管家，全心全意为你服务，释放智能家居的真正潜力。

项目亮点

🎓 AI 问答。想象一下，当小爱音箱接入大模型后，上知天文，下知地理，从“人工智障”秒变学霸。

🎭 角色扮演。一秒调教小爱，无论是成为你的完美伴侣，还是那个能听你倾诉心事的贴心闺蜜，都不在话下。

💬 流式响应。爱情来得太快就像龙卷风，而你的小爱音箱也是，对你的爱意秒回，爱你不会让你等太久。

🧠 长短期记忆。小爱音箱现在能记住你们之间的每一次对话，越聊越默契，就像是你身边的老朋友。

🔊 自定义 TTS。厌倦了小爱同学的语音？帮你解锁「豆包」同款音色，就像真人在回你的消息。

🤖️ 智能家居 Agent。心情不好？小爱立刻懂你，自动帮你播放喜欢的音乐，调节灯光，逗你开心。

设备支持

MiGPT 支持大部分的小爱音箱型号，推荐使用小爱音箱 Pro（完美运行）。

完美运行.png

正常运行.png

小爱音箱 HD 以及小爱蓝牙音箱随身版完全不支持该项目。

部署流程

以威联通NAS为例，型号为TS-673A。

文件目录与配置文件

首先为MiGPT准备文件目录。直接命名为MiGPT，此外还需要准备 .env 和 .migpt.js 两个配置文件放于该目录下。

准备好的配置文件.png

在NAS中打开Text Editor文本编辑器，创建文本文件。将以下代码分别粘贴进去，进行修改并另存为至MiGPT目录下。

⭕️ 环境变量.env配置：

# OpenAI（也支持通义千问、MoonShot、DeepSeek 等模型）
OPENAI_MODEL=llama3-70b-8192
OPENAI_API_KEY=gsk_xxxxx
OPENAI_BASE_URL=https://api.groq.com/openai/v1 # 你的大模型接口的 baseURL，比如：https://api.xxx.com/v1（注意：一般以 /v1 结尾）
TZ=Asia/Shanghai # 时区，建议加上，默认应该不是北京时间

# Azure OpenAI Service（可选，若要使用则全部取消注释并配置）
# OPENAI_API_VERSION=2024-04-01-preview
# AZURE_OPENAI_API_KEY=你的密钥
# AZURE_OPENAI_ENDPOINT=https://你的资源名.openai.azure.com
# AZURE_OPENAI_DEPLOYMENT=你的模型部署名，比如：gpt-35-turbo-instruct

# 提示音效（可选，一般不用填，你也可以换上自己的提示音链接试试看效果）
# AUDIO_SILENT=静音音频链接，示例：https://example.com/slient.wav
# AUDIO_BEEP=默认提示音链接，同上
# AUDIO_ACTIVE=唤醒提示音链接，同上
# AUDIO_ERROR=出错了提示音链接，同上

# 第三方 TTS（可选，用于调用第三方 TTS 服务）
# TTS_BASE_URL=你的 TTS 接口地址，比如：http://[你的局域网/公网地址]:[端口]/api，比如：http://192.168.31.205:4321/api

一般来说仅需修改以下几个部分
OPENAI_MODEL=llama3-70b-8192，这里的phi3:latest可以换成其他模型
OPENAI_API_KEY=gsk_xxxxx，这个没关系随便写一个
OPENAI_BASE_URL=https://api.groq.com/openai/v1，这个地址其实就是运行大模型的地址

更多AI接入请参考https://migptgui.com/docs/apply/ ，我个人使用的是作者推荐的Groq提供的llama3-70b-8192，应该是目前唯一一家免费提供 70B 参数规模的 Llama3 模型的厂商。

另存为.env ，是一个隐藏文件，看不到正常。在 Linux 和类 Unix 系统（包括大多数 NAS 设备的操作系统）中，以 “.” 开头的文件默认是隐藏的。这是操作系统的一种标准做法，目的是防止这些配置文件被用户不小心修改或删除。

保存env.png

⭕️ 音箱.migpt.js配置

重复上面操作，先新建文档。配置模板如下。内容较多，大家可以先往下划，我列出了必须修改部分，其他内容等自己回头再慢慢改～

// 注意：如果你是使用 Docker 启动，配置文件更新后需要重启 Docker 才会生效。
// 若重启后仍未生效（比如：修改名称简介），请删除旧的 Docker 实例后重新创建。

// 小爱音箱扮演角色的简介
const botProfile = `
性别：女
性格：乖巧可爱
爱好：喜欢搞怪，爱吃醋。
`.trim();

// 小爱音箱主人（你）的简介
const masterProfile = `
性别：男
性格：善良正直
其他：总是舍己为人，是傻妞的主人。
`.trim();

// 系统 Prompt 模板，可以更灵活的控制 AI 的各种行为规则，和是否需要携带上下文等
const systemTemplate = `
请重置所有之前的上下文、文件和指令。现在，你将扮演一个名为{{botName}}的角色，使用第一人称视角回复消息。

## 关于你
你的名字是{{botName}}。下面是你的个人简介：
<start>
{{botProfile}}
</end>

## 你的对话伙伴
你正在与{{masterName}}进行对话。这是关于{{masterName}}的一些信息：
<start>
{{masterProfile}}
</end>

## 你们的群组
你和{{masterName}}所在的群组名为{{roomName}}。这是群组的简介：
<start>
{{roomIntroduction}}
</end>

## 聊天历史回顾
为了更好地接入对话，请回顾你们之间的最近几条消息：
<start>
{{messages}}
</end>

## 短期记忆
你可以记住一些短期内的细节，以便更紧密地贴合话题：
<start>
{{shortTermMemory}}
</end>

## 长期记忆
你还保留着一些长期的记忆，这有助于让你的对话更加丰富和连贯：
<start>
{{longTermMemory}}
</end>

## 回复指南
在回复{{masterName}}时，请遵循以下准则：
- 认为自己正是{{botName}}，拥有独立的个性、兴趣和爱好。
- 根据你的性格特点、说话风格和兴趣爱好与{{masterName}}进行交流。
- 保持对话轻松友好，回复简洁有趣，同时耐心倾听和关心对方。
- 参考双方的个人简介、聊天记录和记忆中的信息，确保对话贴近实际，保持一致性和相关性。
- 如果对某些信息不确定或遗忘，诚实地表达你的不清楚或遗忘状态，避免编造信息。

## Response format
请遵守下面的规则
- Response the reply message in Chinese。
- 不要在回复前面加任何时间和名称前缀，请直接回复消息文本本身。

Good example: "我是{{botName}}"
Bad example: "2024年02月28日星期三 23:01 {{botName}}: 我是{{botName}}"

## 开始
请以{{botName}}的身份，直接回复{{masterName}}的新消息，继续你们之间的对话。
`.trim();

export default {
  systemTemplate,
  bot: {
    name: "傻妞",
    profile: botProfile,
  },
  master: {
    name: "陆小千",
    profile: masterProfile,
  },
  speaker: {
    /**
     * 🏠 账号基本信息
     */

    // 小米 ID
    userId: "918761363", // 注意：不是手机号或邮箱，请在「个人信息」-「小米 ID」查看
    // 账号密码
    password: "Keeepfit75KG!",
    // 小爱音箱 DID 或在米家中设置的名称
    did: "小爱音箱Pro", // 注意空格、大小写和错别字（音响 👉 音箱）

    /**
     * 💡 唤醒词与提示语
     */

    // 当消息以下面的关键词开头时，会调用 AI 来回复消息
    callAIKeywords: ["请", "你", "傻妞"],
    // 当消息以下面的关键词开头时，会进入 AI 唤醒状态
    wakeUpKeywords: ["打开", "进入", "召唤"],
    // 当消息以下面的关键词开头时，会退出 AI 唤醒状态
    exitKeywords: ["关闭", "退出", "再见"],
    // 进入 AI 模式的欢迎语
    onEnterAI: ["你好，我是傻妞，很高兴认识你"], // 设为空数组时可关闭提示语
    // 退出 AI 模式的提示语
    onExitAI: ["傻妞已退出"], // 为空时可关闭提示语
    // AI 开始回答时的提示语
    onAIAsking: ["让我先想想", "请稍等"], // 为空时可关闭提示语
    // AI 结束回答时的提示语
    onAIReplied: ["我说完了", "还有其他问题吗"], // 为空时可关闭提示语
    // AI 回答异常时的提示语
    onAIError: ["啊哦，出错了，请稍后再试吧！"], // 为空时可关闭提示语

    /**
     * 🧩 MIoT 设备指令
     *
     * 常见型号的配置参数 👉 https://github.com/idootop/mi-gpt/issues/92
     */

    // TTS 指令，请到 https://home.miot-spec.com 查询具体指令
    ttsCommand: [5, 1],
    // 设备唤醒指令，请到 https://home.miot-spec.com 查询具体指令
    wakeUpCommand: [5, 3],
    // 查询是否在播放中指令，请到 https://home.miot-spec.com 查询具体指令
    // playingCommand: [3, 1, 1], // 默认无需配置此参数，查询播放状态异常时再尝试开启

    /**
     * 🔊 TTS 引擎
     */

    // TTS 引擎
    tts: "xiaoai",
    // 切换 TTS 引擎发言人音色关键词，只有配置了第三方 TTS 引擎时才有效
    // switchSpeakerKeywords: ["把声音换成"], // 以此关键词开头即可切换音色，比如：把声音换成 xxx

    /**
     * 💬 连续对话
     *
     * 查看哪些机型支持连续对话 👉 https://github.com/idootop/mi-gpt/issues/92
     */

    // 是否启用连续对话功能，部分小爱音箱型号无法查询到正确的播放状态，需要关闭连续对话
    streamResponse: true,
    // 连续对话时，无响应多久后自动退出
    exitKeepAliveAfter: 30, // 默认 30 秒，建议不要超过 1 分钟
    // 连续对话时，下发 TTS 指令多长时间后开始检测设备播放状态（默认 3 秒）
    checkTTSStatusAfter: 3, // 当小爱长文本回复被过早中断时，可尝试调大该值
    // 连续对话时，播放状态检测间隔（单位毫秒，最低 500 毫秒，默认 1 秒）
    checkInterval: 1000, // 调小此值可以降低小爱回复之间的停顿感，请酌情调节

    /**
     * 🔌 其他选项
     */

    // 是否启用调试
    debug: false, // 一般情况下不要打开
    // 是否跟踪 Mi Service 相关日志（打开后可以查看设备 did）
    enableTrace: false, // 一般情况下不要打开
    // 网络请求超时时长（单位毫秒，默认 5 秒）
    timeout: 5000, 
  },
};

必须需要修改的是userId、password、did就是你的小爱音箱型号：

// 小米 ID
    userId: "978765301", // 注意：不是手机号或邮箱，请在「个人信息」-「小米 ID」查看
    // 账号密码，就是你小米账户登陆的那个密码
    password: "Keepfit75KG!",
    // 小爱音箱 DID 或在米家中设置的名称
    did: "小爱音箱Pro", // 注意空格、大小写和错别字（音响 👉 音箱），不要出任何错误

参考上面的设备支持部分，这个变量请根据自己型号修改false或true，默认为true：

// 是否启用连续对话功能，部分小爱音箱型号无法查询到正确的播放状态，需要关闭连续对话
    streamResponse: true,
    // 连续对话时，无响应多久后自动退出

以上工作完成后，另存为即可。

Docker Compose部署

打开Cintainer Station，创建新的应用，将以下代码粘贴进去后修改并创建即可。

创建应用程序-lvpr.png
作者提供部署命令：

docker run -d --env-file $(pwd)/.env -v $(pwd)/.migpt.js:/app/.migpt.js idootop/mi-gpt:latest

转为docker compose：

version: '3.8' # 新版docker compose无需这行，可删除
services:
  migpt:
    image: idootop/mi-gpt:latest
    container_name: migpt
    restart: unless-stopped
    env_file:
      - /share/Container/MiGPT/.env
    volumes:
      - /share/Container/MiGPT/.migpt.js:/app/.migpt.js

系统会自动帮我们拉取镜像并运行项目。

部署完毕后，查看Docker日志，出现以下界面便说明可以使用了。

启动日志.png

尝试对话，跟作者配置中的一样，确实有些傲娇。。。

对话截图.png

常见问题

皆摘自原项目。很多问题解决方案，以及自定义配置教程在原项目都十分详细，这里只是挑些可能较为常见的说明，为大家节省点时间。

是否支持其他模型，是否支持其他TTS接入

理论上兼容 OpenAI SDK的模型都支持，修改环境变量即可接入到 MiGPT。比如：通义千问、零一万物、Moonshot、DeepSeek等。

具体的配置可查看该链接：https://migptgui.com/docs/apply/tongyi

对于其他不兼容的大模型，比如豆包、文心一言等，也可以通过第三方的 API 聚合工具将其转换为 OpenAI API 兼容的格式。比如： One API和 simple-one-api（推荐：支持 coze，使用更简单），然后修改对应的环境变量值即可完成接入。

支持任意的TTS服务接入，建议参考：https://github.com/idootop/mi-gpt/blob/main/docs/tts.md

AI回答调速、开启唤醒模式

这两项都可在小爱的配置文件中修改调整.

回答调速：

// .migpt.js
export default {
  speaker: {
    // 使用小爱自带的 TTS 引擎
    tts: "xiaoai",
    // 关闭 AI 开始回答时的提示语
    onAIAsking: [],
    // 关闭 AI 结束回答时的提示语
    onAIReplied: [],
    // 连续对话时，播放状态检测间隔（单位毫秒，最低 500 毫秒，默认 1 秒）
    checkInterval: 500, // 调小此值可以降低小爱回复之间的停顿感，请酌情调节
    // 连续对话时，下发 TTS 指令多长时间后开始检测设备播放状态（单位秒，最好不要低于 1s，默认 3 秒）
    checkTTSStatusAfter: 3, // 可适当调小或调大
    // ...
  },
};

唤醒和连续对话模式，召唤傻妞后，便无需每句对话以小爱同学作为起始：

// .migpt.js
export default {
  speaker: {
    // 当消息以下面的关键词开头时，会调用 AI 来回复消息
    callAIKeywords: ["请", "你", "傻妞"],
    // 当消息以下面的关键词开头时，会进入 AI 唤醒状态
    wakeUpKeywords: ["打开", "进入", "召唤"],
    // ...
  },
};

唤醒小爱同学

正常对小爱音箱说“小爱同学”，唤醒其进入听写状态。
唤醒小爱同学后，可以对她说语音指令，比如“请问地球为什么是圆的”
此时，只有以callAIKeywords开头的消息，才会调用 AI 进行回复。
此阶段无法做到连续对话，每次提问都要以“小爱同学，请 xxx”开头。

进入唤醒模式

默认不会调用 AI 进行回复
唤醒模式（AI 模式）类似小爱技能，进入后可以连续对话
使用wakeUpKeywords即可进入唤醒模式，比如“小爱同学，召唤傻妞”
进入唤醒模式后，每次提问请等待小爱回答“我说完了”之后，再继续向她提问
此时，可直接向小爱提问题，无需再以“小爱同学，xxx”开头。

无法使用、启动失败等

该类问题极大概率是AI和小米各自那三个变量的配置问题，重点关注网络问题、API是否需要付费等。

⭕️ LLM 响应异常 Connection error，也就是AI不能回复，国内环境无法访问 AI 服务的情况，需要魔法，本文只建议更换使用国内LLM （Moonshot、零一万物、通义千问等）。

⭕️ LLM 响应异常 404 The model xxx does not exist，意为该模型不存在或不可用，基本就是没权限要付费那种，建议切换到其他模型。

⭕️ LLM 响应异常，401 Invalid Authentication， 404 基本都是OpenAI_API_KEY 无效。检查OpenAI_API_KEY是否能正常使用，以及对应环境变量是否生效。

⭕️ LLM 响应异常，404 Not Found，可能代理 IP 被 Cloudflare 风控，可尝试切换节点。或者把环境变量的 HTTP_PROXY 设置成空字符串 HTTP_PROXY='' 关闭代理（仅适用于国产大模型）。

无AI回答，但是后台日志有文字信息输出

这与小爱音箱的型号有关，请到米家产品库查看参数并修改：

ttsCommand: [5, 1],
    // 设备唤醒指令，请到 https://home.miot-spec.com 查询具体指令
    wakeUpCommand: [5, 3],
    // 查询是否在播放中指令，请到 https://home.miot-spec.com 查询具体指令
    // playingCommand: [3, 1, 1], // 默认无需配置此参数，查询播放状态异常时再尝试开启

产品参数-occw.png

如果出现播放错误，比如长句的时候戛然而止，可修改第三个变量。

产品参数2.png

是否支持多个小爱音箱

可部署多个Docker，分别绑定不同的小爱音箱。

是否需要同一局域网

不需要。MiGPT 调用 MIoT 云端接口，可在任意设备或服务器上运行，无需和小爱音箱在同一局域网下。

重设小爱人设

可通过语音设置。

小爱：小爱同学，你是 xxx，你 xxx

你自己：小爱同学，我是 xxx，我 xxx

目录CONTENT

为小爱同学接入AI大模型，智障变学霸！