AudioNotes:将音视频快速转化为结构化笔记的 AI 工具
AudioNotes 是一款基于 FunASR 和 Qwen2 构建的智能音视频转文字系统。它不仅能精准提取语音内容,还能利用大模型将杂乱的转录文本自动整理为结构化的 Markdown 笔记,极大提升了信息回顾与阅读的效率。
核心功能与能力
AudioNotes 改变了传统语音转文字仅提供「纯文本流水账」的现状,其核心价值体现在:
- 结构化整理: 利用 ASR 技术精准识别,并调用 LLM 将内容重新组织,生成逻辑清晰、易于阅读的 Markdown 文档。
- 交互式对话: 用户可以直接与音视频内容进行对话,通过问答方式快速定位关键信息或挖掘深层细节。
效果演示
音视频识别与笔记生成:
基于内容的 AI 交互对话:
部署与使用指南
第一步:准备 LLM 环境
AudioNotes 需要配合 Ollama 运行大模型。请先安装 Ollama:ollama.com/download
随后拉取 Qwen2-7B 模型(以阿里千问为例):
ollama pull qwen2:7b
第二步:部署服务
系统提供两种部署方案,建议优先选择 Docker 方式以简化配置。
方案 A:Docker 部署(推荐 🐳)
curl -fsSL https://github.com/harry0703/AudioNotes/raw/main/docker-compose.yml -o docker-compose.yml
docker-compose up
启动后访问:http://localhost:15433/
默认凭据: 账号 admin / 密码 admin(可在 docker-compose.yml 中修改)。
方案 B:本地源码部署 📦
此方案要求环境内已安装 PostgreSQL 数据库。
conda create -n AudioNotes python=3.10 -y
conda activate AudioNotes
git clone https://github.com/harry0703/AudioNotes.git
cd AudioNotes
pip install -r requirements.txt
将 .env.example 重命名为 .env 并配置相关参数,随后启动服务:
chainlit run main.py
启动后访问:http://localhost:8000/
默认凭据: 账号 admin / 密码 admin(可在 .env 文件中修改)。
项目资源
GitHub 仓库:github.com/harry0703/AudioNotes
正文完

