AudioNotes 高效音频转录方案：将音视频快速转化为结构化 Markdown 笔记

22次阅读

AudioNotes 是一款基于 FunASR 和 Qwen2 构建的智能音视频转文字系统。它不仅能精准提取语音内容，还能利用大模型将杂乱的转录文本自动整理为结构化的 Markdown 笔记，极大提升了信息回顾与阅读的效率。

AudioNotes 改变了传统语音转文字仅提供「纯文本流水账」的现状，其核心价值体现在：

结构化整理： 利用 ASR 技术精准识别，并调用 LLM 将内容重新组织，生成逻辑清晰、易于阅读的 Markdown 文档。
交互式对话： 用户可以直接与音视频内容进行对话，通过问答方式快速定位关键信息或挖掘深层细节。

音视频识别与笔记生成：

基于内容的 AI 交互对话：

AudioNotes 需要配合 Ollama 运行大模型。请先安装 Ollama：ollama.com/download

随后拉取 Qwen2-7B 模型（以阿里千问为例）：

ollama pull qwen2:7b

系统提供两种部署方案，建议优先选择 Docker 方式以简化配置。

curl -fsSL https://github.com/harry0703/AudioNotes/raw/main/docker-compose.yml -o docker-compose.yml
docker-compose up

启动后访问：http://localhost:15433/

默认凭据： 账号 admin / 密码 admin（可在 docker-compose.yml 中修改）。

此方案要求环境内已安装 PostgreSQL 数据库。

conda create -n AudioNotes python=3.10 -y
conda activate AudioNotes
git clone https://github.com/harry0703/AudioNotes.git
cd AudioNotes
pip install -r requirements.txt

将 .env.example 重命名为 .env 并配置相关参数，随后启动服务：

chainlit run main.py

启动后访问：http://localhost:8000/

默认凭据： 账号 admin / 密码 admin（可在 .env 文件中修改）。

GitHub 仓库：github.com/harry0703/AudioNotes

正文完

AI 音频转文字

发表至： AI工具教程 GitHub项目创意工具

2024年7月28日

0

转载说明：除特别说明外，本站原创内容采用 Creative Commons Attribution 4.0 (CC BY 4.0) 许可协议发布，转载请注明来源并保留原文链接。本站部分内容基于公开资料整理，并可能经 AI 技术辅助生成或优化，仅供参考，不构成任何专业建议，请读者自行判断与核实。本站不对第三方资源的可用性、安全性或合法性承担任何责任。

品技论坛Switch游戏资源获取指南：NS游戏免费下载与解锁安装实操说明

如何使用柠檬直播观看高清多赛事体育直播：操作指南与全流程步骤

恶意软件分析资源清单：涵盖学习路径、实战工具与环境搭建指南

Topfeed 评测：如何通过一站式聚合高效管理 RSS 与 Newsletter 订阅

zz-plan：通过可视化甘特图优化项目排期，实现任务追踪与进度管控的数字化升级

厌倦了 Google Analytics 的臃肿与隐私顾虑？试试 Rybbit：轻量级且无需 Cookie 的开源分析方案

MiniPerplx 实测：轻量化 AI 搜索的效率与体验分析

羽燕招标：一站式获取全国免费招标信息的平台，涵盖多行业实时动态与精准项目检索

bilibiliDown：纯净版B站视频解析下载工具（支持多平台部署与提取）