什么是 Fast-Powerful-Whisper-AI-Services-API?
Fast-Powerful-Whisper-AI-Services-API 是一款专为高性能、高扩展性而设计的异步语音识别 (ASR) 与翻译 API。该项目核心采用 生产者 - 消费者模式,旨在解决大规模、高并发的语音转录需求。
与依赖付费 API 的方案不同,本项目支持在本地运行 Whisper 模型。通过集成 Faster Whisper,它在保持极高准确率的同时显著提升了推理速度。此外,系统内置了针对 TikTok 和抖音等社交平台的爬虫模块,用户仅需输入链接即可快速启动媒体处理任务,实现了从数据采集到语音识别的自动化闭环。
为了最大化硬件效能,系统引入了 异步模型池方案,支持多 GPU 并行计算与高效资源调度。在底层架构上,项目集成了异步 HTTP、文件 IO 及数据库模块,并计划通过 JSON 定义或 Python 编写自定义组件,构建灵活的任务工作流,未来还将深度接入 ChatGPT 等大语言模型 (LLM),实现从“语音识别”到“自然语言分析”的全链路处理。
核心技术特性
- 全异步架构:基于 Python 3.11 的
asyncio编写,所有模块均支持异步处理,确保了系统在高并发场景下的稳定性与响应速度。 - 智能异步模型池:支持 OpenAI Whisper 与 Faster Whisper 多实例并发。在多 GPU 环境下,系统可智能加载模型并自动分配任务,实现负载均衡(注:单 GPU 场景不支持并发)。
- 高精度与高性能:采用
large-v3模型确保转录质量,结合 Faster Whisper 优化推理耗时。 - 灵活的数据库支持:兼容 SQLite(适合快速启动)与 MySQL(适合分布式部署),多节点可通过统一数据库共享任务源。
- 内置媒体爬虫:原生支持抖音、TikTok 视频数据采集,简化了媒体内容的获取流程。
- 可视化接口文档:基于 FastAPI 自动生成 Swagger UI,提供中英双语说明及默认参数,方便开发者快速测试。
- 分布式扩展潜力:支持从统一数据库获取 / 存储任务,未来计划对接 Kafka 以构建实时更新的智能 Web API。
- LLM 增强:已集成 ChatGPT 支持,可直接利用数据库中的转录数据与 LLM 进行交互。
- 可编程工作流(开发中):计划支持通过 JSON 定义任务依赖与执行顺序,或通过 Python 编写自定义组件,实现基于事件驱动(时间、手动或爬虫触发)的复杂自动化流程。
适用场景
- 大规模媒体处理:本地或网络媒体文件的批量转录、翻译、字幕生成及内容分析。
- 动态数据采集:利用异步爬虫自动抓取社交媒体内容并实时进行语音识别与存储。
- 分布式算力利用:通过网关模式,将分布在不同节点的零散 GPU 算力进行统一调度与有效利用。
- 自动化业务集成:通过 API 接入第三方任务流系统,实现需要多步骤处理和条件控制的复杂业务逻辑。
获取资源
项目开源地址:https://github.com/Evil0ctal/Fast-Powerful-Whisper-AI-Services-API
正文完
