Uma solução de conversão de áudio/vídeo para texto totalmente integrada, baseada na API iFlytek: permite a segmentação e o reconhecimento automáticos de arquivos de áudio longos.

511Segunda leitura

Recentemente descobri um projeto de código aberto muito útil: um Uma ferramenta de conversão de áudio/vídeo em texto puramente front-endEsta ferramenta não requer servidor de backend; pode ser baixada localmente e usada como uma página estática, ou implantada diretamente em plataformas de hospedagem estática como GitHub Pages e Cloudflare Pages.

Ao transcrever arquivos de áudio longos, o maior problema geralmente não é a taxa de reconhecimento, mas... Limite de duraçãoA maioria das ferramentas SaaS online limita o tempo de transcrição para usuários gratuitos e, ao chamar diretamente APIs de reconhecimento de fala (como a interface de streaming do iFlytek), geralmente não conseguem processar gravações muito longas de uma só vez, tornando-as mais adequadas para o reconhecimento em tempo real de áudios curtos.

ferramentas de voz para texto A lógica principal consiste em transferir a etapa de "pré-processamento" para o navegador: primeiro, ele segmenta automaticamente arquivos de áudio longos em vários segmentos curtos localmente; em seguida, envia cada segmento para reconhecimento de acordo com as regras da API; e, por fim, mescla os resultados. Isso significa que os usuários não precisam editar o áudio manualmente nem configurar um ambiente de backend complexo.

Resumo principal:Esta ferramenta utiliza poder computacional de front-end para realizar "segmentação e reconhecimento automático de navegadores" e se conecta à API da iFlytek. É adequada para usuários com conhecimento técnico que precisam processar gravações longas, desejam controlar os custos de forma independente e possuem habilidades básicas de configuração de API.

As ferramentas comuns de conversão de texto em página web geralmente oferecem apenas uma interface de usuário simples, o que as torna propensas a erros ao enviar arquivos grandes devido ao acionamento dos limites de tempo da API. Esta ferramenta, no entanto, introduz... FFmpeg WebAssembly (WASM)，相当于在浏览器中运行了一个轻量级的音视频处理软件。

O processo de execução específico é o seguinte:

Fatias locais:当你上传 1 小时的录音，工具会利用你电脑的本地算力，在浏览器内将其自动切分为几十秒的小段。
分批请求：Devido às limitações da interface iFlytek, os segmentos são enviados para a nuvem para identificação, um a um.
Reorganização de resultados:A interface recebe e reconhece o texto, depois o junta perfeitamente e permite exportá-lo para o formato TXT ou Word.

通俗理解：A API de uma grande empresa funciona como um tradutor que só consegue ouvir frases curtas. Essa ferramenta atua como um "assistente de edição", cortando gravações de áudio longas em partes no seu navegador, enviando-as em lotes para o tradutor e, finalmente, fornecendo o texto traduzido.

由于没有后端，你需要自备 API 密钥（钥匙）才能驱动工具。具体步骤如下：

账号准备：在讯飞开放平台（xfyun.cn）注册并完成实名认证。
Obtenha as credenciais:在控制台的“语音听写服务”中创建应用，记录 ID do aplicativo、API Key 和 API Secret。
激活工具：在工具的设置界面填入上述三项数据，即可开始上传文件转录。

需要明确的是，“纯前端”并不等于“完全离线”。

数据的流动路径：API 凭证仅保存在浏览器的 localStorage 中，不会上传至作者的服务器，有效防止了秘钥泄露。但 识别过程必须联网，音频切片会被发送至科大讯飞的云端服务器进行解析。

注意事项：
1. 敏感数据：涉及商业机密或极高隐私的资料，不建议使用任何云端 API 处理。
2. 识别质量：工具仅为前端封装，最终的识别准确率和方言支持完全取决于讯飞后端的算法能力。

推荐使用：

个人用户偶尔需要转录长会议、网课或采访素材。
希望通过配置 API 降低成本，而非支付昂贵 SaaS 订阅费的开发者。
需要快速部署一个自用转写页面的极客。

不建议使用：

对数据合规有极严要求，禁止数据出域的企业用户。
需要多端同步、账户管理或历史记录存储的团队协作场景。
完全不愿接触配置，追求“开箱即用”的普通用户（建议直接使用飞书或剪映）。

Q：讯飞 API 的免费额度如何？
A：通常新应用会有每日 500 次左右的免费调用量，但具体额度请以讯飞控制台的最新实时政策为准。

Q：音频文件会被第三方网站截获吗？
A：不会。文件切片在本地浏览器完成，音频流直接发往讯飞 API，不经过任何中间服务器中转。

🌐 官网在线演示需自备讯飞凭证方可使用

🐙 GitHub 项目主页查看源码与自部署指南

免责声明：本文基于公开源码与接口文档整理。该工具仅提供前端框架，实际识别质量、隐私策略及配额均受第三方服务商（科大讯飞）限制，本站不对 API 的稳定性及计费负责。

正文完

AI办公 AI工具开源项目

发表至： Tutorial de Ferramentas de IA GitHub项目创意工具

2026年5月6日

0

转载说明：除特别说明外，本站原创内容采用 Creative Commons Attribution 4.0 (CC BY 4.0) 许可协议发布，转载请注明来源并保留原文链接。本站部分内容基于公开资料整理，并可能经 AI 技术辅助生成或优化，仅供参考，不构成任何专业建议，请读者自行判断与核实。本站不对第三方资源的可用性、安全性或合法性承担任何责任。

购物党：电商历史价格走势查询工具，识别虚假降价避坑指南

想在 Telegram 上快速查询特定信息？试试这个名为“花机器人”的查询工具

如何利用 redditlist 实时追踪 Reddit 前 5000 个热门板块及福利标签

高效图片水印在线添加方案：一键批量标记，支持自定义样式与快速导出

Twitter Vid：高效提取推特高清视频的在线工具，支持多种分辨率选择与快速无损保存

Fotoramio 在线照片编辑与拼图工具：功能特性及快速使用指南

知乎截图里隐藏的盲水印怎么检测？分享一套检测工具与去除脚本

Screenshot to Code 实现设计稿快速代码化：通过视觉识别将截图直接转换为可运行的干净代码

Mac 刷机时该选 Revive 还是 Restore？详解 DFU 恢复模式与 DFU-Tools 开源工具用法