常见工作流程¶

最常见任务的分步操作指南。

快速转录（最简单）¶

从视频到字幕的最快路径。

耗时： 使用现代 GPU 处理 2 小时视频约需 2-5 分钟。

使用两个不同的语音识别引擎并合并输出，以获得最佳精度。

两个通道运行后，结果被智能合并。耗时大约是单通道的 2 倍。

专用处理管线，使用在动漫和 JAV 对白上训练的模型。

进入 Ensemble 标签页
第一通道处理管线： 选择 ChronosJAV
模型： 可选：
- anime-whisper（约 4GB） — 动漫/JAV 最佳质量
- Kotoba v2.1（约 2GB） — 更轻量，带标点
- Kotoba v2.0（约 2GB） — 更轻量，无标点
点击 Start

提示

要获得最高质量，可以在第一通道使用 anime-whisper，第二通道使用 Qwen3-ASR，配合 Smart Merge。

无需额外步骤即可获得翻译好的字幕。

先运行转录，然后自动对结果进行翻译。

使用标签页 4 翻译已有的字幕。

说明

Adult-Explicit 风格使用针对 JAV 对白的专门指令和相应词汇。

一次处理整个文件夹的视频。

文件按顺序处理。每个输出 SRT 保存在源视频旁边（或你选择的输出目录中）。

串行集成模式

在集成模式中，启用 Serial 模式可以先完整处理每个文件（第一通道 → 第二通道 → 合并），再处理下一个。这样可以在结果出来时立即查看，而不必等待整个批次完成。

WhisperJAV 没有 GPU 也能工作，只是速度较慢。

警告

CPU 模式比 GPU 模式慢 5-10 倍。2 小时的视频可能需要 30-60 分钟。

生成用于 HTML5 视频播放器的 VTT 字幕。

.vtt 文件保存在 .srt 文件旁边。