常见问题¶

通用问题¶

WhisperJAV 支持哪些视频格式？¶

支持 FFmpeg 可以读取的所有格式：MP4、MKV、AVI、MOV、WMV、FLV、WAV、MP3、FLAC、M4A、M4B 等等。只要 FFmpeg 能从中提取音频，WhisperJAV 就能处理。

转录需要多长时间？¶

取决于模式、GPU 等级以及音频的难度。下表给出的范围基于中端 GPU（RTX 3060 12 GB 或 Google Colab T4 免费额度）在典型日语对话内容上的实测数据。更高端的 GPU（RTX 3090/4080/4090）大约快 1.5-3 倍；仅 CPU 模式则明显更慢（通常是最慢 GPU 行的 5-10 倍）。

模式	30 分钟片段	2 小时影片	说明
Faster	2-4 分钟	6-10 分钟	单次 turbo-int8-batch8；最快模式
Fast	3-5 分钟	8-15 分钟	单次 turbo-int8
Balanced	4-7 分钟	15-25 分钟	单次 large-v2-int8（推荐默认）
Fidelity	10-15 分钟	40-50 分钟*	单次 large-v2-fp16；质量高，但运行时间方差大
集成模式	15-25 分钟	60-90 分钟	双次（Pass 1 + Pass 2 顺序执行后合并）

*Fidelity 在同一输入上的运行时间方差较大（约 4-5 倍），原因是 PyTorch cuDNN 自动调优——质量不受影响，仅墙钟时间会变化。

音频难度倍率：非常密集的低语内容（ASMR 风格、轻柔呻吟、气音等）会使处理时间增加到上表数值的 1.2-1.5 倍，尤其是在 Fidelity 和集成模式下——模型需要在边界帧上花费更多时间。一段 ASMR 较多的 2 小时影片用 Fidelity 处理可能超过 1 小时。

仅 CPU 模式：Faster 模式是没有 GPU 时唯一现实的选择。预计 30 分钟片段大约需要 30-60 分钟；对大多数用户而言，多小时内容在 CPU 上不实用。

没有 GPU 也能使用 WhisperJAV 吗？¶

可以。进入 Advanced（高级）→ 勾选 "Accept CPU-only mode"（接受仅 CPU 模式）。使用 Faster 模式可获得最佳 CPU 速度。功能正常，只是明显较慢。

质量相关¶

哪种处理管线能生成最好的字幕？¶

没有通用的"最佳"——这取决于内容风格以及您愿意花费的时间。来自实地反馈的常见建议：

动漫 / 戏剧化 JAV 对白：ChronosJAV 搭配 anime-whisper。
通用日语对白，单次处理：Balanced 是典型默认选择。
以墙钟时间换取最高准确度：集成模式（Pass 1 = Balanced + Pass 2 = Qwen3-ASR 配合 Smart Merge），将两个模型的输出合并。
低语 / ASMR 较多的内容：尝试 Fidelity 配合激进灵敏度；它能恢复其他模式可能漏掉的安静语音。

无论选哪种，建议先用 5-10 分钟具有代表性的片段进行对比——JAV 内容的质量因配音员音色差异较大，没有任何单一推荐能在所有内容库中都表现一致。

字幕中出现幻觉文本（随机英文短语、URL 等）¶

这是 Whisper 在静音或极安静片段上的已知行为。WhisperJAV 内置了幻觉过滤器，可移除大部分此类文本。你可以尝试：

尝试不同的灵敏度设置——某些内容下激进模式能捕获保守模式作为静音丢弃的真实语音（Whisper 随后会用幻觉填充这些"静音"）；其他内容则相反。请用代表性片段在每种设置下试运行，找到最适合您内容库的设置。
使用 集成模式——两个模型输出通常会对不同的幻觉产生分歧，因此合并步骤能去除比单次处理更多的幻觉。
启用 语音增强（ClearVoice 或 BS-RoFormer）预先清理音频

时间轴偏移 / 字幕出现过早或过晚¶

尝试更换 场景检测 方式：

Semantic（v1.8.13+ 默认）— 基于音频特征；对大多数内容是合理的起点。
Auditok — 基于能量；通常更适合对话间存在明显静音的内容。
Silero — 基于 VAD；切分更频繁，根据内容可能改善或损害时间轴。

或者尝试 ChronosJAV 处理管线，它使用 TEN VAD 实现更精确的时间轴。

翻译相关¶

哪个翻译提供商最好？¶

没有单一答案——每个都有取舍，且质量因内容而异。来自实地反馈的常见模式：

DeepSeek（v1.8.14 默认 deepseek-v4-flash）：每 token 成本低；用户经常报告它在日译英/中文方向是不错的平衡。思考变体 deepseek-v4-pro 可通过 --model deepseek-v4-pro 使用。
Claude（默认 claude-3-5-haiku-20241022）和 OpenAI GPT（默认 gpt-4o-mini）：每 token 成本较高；用户在涉及细微语义或上下文相关的段落时往往更偏爱它们。
Gemini（gemini-2.0-flash）：中等成本；质量因内容风格而差异较大。
Ollama / 本地大语言模型：完全在本机运行——数据不会离开您的电脑。质量取决于您运行的本地模型；推荐使用 qwen2.5:7b-instruct 或 gemma3:12b 以获得合理结果，避免使用思考型模型（其链式思维内容可能泄漏到 SRT 输出中）。
OpenRouter：多个上游模型的路由器。如果您希望对比多个提供商而又不想维护多份 API 密钥，可以使用它。

如果不确定从哪里开始，可以将 30 行示例 SRT 同时通过 DeepSeek 和 Ollama 翻译，挑读起来更顺的版本。

翻译失败并报 "API token limit" 错误¶

字幕批次对于模型的上下文窗口来说太大了。请尝试：

在高级设置中减小 最大批量大小（尝试 15 或 10）
使用上下文窗口更大的模型
WhisperJAV 会自动为本地大语言模型限制批量大小

Linux 上翻译显示 "Unknown provider: Gemini"¶

安装缺失的依赖：pip install google-api-core。此问题已在 v1.8.6 中修复。

安装相关¶

安装程序卡住 / 耗时很长¶

首次安装需要下载约 3-5 GB 的软件包。网络较慢时可能需要 30 分钟以上。请查看安装目录中的安装日志了解进度。

提示 "CUDA not available"，但我有 NVIDIA GPU¶

验证 NVIDIA 驱动版本：nvidia-smi
CUDA 11.8 需要驱动 450+，CUDA 12.8 需要驱动 570+
你不需要安装 CUDA Toolkit —— PyTorch 自带 CUDA 运行时
尝试重新安装对应 CUDA 版本的 PyTorch

如何升级？¶

whisperjav-upgrade

或仅更新代码（更快）：whisperjav-upgrade --wheel-only

详情请参阅升级指南。

Cohere-Transcribe（预览 —— 推迟到 v1.9.0）¶

状态更新（v1.8.14）： Cohere-Transcribe 预览推迟到 v1.9.0，下拉菜单中的入口已置灰。该模型需要 transformers ≥ 5.4.0，但 WhisperJAV 附带的 Qwen3-ASR fork 在 transformers 5.x 下会失败（@check_model_inputs() 装饰器 API 变更）。v1.9.0 将协同执行 transformers 升级、Qwen3-ASR fork 补丁以及 Cohere 交付。

已升级 transformers 用户的迁移说明： 如果您最近运行过 pip install transformers --upgrade（或以其他方式将 transformers 5.x 安装到了 WhisperJAV 环境中），Qwen3-ASR 将无法加载。请使用 pip install "transformers>=4.40.0,<5.0" 恢复稳定，然后通过 python -c "from qwen_asr import Qwen3ASRModel; print('OK')" 验证 Qwen3-ASR 是否能正常加载。

下方的设置说明对 v1.9.0 恢复仍然有效 —— 保留作为前向参考。

使用 Cohere-Transcribe（预览，可选）—— v1.9.0¶

Cohere Transcribe-03-2026 在 v1.9.0 中将作为 ChronosJAV 下拉菜单的第三种生成器提供，与 Qwen3-ASR 和 Anime-Whisper 并列。该模型在 HuggingFace 上受门控，需要一次性设置。Anime-Whisper 仍是日语调优的默认生成器；Cohere 为可选项。

一次性设置

访问 https://huggingface.co/CohereLabs/cohere-transcribe-03-2026 并点击 Agree and access repository（同意并访问仓库）。
在 https://huggingface.co/settings/tokens 创建一个 token（Read 权限即可）。
在环境中设置 HF_TOKEN：
Windows（持久化）： setx HF_TOKEN hf_xxxxxxxxxxxx — 设置后需重启 GUI/终端才能生效。
Windows（仅当前 PowerShell 会话）： $env:HF_TOKEN = "hf_xxxxxxxxxxxx"
Linux/macOS： export HF_TOKEN=hf_xxxxxxxxxxxx
在 GUI Ensemble 下拉菜单中选择 ChronosJAV → Cohere-Transcribe (preview)，或通过 CLI 运行：
```
whisperjav --mode qwen --pass1-qwen-params '{"generator_backend":"cohere"}' video.mp4
```

首次运行下载

Cohere 权重总量约 3.85 GB（model.safetensors 原始 FP16 约 4.13 GB，外加分词器和自定义代码文件）。首次转录需先下载 10–30 分钟（每台机器仅一次；之后缓存在 HuggingFace 缓存目录中）。HuggingFace 使用 Xet（内容寻址）传输，会先把分块流到临时位置 — 缓存所在卷请预留至少 5 GB 空闲空间以保证下载稳定。

显存需求

FP16 约 4–8 GB。用于词级时间戳的 Qwen3-ForcedAligner 在 Cohere 卸载之后才依次加载，因此峰值显存仅由 Cohere 决定 — 在 8–10 GB 显卡上可舒适运行。

为什么 Cohere 不产生原生的词级时间戳？¶

Cohere Transcribe-03-2026 当前只输出文本；逐词时间戳在模型作者的路线图中但尚未实现。WhisperJAV 将 Cohere 与 Qwen3-ForcedAligner-0.6B（与 Qwen3-ASR 流水线使用的同一对齐器）配对，从 Cohere 的输出推导出词级时间戳。您可以通过自定义参数 → Aligner Backend → None 禁用对齐器，回退为仅基于 VAD 的段级时间 — 如果您只需要段级字幕并希望省去对齐器加载，可以这样做。

Cohere 返回了空转录 / "gated" 错误¶

最常见的原因是启动 WhisperJAV 的环境中没有设置 HF_TOKEN。重新检查上述设置步骤，并在设置 token 后重启 GUI（特别是在 Windows 上使用 setx 时，它仅对新 shell 生效）。如果错误仍存在，请在 https://huggingface.co/CohereLabs/cohere-transcribe-03-2026 确认您的状态为 Authorized — 模型作者会手动审核访问。

Cohere 首次运行时的常见错误¶

WhisperJAV 会沿异常链回溯并定制错误消息 — 请阅读控制台中的 [ERROR] 区块以获取可执行的诊断。最常见的原因：

磁盘空间不足（os error 112、no space left、CAS service error）

Cohere 下载在中途耗尽了缓存所在卷的空间。v1.8.14 在下载开始前会预检查空闲空间（至少约 5 GB），但如果您的缓存目录在接近写满的系统盘上，可以释放空间或将缓存重定向到其他盘：

Windows（持久化）：setx HUGGINGFACE_HUB_CACHE D:\hf_cache — 之后重启 GUI/终端
Windows（仅当前会话）：$env:HUGGINGFACE_HUB_CACHE = "D:\hf_cache"
macOS/Linux：export HUGGINGFACE_HUB_CACHE=/path/with/space

重定向后重试 — 下载会在新的缓存位置重新开始。

上次下载被中断（Can't load the model... pytorch_model.bin）

之前失败的下载在缓存中留下了不完整的目录。请定位 HF 缓存下的 models--CohereLabs--cohere-transcribe-03-2026/（Windows 默认 %USERPROFILE%\.cache\huggingface\hub\）并删除它，然后重试。

网络 / 代理问题

如果出现 connection / timeout / SSL / proxy 错误，请检查网络。企业网络可能需要 HTTPS_PROXY / HF_ENDPOINT。中国用户：HuggingFace 经常被限流 — 请参阅下方专门的说明。

身份验证失败 (401)

您的 HF_TOKEN 已过期、被吊销或格式错误。在 https://huggingface.co/settings/tokens 重新创建一个 Read token 并重新设置 HF_TOKEN。

老旧 transformers 版本上的加载器类问题

WhisperJAV 根据 Cohere 的 auto_map 元数据使用 AutoModelForSpeechSeq2Seq（带生成能力的封装）。如果您所用的 transformers 版本不存在该类，WhisperJAV 将回退到 AutoModel 并记录警告 — 这会导致 generate() 在推理时失败。请升级 transformers（WhisperJAV 环境固定的 4.57.6 版本已包含该类）。

许可证和 trust_remote_code¶

Cohere 模型代码采用 Apache-2.0 许可证。
模型权重受 Cohere 的门控访问条款约束，您需在 HuggingFace 上接受。WhisperJAV 不再分发 Cohere 权重；它们在首次使用时从 HuggingFace 下载。
加载使用 trust_remote_code=True，因为 WhisperJAV 固定的 transformers 4.57.6 版本尚未原生暴露 Cohere 模型类 — 该类随模型仓库一起发布。这与 WhisperJAV 中 ZipEnhancer/ModelScope 的处理方式相同。

故障排除¶

处理时出错¶

查看 GUI 底部的 控制台 获取错误信息
在高级选项卡中启用 调试日志 并重试 —— 查看 whisperjav.log
尝试更简单的处理管线（Faster 模式）以定位问题
将错误信息和系统详情提交到 GitHub Issues

GUI 无法启动¶

Windows： 确保已安装 WebView2（Windows 10 1803+ 和 Windows 11 已内置）
Linux： 在 Ubuntu 上安装 libwebkit2gtk-4.0-dev（Ubuntu 24.04+ 改用 libwebkit2gtk-4.1-dev），在 Fedora 上安装 webkit2gtk4.0-devel
macOS： WebKit 已内置，应可自动运行
尝试从命令行启动（whisperjav-gui）以查看错误输出