【新地表最强】本地视频转字幕识别生成-比之前的快6倍-distil-whisper

[新闻] 【新地表最强】本地视频转字幕识别生成-比之前的快6倍-distil-whisper

( 32 )

12 3

[收藏]

- 第 1 页 -

#1 24-8-23 17:44 …

【新地表最强】本地视频转字幕识别生成-比之前的快6倍-distil-whisper

martjay

5602

地表最强【离线】AI字幕提取+机器翻译软件，目前最好的机翻解决方案~
Whisper本地字幕识别提取带机翻-低显存提速版【已经更新批量任务功能，AMD支持】！

这是以前的帖子，可是过去了一段时间，技术在进步。
还是whisper，只不过有人给它改造了技术，所以它的速度翻了6倍！
亲测识别一个小时的视频，从原来的whisper.cpp的12分钟变成了2分钟。

需要的显存也降低了很多，大概只占用了3G多点显存显存显存，
独立显卡就算不够好的也可以很快生成吧，理论上是这样。

这个模型有什么缺点呢？只支持英文？这是国外的网友说的。

the behavior for non-English language is comfusing, if i use the model to transcribe a japanese audio without setting language paramenter, it can do it but always translate result to english
非英语语言的行为是令人困惑的，如果我使用该模型转录日语音频而不设置语言参数，它可以做到这一点，但总是翻译结果为英语

就是说也许它也能识别其他语言，但是最终都会输出翻译为英文。

软件和模型下载：

https://www.123pan.com/s/ffA9-4frn3.html提取码:5555

百度盘只有模型：
https://pan.baidu.com/s/1bEeZg584tOvEXlIOx5QQGg?pwd=958n

使用方法：

新建一个model文件夹，把distil-whisper-large-v3.7z解压到这个文件夹里，然后安装FasterWhisperGUI-0.8.0_installer.exe

先在使用本地模型选择刚才建的model文件夹，然后再点亮下面的在线下载模型选择distil-large-v3，使用V3模型点亮，最下面是否使用缓存点亮。点右边加载模型按钮。
软件左下角设置，可以选自动加载模型。

保持选择的模型目录结构 \model\models--Systran--faster-distil-whisper-large-v3

如果你是RTX独立显卡按照设置还是用不了，就先升级你的显卡驱动。

之后就算设置完成可以开始识别字幕了，拖入视频音频文件，然后点开始。识别完成后会跳转到另一个页面点保存字幕文件就行了。

软件官网：https://github.com/CheshireCC/faster-whisper-GUI
本帖最后由 martjay 于 24-8-29 20:54 编辑

本帖子中包含更多资源

您需要登录才可以下载或查看，没有帐号？注册

观众反应

每一次

dukkey

心之帆

帕尔哈提

回复此帖报告

初见即别离

8857

#2 24-8-23 19:45 …

回复此帖报告

二力力

#3 24-8-23 20:50 …

感谢分享，使用了之后发现这个模型的速度确实快了，但是准确率好像比旧模型要差一点

回复此帖报告

martjay

5602

#4 24-8-23 21:12 …

二力力发表于 24-8-23 04:50
感谢分享，使用了之后发现这个模型的速度确实快了，但是准确率好像比旧模型要差一点

感觉差不多啊没有那么离谱就算是英式口音很快的感觉也很准确。

我今天对两个模型的准确性进行了测试对比，实验结果就是几乎没有区别。

本帖最后由 martjay 于 24-8-23 21:54 编辑

本帖子中包含更多资源

您需要登录才可以下载或查看，没有帐号？注册

回复此帖报告

大侠

232

#5 24-8-24 09:57 …

如果只能转换成英文字幕是不是对于英文不好的人就没有太大用处了呀
感觉很多地方都可以将视频直接翻译成中文使用这个还有其他用处吗？

谢谢老师分享！！

回复此帖报告

martjay

5602

#6 24-8-24 10:33 …

大侠发表于 24-8-23 17:57
如果只能转换成英文字幕是不是对于英文不好的人就没有太大用处了呀
感觉很多地方都可以将视频直接翻译成 ...

搜字幕翻译啊，多的是办法，不可能看不懂，永远都待在原地不动吧

回复此帖报告

初见即别离

8857

#7 24-8-24 18:18 …

不错

回复此帖报告

tyy437813612

463

#8 24-8-25 02:52 …

模型解压到model文件后软件打开加载一直显示加载失败....

回复此帖报告

martjay

5602

#9 24-8-25 10:27 …

按照图片设置一模一样是没有问题的，不要改变解压文件夹的名称和结构

回复此帖报告

martjay

5602

#10 24-8-25 10:28 …

tyy437813612 发表于 24-8-24 10:52
模型解压到model文件后软件打开加载一直显示加载失败....

按照图片设置一模一样是没有问题的，不要改变解压文件夹的名称和结构

回复此帖报告

Davide

1653

#11 24-8-27 16:33 …

楼主用没用过网易见外在线工作台？
那是我之前使用过一段时间的，就是感觉翻译准确性差，不过修改编辑功能设计的挺好用的

回复此帖报告

Davide

1653

#12 24-8-27 16:35 …

模型和软件……看来我在AI时代，落后了，
听不明白啊……

回复此帖报告

martjay

5602

#13 24-8-27 17:43 …

Davide 发表于 24-8-27 00:33
楼主用没用过网易见外在线工作台？
那是我之前使用过一段时间的，就是感觉翻译准确性差，不过修改编辑功 ...

基本上提取字幕的软件网站我都摸过一点，但是我还是喜欢自己来，在线的差不多都收费而且还没本地提取的好

回复此帖报告

Davide

1653

#14 24-8-28 12:52 …

真的是感到很奇怪，在线的是利用大型的服务器优化算法，运算能力等技术，

本地的是利用本地的 CPU GPU 硬件资源，本地下载的软件运行资源，

难道 AI 现在可以在本地运行了？就像汽车自动驾驶的技术那样么？

我也是听说特斯拉的自动驾驶技术就是运算本地化，这样才能在安全上不依赖网络信号，

看来得找时间试试楼主介绍的这个本地 AI 字幕软件，谢谢！

回复此帖报告

martjay

5602

#15 24-8-28 13:18 …

Davide 发表于 24-8-27 20:52
真的是感到很奇怪，在线的是利用大型的服务器优化算法，运算能力等技术，

本地的是利用本地的 CPU GPU ...

每家使用的语音识别模型不一样，准确率肯定不一样啊，whisper模型是全球语音识别最好的，而且这个识别已经很快了，就没有必要用那些国内在线的了，我用这个跟安不安全没有关系，所有AI模型肯定都是能本地运行的，不过是对硬件要求高低，你用人家在线的模型就等于是用别人的CPU GPU运算而已。

回复此帖报告

12 3

返回列表

AI 制作

[新闻] 【新地表最强】本地视频转字幕识别生成-比之前的快6倍-distil-whisper

【新地表最强】本地视频转字幕识别生成-比之前的快6倍-distil-whisper

本帖子中包含更多资源

本帖子中包含更多资源