录音/制作/创作 吉他 扩声技术 视频技术 作品展示 生活 信息 更多... | 音频应用专卖店
AI 制作

[新闻] 【新地表最强】本地视频转字幕识别生成-比之前的快6倍-distil-whisper

( 32 )
 
[收藏]
-  第 1 页  -
#1 24-8-23 17:44

【新地表最强】本地视频转字幕识别生成-比之前的快6倍-distil-whisper


5598
地表最强【离线】AI字幕提取+机器翻译软件,目前最好的机翻解决方案~
Whisper本地字幕识别提取带机翻-低显存提速版【已经更新批量任务功能,AMD支持】!

这是以前的帖子,可是过去了一段时间,技术在进步。
还是whisper,只不过有人给它改造了技术,所以它的速度翻了6倍!
亲测识别一个小时的视频,从原来的whisper.cpp的12分钟变成了2分钟。

需要的显存也降低了很多,大概只占用了3G多点显存显存显存,
独立显卡就算不够好的也可以很快生成吧,理论上是这样。

这个模型有什么缺点呢?只支持英文?这是国外的网友说的。

the behavior for non-English language is comfusing,  if i use the model to transcribe a japanese audio without setting language paramenter, it can do it but always translate result to english
非英语语言的行为是令人困惑的,如果我使用该模型转录日语音频而不设置语言参数,它可以做到这一点,但总是翻译结果为英语

就是说也许它也能识别其他语言,但是最终都会输出翻译为英文。

软件和模型下载:

https://www.123pan.com/s/ffA9-4frn3.html提取码:5555

百度盘只有模型:
https://pan.baidu.com/s/1bEeZg584tOvEXlIOx5QQGg?pwd=958n

使用方法:

新建一个model文件夹,把distil-whisper-large-v3.7z解压到这个文件夹里,然后安装FasterWhisperGUI-0.8.0_installer.exe

先在使用本地模型选择刚才建的model文件夹,然后再点亮下面的在线下载模型选择distil-large-v3使用V3模型点亮,最下面是否使用缓存点亮。点右边加载模型按钮。
软件左下角设置,可以选自动加载模型。

保持选择的模型目录结构 \model\models--Systran--faster-distil-whisper-large-v3

如果你是RTX独立显卡按照设置还是用不了,就先升级你的显卡驱动。



之后就算设置完成可以开始识别字幕了,拖入视频音频文件,然后点开始。识别完成后会跳转到另一个页面点保存字幕文件就行了。



软件官网:https://github.com/CheshireCC/faster-whisper-GUI
本帖最后由 martjay 于 24-8-29 20:54 编辑

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

8855
#2 24-8-23 19:45

47
#3 24-8-23 20:50
感谢分享,使用了之后发现这个模型的速度确实快了,但是准确率好像比旧模型要差一点

5598
#4 24-8-23 21:12
二力力 发表于 24-8-23 04:50
感谢分享,使用了之后发现这个模型的速度确实快了,但是准确率好像比旧模型要差一点

感觉差不多啊 没有那么离谱 就算是英式口音很快的 感觉也很准确。

我今天对两个模型的准确性进行了测试对比,实验结果就是几乎没有区别。


本帖最后由 martjay 于 24-8-23 21:54 编辑

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

232
#5 24-8-24 09:57
如果只能转换成英文字幕  是不是对于英文不好的人就没有太大用处了呀
感觉很多地方都可以将视频直接翻译成中文 使用这个还有其他用处吗?

谢谢老师分享!!

5598
#6 24-8-24 10:33
大侠 发表于 24-8-23 17:57
如果只能转换成英文字幕  是不是对于英文不好的人就没有太大用处了呀
感觉很多地方都可以将视频直接翻译成 ...

搜字幕翻译啊,多的是办法,不可能看不懂,永远都待在原地不动吧

8855
#7 24-8-24 18:18
不错

463
#8 24-8-25 02:52
模型解压到model文件后软件打开加载一直显示加载失败....

5598
#9 24-8-25 10:27
按照图片设置一模一样是没有问题的,不要改变解压文件夹的名称和结构

5598
#10 24-8-25 10:28
tyy437813612 发表于 24-8-24 10:52
模型解压到model文件后软件打开加载一直显示加载失败....

按照图片设置一模一样是没有问题的,不要改变解压文件夹的名称和结构

1653
#11 24-8-27 16:33
楼主用没用过 网易见外 在线工作台?
那是我之前使用过一段时间的,就是感觉翻译准确性差,不过修改编辑功能设计的挺好用的

1653
#12 24-8-27 16:35
模型和软件……看来我在AI时代,落后了,
听不明白啊……

5598
#13 24-8-27 17:43
Davide 发表于 24-8-27 00:33
楼主用没用过 网易见外 在线工作台?
那是我之前使用过一段时间的,就是感觉翻译准确性差,不过修改编辑功 ...

基本上提取字幕的软件网站我都摸过一点,但是我还是喜欢自己来,在线的差不多都收费而且还没本地提取的好

1653
#14 24-8-28 12:52
真的是感到很奇怪,在线的是利用大型的服务器优化算法,运算能力等技术,

本地的是利用本地的 CPU GPU 硬件资源,本地下载的软件运行资源,

难道 AI 现在可以在本地运行了? 就像汽车自动驾驶的技术那样么?

我也是听说 特斯拉 的自动驾驶技术就是运算本地化,这样才能在安全上不依赖网络信号,

看来得找时间试试楼主介绍的这个本地 AI 字幕软件,谢谢!

5598
#15 24-8-28 13:18
Davide 发表于 24-8-27 20:52
真的是感到很奇怪,在线的是利用大型的服务器优化算法,运算能力等技术,

本地的是利用本地的 CPU GPU  ...

每家使用的语音识别模型不一样,准确率肯定不一样啊,whisper模型是全球语音识别最好的,而且这个识别已经很快了,就没有必要用那些国内在线的了,我用这个跟安不安全没有关系,所有AI模型肯定都是能本地运行的,不过是对硬件要求高低,你用人家在线的模型就等于是用别人的CPU GPU运算而已。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

搜索