看了一下资料,感觉是传统CS结构,就是前后端模式,但用的是HTML5最新比较新的技术和后端AI技术的结合。
客户端利用WebAssembly SIMD,大幅提升浏览器多线程能力和本地化性能,可以理解为本地DLL性能级别,当然,有限制的。
浏览器就是点击录制之后,会录制客户所有动作,即时生成4声部组midi note和元音,时长,音量等等数据打包成json发送出去。这些都是异步处理的,云后台生成语音数据回来就直接播放。
至于后端是使用卷积神经网络,他们自己介绍的,但没说什么算法模型,一般都是goo自己的模型,我也不知道这个网络是怎么运行,感觉就是已经学习好了,然后在后台按你的note数据按照算法卷积返回信号。
不太懂,我就是根据他们的介绍和app.js内容进行大概的猜测。
希望专家科普一下。。。