UTAU 合成接口机制编辑器

utau新手入门教程 utau的优点和缺点？

[更新]

日期：2023-04-15 19:41:59

分类：互联网

2174 阅读

utau新手入门教程

utau的优点和缺点？

utau的优点和缺点？

UTAU的优点
1.前后端分离
在UTAU中，后端引擎与前端编辑器是分离的。开发者不需要会写界面，只需要会写算法，就可以在UTAU上把自己的想法变成现实。这促成了UTAU生态的繁荣。
2.拥有包管理机制
UTAU支持uar格式的音源与插件包，拖入UTAU窗口自动安装。
3.简单的文本插件接口
UTAU的插件机制是写入一个临时ust文件，用插件打开该ust文件并修改，最后UTAU读入修改后的文件。所以，可以用任何编程语言开发插件，甚至网页都可以，例如“朗读君”。插件开发者无需深入理解UTAU的工作原理即可编写插件。
UTAU的缺点
1.开发框架老旧
UTAU使用的开发框架是已经停止支持的visual basic 6（vb6），将不会得到功能更新与安全更新。这也导致UTAU的乱码问题难以解决。
2.依赖平台特性
UTAU依赖windows的bat来合成，使UTAU难以迁移到mac和linux等其他平台。（UTAU有Mac版，但是不支持插件和第三方引擎）
3.引擎接口的可扩展性差
UTAU的引擎接口要求各音符的合成相互独立，合成器在合成当前音符时不知道前后其他音符的信息。在那个以变调拼接合成为主的时代，这种设计简化了引擎的开发。但是，AI合成一般是整句训练合成，至少要将以休止符分割的完整的乐句作为合成单位。
我们来看看moresampler的工作原理。与其他UTAU引擎不同，moresampler将原始音频编译为llsm中间文件（存储了谐波和噪波的频谱）。合成时，对频谱进行变调。在合成结束时拼接频谱，最后转换为音频。这套机制要求moresampler在音轨末尾进行后处理。这是UTAU接口原生不支持的。
那么moresampler是怎么实现的呢？moresampler会读入bat脚本，以判断当前是不是最后一个音符。这种解决方案依赖于bat脚本，可能UTAU更新一个版本（改变bat的格式，或者改用system函数直接调用引擎），或者采用第三方前端编辑器，或者移植到其他操作系统，就不能用了。
此外，UTAU在开发时只考虑了日文合成，所以只有前固定段而没有后固定段。在合成中文时会遇到短音切除尾音，长音拉长尾音的问题，必须进行拆音等workaround才能正常合成。
4.接口没有一套标准
UTAU虽然实现了前后端分离，但是没有一套明确的标准。
还是以moresampler为例。UTAU并没有明确定义“只要调用了引擎，传入参数就符合标准”，还是“必须生成一定格式的bat脚本来调用引擎才符合标准”。moresampler依赖了这一套机制，第三方前端编辑器的作者就必须使用同样的bat脚本才能兼容moresampler，这就为开放的UTAU生态带来了限制。
C# .net framework也不开源，但是提供了C#语言规范，就有了mono等第三方实现，将C#带到Mac和Linux等平台。
5.有很多奇怪的机制
例如，UTAU编辑器和引擎支持辅音速度取任意数值，但超过[0,200]区间的辅音速度不会保存，插件生成的超过该范围的辅音速度不会生效。
类似的机制还有很多，而且部分引擎和插件依赖这些机制。
这也就是目前的UTAU第三方编辑器（openutau、utsu）不为人所知的原因。第三方编辑器需要兼容各种奇怪机制，同时支持引擎和插件接口，工程量很大。如果无法完全实现这些功能，又没有显著的创新，还不如用原版UTAU编辑器。
而deepvocal则不基于UTAU机制，而是另起炉灶，自己重新实现了一套音素机制和后端引擎来兼容现有的UTAU CVVC音源。这套机制简化了CVVC音源的开发与使用，所以比UTAU第三方编辑器获得了更多的用户。（但是deepvocal没有开放接口，也就没有成为“歌声合成实验室”）
当然，以上缺点大多是时代局限性造成的，不要苛责UTAU。UTAU从2008年就开始开发，当时vb6还是主流的开发框架之一。放在那个时候，UTAU开发者的选择是合理的，只是现在vb6已经过时。另外，当时的计算机性能只允许拼接合成，接口也就是按照拼接合成来设计的。

u家虚拟歌姬全称？

虚拟歌手，是指在电脑上用歌声合成软件制作，并赋予虚拟二次元形象的歌手，属于虚拟偶像中的一大类。通常歌声合成软件包括编辑器和音源库两部分。其中，根据使用的歌声合成软件（又称“引擎”）不同，中文虚拟歌手圈主要分为VOCALOID（V家）、UTAU（U家）、袅袅（袅家）、MUTA和Sharpkey五个家族。