AI开源的风,又刮到了数字人领域。

3月9日,硅基智能旗下数字人模型HeyGem.ai宣布开源,截至目前,该模型在GitHub上已获得超过1.3k Stars。

作为当下AI行业为数不多能够找到PMF(产品市场匹配)的领域,数字人已经让很多企业赚到大钱。例如专注海外市场的中国数字人企业HeyGen,在去年年中就宣布实现ARR(年度经常性收入)3500万美元。

因此,市面上好用的数字人产品基本都是付费,开源产品效果相对不佳。

但是HeyGem作为一个非常轻量化的开源免费产品,从演示视频来看效果非常不错,其官方简介也将自己称为HeyGen平替。

此次开源的HeyGem.ai模型,通过"1秒视频或1张照片"的输入,可以实现30秒克隆形象与声音、60秒生成4K超清视频,并在复杂场景下仍能保持100%口型匹配及多表情动作输出,性能达全球TOP级水平。

技术层面,该模型的推理速度达1:0.5,32帧/秒超高清4K输出,超越电影级标准。

同时,模型支持Docker一键部署,最低NVIDIA 1080Ti显卡即可运行。可一键安装于Windows和Linux系统,在本地实现完整的数字人克隆和视频合成,无需额外的算力投入。

值得注意的是,此次硅基智能在GitHub开源硅基数字人克隆模型的同时,特别提供了硅基数字人克隆同名软件安装包,使得即便是缺乏编程经验的用户,也能在本地环境中一键安装并直接使用,实现了零代码门槛。

正是由于这种高质量、低门槛的表现,HeyGem.ai被视为首个开源免费的商用级别克隆数字人模型。对于规模巨大的电商行业来说,这无疑是一个新的营销利器。

那么HeyGem.ai开源且好用的原因何在?

值得注意的是,硅基智能在底层技术路线上与其它产品有所区别。

硅基智能成立于2017年8月,总部位于中国南京,早在生成式AI技术火爆之前就已经布局数字人技术,其底层模型专为数字人打造,并非Sora这类通用视频生成模型,在成本端拥有天然优势。

而硅基智能方面也向观察者网透露,既然选择开源,就代表了技术上的自信,意味着公司将来还能够不断拿出更好的产品。

硅基智能创始人司马华鹏表示,硅基智能成立之初就确立了为世界造出1亿硅基生命的使命,这次开源就是为了加速这个使命的达成。

事实上,HeyGem.ai并非凭空出现,早在2024年5月硅基智能就已率先开源了全球首个2D真人级别、支持AIGC实时渲染的数字人模型代码--duix.ai。在GitHub上线以来,已获得超过4.5k Stars。同年8月,硅基智能推出高保真、实时Face swap算法ReHiFace-S,只需一张照片,无需任何数据训练,一键即可将视频中的脸部替换为你选择的人物形象。

在实际应用中,硅基数字人克隆能够通过语音或文字输入驱动,克隆后的数字人音色支持英、日、韩、中、法、德、阿拉伯和西班牙语这8种语言输出,为跨国企业、在线教育、影视制作、直播营销等多场景提供了高效、低成本的解决方案。

但在技术之外,面对由字节跳动等大公司推出的即梦、剪映等产品的竞争,对于硅基智能这类垂直企业,以开源方式尽快抢占市场并搭建开发者生态,或许也是商业层面必须要做出的选择。