香港科技大学谭平教授团队在CVPR 2025发表两项三维生成技术框架✿★★✿,Craftsman3D和Dora✿★★✿,核心代码全部开源✿★★✿。
2.Craftman3D获得三个评委一致满分✿★★✿,被多家知名企业引用与认可✿★★✿,已融入光影焕像的三维生成平台及产品✿★★✿。
3.Dora模型创新性地将显著边缘采样算法与双交叉注意力机制相结合✿★★✿,提升三维变分自编码器的重建质量与压缩性能✿★★✿。
4.Craftsman3D通过汲取传统建模流程的经验✿★★✿,设计了两阶段技术方案✿★★✿,快速生成高质量的3D模型国内看NETFLIX的VPS孩✿★★✿。
5.无论是游戏开发✿★★✿、影视制作还是建筑室内设计✿★★✿、具身感知虚拟场景✿★★✿,Craftsman3D技术方案都能轻松实现✿★★✿。
香港科技大学谭平教授团队在 CVPR 2025 发表两项三维生成技术框架凯发k8国际APP✿★★✿,核心代码全部开源✿★★✿,助力三维生成技术的开放与进步✿★★✿。其中Craftman3D 获得三个评委一致满分✿★★✿,并被全球多家知名企业如全球最大的多人在线游戏创作平台 Roblox, 腾讯混元 Hunyuan3D-2✿★★✿,XR 实验室的 XR-3DGen 和海外初创公司 CSM 的 3D 创作平台等重量级项目的引用与认可✿★★✿。
相关技术已融入光影焕像的三维生成平台及产品✿★★✿,用户只需简单操作✿★★✿,就能开启专属三维创作之旅✿★★✿。
本文中 Craftman3D 的共同一作李威宇✿★★✿、刘嘉瑞和阎鸿禹均为香港科技大学博士研究生✿★★✿。Dora 的第一作者为香港科技大学博士陈锐✿★★✿。均为香港科技大学谭平教授组的在读博士生✿★★✿。
三维内容的创建对于游戏凯发k8国际APP✿★★✿、影视✿★★✿、AR/VR 乃至具身智能的环境仿真中具备关键作用✿★★✿。不过✿★★✿,传统三维建模方式要求建模者掌握大量专业知识✿★★✿,且需投入大量人工操作✿★★✿,这使得建模过程极为耗时✿★★✿,极具挑战性✿★★✿,对于非专业用户而言更是如此✿★★✿。过高的时间与人力成本✿★★✿,已然成为限制这些领域发展的主要瓶颈✿★★✿。近年来✿★★✿,基于 AI 的三维内容生成技术逐步改变了这一局面✿★★✿。借助自动化生成技术✿★★✿,三维内容创建的门槛大幅降低✿★★✿,让更广泛的用户群体能够高效地构建三维数字内容✿★★✿。
当前原生三维生成模型主要由两部分构成✿★★✿:一是 3D-VAE(3D Variational Auto Encoder)变分自编码器✿★★✿,它通过 Encoder 网络将三维模型压缩编码至潜在空间(latent space)✿★★✿,并通过 Decoder 网络解码重构出三维模型✿★★✿;二是基于 3D-VAE 构建的潜在扩散模型(latent diffusion model)用于处理文本或图像输入的三维模型生成✿★★✿。三维生成大模型所呈现的细节上限✿★★✿,在很大程度上取决于 3D-VAE 对三维几何的编码与重建能力✿★★✿。为提升三维模型编解码过程中的几何细节丰富度✿★★✿,香港科技大学谭平团队联合字节跳动豆包大模型团队与光影焕像团队✿★★✿,共同提出了 Dora 模型来改进三维原生 VAE✿★★✿。
在 3D-VAE 模型的基础上✿★★✿,香港科技大学与光影焕像团队进一步提出了 Craftsman3D 算法方案✿★★✿,该方案借鉴了传统建模流程✿★★✿,能够快速生成高质量的 3D 模型凯发k8国际APP✿★★✿,以进一步生成满足设计师对高质量三维模型的生成要求✿★★✿。此方法在 CVPR 中获得审稿人一致满分评价✿★★✿,它融合了原生 3D 大模型以及实时几何细节优化两大部分✿★★✿:首先由原生三维大模型生成初始模型✿★★✿,随后通过实时可交互几何细化操作✿★★✿,短短几十秒内即可生成具备高质量几何细节的三维模型✿★★✿。
本文提出的 Dora-VAE✿★★✿,创新性地将显著边缘采样算法与双交叉注意力机制相结合✿★★✿,极大地提升了三维变分自编码器(3D-VAE)的重建质量与压缩性能✿★★✿。在训练阶段✿★★✿,该方法能够精准识别出具有较高几何复杂性的区域✿★★✿,并对其优先处理✿★★✿,从而有效改善了对精细几何特征的保留情况✿★★✿,让变分自编码器能够着重关注那些传统均匀采样方式容易忽视的关键几何细节✿★★✿。在实现高质量重建的同时国内看NETFLIX的VPS孩✿★★✿,相较于当前 SOTA 方法(Xcube)✿★★✿,Dora-VAE 在 3D 形状压缩率方面实现了超过 8 倍的提升 凯发k8国际APP✿★★✿。
当前✿★★✿,三维变分自编码器的运行机制是✿★★✿:通过在三维网格表面进行点采样来完成形状编码✿★★✿,而后利用解码器对原始三维网格进行重建✿★★✿。经过深入且细致的研究✿★★✿,研究人员察觉现有方法普遍采用均匀采样(uniform sampling)策略✿★★✿,从而导致重建性能受限✿★★✿。为了验证这一发现✿★★✿,研究人员选取了具有复杂几何细节的键盘(如下图 (a) 所示)作为实验对象✿★★✿,对其进行点云采样✿★★✿,并将不同采样策略在多种采样密度下的点云分布情况进行了可视化呈现(如下图 (b)(c) 所示)✿★★✿。实验结果清晰地显示✿★★✿:即便提升了采样率✿★★✿,采用均匀采样方式(如下图 (b) 所示)依旧无法有效地保留键盘按键等锐利特征(sharp feature)✿★★✿。这一简洁直观的实验有力地证实了✿★★✿,均匀采样在本质上对几何细节的捕捉能力形成了制约✿★★✿,而这种制约进一步对变分自编码器的重建精度以及所训练扩散模型的生成质量产生了不良影响✿★★✿。
研究人员通过三个指标评估重建质量✿★★✿:使用 1M 采样点对比输入网格与不同 3D VAEs 解码结果的差异国内看NETFLIX的VPS孩✿★★✿,包括✿★★✿:1) F-score✿★★✿;2) 倒角距离 (CD)✿★★✿;3) 尖锐法线误差 (SNE)✿★★✿。为公平比较✿★★✿,研究人员同时给出潜在编码长度 (LCL)✿★★✿。结果表明国内看NETFLIX的VPS孩✿★★✿,Dora-VAE 在 Dora-bench 中所有的指标都达到了最佳✿★★✿。
在训练 3D-VAE 的基础上✿★★✿,CraftsMan3D 通过汲取传统建模流程的经验✿★★✿,精心设计了两阶段的技术方案✿★★✿:第一阶段使用原生三维大模型进行初始模型生成✿★★✿。算法先使用 multi-view image diffusion 进行多视图生成✿★★✿,然后将多视图输入到 3D-DiT 扩散模型中来生成拓扑规则的几何和纹理✿★★✿。第二阶段为几何细化阶段✿★★✿,团队使用法向图超分的方案实现高质量法向估计✿★★✿,然后通过可微渲染实现法线图引导的几何细节优化凯发k8国际APP✿★★✿。
团队提出了将三维扩散模型与多视图扩散模型相结合的原生三维生成方案✿★★✿。具体来说凯发k8国际APP✿★★✿,算法使用 3D-VAE 将几何压缩到潜在空间✿★★✿,然后使用 3D-DiT 扩散模型在潜在空间进行生成✿★★✿。对于单个参考图像或文本提示输入✿★★✿,首先将其输入到多视图扩散模型中以获得多视图图像作为三维扩散模型的输入✿★★✿,然后使用三维扩散模型从中学习生成三维几何图形✿★★✿。
团队设计了完善的数据筛选 - 几何水密化 - 渲染等数据处理流程✿★★✿,形成了强大的数据处理平台以支撑原生三维大模型的训练数据✿★★✿。
受限于 3D 大模型常用的隐式表达方案和 VAE 的压缩特性✿★★✿,原生三维生成的物体往往难以具备很高频的几何细节✿★★✿。因此✿★★✿,论文提出了第二阶段交互式几何细节优化✿★★✿,通过法相贴图生成和反向 “烘焙” 优化的方式捕捉高频的几何细节✿★★✿,从而产生高质量的三维资产✿★★✿。
具体来说✿★★✿,该部分通过基于表面法线贴图的扩散模型来实现法线图细节增强✿★★✿,并通过显式三角网格优化增加三维几何细节✿★★✿。团队在原版 stable diffusion 的基础上使用法线数据集微调✿★★✿,并借助 tile 插件实现法相贴图的超分辨率生成凯发k8国际APP✿★★✿。通过这种方式模型既拥有几何细节生成能力✿★★✿,还保留了原有的泛化能力✿★★✿。进一步基于法线贴图优化直接优化三维网格顶点✿★★✿,只需 10 秒✿★★✿,即可在用户绘制的区域添加几何细节✿★★✿,并完全保持其他区域的几何形状✿★★✿。
该技术还支持趣味扩展功能✿★★✿:以人物照片为输入✿★★✿,可生成与输入图像面部特征匹配的 3D 模型✿★★✿,实现 3D 资产快速换脸✿★★✿。
使用Craftman3D三维生成技术方案✿★★✿,普通用户无需复杂操作即可快速搭建出精美的三维模型和场景✿★★✿。无论是游戏开发✿★★✿、影视制作还是建筑室内设计✿★★✿、具身感知虚拟场景✿★★✿,各类创意都能轻松实现✿★★✿。如下图所示✿★★✿,场景中的所有物体均由 Craftman3D 自动生成✿★★✿。凯发K8旗舰厅✿★★✿,凯发K8娱乐官网✿★★✿,