未来要啥有啥的虚拟假世界，可能都是现在这些AI生成的

现在人工智能深度学习领域，图形图像、机器视觉相关的子领域火得一塌糊涂。也难怪，类似卷积神经网络、生成式对抗网络这种天生适合于图像处理的AI技术，现在被技术人程序员玩出花来了。相关的研究突破也时有报道。

有一个新的论文发表了。想必关注人工智能技术圈的朋友都了解一些。这项研究是一个新的视觉合成模型：Nüwa（女娲）。和之前很火的GauGAN比，女娲模型生成方式更加多样化。有文本涂鸦，有文本生成视频，有AI想象补全，视频预测多种功能。看资讯GitHub上还有已经开源的项目。于是机智客跑过去一看，原来就一个介绍和几个图片，并没有代码和演示类demo。论文里介绍得很详细，看下论文目录，从上往下拖走马观花眼花缭乱。

从技术上看，它提出了一个通用的3D transformer——编码器 - 解码器框架。涵盖了语言、图像和视频，可用于多种视觉合成任务。该框架由以文本或视觉草图作为输入的自适应编码器和由 8 个视觉合成任务共享的解码器组成。另外，它还包含一种3D Nearby Attention (3DNA)机制，以考虑空间和时间上的局部特征。

通过多项实验评估的合成结果，和其他模型相比，女娲有明显的优势。尽管有的模型性能上比女娲略好一点，不过女娲在生成逼真的图像上，还是有优势的。更多的内容可以参考论文原文，反正机智客造的纸（造诣）很薄，都没看完整个英文论文原文。

感觉，现在很多这方面的研究，都在为我们营造一个AI生成的逼真世界。也许吧，在未来，在那个愈发虚拟的时代，也许正如电影里拍摄的，要啥有啥。我们在虚拟世界体验到的，和现实中物理感官感觉的不差什么。而彼时，则AI会主导大多的渲染和生成任务。如果元宇宙是未来必然的发展落地方向，机智客个人总觉得我们在虚拟的假世界里体验到的一切，或者我们自己想要的东西，都会是人工智能给我们生成和合成的。毕竟，当前这些不断发表的论文、技术实现，很多都是图像、视频方面的。以后辅以声音、语言乃至以后的触觉等其他感官延伸，新时代虚拟世界就齐活了。

假的东西越来越真，缺漏或不存在的东西，AI越来越会弥补了，简直是得心应手。当然这些畅想，可能会成真，也可能会发展到另外的方向。拭目以待我们共同的未来吧。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

未来要啥有啥的虚拟假世界，可能都是现在这些AI生成的

未来要啥有啥的虚拟假世界，可能都是现在这些AI生成的

相关阅读更多精彩内容

友情链接更多精彩内容