现在人工智能深度学习领域,图形图像、机器视觉相关的子领域火得一塌糊涂。也难怪,类似卷积神经网络、生成式对抗网络这种天生适合于图像处理的AI技术,现在被技术人程序员玩出花来了。相关的研究突破也时有报道。
有一个新的论文发表了。想必关注人工智能技术圈的朋友都了解一些。这项研究是一个新的视觉合成模型:Nüwa(女娲)。和之前很火的GauGAN比,女娲模型生成方式更加多样化。有文本涂鸦,有文本生成视频,有AI想象补全,视频预测多种功能。看资讯GitHub上还有已经开源的项目。于是机智客跑过去一看,原来就一个介绍和几个图片,并没有代码和演示类demo。论文里介绍得很详细,看下论文目录,从上往下拖走马观花眼花缭乱。

从技术上看,它提出了一个通用的3D transformer——编码器 - 解码器框架。涵盖了语言、图像和视频,可用于多种视觉合成任务。该框架由以文本或视觉草图作为输入的自适应编码器和由 8 个视觉合成任务共享的解码器组成。另外,它还包含一种3D Nearby Attention (3DNA)机制,以考虑空间和时间上的局部特征。
通过多项实验评估的合成结果,和其他模型相比,女娲有明显的优势。尽管有的模型性能上比女娲略好一点,不过女娲在生成逼真的图像上,还是有优势的。更多的内容可以参考论文原文,反正机智客造的纸(造诣)很薄,都没看完整个英文论文原文。
感觉,现在很多这方面的研究,都在为我们营造一个AI生成的逼真世界。也许吧,在未来,在那个愈发虚拟的时代,也许正如电影里拍摄的,要啥有啥。我们在虚拟世界体验到的,和现实中物理感官感觉的不差什么。而彼时,则AI会主导大多的渲染和生成任务。如果元宇宙是未来必然的发展落地方向,机智客个人总觉得我们在虚拟的假世界里体验到的一切,或者我们自己想要的东西,都会是人工智能给我们生成和合成的。毕竟,当前这些不断发表的论文、技术实现,很多都是图像、视频方面的。以后辅以声音、语言乃至以后的触觉等其他感官延伸,新时代虚拟世界就齐活了。
假的东西越来越真,缺漏或不存在的东西,AI越来越会弥补了,简直是得心应手。当然这些畅想,可能会成真,也可能会发展到另外的方向。拭目以待我们共同的未来吧。