SDXL拥有媲美Midjourney的效果,为什么还没有快速普及。Stable Diffusion用户界面浅谈与界面设计

SDXL时代,Stable Diffusion的界面设计
SDXL相对于之前生态良好的SD1.5,无需进行过多的微调,就可以达到让人惊艳的效果,原因在于参数的数量提升,量变成质变。然而,为什么没有快速普及?如何破局?

使用难度

这种质量的提升,带来好处的同时,也带来两个方面的使用难度,一是硬件难度,普通的8G显存显卡不是很能流畅运行,二是SDXL有两个模型需要使用,实际上是两套流程配合,当下可以极好匹配两套流程的界面是专业向的 ComfyUI,然而,专业向就代表着拒绝了大多数人。
对于硬件难度,花钱提升电脑可以解决。
但是软件学习难度,就拦住了很多人。让一个没怎么接触 AI 绘图的人面对节点式编程,显然会打击初学者的入门积极性。

ComfyUI

本人很喜欢这种自定义工作流的界面,可以方便的复用,甚至想着加入编程节点更好(有时候去给作者提个建议),我自己也写了一些自用的节点。
不过,ComfyUI对于新手来说,暂且排除吧,很多人需要寻找一个易于操作的界面。

SD WEBUI

使用 A111 的SD WEIUI ,一直是SDXL出来之前的主流,然而一代版本一代神,SDXL出来已久,它对SDXL的支持还不是很完善。这涉及到代码架构的问题,不是那么轻易就转换的。
如果后续软件架构调整以匹配SDXL,界面逻辑完善,依托于其良好的插件生态,也许会不错。
不过,即便如此,WEIUI因为对SDXL的支持,堆积的参数也差不多是翻倍的情况(因为两套流程),对于入门者,还是学习门槛高的。或许,放弃后一套精修的流程也是一条路?
(截止至九月初,controlnet跟进了,refiner只能和base同参数)

SwarmUI(SD官方)

这套WebUI是匹配comfyui的,试图打通节点式编程和WebUI界面的屏障(但webui的接口也有),目前正在发展阶段。
之前ComfyUI也有一个叫做Comfybox的界面,SwarmUI和其类似,但SwarmUI支持更多功能,官方试图做一个大而全的平台。
以体验而言,截止到2023年8月底,这套UI还不是那么接近普通用户,而对于理解各类参数的专业用户,有点何不用ComfyUI的感觉。
总而言之,官方出品,如果继续优化,未来可期。

Fooocus

不得不说,项目的作者为SD的普及做了巨大贡献,在公开了ControlNet的训练方式后,作者转而为SDXL打造了这个开源软件。
这是一个拥有极简界面的文生图工具,作者融合了WEBUI和ComfyUI的优势,且优化了显存的使用和图片的生成速度,4G显存也可以使用。
显然,这是一个对标MidJourney的软件,作者在问题回复里提到,这个项目专注于打造文生图软件,没有加入ControlNet的计划(2023年8月看到的)。这就是极致,个人很称赞这种做法。
不过,需要ControlNet进行图面控制的设计工作者不得不考虑其他界面了。
(截止至九月初,有分支做了controlnet和图生图等支持,不过界面还不是很完善)

设计工作界面的设计

设计工作需要的界面是什么样的?太简单的,如Fooocus,缺少必要的图面控制,太复杂的,如ComfyUI,让初学者望而却步。
个人的初步判断是,一个功能尚可而且方便入门的界面,大概是WEBUI的简化版,或者说是Fooocus的复杂版。
界面主要考虑文字和图片双重控制。
文字,很简单,只有两种:

  • 正向提示词

  • 反向提示词

提示词可以多语言输入,支持中文和英文,甚至其他语言,而且可离线部署。
图片控制方面,就比较多样了,基于图片的控制手段,我暂且归位四类:

  • 图生图,以重绘的方式来控制,

  • ControlNet,在生成阶段介入进行控制,

  • Clip Vision,在提示词阶段介入控制,

  • 还有一种被放在SD WEBUI的ControlNet中的参考图控制,ComfyUI有reference节点对应。

以用户角度而言,如果SD是一个高级助理,对于生产一张图片,我需要怎么让助理明白我要什么呢?
首先,我通过语言告诉它我要什么样的图,然后最好给它一张图作为我语言的补充。这对应于提示词和Clip vison(我称之为视觉提示词)。
接着,我还会告诉它我需要多少张图,告诉它这些条件参考到多少程度就可以了,也就是明确给它发挥的空间,这对应于图片数量和CFG scale。
有时候我需要控制图片的线条、轮廓、景深、人物动作等内容怎么办,那就是用ControlNet(控制网)。
各个条件太多了,如何平衡各个条件的权重?那么就在大多数图片控制里都加一个权重。
如果用户觉得这些功能不够用怎么办?比如训练了一个LORA要加载。不要急,给个高级功能的开关。
总而言之,致敬了Fooocus的极简,又加入了必要的图片控制参数。
作为一个非编程人员,经过向 AI 学习以及咨询专业人士,一两周时间完成了这个界面,并且完美链接了comfyui的后端。
供其他界面设计者参考。

界面参考

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,372评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,368评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,415评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,157评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,171评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,125评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,028评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,887评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,310评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,533评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,690评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,411评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,004评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,812评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,693评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,577评论 2 353

推荐阅读更多精彩内容