🗒️dalle-3角色一致性实践

2023-11-3
| 2023-12-5
0  |  0 分钟
type
status
date
slug
summary
tags
category
icon
password
😀
本文讨论了角色一致性的问题,并介绍了一种解决方案,通过在dalle-3中进行实验和总结经验,可以实现更好的角色一致性,为创作有趣的内容提供便利。

dalle-3角色一致性

背景

关于角色一致性这个话题出现的很久了,无论是Midjourney还是Stable Diffusion,都存在这个问题,老生常谈了,现在的问题是寻求解决方案,看如何能够规避这类问题。
让我们生成的人物形象更加精准清晰,保持一致性,这样才可以用于更多的场景,而不只是一次性的图形,只能用于一个单一的场景。解决的好,尝试ai绘本不就很方便了嘛。
本文缘起于在Reddit上看到了篇文章,作者列举了他在dalle-3中的实验,经过他的实践以及经验总结,他探索出了一种非常好的方案,针对角色一致性的问题,进而想要跟着做一番方式,验证这个结论,学会更好的使用dalle-3,创造出更多好玩的有趣的东西。

角色一致性实践

关于[Guide] How to create consistent characters with DALL-E 3 (Reddit) 这篇文章,感兴趣的同学们可以自己去阅读查看,本文只是为了实践。更多的以实操为主。
本文描绘的角色是数字绘画描绘了一位轻盈的宫廷女子,她有着柔和的脸庞、一丝精灵的特征、神秘的绿眼睛、前面有喇叭形点的黑色长直发、浅色(接近金色)的皮肤、渐变阴影、干净的线条、充满活力的调色板,以及程式化的比例。基本布衣外穿红色长袍,[场景] 这样的一个女性。这是中文翻译,对应的英文内容为Digital painting of a lithe courtsean woman with a soft face, a hint of elven features, mystical green eyes, long straight black hair with flared points in front, light (nearly golden) skin, with gradient shading, clean linework, vibrant palette, and stylized proportions. Wearing red robes over basic cloth garments, [scenario]
按照作者的说法,我们想要保持角色一致性,需要有一个精确的模板,大致可以分为这几类.

核心人物外观

就是要用几个精准的词汇,来定义一个角色的脸,头发还有体型等具体的特征。比如一位轻盈的宫廷女子,她有着柔和的脸庞、一丝精灵的特征、神秘的绿眼睛、前面有喇叭形点的黑色长直发、浅色(接近金色)的皮肤。对应的英文为a lithe courtsean woman with a soft face, a hint of elven features, mystical green eyes, long straight black hair with flared points in front, light (nearly golden) skin

简单的佩戴和携带物品

佩戴的服饰啊,还有携带的物品都能更加具体的定位一个角色,让dalle-3也可以更好的处理外形,不需要它额外给你添加奇奇怪怪的东西。这里展示的是“一个宫廷女子,身穿红色长袍,套着基本布衣”的服饰搭配,没有携带啥物品。对应的英文为Wearing red robes over basic cloth garments

图像风格

dalle3里面的图像风格比较多,比如3D风格现代风格复古风格等等,可以自由选择,这里选择了数字绘画这个风格,按照作者的操作,还可以在添加点样式属性,更好的塑造人物形象,这里面添加的内容为数字绘画, 渐变阴影、干净的线条、充满活力的调色板,以及 程式化的比例。对应的英文Digital painting, with gradient shading, clean linework, vibrant palette, and stylized proportions.

场景

上面的内容是用来定位一个角色的关键信息,以上信息组合到一起,基本能够确定人物形象了,基本上大差不差了。那么场景呢,这个就是我们具体使用的场景含义了,比如在山上吹笛子啊,在竹林间弹琴啊,在山涧里洗衣服啊,跳舞啊等等都算是具体的场景,当前角色正在做什么的行为。
场景需要注意的关键点:应该是在某个环境中,如上说的一些具体的场景里的山上,竹林等;然后再做某件事情,最好是主动的行为,主动的描述词;最后是可以加上强烈的情感描述词,不加也行。看自己的喜好了。

汇总上述的描述

可以看到,为了期望人物角色一致性,我们需要把上述的关键点都汇总到一起,这样任务形象更丰满,创建出来的任务形象更加具有一致性。
还是用那个宫廷女子来描述,我们也创建一个完整的实例, 英文内容为Digital painting of a lithe courtsean woman with a soft face, a hint of elven features, mystical green eyes, long straight black hair with flared points in front, light (nearly golden) skin, with gradient shading, clean linework, vibrant palette, and stylized proportions. Wearing red robes over basic cloth garments, Bow shooting, 对应的中文是数字绘画描绘了一位轻盈的宫廷女子,她有着柔和的脸庞、一丝精灵的特征、神秘的绿眼睛、前面有喇叭形点的黑色长直发、浅色(接近金色)的皮肤、渐变阴影、干净的线条、充满活力的调色板,以及 程式化的比例。 身穿红色长袍,套着基本布衣,弓射, 一位宫廷女子在弯弓射箭的场景。
请在ChatGPT里面选择GPT4的功能,然后选中dalle-3,接着把上述的英文描述词粘贴进去,就可以等待dalle-3运行,给我们生成图像了。
我们来看看效果吧, 看看按照这个描述词,dalle-3给我们生成的是什么样的画面。
notion image
 
notion image
看这两张图,宫廷女子的任务人像还挺一致的,外形啊,服饰啊,头发,耳朵都挺接近的,我们接着继续更多的场景吧。目前这两张图感觉效果还行,但感觉还差点意思。

进行更多的场景测试

除了上面说的弯弓射箭的场景,我还做了4个其他的场景实验,我们一一演示下

跳舞的场景

来一个跳舞的场景,英文描述词为Digital painting of a lithe courtsean woman with a soft face, a hint of elven features, mystical green eyes, long straight black hair with flared points in front, light (nearly golden) skin, with gradient shading, clean linework, vibrant palette, and stylized proportions. Wearing red robes over basic cloth garments, is dancing
再看看生成的结果(当然了如果你对一次生成的结果不满意,可以让dalle-3为你生成多次,直到你满意为止)
notion image
notion image
可以看到跳舞的画面还挺漂亮的,是挺好看的😂

在山涧里洗衣服的场景

再来一个在山涧里洗衣服的场景,英文描述为Digital painting of a lithe courtsean woman with a soft face, a hint of elven features, mystical green eyes, long straight black hair with flared points in front, light (nearly golden) skin, with gradient shading, clean linework, vibrant palette, and stylized proportions. Wearing red robes over basic cloth garments, Washing clothes in a mountain stream
再来看生成的效果吧
notion image
 
notion image
是不是挺不错的呀。hhh。

在竹林里弹琴的场景

接着来一个在竹林里弹琴的场景,描述词为Digital painting of a lithe courtsean woman with a soft face, a hint of elven features, mystical green eyes, long straight black hair with flared points in front, light (nearly golden) skin, with gradient shading, clean linework, vibrant palette, and stylized proportions. Wearing red robes over basic cloth garments, Play the piano in the bamboo forest
生成的图如下(这个场景,生成了多次):
notion image
notion image
这两幅图好看是好看,也在竹林里,可惜没有看到弹琴的画面。
notion image
 
notion image
稍微有些妖娆了些,还是上面两个更清秀些😂

在山顶吹笛子的场景

最后再来一个场景吧,在山顶吹笛子的场景,英文描述词为Digital painting of a lithe courtsean woman with a soft face, a hint of elven features, mystical green eyes, long straight black hair with flared points in front, light (nearly golden) skin, with gradient shading, clean linework, vibrant palette, and stylized proportions. Wearing red robes over basic cloth garments, Playing the flute on the top of the mountain
生成的图像如下:
notion image
 
notion image
看着还行,再次尝试下,让dalle-3为我重新生成
 
notion image
notion image
notion image
notion image
整体上觉得还不错呢😂
经过这五个场景的实践,以及上面说到的核心人物外观,简单的佩戴和携带物品,图像风格合在一起就能够大致确定角色一致性了,这对我们用来搞更多的Ai绘图应用带来了很大的便利,特别的好。

更多的人物描述词

Reddit这篇文章中,还有其他的人物描述形象,这里也一一列出来,读者们要是有兴趣的话,也可以拿这些描述词到Dalle-3里面做实验。

人物描述1

数字绘画描绘了一位明显女性化的绿眼睛、白毛塔巴西僧侣(脸颊蓬松,头上有一簇头发),具有渐变阴影、干净的线条、充满活力的调色板和风格化的比例。穿着简单的绿色和尚外衣,背着背包,【场景】
Digital painting of a tall, slender ageless elf wizard (flowing hair and sharp features) with gradient shading, clean linework, vibrant palette, and stylized proportions. Wearing a white and gold robe with leaf patterns and a necklace of large mala beads, [scenario]
notion image

人物描述2

数字绘画描绘了一个高大、苗条的永恒精灵巫师(飘逸的头发和鲜明的五官),具有渐变阴影、干净的线条、充满活力的调色板和风格化的比例。身着白金叶纹长袍,佩戴大念珠项链,【场景】
Digital painting of a tall, slender ageless elf wizard (flowing hair and sharp features) with gradient shading, clean linework, vibrant palette, and stylized proportions. Wearing a white and gold robe with leaf patterns and a necklace of large mala beads, [scenario]
notion image

人物描述3

数字绘画中的少女半身人,有着凌乱的齐肩亮红色头发和长满雀斑的圆脸,采用渐变阴影、干净的线条、充满活力的调色板和风格化的比例。穿着蓝色魔法师的旅行外衣和步行杖,[场景]
Digital painting of a girly halfling with tussled, shoulder-length bright red hair and a freckled round face with gradient shading, clean linework, vibrant palette, and stylized proportions. Wearing a blue sorcerer's traveling tunic and walking staff, [scenario]
notion image

人物描述4

数字绘画描绘了一位粗犷、纹身的矮人战士,留着浓密的红木辫子胡须,轮廓分明的方脸,带有渐变阴影、干净的线条、充满活力的调色板和风格化的比例。穿着坚固的重甲,配有加热器护罩和战斧,[场景]
Digital painting of a rugged, tattooed dwarf warrior with thick, braided mahogany beard and a chiseled square face with gradient shading, clean linework, vibrant palette, and stylized proportions. Wearing sturdy heavy armor with a heater shield and battleaxe, [scenario]
notion image

人物描述5

数字绘画描绘了一个狡猾的深红色皮肤的提夫林盗贼,有着光滑的煤黑色头发和年轻、锐利的脸,长着带有渐变阴影的卷曲角、干净的线条、充满活力的调色板和风格化的比例。穿着棕色皮甲,背带上装有小瓶,[场景]
Digital painting of a shifty crimson-skinned tiefling rogue with slick, coal-black hair and youthful, sharp face with curled horns with gradient shading, clean linework, vibrant palette, and stylized proportions. Wearing brown leather armor with a bandolier of vials, [scenario]
notion image
更多的描述词就请读者们自己发挥啦。

参考资料

 
DALL-E3
  • DALL-E3
  • ChatGPT
  • 分享几个Midjourney Style Tuner的网站使用Dalle3创作儿童绘本
    目录