打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

近期,使用各种生成模型的同学们发现,在使用Stable等衍生模型时,存在一个普遍的问题:手画残了。这个问题的主要原因有如下三点。

首先,CLip模型使用的是ResNet50/100和ViT14/16/32等模型来分析图像的结构,一般选择后者。但这些模型作为transformer应用方法,实际上是将图像切成块,然后丢到多头模型中进行处理。然而,图像的每个小区域需要保持连贯性,而切块会破坏这种连贯性。因此,对于复杂的图像,如手和路牌等,切块是不友好的,特别是没有描述信息的部分。

其次,数据本身描述的有用信息较少。照片一般描述主题,而对于细节部分的描述有限。例如,图片描述中很少包含是否有手、手在哪里等信息。

最后,提高分辨率有助于减少手画残的几率。然而,使用来跑Stable等模型的机器的性能往往非常有限。