不玩“期货”的快手接棒Stability AI国产之光可图大模型Kolors领跑开源生态

产品中心

来源：ayx官网登陆发布时间：2024-07-20 17:55:17

　　最近，快手打造的文生图大模型——可图（Kolors），正式公开宣布开源，迅速掀起一股旋风。这位才华横溢的“艺术家”，不但善于绘制万物，而且深谙中国文化精髓，不仅善“画” 而且能“书” ，写起汉字来也丝毫没有压力。评测视频、教学指南、创意分享……社会化媒体上，围绕可图的话题如火燎原。

　　据了解，可图（Kolors）的生成效果已经超越了现有的开源模型如SD3，并达到了与闭源商业模型Midjourney-v6相当的水平。可图（Kolors）具有强大的复杂语义理解能力，画质达到了摄影级别的质感，并且支持英文和中文汉字的生成。这样强大的模型还是开源的，能不令人心动吗？

　　在AI大热的当下，快手选择了一条低调务实的道路。在近期举行的世界人工智能大会（WAIC）上，快手的大模型家族首次集体亮相，并宣布可图（Kolors）正式开源，引发了轰动。

　　可图（Kolors）的这次开源包括了模型权重、完整代码和技术报告，内容非常全面，目前已在Huggingface平台和GitHub上线。供个人开发者免费使用，获得登记许可即可商用。

　　同时，可图（Kolors）在Huggingface也登上了模型Trending榜首，截止至发稿前已下载上万次。

　　这也展示了开源社区对可图（Kolors）的热烈反响。许多开发者在实测和体验了可图（Kolors）的生成效果后，给予了极高的评价。

　　在X平台，来自Stability AI和Huggingface等企业的开发者第一时间测试、宣传、点赞可图（Kolors）。

　　可图（Kolors）的开源之所以能获得如此多的关注，离不开其顶级的性能表现。在智源FlagEval文生图模型第三方评测榜单中，可图（Kolors）以主观综合评分75.23分的成绩，排名全球第二，仅次于闭源的DALL-E 3。特别值得一提的是，在主观图像质量方面，可图（Kolors）表现尤为突出，评分排名第一，显著优于其他开源和闭源模型。

　　在50位人类图像专家评估中，可图（Kolors）也表现出色，超越了一众开源模型，与Midjourney-v6性能相当，并且在视觉吸引力方面显著领先。

　　架构方面，根据官方技术报告，可图（Kolors）使用了隐空间扩散模型，并创新地使用了大语言模型进行文本表征。这使得可图（Kolors）具备了复杂长文本理解能力。更长的文本提示词允许包含更多的细节和上下文信息，从而使模型能够更准确地理解和生成图像内容，并且可图（Kolors）支持中英文文字生成。此外，可图（Kolors）通过采用两阶段渐进训练策略（概念学习和美感提升），在图像美感和质量上达到了国际领先水平。

　　可图（Kolors）使用大语言模型进行文本表征，同时构建了精细化图像文本描述数据集，在复杂文本理解能力上取得了显著突破。从下图中我们大家可以看到，可图（Kolors）能够正确绘制中国女性形象的所有元素和细节，从黑色皮夹克、时尚太阳镜到鲜艳的红裙和醒目的口红，无一遗漏。在文生图模型常见的颜色混淆难题上，可图（Kolors）也表现优异。即便面对多个主体和繁复的色彩描述，模型依然能够准确无误地进行绘制，将文字描述转化为视觉呈现。

　　一个时髦的中国女人在上海的街道上，阳光照在她身上，她穿着黑色皮夹克，红色长裙，背着一个黑色背包，戴着太阳镜，涂着红色的口红，她走起路来自信而随意

　　作为一款国产的文生图大模型，可图（Kolors）在理解和呈现中国特色元素方面表现得尤为出色。如下图所展示的，无论是北京奥运会的标志性建筑“鸟巢”、上海现代化都市风貌的代表“外滩”、彰显古代建筑智慧的“天坛”，还是中华文明的象征“长城”，可图（Kolors）都能以很高准确度和细腻度进行再现。

　　可图（Kolors）的一大技术亮点是支持中文汉字生成。虽然，DALL-E 3和SD3支持英文文字生成，但可图（Kolors）是第一个原生支持中文文字生成的文生图模型。

　　根据硅星人的实测，可图（Kolors）生成中文文字的效果已经相当惊艳。不仅仅可以准确绘制不太常见汉字（如：硅），也支持中英文同时绘制，且文字与背景之间的贴合感弱。

　　面对SD3宣传中的高难度复杂提示，可图（Kolors）依然不在话下。模型能够精准捕捉并呈现提示中的各种复杂属性，包括具体数量、精确位置、丰富色彩、英文字母、中文汉字，以及数字概念。

　　在大语言模型的加持下，可图（Kolors）仿佛拥有一个能够深入解析人类语言的“大脑”，能够迅速理解并准确执行各种复杂的视觉创作指令。这再次印证了可图（Kolors）强大的复杂语义理解能力。

　　可图（Kolors）能够生成具有摄影级画面质感的图像，这一效果得益于海量训练数据的支持，以及训练策略的优化。

　　具体来看，可图（Kolors）训练分为两个阶段：概念学习和质量微调。首先，可图（Kolors）从大规模图像-文本对中学习各种知识。接下来，团队使用高质量、高美感的数据对模型进行微调，以提升图像的精细度和美感。同时，可图（Kolors）引入了一种新的加噪策略，使其在高分辨率图像的处理上表现更好。这一系列优化明显提升了模型生成图像的质量和视觉效果，让可图（Kolors）生成的图片具备摄影级的画质质感。

　　凭借其卓越的模型能力，可图（Kolors）的开源引发了全球社区广泛关注。而实际上，可图的文生图能力已经应用到快手的多个下游业务中。

　　例如在非真人IP形象定制中，用户都能够根据具体需求生成独特的非真人IP形象，这些形象不仅仅具备高度的视觉吸引力，还能按照每个用户的指令进行个性化调整和优化。这一应用不仅提升了内容创作的效率和质量，还为品牌和个人IP的打造提供了新的可能性。

　　可图（Kolors）通过人像ID保持功能，能够在生成图像时保持用户的独特面部特征，同时支持多种风格化人像的生成。用户都能够在不一样的风格的虚拟形象中自由切换，例如卡通风、油画风、赛博朋克风等，不仅满足了用户多样化和个性化的表达需求，还可以衍生出诸如多风格合成、夸张表情定制、写真定制等趣味玩法。

　　借助可图（Kolors）的能力，用户都能够在虚拟环境中试穿不同的服装和配饰，实时查看效果。这一功能不仅提升了用户的购物体验，还大幅度提升了商品的展示效果和吸引力。商家可以依据用户的个性化需求，自动生成多样化的商品图片和展示素材，从而更精准地进行市场营销，真正的完成千人千面的商品素材生成。

　　近段时间，开源社区的明星公司Stability AI经历了剧烈动荡。Stability创始人兼CEO Emad Mostaque于3月辞职，高层及核心技术人员相继离职，甚至公司传出寻求“卖身”的消息，使得业内人士担忧这可能是Stability AI的最后一舞。然而，在开源社区遭遇如此重创的时期，快手选择将可图（Kolors）开源，也因此成为了业界关注的新焦点。

　　快手此次开源的可图（Kolors），不仅在效果上超越了开源的Stable Diffusion 3，还同时支持中英双语生成，并且支持中英文文字绘制，出图质量达到国际领先水平，比肩闭源商用模型。与此同时，快手也展示了对开源技术的坚定承诺，计划陆续开源可图（Kolors）的相关应用组件，如ControlNet、LORA、IP-Adapter等，以丰富其开源生态。

　　同时，我们也欣喜的观察到，已经有不少开发者开始实现基于可图（Kolors）的相关应用。相信在开源社区的共同努力下，可图（Kolors）的开源生态会慢慢的完善。

　　总体来看，可图（Kolors）开源展示了快手在AI技术领域的开放态度和技术能力。快手希望能够通过开源来推动文生图大模型社区的发展，为企业与开发者提供强大的工具来开发自己的应用和产品。未来，随着慢慢的变多的企业和开发者开始使用可图（Kolors），我们也可以期待整个文生图大模型社区将迎来新的发展契机。

　　在当今AI大潮汹涌的时代，前沿技术的光环耀眼又令人迷惑，吸引着无数企业投身其中，一方面热情高涨，另一方面又显露出急于求成。无论是大语言模型还是生成式AI，技术的最终价值都在于它如何改善人类的生活和工作方式。只有那些能够在喧嚣中保持清醒，始终聚焦于解决实际问题的公司，才有机会在下一个时代站住脚跟。

　　快手在AI大模型领域展现出低调、高标准和开放的态度。他们不搞期货，也不玩花活。可图（Kolors）这样的模型正在真实地使用户得到满足需求和商业转化，并通过开源的方式回馈社区。

　　纵观整个互联网行业的发展历史，每一次技术革新都与内容形态的演进紧密相连，当生成式AI和推荐算法更加紧密的结合，短视频平台与AI大模型的结合将成为下一个重大的技术融合方向。可图（Kolors）的开源和落地，已经让我们正真看到了这种预兆，接下来就看快手能否抓住这个创造革命的机会了。

　　目前可图大模型的各项功能已经集成至可灵AI中，普通用户都能够直接通过可灵AI官方网站和可图大模型微信小程序免费使用各项功能。

上一篇:黑马大赛现场_创业家_i黑马

下一篇:西利卡SILICA高偏硅酸天然泉水正式上市！