做图片图片生成

通义万相

通义万相是阿里云推出的AI绘画创作及视频生成大模型,于2023年7月7日正式上线。它基于自研的组合式生成模型Composer架构,支持文生图、图生图、风格迁移、局部重绘、图像扩展及文...

标签:

产品概述

通义万相是阿里云通义大模型旗下的AI绘画创作及视频生成平台,于2023年7月7日正式上线。它旨在降低创意视觉内容的生产门槛,通过AI技术辅助用户将文字描述快速转化为高质量图像或短视频。

其核心差异化优势在于对中文提示词的精准理解,特别是对“水墨丹青”、“工笔重彩”等国风艺术风格的出色表现,并支持丰富的风格迁移、局部编辑等可控生成能力。

市场定位于服务广泛的创意工作者和普通用户,包括设计师、电商运营、自媒体创作者、游戏开发者等,提供从灵感启发到成品输出的全流程AI辅助工具。

通义万相
通义万相

核心功能特性

文生图

通过输入文本描述生成图像,是平台的核心功能。支持超过30种预设艺术风格,如水彩、油画、二次元、中国画、3D卡通等。用户遵循“主体+特征+场景+风格+参数”的结构化提示词公式,即可在10-30秒内获得4张候选图像,并可选择下载、再次生成或基于某张图进行创意复用。

图生图(相似图像生成)

上传一张参考图像,系统可在保留原图构图、主体等核心要素的基础上,根据新的文本提示词生成风格、细节各异的变体。此功能适用于风格迁移、创意延展,用户可启用“保持构图一致性”选项以更好地控制生成方向。

风格迁移

专门用于将用户上传的原图转换为指定的艺术风格。用户需分别上传内容原图和风格参考图,系统将融合原图的构图与风格图的笔触、色调,输出一张具有全新艺术风格但保留原内容主体的图像。

局部重绘

允许用户对已生成的图像进行精细化修改。用户可以圈选图像中的特定区域(如人物的服装、背景的物体),并输入新的文本指令,AI将仅重绘被选中的区域,而保持图像其他部分不变,实现精准编辑。

图像扩展(画布延展)

突破原始图像的构图边界,智能地向上下左右等方向扩展画布,补全画面内容。适用于将横图改为竖图、为风景照片增添更广阔的背景,或为海报设计拓展边框等场景,扩展部分能保持与原图一致的风格和光照逻辑。

文生视频

输入文本描述可直接生成5-10秒的短视频,支持1080P分辨率。该功能基于Wan-VAE编解码器,具备生成较长视频的潜力,为动态内容创作提供了新的AI工具。

应用场景

1

电商产品图与营销素材生成

电商运营或设计师可利用文生图功能,快速生成高质量的产品展示图、场景图及节日促销海报。通过输入如“白色陶瓷咖啡杯,简约北欧风格,放在浅灰色大理石台面,自然光照射,商业摄影风格”的提示词,能批量产出符合品牌调性、吸引眼球的视觉素材,大幅提升上新效率和营销内容的生产力。

2

社交媒体头像与封面设计

个人用户或自媒体博主可以使用该平台定制独特的社交媒体头像和公众号封面图。例如,输入“年轻女性侧脸肖像,暖橙色渐变背景,插画风格,圆形构图”生成个性化头像;或输入“科技未来主题,深蓝色渐变背景,抽象数据流,16:9横版”制作公众号文章封面,快速建立统一的视觉形象。

3

游戏与动漫概念设计

游戏美术师或动漫创作者可将通义万相作为灵感辅助工具。通过描述角色设定(如“赛博朋克风格女战士,银色盔甲,手持光剑”)或场景概念(如“火星上的废土风格城市”),快速生成多种视觉方案,加速前期概念设计和世界观构建的迭代过程。

优势与劣势

优势

  • 中文提示词理解优化出色,尤其擅长处理国风、传统文化类描述,生成效果精准。
  • 提供丰富的免费额度,网页版新用户及每日登录可获灵感值,降低了体验门槛。
  • 功能全面且可控性强,集成了文生图、图生图、局部重绘、风格迁移等一站式创作工具。
  • 支持多种输出尺寸和分辨率预设,适配手机壁纸、社交媒体、印刷物料等不同场景需求。
  • 背靠阿里云生态,登录和支付便捷,并提供了企业级API服务和开源模型供开发者使用。

劣势

  • 免费额度生成的图像带有水印,去除水印或使用更高阶功能需要消耗灵感值或付费。
  • 在生成复杂构图或多人场景时,可能出现肢体结构错乱、细节逻辑不一致的情况。
  • 视频生成功能的时长和流畅度目前仍有限,与顶尖的专用视频生成模型存在差距。
  • 高峰时段(如晚间)服务器可能出现排队,生成速度会有所下降。

产品对比分析

产品名称 核心功能 中文优化 免费政策 主要使用方式 特色优势
通义万相 文生图、图生图、风格迁移、局部重绘、图像扩展、文生视频 原生优化极佳,深度理解国风等中文表达 网页版每日登录赠送灵感值,可免费生成一定数量图片 网页端、移动端App、API调用、本地部署(开源模型) 阿里云生态集成,功能集成度高,国风生成能力强
Midjourney 文生图、图生图(Vary Region)、图像扩展(Zoom Out) 需使用英文提示词,对中文支持弱 无长期免费额度,需订阅付费计划 主要通过Discord机器人交互 艺术风格表现力强,社区活跃,图像质感高级
Stable Diffusion(WebUI) 文生图、图生图、局部重绘、图像扩展、ControlNet控制 依赖第三方中文插件或模型,原生支持一般 完全开源免费,但需自备硬件或租赁云服务器 本地部署,通过Web界面操作 完全开源可控,插件和模型生态极其丰富,定制化程度最高
文心一格 文生图、图生图、风格定制 百度出品,中文理解优秀 提供每日免费生成次数 网页端、移动端App 背靠百度文心大模型,与百度系产品联动紧密

常见问题

Q: 通义万相如何免费使用?

访问官网并使用阿里云账号登录,新用户和每日登录均可领取“灵感值”。使用文生图等基础功能会消耗灵感值,在免费额度内可生成图像,但部分结果可能带有水印。

Q: 生成的图片可以商用吗?

根据阿里云官方条款,用户通过通义万相生成的内容,其版权原则上归用户所有,可用于商业用途。但需注意不得生成侵犯他人知识产权或违反法律法规的内容。

Q: 提示词怎么写效果更好?

推荐使用结构化描述,如“主体+特征+场景+风格+画质参数”。例如:“一位身着汉服的少女,站在樱花树下抚琴,新海诚动画风格,8K分辨率,柔光效果”。官方提供了详细的提示词指南和词典可供参考。

Q: 支持生成多大尺寸的图片?

在网页版参数设置中,用户可以选择1:1、16:9、9:16等多种预设比例,并可在一定像素范围内调整分辨率(如512至1440像素)。生成后可以下载原图。

Q: 生成的图片模糊或变形怎么办?

可以尝试提高提示词的相关性设置(CFG Scale),在提示词中添加“高清细节”、“8K分辨率”、“大师杰作”等质量增强词,或检查并优化提示词中对主体和结构的描述。

Q: 通义万相有手机App吗?

有。用户可以在应用商店下载“通义”App,其内置了AI绘画(通义万相)功能模块,支持通过文字或语音输入提示词进行快速作画,并方便保存和分享。

Q: 图生图时如何更好地保持原图构图?

在上传参考图后,可以勾选“保持构图一致性”选项(如果界面提供)。同时在提示词中明确写出“保持原构图”、“维持人物位置不变”等指令,并适当调整参考图权重。

Q: 灵感值用完了怎么办?

灵感值消耗完后,用户可以选择等待次日登录领取新的免费额度,或通过阿里云平台按量付费购买额外的服务资源包,以继续使用生成功能。

相关导航