AI Image Generation

Midjourney 提示词工程:完全指南

2057 words 19 min read Updated 2026-02-04

2026年1月20日更新

2026年1月更新: Midjourney V7 现已成为默认模型,在自然语言理解、照片级真实感和文字渲染方面均有显著提升。Niji 7 于2026年1月9日发布,大幅改进了动漫风格内容的连贯性。视频生成功能(V1)可从任意图像创建5至21秒的视频片段。--exp 参数可增强细节和动态效果。新功能:Moodboards 允许从上传的图像创建自定义风格,并可通过 --sref 进行混合。V7.1 即将推出,改进了手部和身体的协调性。V8 正在积极开发中——这是一次采用全新架构的完整重写,预计于2026年第一季度发布。1

我花费了数百小时测试 Midjourney 的各个版本、参数组合和风格方向。本指南将这些经验浓缩为我刚开始时希望拥有的全面参考资料。无论您是在创作第一个提示词,还是在探索可能性的边界,所需的技术都在这里。

Midjourney 并非简单的提示词转图像工具,而是一个复杂的视觉语言系统,它响应特定的模式,遵循特定的层级结构,并回报那些理解其架构的用户。通用的 AI 艺术与令人惊叹的、充满意图的图像之间的差异,正在于对这些模式的理解。

核心洞察:V7 从根本上改变了提示词的工作方式。旧的关键词堆砌方法(”beautiful, stunning, 8k, detailed, masterpiece”)实际上会降低您的输出质量。V7 能够理解自然语言——请像向一位专业摄影指导描述照片那样编写提示词,而不是为图库照片添加标签。

本指南涵盖从首次安装到大多数用户从未发现的高级技术的所有内容。每个参数都配有实际范围、真实示例,以及容易让资深用户踩坑的边缘情况说明。


目录

第一部分:基础知识

  1. 什么是 Midjourney?
  2. 入门指南
  3. 核心概念
  4. 提示词层级结构

第二部分:参数精通

  1. 版本选择
  2. 宽高比
  3. 风格化
  4. Chaos 与 Weird
  5. 实验性美学

第三部分:参考系统

  1. Omni Reference
  2. Style Reference
  3. Image Weight
  4. Draft Mode

第四部分:视频生成

  1. 图像转视频基础
  2. 延长与循环
  3. 视频最佳实践

第五部分:类型模板

  1. 电影级写实
  2. 人像摄影
  3. 产品摄影
  4. 奇幻与科幻
  5. Niji 7 动漫风格
  6. 建筑
  7. 抽象与实验

第六部分:高级技术

  1. 词语权重
  2. 负面提示词
  3. 种子控制
  4. 多主体构图
  5. 文字渲染

第七部分:工作流程与优化

  1. 迭代循环
  2. 成本管理
  3. 故障排除
  4. 版本迁移

第八部分:参考资料

  1. 参数速查表
  2. 更新日志

什么是 Midjourney?

Midjourney 是一个根据文字描述生成图像的生成式人工智能系统。与传统的图像编辑或图库摄影不同,您只需描述想要看到的画面,Midjourney 就会生成符合您愿景的原创图像。

Midjourney 的独特之处:

方面 Midjourney 竞争对手
图像质量 行业领先的美学效果 参差不齐
自然语言 V7 能理解完整句子 通常依赖关键词
照片写实 V7 表现卓越 良好到优秀
动漫/插画 Niji 模型专门优化 通用型
视频 原生支持(2025年6月) 需要单独工具
社区 集成分享/发现功能 各有不同

您可以创作的内容:

  • 照片级写实图像:人像、产品、建筑、自然风光
  • 插画:概念艺术、书籍封面、编辑配图
  • 动漫和漫画:通过专门的 Niji 模型
  • 抽象艺术:实验性、超现实主义构图
  • 视频:5-21秒的图像动画短片

Midjourney 不是什么:

  • 不是图片编辑器(请使用 Photoshop)
  • 不是角色一致性系统(尚未实现——正在快速改进中)
  • 不是用于复制特定版权角色的工具
  • 不是免费的(订阅价格从每月10-120美元不等)

入门指南

账户设置

  1. 访问 midjourney.com
  2. 使用 Discord 账号登录或创建新账户
  3. 选择订阅方案
方案 价格 Fast GPU Relax GPU Video Relax
Basic $10/月 3.3小时
Standard $30/月 15小时 无限制
Pro $60/月 30小时 无限制
Mega $120/月 60小时 无限制

专家提示: 建议从 Standard($30/月)开始。无限制的 Relax 模式对于实验至关重要——在学习过程中您会很快用完 Fast 时长。

您的第一个提示词

打开网页界面 midjourney.com/imagine,输入:

A golden retriever sitting in autumn leaves, soft afternoon sunlight

就是这样。不需要特殊语法。V7 能理解自然语言。

您将得到: 四张金毛犬在秋季景色中的变体图像。接下来,您可以:

  • Upscale:点击 U1-U4 生成高分辨率版本
  • Vary:点击 V1-V4 创建细微变体
  • Reroll:使用相同提示词生成四张新的变体

网页版与 Discord

功能 网页界面 Discord
易用性 更简单 学习曲线较陡
图像管理 内置图库 分散在各频道
视频生成 完整支持 不可用
提示词编辑 可视化界面 文字命令
社区 探索标签页 频道浏览
推荐 从这里开始 进阶用户

网页界面现在是主要体验方式。Discord 仍可使用,但缺少视频生成功能且工作流程不够直观。


核心概念

提示词的工作原理

每个 Midjourney 提示词都会经过一个处理管道:

Your Text Prompt
      ↓
[Text Encoder] → Converts words to mathematical embeddings
      ↓
[Diffusion Model] → Generates image from noise, guided by embeddings
      ↓
[Upscaler] → Increases resolution and detail
      ↓
Final Image

这对您意味着什么:

  1. 词序很重要:靠前的词比靠后的词影响更大
  2. 具体性取胜:”golden hour sunlight casting long shadows”比”nice lighting”效果更好
  3. 矛盾会造成混乱:”dark, bright, moody, cheerful”会相互抵消
  4. 少即是多:50-150个 token 通常比300+个 token 效果更好

Token 经济学

Midjourney 看到的不是您的文字——而是 token(大致相当于词语片段)。

Token 数量 效果 最适用于
10-30 非常开放的诠释 抽象、实验性作品
30-80 平衡的控制 大多数提示词
80-150 细节控制 特定场景
150+ 收益递减 可能导致冲突

专家提示: 如果您的提示词超过150个 token,您可能过度描述了。减少形容词堆砌。

质量信号

V7 对某些描述模式反应强烈:

光线(影响最大): - “golden hour light casting long shadows across weathered stone” - “Rembrandt lighting with soft fill from camera left” - “bioluminescent glow illuminating the fog”

材质和纹理: - “oxidized copper with verdigris patina” - “worn leather showing decades of use” - “translucent jade catching the light”

氛围和情绪: - “melancholic twilight atmosphere” - “oppressive industrial ambiance” - “ethereal dreamlike quality”

专业相机术语: - “shot on medium format, shallow depth of field” - “85mm lens, f/1.8 aperture” - “anamorphic lens flare, 2.39:1 aspect”


提示词层级结构

每个有效的提示词都遵循一个层级结构。顶部的词影响最大。

┌─────────────────────────────────────────────────┐
│  1. SUBJECT (who/what)          ← Most important │
│     "elderly fisherman"                          │
├─────────────────────────────────────────────────┤
│  2. SUBJECT DETAILS (descriptors)               │
│     "weathered face, silver beard, kind eyes"   │
├─────────────────────────────────────────────────┤
│  3. CONTEXT (where/when)                        │
│     "on a wooden dock at dawn"                  │
├─────────────────────────────────────────────────┤
│  4. STYLE/MOOD (how it feels)                   │
│     "documentary photography, contemplative"     │
├─────────────────────────────────────────────────┤
│  5. TECHNICAL (camera/lighting)                 │
│     "shot on Leica, natural morning light"      │
├─────────────────────────────────────────────────┤
│  6. PARAMETERS (--ar, --s, etc.)  ← Fine-tuning │
│     "--ar 3:2 --s 100 --v 7"                    │
└─────────────────────────────────────────────────┘

提示词模板

[SUBJECT] [SUBJECT DETAILS], [CONTEXT], [STYLE/MOOD], [TECHNICAL] --parameters

应用层级结构的示例:

An elderly fisherman with a weathered face and silver beard, standing on a
wooden dock at dawn, documentary photography style, contemplative mood,
shot on Leica M11 with natural morning light, soft mist rising from the water
--ar 3:2 --s 100 --v 7

大多数用户忽略的要点: 他们从风格开始(”beautiful cinematic photo of…”)而不是主体。V7 对靠前的 token 赋予更高权重——以您真正想看到的内容开头。


版本选择

V7(自2025年6月起为默认版本)

V7 是 Midjourney 当前的旗舰模型,于2025年4月3日发布。2

优势: - 自然语言理解(写句子,而非关键词) - 迄今为止最佳的照片写实效果 - 文字渲染大幅改进 - 更好的人体解剖结构(手部、身体) - 改进的空间关系 - 默认启用个性化功能

生成模式:

模式 速度 成本 最适用于
Turbo 最快 2倍正常价格 时间紧迫时的最终渲染
Fast 正常 1倍 标准工作流程
Relax 排队 包含在订阅内 探索、学习
Draft 快10倍 0.5倍 快速迭代

何时使用 V7: - 照片写实图像 - 任何包含复杂自然语言的提示词 - 文字渲染 - 当质量最重要时

Niji 7(2026年1月)

Niji 7 是专门的动漫/漫画模型,于2026年1月9日发布。3

优势: - 清澈明亮的眼睛和精细细节 - 复杂姿势的一致性改进 - 更字面化的提示词理解 - 更好的文字渲染 - 增强的 --sref 性能 - 干净、平整的线条美学

局限性: - 不支持 --cref——替代的角色参考系统正在开发中 - 个性化功能(--p)尚不兼容——Moodboards 支持即将推出 - 比以前的 Niji 版本更字面化——需要调整意境类提示词

即将推出: - Moodboards 支持,用于个性化动漫美学 - 新的角色参考系统,替代 --cref

用法:

A determined young mage with crimson hair, casting fire magic,
intense expression, ancient library background --niji 7

何时使用 Niji 7: - 动漫和漫画风格插画 - 角色设计 - 东方美学插画 - 当您想要更干净的线条时

Niji 6(旧版本)

仍可用于向后兼容。

何时使用 Niji 6: - 您需要风格预设(--style expressive--style cute--style scenic) - 您的工作流程依赖 --cref - 您更喜欢更柔和、不那么字面化的诠释

风格:

--niji 6 --style expressive  # 动态、风格化
--niji 6 --style cute        # 可爱美学
--niji 6 --style scenic      # 背景为主
--niji 6 --style original    # 经典 Niji 风格

版本对比

功能 V7 Niji 7 Niji 6
照片写实 优秀 不适用 不适用
动漫 良好 优秀 优秀
自然语言 最佳 良好 中等
文字渲染 最佳 良好 有限
--oref
--cref
--sref 是(最佳)
--p 可选
风格预设

V8 开发状态(预计2026年第一季度)

V8 正在积极开发中,代表着完整的架构重写。训练工作于2025年底正式启动。6

预期改进: - 文字渲染大幅改进 - 更好地生成复杂主体(生物、半人马、非常规解剖结构) - 解决与旧版风格的兼容性问题 - 更好的数据集和新架构 - 向”无提示词”创作方向推进

时间线: - 2025年圣诞节期间进行训练运行 - 预计先推出 V7.1 过渡更新(手部/身体一致性改进) - V8 通用图像模型预计2026年初推出 - 专门的编辑和视频模型随后推出

为什么 V8 很重要: Midjourney 团队表示 V7 未能完全实现其预期功能,因此 V8 将带来”显著差异”,具有更多创新功能。


宽高比

--ar 参数设置图像尺寸。默认为 1:1(正方形)。

常用比例

比例 尺寸 使用场景
1:1 正方形 社交媒体、图标
4:5 竖版 Instagram 动态、移动端
5:4 横版 桌面、演示文稿
16:9 宽屏 YouTube、演示文稿
9:16 竖屏 Stories、TikTok、移动端
21:9 超宽 电影感、影片
3:2 经典 摄影打印
2:3 竖版 竖向打印

平台专属推荐

平台 比例 备注
Instagram 动态 1:14:5 4:5 获得更多屏幕空间
Instagram Story 9:16 全屏竖版
Twitter/X 16:91:1 16:9 在动态中展开显示
LinkedIn 1.91:116:9 专业横版
Pinterest 2:3 竖版表现最佳
YouTube 缩略图 16:9 标准视频格式
桌面壁纸 16:921:9 匹配您的显示器

构图影响

宽高比不仅仅是尺寸——它从根本上改变构图。

宽比例(16:9、21:9): - 强调环境和背景 - 适合风景、城市景观 - 电影感 - 主体成为场景的一部分

高比例(4:5、9:16): - 将注意力集中在主体上 - 适合人像、产品 - 亲密感 - 更多纵向信息

专家提示: 对于电影感人像,尝试使用 4:5 而不是显而易见的 16:9。您既能获得人像的主体聚焦构图,又有足够的背景进行叙事。


Stylization(风格化)

--s 参数控制 V7 应用多少艺术诠释。范围:0-1000。默认值:100。

风格化范围

范围 效果 最适用于
0-50 最小诠释 产品照片、技术精确度
50-150 平衡(默认) 通用、肖像
150-300 明显风格化 艺术照片、氛围作品
300-500 强烈风格 插画、概念设计
500-1000 高度风格化 抽象、实验性

视觉示例

Portrait of a woman, soft window light --s 50
# Midjourney 提示词工程:完全指南

Portrait of a woman, soft window light --s 250
# Result: More artistic interpretation, enhanced mood

Portrait of a woman, soft window light --s 600
# Result: Distinctly stylized, dreamlike quality

决策框架

使用低风格化(0-100)的情况: - 创作产品摄影 - 需要照片级真实准确度 - 技术/文档图像 - 希望按字面意思诠释提示词

使用中等风格化(100-300)的情况: - 一般创意工作 - 编辑摄影 - 需要增强效果但不走极端 - 在写实与艺术之间取得平衡

使用高风格化(300+)的情况: - 创作插画或概念艺术 - 抽象或实验性作品 - 希望 Midjourney 的美学风格占主导 - 突破创意边界

Stylization + Style Raw

要获得最大程度的照片真实感,可将低风格化与 --style raw 结合使用:

Portrait of a businessman, office background --s 50 --style raw --v 7

--style raw 告诉 V7 尽量减少其自身的美学诠释,使结果更接近提示词的字面要求。


Chaos 和 Weird

Chaos(–chaos 0-100)

控制四张生成图像之间的差异程度。默认值:0。

效果
0 输出非常相似
25 轻微变化
50 中等多样性
75 高度多样性
100 最大不可预测性

何时使用 chaos: - 探索阶段--chaos 50-75 查看多样化的诠释 - 最终渲染--chaos 0-25 获得一致的结果 - 寻找方向:前期使用高 chaos,优化时降低

Weird(–weird 0-3000)

引入非常规、出人意料的美学效果。默认值:0。

范围 效果
0 标准美学
100-500 轻微怪异
500-1000 明显的奇异感
1000-2000 非常不寻常
2000-3000 最大怪异度

何时使用 weird: - 超现实或梦幻般的图像 - 突破普通 AI 美学 - 概念艺术探索 - 当”正常”感觉太过可预测时

组合使用 Chaos 和 Weird

--chaos 50 --weird 500   # Varied outputs, each slightly quirky
--chaos 100 --weird 0    # Wild variations, normal aesthetic
--chaos 25 --weird 2000  # Similar outputs, all very weird

专家提示: 高 weird 值可以产生真正不寻常的图像,但结果不稳定。用于探索,然后在最终渲染时降低数值。


Experimental Aesthetics(实验性美学)

--exp 参数增加细节增强、动态效果和色调映射效果。范围:0-100。默认值:0。

效果级别

效果 备注
0 关闭(默认) 标准渲染
5 轻微增强 可安全与其他参数组合
10 明显的细节提升 良好的起点
25 强烈效果 混合使用时的建议最大值
50 非常强烈 可能降低提示词准确度
100 最大值 可能覆盖 –stylize 和 –p

–exp 的作用

  • 更丰富的纹理和表面细节
  • 更具动感、冲击力的构图
  • 类似 HDR 的色调映射外观
  • 增强视觉吸引力

推荐组合

--exp 10 --s 200           # Enhanced detail, balanced style
--exp 25 --s 100           # Strong exp, controlled stylize
--exp 5 --style raw        # Subtle boost for photorealism

警告:参数冲突

当值较高时(超过 25-50),--exp 可能会: - 覆盖 --stylize 设置 - 覆盖个性化设置(--p) - 降低图像多样性

专家提示: 大多数工作中将 --exp 保持在 10-25。更高的值用于特定的风格效果,而非一般的质量提升。


Omni Reference

--oref 参数将参考图像中的主体特征转移到您的生成结果中。这在 V7 中取代了 --cref

基本用法

/imagine A woman in a red dress at a gala --oref [image URL]

会转移的内容: - 面部和面部特征 - 体型和比例 - 服装和配饰 - 整体身份特征

权重控制(–ow)

--ow 0-1000    # Omni weight (default 100)
权重 效果
0-30 松散的灵感,允许风格变化
30-60 中等影响
60-100 强烈相似度(默认区间)
100-300 非常接近的匹配
300-1000 最大保真度

最佳实践

参考图像质量很重要: - 高分辨率、主体清晰 - 正面照片对面部效果最好 - 参考图中光线一致 - 背景干扰最小化

调整权重以改变风格:

# Photo to anime conversion - lower weight
--oref [photo URL] --ow 40 --niji 7

# Maintaining strict likeness
--oref [photo URL] --ow 200 --v 7

与 style reference 结合使用:

# Subject from one image, style from another
--oref [subject URL] --sref [style URL] --ow 100 --sw 150

Style Reference

--sref 参数从参考图像转移美学特质。

基本用法

/imagine A mountain landscape at sunset --sref [style image URL]

会转移的内容: - 配色方案 - 光线风格 - 艺术技法 - 整体氛围/情绪 - 构图倾向

权重控制(–sw)

--sw 0-1000    # Style weight (default 100)
权重 效果
0-50 轻微影响
50-150 平衡转移
150-300 强烈风格匹配
300-1000 风格主导

多个 Style Reference

您可以组合多张风格图像:

--sref [url1] [url2]

风格会融合在一起。用于创造独特的美学组合。

最佳实践

最适合: - 独特、一致的风格 - 清晰的美学特征 - 具有强烈视觉识别度的图像

效果较差: - 非常普通的照片 - 混合或不清晰的风格 - “风格”不明显的图像

专家提示: Niji 7 的 --sref 性能最佳。如果风格转移很关键,即使是非动漫内容也可以考虑使用 Niji 7。

使用旧版 Style Reference 代码

如果您有 V6 时代的 --sref 代码,它们无法直接在 V7 中使用。添加 --sv 4 来使用旧版风格代码:

/imagine A mountain landscape --sref 123456789 --sv 4
# --sv 4 tells V7 to interpret the code using V6 style system

注意: 虽然这保持了向后兼容性,但建议在 V7 中重新生成 style reference 以获得更好的新模型效果。


Image Weight

--iw 参数控制参考图像对生成结果的影响程度。

基本用法

/imagine [prompt] [image URL] --iw 1.5

权重范围

范围:0-2(默认值 1)

权重 效果
0-0.5 提示词主导
0.5-1 平衡
1-1.5 图像主导
1.5-2 强烈的图像影响

使用场景

低权重(0-0.5): 将图像作为松散的灵感,让提示词主导

平衡(0.5-1): 提示词和图像的影响相当

高权重(1.5-2): 基于图像创建紧密相关的变体


Moodboards(自定义风格配置文件)

Moodboards 允许您通过对图像评分来创建个性化的风格配置文件。不同于使用单张 --sref 图像,您可以从多个示例中构建稳定的美学偏好。7

Moodboards 的工作原理

  1. 在网页界面中创建 moodboard
  2. 上传并评分图像(喜欢/不喜欢)来训练您的风格
  3. 使用 --p 应用您的默认 moodboard
  4. 使用 --p [mID] 应用特定的 moodboard

构建稳定的配置文件

评分数量 稳定性
10-20 初步方向显现
20-40 风格趋于一致
40+ 稳定、可靠的配置文件

专家提示: 至少评分 40 张图像以获得稳定的 moodboard。同时包含喜欢和不喜欢的评价——不喜欢的评价帮助 Midjourney 理解需要避免什么。

使用 Moodboards

/imagine A forest path at dawn --p
# Uses your default moodboard

/imagine A forest path at dawn --p abc123
# Uses specific moodboard with ID abc123

Moodboards 与 Style Reference 的对比

方法 最适用于
--sref 从单张图像获取一次性风格
--p(Moodboard) 跨项目保持一致的个人美学

将 Moodboards 与 –sref 混合使用

您可以将两者结合以获得细致的控制:

/imagine A portrait --p --sref [url] --sw 50
# Your moodboard aesthetic + subtle style reference influence

Draft Mode

Draft mode 以 10 倍速度生成图像,GPU 消耗减半。对于探索阶段至关重要。

启用 Draft Mode

/imagine [prompt] --draft

或在网页界面设置中切换。

Draft 与 Full 对比

方面 Draft Full
速度 约快 10 倍 标准
GPU 消耗 50% 100%
细节 降低 完整
最适用于 探索 最终输出

Draft 工作流程

1. Draft Mode Exploration (--draft)
   ├── Test 5-10 variations quickly
   ├── Identify promising directions
   └── Note effective parameters

2. Full Render Refinement
   ├── Remove --draft flag
   ├── Apply learned parameters
   └── Fine-tune with --seed

专家提示: 始终从 Draft mode 开始。成本节省会累积起来,您将探索更多选项。只有当找到值得投入的方向时才切换到 full render。


Image-to-Video 基础

Midjourney 的 V1 Video Model 于 2025 年 6 月 19 日发布,实现了图像到视频的动画化。

工作原理

  1. 选择任意图像(Midjourney 生成的或上传的)
  2. 点击”Animate”按钮
  3. 选择选项(Auto、Manual、Loop)
  4. 生成 5 秒视频片段

动态参数

--motion low    # Still scenes, slow motion, subtle movement (default)
--motion high   # Big camera motions, larger character movements
--raw           # Reduces creative flair, more prompt control

动态对比

设置 效果 最适用于
Low 微妙、电影感的运动 肖像、静物、氛围
High 动态、充满活力的运动 动作、风景、人群

警告: High motion 可能产生不真实或有瑕疵的运动。从 low 开始,仅在需要时增加。

费用和订阅计划

  • 视频任务的费用约为图像任务的 8 倍
  • 每个任务产生四个 5 秒视频
  • 仅在网页界面可用(不支持 Discord)
计划 Fast Mode Video Relax Mode Video
Basic
Standard
Pro
Mega

HD Video Mode

HD Video mode(2025 年 8 月发布)提供 4 倍更清晰的分辨率——像素密度是原来的四倍,显著提升视频质量。8

如何使用 HD Video: 1. 首先生成标准视频 2. 在已完成的视频上点击 HD 选项 3. 等待高分辨率渲染

HD Video 费用: - 费用约为标准视频的 3.2 倍 - 仅限 Pro 和 Mega 计划 - 需要先有标准视频(无法直接生成 HD)

模式 分辨率 相对费用
Standard(SD) 基础 1x
High Definition(HD) 4 倍像素 约 3.2x

何时使用 HD: - 最终交付素材 - 大型显示器或投影 - 专业/商业工作 - 当运动中的细节很重要时

专家提示: 始终先在 SD 中测试。HD 耗时更长、成本更高——只升级您最好的片段。


延长和循环

延长视频

您可以将任何视频额外延长 4 秒,最多延长 4 次(最长 21 秒)。

延长选项: - Auto:自动继续视频 - Manual:在延长前调整提示词

延长的最佳实践: - 在开始前规划您的叙事弧线 - 前 5 秒应该建立场景 - 每次延长都应有目的 - 注意节奏——21 秒比您想象的要长

创建循环

Loop 选项创建首尾帧匹配的无缝循环视频。

Select image → Click "Loop" → Generate

最适用于: - 背景动画 - 社交媒体内容 - 环境视觉效果 - 动态静物照片

获得更好循环效果的技巧: - 简单、可重复的运动效果最好 - 避免复杂的镜头运动 - 大气元素(云、水、火)自然循环效果好


Video 最佳实践

何时使用 Video

适合做成视频的素材: - 氛围场景(雾、雨、火) - 微妙的运动(头发、织物、水) - 带有环境运动的风景 - 运动较少的肖像

不太适合做成视频的素材: - 复杂的动作场景 - 多角色场景 - 精确的编排 - 技术精确度要求高的内容

针对视频优化

在动画化之前: 1. 首先生成完美的静态图像 2. 考虑元素可能如何运动 3. 避免复杂、相互关联的主体 4. 简单的构图动画效果更好

提示词调整:

# Good for video
Lone figure standing on cliff edge, wind blowing cape, dramatic clouds

# Less ideal for video
Group of dancers in synchronized formation, precise movements

成本管理

以图像成本的 8 倍计算,视频费用累积很快:

高性价比的工作流程: 1. 在 Draft mode 中探索(图像) 2. 找到完美的构图 3. 生成最终的高质量静态图像 4. 仅对最佳版本进行动画化 5. 仅在必要时延长


电影级真实感

这是获得照片级真实感和电影效果的最有效模式。

电影模板

[Shot type] by [Director], [subject physical description],
[action/pose], [costume/styling], [setting details],
captured with [Camera Body] using [Lens], [lighting description],
[mood/atmosphere summary]
--ar [ratio] --s [value] --p --no anime, cartoon, illustration, painting

导演风格

导演 视觉风格 最适合
Ridley Scott 氛围感、质感、情绪化 科幻、年代剧、特写
Denis Villeneuve 史诗规模、荒凉、几何感 风景、广角镜头
David Fincher 阴暗、精确、不安 惊悚片、情绪肖像
Roger Deakins 剪影、自然光、诗意 任何以光线为重点的镜头
Alfonso Cuarón 沉浸感、亲密、跟踪 角色时刻、紧张感
Wes Anderson 对称、柔和色调、奇趣 风格化、居中构图
Christopher Nolan IMAX规模、实景、紧张 动作、建筑
Terrence Malick 黄金时刻、空灵、自然 风景、沉思

摄影机参考

摄影机 美学特点 最适合
RED Komodo 现代数字电影 特写、叙事
ARRI ALEXA 胶片感、色彩丰富 所有电影拍摄
ARRI Alexa Mini 与ALEXA相同,体积更小 纪录片、手持
ARRI ALEXA 65 大画幅、史诗感 风景、IMAX感
RED V-Raptor 8K、锐利、动态 动作、高细节
Sony Venice 全画幅、多功能 低光、变形镜头
Hasselblad 中画幅、奢华 人像、时尚
Leica M 旁轴、经典 街拍、纪录

镜头搭配

焦距 效果 最适合
24mm f/1.4 广角、环境感 风景、建立镜头
35mm f/2.0 自然、多功能 纪录片、街拍
50mm f/1.4 经典、平衡 通用
85mm f/1.8 人像、浅景深 特写、人像
105mm f/2.0 压缩、亲密 头像
135mm f/2.0 最大压缩 紧凑人像

完整电影示例

特写人像:

Dramatic close-up portrait by Ridley Scott, young woman with pale skin
and auburn hair, intense green eyes staring directly at camera, subtle
freckles across nose, wearing dark wool coat, rain falling around her
face, captured with RED Komodo using 85mm f/1.8 lens, cold blue-silver
lighting with warm practical rim light, melancholic determined atmosphere
--ar 4:5 --s 150 --p --no anime, cartoon, illustration, painting

广角电影:

Epic wide shot by Denis Villeneuve, lone figure in orange survival suit
walking across endless salt flats, geometric patterns in dried earth,
massive dust storm approaching on horizon, captured with ARRI ALEXA 65
using 24mm f/2.0 lens, harsh afternoon sun creating stark shadows,
desolate apocalyptic atmosphere
--ar 21:9 --s 200 --p --no anime, cartoon, illustration, painting

关键提示: 切勿使用演员姓名。用外貌特征描述人物。使用”年轻女性,皮肤白皙,红褐色头发”而不是”Emma Stone”。演员姓名会产生恐怖谷效应。


人像摄影

布光模式

模式 效果 设置
伦勃朗光 戏剧性、古典 主光45°侧面,在眼下形成三角形
蝴蝶光 魅力、修饰 主光在上方偏前
分割光 戏剧性、神秘 纯侧面光
轮廓光/边缘光 分离、深度 从后方打光
环形光 柔和阴影 比伦勃朗光角度略小

人像模板

[Subject description], [expression/emotion], [pose],
[lighting pattern] lighting, shallow depth of field,
[background description], shot on [camera] with [lens]
--ar 4:5 --s 100 --v 7

人像示例

环境人像:

Middle-aged craftsman with salt-and-pepper beard, focused expression,
hands working on leather saddle, Rembrandt lighting from workshop window,
shallow depth of field, blurred tool-filled background, shot on
Hasselblad with 80mm f/1.9, documentary authenticity
--ar 4:5 --s 75 --style raw --v 7

棚拍人像:

Professional woman in her 30s, confident subtle smile, shoulders
turned slightly, butterfly lighting with soft fill, pure white
seamless background, shot on Phase One with 110mm f/2.8, clean
commercial aesthetic
--ar 4:5 --s 50 --v 7

产品摄影

产品模板

[Product] on [surface/platform], [background style],
[lighting setup], commercial photography, high detail,
[brand aesthetic description]
--ar 1:1 --s 50 --v 7 --style raw

台面与背景选择

台面: - 抛光大理石(奢华感) - 原始混凝土(工业感) - 天然木材(有机感) - 拉丝金属(科技感) - 彩色亚克力(现代感)

背景: - 渐变(平滑过渡) - 无缝(纯色) - 场景化(使用环境) - 抽象(艺术感)

产品示例

奢华化妆品:

Minimalist perfume bottle with gold cap on polished black marble surface,
gradient background from deep purple to black, dramatic rim lighting with
soft front fill, commercial photography, high detail, premium luxury
aesthetic, subtle reflections on marble
--ar 1:1 --s 25 --v 7 --style raw

科技产品:

Wireless earbuds case open showing earbuds inside, floating on
pure white seamless background, soft even lighting from all sides,
commercial product photography, high detail, clean Apple-style
minimalism, subtle shadow beneath
--ar 1:1 --s 50 --v 7 --style raw

奇幻与科幻

奇幻模板

[Character/scene description], [fantasy world details],
[magical elements], [lighting style],
[art style: painterly | concept art | illustration],
[artist influence if applicable]
--ar 16:9 --s 500 --weird 100 --v 7

奇幻示例

史诗奇幻:

Ancient elven queen seated on crystalline throne in vast cavern hall,
iridescent robes flowing with captured starlight, bioluminescent
flowers floating around her, massive glowing runes carved into
obsidian walls, ethereal volumetric lighting, painterly fantasy
illustration influenced by Craig Mullins and Alphonse Mucha
--ar 16:9 --s 600 --weird 150 --v 7

黑暗奇幻:

Battle-scarred knight in tarnished armor standing in ruined cathedral,
sword planted in cracked stone floor, pale moonlight streaming through
shattered rose window, crows circling above, mist swirling at feet,
dark atmospheric concept art, Beksinski and Zdzisław influence
--ar 16:9 --s 400 --weird 200 --v 7

科幻模板

[Subject/scene], [technology details], [environment],
[lighting: neon | holographic | industrial | sterile],
[aesthetic: cyberpunk | hard sci-fi | retro-futurism],
[mood description]
--ar 21:9 --s 300 --v 7

科幻示例

赛博朋克:

Solo mercenary in worn tactical gear navigating rain-soaked neon alley,
holographic advertisements flickering overhead, steam rising from
street grates, distant megastructures visible through smog, cyan and
magenta neon reflections on wet pavement, Blade Runner cyberpunk
aesthetic, oppressive urban atmosphere
--ar 21:9 --s 350 --v 7

硬科幻:

Interior of generation ship agricultural bay, massive cylindrical
space with terraced farms curving overhead, artificial sun strip
running along central axis, workers in utilitarian jumpsuits tending
crops, visible structural engineering, hard science fiction aesthetic,
The Expanse influence, functional yet beautiful
--ar 21:9 --s 250 --v 7

使用 Niji 7 创作动漫

Niji 7 特性

Niji 7 生成更干净、更扁平的画面,线条也有所改进。它对提示词的解读比之前版本更加直白。

Niji 7 模板

[Character description], [pose/action], [expression],
[setting/background], [specific style notes],
[color palette]
--niji 7 --ar [ratio]

Niji 7 示例

动作场景:

Young mage with flowing crimson hair and determined golden eyes,
casting powerful fire spell with both hands raised, intense focused
expression, ancient library crumbling around her, debris floating
in magical energy, dynamic diagonal composition, warm orange and
red color palette with cool blue shadows
--niji 7 --ar 3:4

角色肖像:

Elegant noblewoman with silver hair in elaborate updo, wearing dark
blue Victorian-inspired gown with gold embroidery, subtle knowing
smile, half-body portrait, ornate palace balcony background with
moonlit garden visible, soft romantic atmosphere, detailed lace
and fabric textures
--niji 7 --ar 4:5

使用 Niji 7 进行风格迁移

Niji 7 的 --sref 效果最佳:

[Your prompt] --niji 7 --sref [style image URL] --sw 150

--sw 150 开始,然后调整: - 较低(50-100)表示轻微影响 - 较高(200-300)表示强烈的风格匹配

从 Niji 6 迁移

Niji 6 写法:

anime girl, beautiful, detailed eyes, colorful --niji 6 --style expressive

Niji 7 写法:

Young woman with vibrant teal hair and large expressive amber eyes,
wearing casual summer dress, cheerful smile, urban cafe background,
afternoon sunlight, contemporary anime style
--niji 7

主要变化: - 写完整的描述,而不是关键词列表 - 更直白、更具体 - 风格预设不存在——描述您想要的效果 - 使用 --sref 保持风格一致


建筑

建筑模板

[Building/space type], [architectural style],
[time of day/lighting], [weather/atmosphere],
[perspective: eye-level | aerial | interior | detail],
architectural photography, clean lines
--ar 16:9 --s 150 --v 7 --style raw

建筑风格

风格 特点 关键词
粗野主义 清水混凝土、厚重、几何 裸露混凝土、巨石感
极简主义 干净线条、白色、简洁 留白、纯粹形态
装饰艺术 华丽、几何、奢华 金色点缀、太阳放射图案
哥特式 尖拱、垂直、戏剧性 飞扶壁、玫瑰窗
日式 木材、纸、与自然融合 障子门、缘侧、禅意
参数化 流动、计算生成、有机 Zaha Hadid、算法曲线

建筑示例

粗野主义:

Brutalist concrete museum interior with dramatic skylights, afternoon
sun creating strong geometric shadows on exposed concrete walls, vast
empty gallery space with single sculpture, eye-level perspective
showing depth and scale, architectural photography by Hélène Binet
--ar 16:9 --s 100 --v 7 --style raw

参数化:

Futuristic parametric architecture concert hall exterior, flowing white
curves inspired by Zaha Hadid, blue hour lighting with building interior
warmly illuminated, long exposure car light trails on surrounding roads,
wide establishing shot, architectural photography
--ar 16:9 --s 150 --v 7

抽象与实验

抽象模板

[Concept/emotion to express], [visual elements],
[color palette], [texture/material qualities],
[movement/energy description], abstract composition
--s 750 --weird 500 --chaos 50 --v 7

抽象示例

情感抽象:

The feeling of nostalgia dissolving into hope, fragmented memories
reforming as light, soft blues transitioning to warm amber, watercolor
textures bleeding into geometric shapes, gentle upward movement,
abstract emotional landscape
--ar 1:1 --s 800 --weird 750 --chaos 40 --v 7

质感抽象:

Microscopic landscape of oxidized copper and crystalline salt
formations, verdigris greens and rust oranges, extreme macro detail,
mineral textures catching diffused light, abstract geological patterns
--ar 1:1 --s 500 --weird 300 --v 7

突破边界

创作真正实验性的作品: - 将 --weird 推高到1000以上 - 结合 --chaos 75+ - 使用抽象的情感语言 - 引用非传统艺术家

The architecture of forgotten dreams, impossible geometries folding
through chromatic space, Escher meets Kandinsky, synesthetic color
relationships, visual music
--ar 1:1 --s 1000 --weird 2000 --chaos 75 --v 7

词语权重

使用 :: 语法控制特定元素的强调程度。

语法

word::2      # 双倍强调
word::1.5    # 增加50%强调
word::1      # 正常(默认)
word::0.5   # 减半强调
word::-1     # 负值(避免)

示例

ethereal::2 portrait of a warrior, dramatic lighting::1.5, mist::0.5

此提示词: - 强烈强调空灵感 - 适度强调戏剧性光线 - 减少雾气的存在感

何时使用权重

适用于: - 微调元素平衡 - 抑制不想要的解读 - 强调关键特征

避免在以下情况使用: - 初稿探索 - 无需权重即可工作的简单提示词 - 不确定要强调什么时

专家提示: 词语权重是精修工具,不是第一步。先让基础提示词生效,再使用权重进行微调。


负面提示词

--no 参数用于排除生成中的元素。

基本用法

/imagine Beautiful landscape --no people, text, watermark

有效的负面词

目标 负面提示词
照片级真实感 --no anime, cartoon, illustration, painting, drawing
干净画面 --no text, watermark, signature, frame, border
自然外观 --no oversaturated, HDR, artificial
严肃基调 --no cute, chibi, kawaii
简洁构图 --no busy, cluttered, crowded

最佳实践

应该: - 使用具体、清晰的术语 - 针对输出中的实际问题 - 保持列表精简(3-5项)

不应该: - 创建包含所有不想要内容的详尽列表 - 使用模糊术语(”bad”、”ugly”) - 否定本来就不太可能出现的内容

电影级负面词

用于获得一致的照片级真实效果:

--no anime, cartoon, illustration, painting, drawing, sketch, CGI, 3D render

种子控制

种子可实现可重复性和可控变化。

基本用法

/imagine [prompt] --seed 12345

相同提示词 + 相同种子 = 非常相似的输出。

查找种子

生成后,点击图片信息查看使用的种子。记录下来以便复现。

种子工作流

变体工作流: 1. 使用随机种子生成 2. 找到满意的结果 3. 记录种子 4. 使用相同种子进行小幅提示词修改 5. 比较变化

批量一致性:

Scene in morning light --seed 54321
Scene in afternoon light --seed 54321
Scene in evening light --seed 54321

在相关提示词中使用相同种子可以创建更一致的构图。


多主体构图

包含多个主体的复杂场景需要精心构建提示词。

层次结构方法

按重要性顺序列出主体:

[Primary subject], [secondary subject], [tertiary subject],
[their relationship/interaction], [setting], [style]

空间语言

使用清晰的空间描述词:

In the foreground, [subject A]
In the middle ground, [subject B]
In the background, [subject C]

或者:

On the left, [subject A]
In the center, [subject B]
On the right, [subject C]

示例

Elderly grandmother and young granddaughter baking together in
sunlit kitchen, grandmother guiding child's hands rolling dough,
flour dusting the wooden counter, warm afternoon light from window,
vintage kitchen appliances in background, intimate family moment,
documentary photography style
--ar 3:2 --s 100 --v 7

文字渲染

V7 大幅改进了图像中的文字渲染能力。

最佳实践

保持文字简短: - 单个单词效果最好 - 短语(2-4个单词)通常可行 - 长句子经常失败

使用引号:

Neon sign reading "OPEN" in storefront window

指定字体风格:

Vintage poster with "JAZZ NIGHT" in art deco typography

文字示例

标牌:

Rainy city street at night, neon diner sign reading "EAT" glowing
red through rain-streaked window, film noir atmosphere
--ar 16:9 --s 150 --v 7

字体设计:

Minimalist book cover design, large serif typography reading "THE END"
centered on cream paper texture, literary fiction aesthetic
--ar 2:3 --s 100 --v 7

局限性

文字渲染在以下情况仍有困难: - 长句子 - 复杂字体 - 繁忙图像中的小文字 - 多个文字元素

专家提示: 如果文字至关重要,可以先生成不含文字的图像,然后在后期处理中添加文字。


迭代循环

Midjourney 的专业工作流程:

第一阶段:探索(Draft 模式)

1. Enable Draft mode (--draft)
2. Write basic prompt with core concept
3. Generate 4-8 batches quickly
4. Identify promising directions
5. Note what works/doesn't

目标: 找到方向,而非追求完美。速度很重要。

第二阶段:优化

1. Disable Draft mode
2. Take best concepts from Phase 1
3. Add specific details
4. Adjust parameters (--s, --chaos, etc.)
5. Generate in Fast mode
6. Compare variations

目标: 缩小范围至2-3个优秀选项。

第三阶段:完善

1. Select best candidate
2. Note the seed
3. Make micro-adjustments to prompt
4. Use same seed for consistency
5. Upscale final choice

目标: 打磨最终作品。

时间分配

阶段 时间 模式
探索 60% Draft
优化 30% Fast
完善 10% Fast

大多数用户会颠倒这个比例,在最初的尝试上花费过多时间进行完善。应该多探索,少完善。


成本管理

了解 GPU 时间

  • Fast 模式:使用订阅中的 GPU 小时数
  • Relax 模式:无限制但需排队(Standard 及以上计划)
  • Draft 模式:GPU 成本为常规的一半
  • 视频:成本约为图像的8倍

订阅价值

计划 Fast 小时数 Relax Video Relax 每 GPU 小时价格
Basic 3.3小时 $3.03
Standard 15小时 $2.00
Pro 30小时 $2.00
Mega 60小时 $2.00

洞察: Standard 及以上计划每 GPU 小时的性价比更高,而且还有无限的 Relax 模式。

节省成本的策略

  1. 在 Draft 模式下探索 - 成本减半,速度快10倍
  2. 使用 Relax 进行探索 - 免费(Standard 及以上)
  3. 将 Fast 留给最终作品 - 仅在质量重要时使用
  4. 批量处理相似提示词 - 比单独处理更高效
  5. 生成前先规划 - 先思考,再生成

估算用量

操作 大约 GPU 分钟数
4张图像(标准) 约1分钟
4张图像(draft) 约0.5分钟
Upscale 约0.5分钟
视频(4个5秒) 约8分钟

故障排除

常见问题

问题 原因 解决方法
面部模糊 --s 过低或风格冲突 使用 --style raw,增加细节描述
宽高比错误 默认为1:1 明确指定 --ar
过于艺术化 --s 过高 降至50-100
过于字面化 --s 过低 增至200+
输出不一致 混沌度低 使用 --seed 保持一致性
风格过强 --sw 过高 降低 --sw 权重
文字无法渲染 V7 限制 保持文字简短,使用引号
手部异常 AI 限制 裁剪或重新生成

参数冲突

避免组合使用: - --style raw + 高 --s(相互矛盾) - --v 7 + --niji(只能选一个) - 多个100%权重的强参考 - --exp 50+ + --stylize(exp 会压过) - --exp 50+ + --p(exp 会覆盖)

搭配效果好: - --oref + --sref 使用适中权重 - --chaos + --seed(多样但可重现) - --style raw + 低 --s(最大程度写实) - --exp 10-25 + --s 100-200(增强但可控)

当一切都不奏效时

  1. 简化 - 移除参数,缩短提示词
  2. 拆分 - 分别尝试主体和风格
  3. 寻找种子 - 生成多张,找到好的 seed,然后迭代
  4. 参考 - 使用 --sref 配合展示目标效果的图像
  5. 版本 - 尝试不同的模型版本

版本迁移

从 V6 迁移到 V7

旧版 V6 风格:

portrait, beautiful woman, dramatic lighting, 8k, detailed, masterpiece

新版 V7 风格:

A contemplative portrait of a woman in her 30s, Rembrandt lighting
casting gentle shadows across her face, medium format photography
aesthetic with shallow depth of field

主要变化

方面 V6 V7
提示词风格 关键词 自然语言
质量词 有帮助 基本被忽略
角色参考 --cref --oref
个性化 可选 默认启用
默认行为 风格化 更写实

需要停止的做法

  • 关键词堆砌(”beautiful, stunning, amazing”)
  • 质量修饰词(”8k, ultra detailed, masterpiece”)
  • 使用 --cref(现在是 --oref
  • 简短的逗号分隔提示词

需要开始的做法

  • 写完整的句子
  • 描述您看到的,而非您想要的
  • 具体说明光线、材质、氛围
  • 使用相机/镜头术语
  • 利用个性化功能(--p

参数速查表

MODELS
--v 7           Default, best overall (June 2025)
--niji 7        Anime/manga (Jan 2026, best coherence)
--niji 6        Anime/manga (legacy, has --style options)
--draft         Fast iteration, 10x faster, half cost

ASPECT
--ar 16:9       Widescreen
--ar 21:9       Cinematic ultrawide
--ar 4:5        Portrait (Instagram)
--ar 9:16       Vertical (Stories)
--ar 1:1        Square
--ar 3:2        Classic photo
--ar 2:3        Portrait print

STYLE
--s 0-100       Photorealistic
--s 100-300     Balanced
--s 300-1000    Artistic
--style raw     Minimal AI interpretation
--p             Apply personalization (V7 default)

EXPERIMENTAL
--exp 0-100     Enhanced detail (10-25 sweet spot)
--chaos 0-100   Output variety
--weird 0-3000  Unconventional aesthetics

REFERENCES
--oref [url]    Subject/character (V7)
--ow 0-1000     Omni weight (default 100)
--sref [url]    Style transfer
--sw 0-1000     Style weight (default 100)
--iw 0-2        Image weight (default 1)

VIDEO (Web only)
--motion low    Subtle movement (default)
--motion high   Dynamic movement
--raw           More prompt control

QUALITY
--q 1           Full quality (default)
--seed [num]    Reproducibility

NEGATIVE
--no [items]    Exclude elements

更新日志

日期 变更 来源
2026-01-20 添加 HD Video 模式章节(4倍分辨率,约3.2倍成本,仅限 Pro/Mega) 8
2026-01-17 添加 V8 开发状态、Moodboards 章节、用于传统 sref 代码的 --sv 4 网页扫描
2026-01-16 添加 V7.1 路线图信息,验证 Niji 7 内容 网页扫描
2026-01-13 创建指南,涵盖 V7、Niji 7、视频功能 多个来源
2026-01-09 Niji 7 发布,改进了连贯性 3
2025-06-19 V1 视频模型发布 4
2025-06-17 V7 成为默认模型 2
2025-04-30 V7 更新:--exp 参数、编辑器改进 5
2025-04-03 V7 发布 2

参考文献


  1. Midjourney Updates。官方更新日志和公告。 

  2. Midjourney Version Documentation。”Version 7 was released on April 3, 2025, and became the default model on June 17, 2025.” 

  3. Niji V7 Announcement。”Niji V7 is now live” - 2026年1月9日。 

  4. V1 Video Model。视频生成功能于2025年6月19日发布。 

  5. V7 Update, Editor, and –exp。2025年4月30日更新详情。 

  6. V8 Development Discussion。社区关于 V8 训练和 David Holz 问答中路线图细节的讨论。 

  7. Moodboards Feature。通过 Moodboards 和图像评分实现 Midjourney 个性化。 

  8. HD Video Mode。”HD Video mode delivers 4x sharper AI-generated clips… costs roughly 3.2 times more than SD.”2025年8月。