← 返回日记列表科技学习日记

用 FLUX 还原 1970s 美国办公室:电影感插画的 prompt 工程

9 分钟阅读
投资大师之路里有一个很重的部分是"场景背景"。每一个章节都要还原一个具体的历史时刻:1973 年的奥马哈办公室、1988 年可口可乐的董事会、2003 年 SARS 阴影下的香港股市大堂……加起来差不多 60 个场景。 这个量级靠人手画肯定是不可能的。但用扩散模型画又有个非常痛的问题:**怎么让它画的不是"AI 味十足的 stock photo",而是有美学风格统一性的电影感插画?** ### 第一版:朴素 prompt 的下场 最初我用最朴素的 prompt:`omaha office in 1973`。FLUX 给我画了一个明亮、干净、毫无年代感的现代办公室——有玻璃幕墙、白色 macbook、北欧风桌椅。完全不对。 加细节:`1973 office, vintage, retro`。这次出来的是一个"复古风婚礼请柬"风格的图——粉色、玫瑰金、亮闪闪。AI 对"vintage"的理解被现代审美污染了。 ### 找到锚点:达里奥《Principles for Success》 卡了几天后,我无意中又看了一遍达里奥那个 30 分钟的动画短片《Principles for Success》(2019)。我意识到这就是我想要的视觉风格: - **暖色调主导**:橙、棕、米黄、深红 - **平涂为主,但有戏剧性的明暗对比**:人物剪影或半剪影 - **构图有电影分镜感**:低角度、过肩、特写 - **细节克制**:脸部不画过细的眉眼,靠姿态和服装传达情绪 - **背景元素少而精**:办公室就一张桌、一盏灯、一摞文件,不要堆满杂物 这套风格的要点是:**不是"还原真实",是"还原真实给人留下的记忆感受"**。1973 年人们不会觉得自己活在"暖橙调"里——这是 50 年后我们用 kodachrome 老胶片回看那个年代时的视觉印象。 > Andrej Karpathy 在 "Don't fight your tools" 那个分享里讲过一句话:**"成功的产品都不是逆着工具的偏好做出来的,是顺着工具的偏好把它推到极致。"** 同样的道理对 AI 出图也适用——与其和 FLUX 死磕"画得真实",不如顺着它擅长的"画一种印象",把它推到一个有审美的方向。 ### v2 prompt 模板 我最后稳定下来的 prompt 长这样: ``` A cinematic editorial illustration in 1970s kodachrome film tones. Warm orange and amber color palette, deep brown shadows, paper-yellow highlights. Inspired by the visual language of Ray Dalio's "Principles for Success" animated film and Saul Bass film posters of the 1960s-70s. Scene: A man in his 40s wearing a dark wool suit, sitting at a wooden desk in a small office. The desk has a pile of annual reports, a black rotary phone, and a brass lamp casting warm light. Floor-to-ceiling window behind shows a quiet small-town street at sunrise, distant bare trees of a Nebraska autumn. Style: Flat illustration with strong directional lighting, slightly textured brush strokes, no outlines around figures. Minimal background elements. Cinematic low-angle composition, depth of field. No facial details (face in 3/4 shadow). Editorial magazine quality. Avoid: Photo-realistic rendering, modern furniture, glass/chrome surfaces, colorful neon, overly saturated colors, anime style, cluttered backgrounds. ``` 这个 prompt 的关键设计有四点: **1. 风格锚点是名作而不是形容词** 我没用 `vintage / retro / classic` 这类形容词——它们的语义已经被滥用得稀烂。我直接说"Ray Dalio's Principles for Success animated film" 和 "Saul Bass film posters"。这两个都是 FLUX 训练数据里见过的具体作品,模型对它们的理解非常稳定。
文章配图
**2. 色彩用色名而不是温度** `warm orange / amber / deep brown / paper-yellow` 这种具体色名比 `warm tones / vintage palette` 准确得多。FLUX 的色彩控制器对具体颜色更敏感。 **3. 构图用电影术语** `low-angle / depth of field / 3/4 shadow / cinematic composition` 这套词比 `good composition` 有效十倍——因为 FLUX 训练数据里大量电影截图都被这样标注过。 **4. Negative prompt 至关重要** `Avoid: Photo-realistic rendering, modern furniture...` 这一段消除掉 FLUX 默认的现代审美污染。特别是 `Avoid: glass/chrome surfaces` 是关键——FLUX 默认很喜欢画现代玻璃幕墙,必须明确禁掉。 ### 真名替换的安全词策略 还有一个隐藏问题:如果我直接写 `Warren Buffett in his Omaha office`,OpenAI 和 Stability 会直接拦截——所有商业图像模型都把在世名人列入了内容审核黑名单。 解决办法是把名字替换成纯特征描述。`Warren Buffett` → `a man in his 40s, white hair, wire-rimmed glasses, plain dark suit, holding a thick annual report`。这个原则同样适用于品牌("Coca-Cola" → "a red soft drink can with classic typography")和具体地点("Berkshire Hathaway HQ" → "a small unmarked office building on a quiet street")。 ### 一些没解决的难题 做了 60 个场景后,FLUX 还是有几个我没攻克的痛点: **人物连贯性**。同一个人物在不同场景里五官会有微妙变化。即使我用 IP-Adapter 锁人脸,也只能勉强维持"看起来像同一类型人",做不到"看起来是同一个人"。这个问题大概要等多模态模型再演进。 **手部细节**。1970s 办公室场景里经常需要一个手拿钢笔的特写镜头——FLUX 出来的手十次有八次是错的。我最后的妥协是"刻意让人物手部在阴影里"或者"用书本/文件遮住手"。 **透视一致性**。FLUX 在画"很多书架"或"很多年报"时,常会画出违反透视的伪深度。我最后改成"少而精"原则,每个场景最多 3-4 个主要物件。 > **AI 出图工具的本质,不是替代美术师,是让"懂美学"的非美术从业者也能做出有美学的产品。** 风格控制比技术细节更重要——找到一个清晰的美学锚点(达里奥短片),然后用工程化的 prompt 模板把它稳定推向那个方向,比无止境地追求"更细节"有用得多。