科技学习日记

投资大师实战里有一个很重的部分是"场景背景"。每一个章节都要还原一个具体的历史时刻：1973 年的奥马哈办公室、1988 年可口可乐的董事会、2003 年 SARS 阴影下的香港股市大堂……加起来差不多 60 个场景。这个量级靠人手画肯定是不可能的。但用扩散模型画又有个非常痛的问题：**怎么让它画的不是"AI 味十足的 stock photo"，而是有美学风格统一性的电影感插画？** ### 第一版：朴素 prompt 的下场最初我用最朴素的 prompt：`omaha office in 1973`。FLUX 给我画了一个明亮、干净、毫无年代感的现代办公室——有玻璃幕墙、白色 macbook、北欧风桌椅。完全不对。加细节：`1973 office, vintage, retro`。这次出来的是一个"复古风婚礼请柬"风格的图——粉色、玫瑰金、亮闪闪。AI 对"vintage"的理解被现代审美污染了。 ### 找到锚点：达里奥《Principles for Success》卡了几天后，我无意中又看了一遍达里奥那个 30 分钟的动画短片《Principles for Success》（2019）。我意识到这就是我想要的视觉风格： - **暖色调主导**：橙、棕、米黄、深红 - **平涂为主，但有戏剧性的明暗对比**：人物剪影或半剪影 - **构图有电影分镜感**：低角度、过肩、特写 - **细节克制**：脸部不画过细的眉眼，靠姿态和服装传达情绪 - **背景元素少而精**：办公室就一张桌、一盏灯、一摞文件，不要堆满杂物这套风格的要点是：**不是"还原真实"，是"还原真实给人留下的记忆感受"**。1973 年人们不会觉得自己活在"暖橙调"里——这是 50 年后我们用 kodachrome 老胶片回看那个年代时的视觉印象。 > Andrej Karpathy 在 "Don't fight your tools" 那个分享里讲过一句话：**"成功的产品都不是逆着工具的偏好做出来的，是顺着工具的偏好把它推到极致。"** 同样的道理对 AI 出图也适用——与其和 FLUX 死磕"画得真实"，不如顺着它擅长的"画一种印象"，把它推到一个有审美的方向。 ### v2 prompt 模板我最后稳定下来的 prompt 长这样： ``` A cinematic editorial illustration in 1970s kodachrome film tones. Warm orange and amber color palette, deep brown shadows, paper-yellow highlights. Inspired by the visual language of Ray Dalio's "Principles for Success" animated film and Saul Bass film posters of the 1960s-70s. Scene: A man in his 40s wearing a dark wool suit, sitting at a wooden desk in a small office. The desk has a pile of annual reports, a black rotary phone, and a brass lamp casting warm light. Floor-to-ceiling window behind shows a quiet small-town street at sunrise, distant bare trees of a Nebraska autumn. Style: Flat illustration with strong directional lighting, slightly textured brush strokes, no outlines around figures. Minimal background elements. Cinematic low-angle composition, depth of field. No facial details (face in 3/4 shadow). Editorial magazine quality. Avoid: Photo-realistic rendering, modern furniture, glass/chrome surfaces, colorful neon, overly saturated colors, anime style, cluttered backgrounds. ``` 这个 prompt 的关键设计有四点： **1. 风格锚点是名作而不是形容词** 我没用 `vintage / retro / classic` 这类形容词——它们的语义已经被滥用得稀烂。我直接说"Ray Dalio's Principles for Success animated film" 和 "Saul Bass film posters"。这两个都是 FLUX 训练数据里见过的具体作品，模型对它们的理解非常稳定。

**2. 色彩用色名而不是温度** `warm orange / amber / deep brown / paper-yellow` 这种具体色名比 `warm tones / vintage palette` 准确得多。FLUX 的色彩控制器对具体颜色更敏感。 **3. 构图用电影术语** `low-angle / depth of field / 3/4 shadow / cinematic composition` 这套词比 `good composition` 有效十倍——因为 FLUX 训练数据里大量电影截图都被这样标注过。 **4. Negative prompt 至关重要** `Avoid: Photo-realistic rendering, modern furniture...` 这一段消除掉 FLUX 默认的现代审美污染。特别是 `Avoid: glass/chrome surfaces` 是关键——FLUX 默认很喜欢画现代玻璃幕墙，必须明确禁掉。 ### 真名替换的安全词策略还有一个隐藏问题：如果我直接写 `Warren Buffett in his Omaha office`，OpenAI 和 Stability 会直接拦截——所有商业图像模型都把在世名人列入了内容审核黑名单。解决办法是把名字替换成纯特征描述。`Warren Buffett` → `a man in his 40s, white hair, wire-rimmed glasses, plain dark suit, holding a thick annual report`。这个原则同样适用于品牌（"Coca-Cola" → "a red soft drink can with classic typography"）和具体地点（"Berkshire Hathaway HQ" → "a small unmarked office building on a quiet street"）。 ### 一些没解决的难题做了 60 个场景后，FLUX 还是有几个我没攻克的痛点： **人物连贯性**。同一个人物在不同场景里五官会有微妙变化。即使我用 IP-Adapter 锁人脸，也只能勉强维持"看起来像同一类型人"，做不到"看起来是同一个人"。这个问题大概要等多模态模型再演进。 **手部细节**。1970s 办公室场景里经常需要一个手拿钢笔的特写镜头——FLUX 出来的手十次有八次是错的。我最后的妥协是"刻意让人物手部在阴影里"或者"用书本/文件遮住手"。 **透视一致性**。FLUX 在画"很多书架"或"很多年报"时，常会画出违反透视的伪深度。我最后改成"少而精"原则，每个场景最多 3-4 个主要物件。 > **AI 出图工具的本质，不是替代美术师，是让"懂美学"的非美术从业者也能做出有美学的产品。** 风格控制比技术细节更重要——找到一个清晰的美学锚点（达里奥短片），然后用工程化的 prompt 模板把它稳定推向那个方向，比无止境地追求"更细节"有用得多。

用 FLUX 还原 1970s 美国办公室：电影感插画的 prompt 工程