<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Flux on Fanssen Notes</title>
    <link>https://makismkuous-bot.github.io/tags/flux/</link>
    <description>Recent content in Flux on Fanssen Notes</description>
    <image>
      <title>Fanssen Notes</title>
      <url>https://makismkuous-bot.github.io/</url>
      <link>https://makismkuous-bot.github.io/</link>
    </image>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <lastBuildDate>Sat, 23 May 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://makismkuous-bot.github.io/tags/flux/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>LoRA 训练实战：用 Flux 生成稳定角色形象</title>
      <link>https://makismkuous-bot.github.io/posts/lora-training-guide/</link>
      <pubDate>Sat, 23 May 2026 00:00:00 +0000</pubDate>
      <guid>https://makismkuous-bot.github.io/posts/lora-training-guide/</guid>
      <description>&lt;h2 id=&#34;前言&#34;&gt;前言&lt;/h2&gt;
&lt;p&gt;大家好，我是Seb。AI 生图发展到今天，论单张质量已经相当能打了。但做内容的人都知道——一致性才是真正的难题。&lt;/p&gt;
&lt;p&gt;我之前做一个漫画系列，主角需要每张图都长一个样。结果呢？今天生成一张帅脸，明天改个 prompt 再跑，出来完全就是另一个人。尝试了几十次 prompt 微调，效果都很随机。后来决定用 LoRA 来解决这个问题。&lt;/p&gt;
&lt;p&gt;这篇文章把整个过程拆开来讲，从样本准备到训练参数，再到 API 调用的坑，希望能帮到有同样需求的同学。&lt;/p&gt;
&lt;h2 id=&#34;lora-是什么为什么用它&#34;&gt;LoRA 是什么，为什么用它&lt;/h2&gt;
&lt;p&gt;LoRA（Low-Rank Adaptation）最早是 NLP 领域的微调方法，后来被引入到图像生成模型里。它的核心思路很简单：用少量图片训练一个轻量级的权重矩阵，记录特定人物或风格的特征。出图的时候加载这个权重，AI 就知道&amp;quot;这个人的脸长这样&amp;quot;。&lt;/p&gt;
&lt;p&gt;相比全量微调，LoRA 的优势很明显：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;训练速度快&lt;/strong&gt;：在你自己的电脑上，用一张消费级显卡，跑一两个小时就能出结果&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;文件体积小&lt;/strong&gt;：一个 LoRA 文件通常几十 MB，存储和加载都很方便&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;即插即用&lt;/strong&gt;：不影响原模型的任何能力，加载就生效，不加载就不生效&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;可组合&lt;/strong&gt;：同一张图可以叠加多个 LoRA（比如一个人物 LoRA + 一个风格 LoRA）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;我选的是 Flux 模型 + Replicate 平台来训练和部署，流程相对标准化，下面一步步说。&lt;/p&gt;
&lt;h2 id=&#34;第一步样本准备决定成败&#34;&gt;第一步：样本准备（决定成败）&lt;/h2&gt;
&lt;p&gt;这句话我说在前面——&lt;strong&gt;训练 LoRA 的上限 80% 由样本质量决定&lt;/strong&gt;。模型再强，数据烂也白搭。&lt;/p&gt;
&lt;h3 id=&#34;选什么样的照片&#34;&gt;选什么样的照片&lt;/h3&gt;
&lt;p&gt;第一次训练的时候，我 Google 了 30 多张照片，什么角度都有就扔进去了。结果出来的 LoRA 效果非常糟糕——五官位置是对的，但整体感觉就是&amp;quot;像又不像&amp;quot;，AI 把不同角度的特征混在一起，生成了一个&amp;quot;平均脸&amp;quot;。&lt;/p&gt;
&lt;p&gt;第二次我只用了 12 张，但每张都严格筛选。我总结的筛选标准如下：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;标准&lt;/th&gt;
          &lt;th&gt;说明&lt;/th&gt;
          &lt;th&gt;为什么重要&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;正面为主&lt;/td&gt;
          &lt;td&gt;正脸或微侧（30°以内）&lt;/td&gt;
          &lt;td&gt;特征信息最多，模型最容易学习&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;光线均匀&lt;/td&gt;
          &lt;td&gt;避免阴阳脸、强背光&lt;/td&gt;
          &lt;td&gt;阴影会干扰五官特征的提取&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;画面占比大&lt;/td&gt;
          &lt;td&gt;人脸占画面的 60% 以上&lt;/td&gt;
          &lt;td&gt;像素级信息越丰富，特征越精确&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;表情自然&lt;/td&gt;
          &lt;td&gt;微笑或中性表情&lt;/td&gt;
          &lt;td&gt;夸张表情会把肌肉变形当成特征学进去&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;清晰度够&lt;/td&gt;
          &lt;td&gt;不低于 1024×1024&lt;/td&gt;
          &lt;td&gt;模糊照片只会让模型学到噪点&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;背景简单&lt;/td&gt;
          &lt;td&gt;纯色或虚化背景&lt;/td&gt;
          &lt;td&gt;避免模型把背景元素当成特征&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id=&#34;样本数量多少合适&#34;&gt;样本数量多少合适&lt;/h3&gt;
&lt;p&gt;我的经验：&lt;strong&gt;12-15 张高质量 &amp;gt; 50 张杂图&lt;/strong&gt;。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
