Emochi AI 内容工厂

三条流水线 · 四大基础设施 · 一个闭环飞轮

核心理念：人围着机器打螺丝 — AI 驱动生产，人做校准和决策

共享基础设施层三条线的地基 — 不建这个三条线都是空转 · 每个模块下方标注了如何服务三条线

🧠 内容情报系统 — 整个工厂的大脑

功能：从数据中提取「什么是好内容」的结构化认知

数据采集

内部数据 — bot留存率、轮次流失点、复玩率、付费转化、用户自写内容、重新生成频率

竞品数据 — 酒馆热门卡、C.AI趋势、Discord社区需求

外部内容 — 网文热门结构、影视叙事模式、游戏剧情设计

AI 分析

结构化标注 — 拆解每个bot的人设、节奏、钩子、反差

聚类分析 — 高留存 vs 低留存的结构差异

需求缺口 — 供给 vs 需求的错配

+人工校准 — 区分信号和噪声

知识沉淀

成功模式库 — 按品类组织的结构化模式描述

失败模式库 — 质量红线定义

题材机会图谱 — 需求 × 供给 × 可行性

形态假设清单 — 新形态的结构化评估卡

节奏：内部分析每周 · 竞品每3天 · 模式库月度深度+周度增量 · 生态分析每月 | 人的角色：审核AI分析结果，每周产出认知更新报告

→ 产量线：提供成功模式库、竞品热门bot数据、用户偏好分布

→ 题材线：提供竞品非言情热度数据、用户题材需求信号

→ 形态线：提供竞品复杂形态bot数据、社区形态需求

→

📊 质量评估系统 — Bot 评分器升级版

多维度结构化评分 · 三条线共用 · 权重从留存数据学习

结构维度（故事种子质量）

钩子密度 — 前N轮的情感/好奇信息点数量

角色辨识度 — 遮名后AI盲测能否区分

人设反差度 — ≥1个有张力的反差要素

设定自洽度 — 人设/世界观/剧情无矛盾

可玩深度 — AI跑30轮检测重复率

开场质量 — 前3轮的情感张力/悬念/代入感

节奏维度（演绎体验）

节奏匹配度 — 张力曲线 vs 品类爽感模板

推进自然度 — 自然发展 vs 强制事件

旁白质量 — 文学质量与氛围营造

安全维度（底线质量）

内容安全 · 角色一致性 · 低质AI味检测

评分流程

① 输入 — 完整故事种子（人设+设定+prompt）

② 模拟测试 — AI扮演用户跑10/20/30轮

③ 结构化打分 — 评估模型每维1-5分+诊断

④ 综合评级 — 加权汇总→S/A/B/C/D

S模式库

A优质

B可上线

C需改

D负面

校准要求

每月人工标注校准，关键维度一致性 ≥80%

不同线可有不同及格标准（形态线可放宽）

新品类需校准专属维度权重

→ 产量线：全维度自动质检（B级以上通过）

→ 题材线：基础质检 + 题材纯度检测

→ 形态线：仅安全维度底线检测（新形态无法用标准权重）

📚 知识库体系 — 生产经验的结构化沉淀

品类宝典

成功模式结构描述

爽感结构模板

必备要素清单 + 变异空间

质量标准（评分器参数）

经验之书

Bot创作 / Prompt技巧

对话标记 / WM规范

常见坑和解决方案

负面样本库

人设过薄 / 逻辑矛盾 / 节奏失控

安全违规 / AI味过重

调性库

按题材的文风 / 情感基调

用词风格 / 旁白比例 / 对话密度

故事库 + IP资料库

核心故事母题（按题材分类）

IP角色深层情报

模板库

可参数化的人设/开场/prompt/剧情骨架模板

更新 ← 验证循环自动提议+人审核 · D级自动收集 · 产量线沉淀 · IP每日

→ 产量线：品类宝典指导蓝图生成、模板库提供prompt模板

← 题材线：新题材的品类宝典条目、调性库条目

← 形态线：新形态的品类宝典条目、prompt模板、负面样本

→

⚡ 模型管理 — 付费探索 / 免费生产

💎 付费模型（探索层）

形态线所有实验

题材线初始验证

情报系统深度分析

质量评估评分模型

新模板首次生成调试

成本定位：知识获取成本

🆓 免费模型（生产层）

已验证品类的用户端演绎

产量线的批量bot生成

前提：prompt充分约束

局限：基于言情训练，非言情可能不足

付费 → 免费迁移流程

付费验证通过 → 能力分析 → Prompt强化 → 免费模型测试 → 达标→生产

不达标 → 后训练数据积累（付费样本 + 成功对话 + 质量标注）

→ 产量线：免费模型做批量生成、付费模型做评分

→ 题材线：付费模型做验证、免费模型迁移测试

→ 形态线：全程付费模型（新形态prompt太复杂）

产量线 Volume Pipeline按周循环 · 冷启动/稳态双模式 · 三条子线并行 · 数据反馈驱动迭代

V1 · 周规划 — 覆盖矩阵填空格每周一上午

输入：run_pipeline.py 产出（周报 + 覆盖矩阵 + dashboard） | 输出：本周蓝图清单

核心理念：每个bot = 内容概念(皮肤) × 体验引擎(基因)。产量线的任务 = 在「形态×配方 vs 设定×IP/OC」覆盖矩阵里填空格。

Step 1：看覆盖矩阵 → 找空格

打开 dashboard「覆盖矩阵」tab → 看哪些格子是空的

行 = 内容形态(F1单角色/F2群像/F3群像+对抗/F4场景/F5沙盒) × 已验证基因配方

列 = 设定风味(W01-W20) × 角色来源(各IP名称 / OC原创)

空格 = 已验证的配方在这个设定/IP下没有供给 → 机会

Step 2：评估空格优先级

配方历史表现 — 该基因配方的Chat/Imp越高 → 优先级越高

用户需求信号 — 该设定/IP在搜索词/竞品中有热度 → 优先级越高

形态产出难度 — F1(单角色)最容易 > F2/F3 > F4 > F6

饱和检测 — 如果某格子的新bot CI持续低于格子均值的0.8x → 该格子已饱和，停止投入

Step 3：生成蓝图（每个蓝图 = 基因配方 + 内容概念）

① 内容概念：形态(F?) + 设定(W?) + 角色来源(IP名/OC风格)

② 基因配方：I? + T组合 + E? + U? + R? + cast_size + 角色原型组合

③ Prompt工程规则（数据验证的）：initPrompt轻量<500字(性格词+行为硬约束) · 多角色每人需差异化行为描述 · WM重500-2000字(沉浸场景+对话+多层矛盾) · 必须≥1个行为硬约束维持张力

④ 变异空间：哪些基因维度可变，哪些固定

⑤ 产出目标 + 质量标准：含基因一致性检查（bot是否匹配预定配方）

多样性调度（基因级别）

覆盖度 — 每周蓝图覆盖 ≥3个不同的I（起始事件），不重复同一个I×W超30%

形态平衡 — 每周至少1个非F1（单角色）的蓝图

两个目的平衡 — 填空格（扩劣势）+ 加变体（扩优势），每周都要有

门槛：覆盖≥3个I值 · 任何I×W占比≤30% · 含≥1个非F1形态 · 含≥1个新空格填充 + ≥1个已有格子加量

→

V2 · 批量生产 — 三条子线并行周一下午-周三

输入：V1的蓝图 | 输出：每蓝图50-100个bot变体

子线A：模式复刻（主力产能）

输入：蓝图的prompt模板 + 变异空间

Step 1：AI在变异空间内采样参数组合（角色性格×职业×背景×世界观）

Step 2：组合兼容性检查 — AI评估每个参数组合是否合理（如「病娇+幼儿园老师+未来科幻」→ 不兼容 → 丢弃）

Step 3：对通过的组合生成完整bot（人设+世界观+开场+prompt）

产出：每蓝图 50-80 个变体

子线B：IP热点（追时效）

输入：每日IP热点 + 品类宝典

触发条件：IP热度达到阈值时启动（不是每天都有）

Step 1：品类宝典匹配 — 这个IP适合什么品类？

Step 2：AI结合IP资料+品类模板批量生成

速度要求：热点出现24h内出bot

产出：每个热点IP 10-20个bot

子线C：新品类承接（来自题材线/形态线）

输入：题材线/形态线毕业的交接包

Step 1：用交接包中的prompt模板+生成规范，首次批量生产

Step 2：生产50个bot → 跑评分器（用交接包中的新维度权重）

Step 3：首批数据验证后，该品类并入子线A的常规排产

产出：新品类首批 50 个bot

模块化生产引擎（子线A的核心能力）

不是直接生成整个bot，而是 分模块生成 → 兼容性检查 → 组装

→ 角色模块：原型(霸总/竹马/病娇...) × 差异参数(职业/背景/外貌/口癖) → 完整人设

→ 世界观模块：场景类型(现代/古代/校园/奇幻...) × 氛围参数(甜/虐/悬疑/热血) → 设定

→ ⚠ 兼容性检查：AI评估角色×世界观组合是否自然（不是所有组合都合理）→ 过滤掉不兼容的

→ 剧情骨架：基于品类爽感模板 + 角色 + 世界观 → 关键转折点序列

→ 开场生成（单独优化）：前3-5轮内容，决定留存的关键环节

→ Prompt组装：汇总所有模块 → 完整可运行的bot

效率增益：20个角色模块 × 10个世界观 × 兼容性过滤(~60%通过) = ~120个有效组合 × 每组合2-3个剧情变体 = 240-360个bot，但只需设计30个模块

门槛：每批次生成≥50个bot · 兼容性检查通过率≥60%（太低说明变异空间定义有问题）· IP子线24h内出bot

→

V3 · 自动质检 + 人工校准周三-周四上午

输入：V2生产的所有bot | 输出：可上线bot + 质检报告

Layer 1：AI自动质检（全量）

Bot评分器对每个bot做全维度评分

底线检查（一票否决）：内容安全 · 角色一致性 · 不崩溃 · 无低质AI味

质量评分：钩子密度 · 人设反差 · 开场质量 · 可玩深度 · 节奏匹配 → 综合S/A/B/C/D

新品类专项：如果是题材线/形态线交接来的品类 → 加跑题材纯度/形态机制检测

筛选：≥B级 通过 · C级标记「待优化」可选修改后重检 · D级直接丢弃（入负面样本库）

Layer 2：人工抽检（20%抽样）

从通过B级的bot中随机抽20%

每个bot试玩3-5轮，快速判断：① 评分器的评级准不准？ ② 有没有评分器没检出的问题？

如果发现评分器漏检的问题类型 → 记录并反馈给评分器团队 → 新增检测规则

产出：评分器校准报告（哪些维度准确、哪些有偏差、需要新增什么规则）

目标：人工和AI评级一致性 ≥80%

Layer 3：基因一致性检查（新增）

AI对比蓝图预定的基因配方 vs 实际生成的bot → 用gene标注pipeline检测

检查项：I匹配？W匹配？T都有？E匹配？cast_size对？角色原型对？

偏离（如蓝图要I01但bot实际是I09）→ 标记不合格，需修改后重检

目标一致性：≥85%

S级/D级特殊处理

S级（top 10%）→ AI拆解为什么好 → 提取基因要素 → 更新已验证模式库（自动提议，人审核）

D级 → 入负面样本库 + AI按基因维度归因（I选错？T不够？prompt规则没遵守？角色差异度低？）

门槛：B级以上通过率≥70% · 如果低于50%说明V1的蓝图或V2的生成质量有系统性问题，需暂停产线排查

→

V4 · 灰度上线 + 数据反馈闭环周四-下周一

输入：V3通过的bot | 输出：上线数据 + 知识库更新提案

上线策略

灰度规则：每个bot分配小流量（等量曝光保证对比公平）· 12h冷却期后开始看数据

对照：同品类已有bot作为baseline · 新bot的指标必须达到baseline的一定比例才能扩量

数据窗口：72h（不是原来的12h，太短数据不稳定）

核心数据指标

留存率 — 次日返回 · 3日返回 · 7日返回（和同品类baseline对比）

互动深度 — 平均session轮次 · 每session消息条数

复玩率 — 玩完一次后再次开新session的比例

流失点 — 用户在第几轮流失？流失集中在哪个剧情阶段？

付费信号（如有）— 付费转化率 vs baseline

AI归因分析（每周自动跑，产出周报）

按品类汇总 — 本周每个品类的平均表现 vs 历史基准。哪个品类在涨？哪个在跌？

按结构要素归因 — 高留存bot vs 低留存bot的结构差异分析（哪些人设要素/开场模式/节奏节点和留存正相关？）

流失点诊断 — 聚类分析流失集中的轮次 → 追溯该轮对话内容 → 推测流失原因（人设崩了/剧情无聊了/节奏断了？）

达标(≥baseline 0.9x) → 扩量接近(0.7-0.9x) → 诊断 → 微调prompt重测远低(<0.7x) → 下架 + 诊断 → 反馈

数据反馈 → 基因级别闭环（核心升级）

基因表现更新：每个上线bot的Chat/Imp自动关联到其基因标注 → 更新该基因组合的均值 → 覆盖矩阵格子状态自动变化（⬜空→✅少量→🟢充足→🔴饱和）

配方级归因：AI按基因配方分组分析 — 哪些配方在本周表现好/差？哪些I×W组合新增了数据验证？

基因库迭代：run_pipeline.py 每周自动跑 → AI读Top/Bottom bot内容 → 对比现有基因库 → 提出新增/合并/废弃基因的提案

评分器校准：用本周上线数据做基因维度和Chat/Imp的相关性分析 → 调整权重

下周 pipeline 跑时自动看到这些变化 → 影响下周V1选题

闭环：上线数据 → 基因表现更新 → 覆盖矩阵状态变化 → 下周V1看到新的空格/饱和信号 → 调整生产方向。全自动，人只审批基因库更新提案。

↓ 辅助模块 ↓

产量线周节奏 — 团队一周怎么过

周一

run_pipeline.py

看周报+覆盖矩阵

审批基因库更新

按矩阵空格定蓝图

下午：启动生产

周二

AI批量生成

模块化引擎运转

兼容性检查+过滤

IP热点响应(如有)

周三

生产收尾

AI自动质检（全量）

人工抽检开始

周四

人工抽检完成

提交审核上线

灰度上线开始

早期数据监控

周五

灰度数据积累

AI生成知识库更新提案

AI生成周数据报告

→ 供下周一review

产量线 KPI + 基建协同

核心指标

周产出100-200 bot

质检通过率≥70%

基因一致性≥85%

上线达标率≥60%

I值覆盖≥3种/周

非F1形态占比≥1个/周

矩阵空格填充≥2格/周

A/S级占比≥20%

基建协同

← 获取（from run_pipeline.py）

weekly_report.md — 数据趋势+基因库更新提案+生产建议

coverage_matrix.json — 覆盖矩阵（空格=生产机会）

gene_dashboard — 已验证模式+基因组合分析+IP覆盖

评分器+基因一致性检查 · 模型管理 · 知识库

→ 产出

上线数据 → 情报系统（更新模式库）

S级bot分析 → 知识库（新成功模式）

D级bot → 负面样本库

评分器校准报告 → 评分器团队

后训练数据（高质量bot对话）→ 模型管理

题材线 Genre Pipeline言情以外的内容探索 · 核心挑战：题材漂移 · 每周1-2题材 · 每题材50-100bot

题材选品逻辑 — 用户想要什么情绪？这个题材和言情用户的关系是什么？

先选情绪价值，再选题材载体。同时评估：这个题材是从现有言情用户中转化，还是需要获取新用户？

权力快感 — 高交叉，优先做

"我在一步步登上顶峰"

载体：权谋、商战、宫斗、修仙

言情用户交叉度高，爽文受众重叠，迁移成本最低

温暖治愈 — 高交叉，优先做

"无压力的日常陪伴"

载体：校园日常、治愈系、慢节奏生活

和甜宠言情受众高度重叠，prompt改动最小

智力征服 — 低交叉，验证需求

"我比角色/局面更聪明"

载体：悬疑推理、密室、谋略对弈

完全不同的用户动机，可能需要新用户获取

英雄认同 — 中等交叉

"我在拯救/改变世界"

载体：冒险、奇幻、科幻

取决于是否保留CP线，保留则交叉高

安全恐惧 — 低交叉

"好刺激但我知道我是安全的"

载体：恐怖、惊悚、末日生存

完全不同的情绪需求，需要验证平台用户是否接受

命运感 — 中等交叉

"这个故事太虐但我放不下"

载体：非恋爱悲剧、战争、牺牲、命运抗争

虐恋用户可能迁移，但需要不同的叙事技巧

优先级排序原则：先做高交叉题材(低获客成本)，再做低交叉题材(需新用户)。高交叉 = 快速验证 + 快速进产量线。

↓ 选品后进入流水线 ↓

G1 · 题材假设采集 — 从数据出发不是拍脑袋持续，每周产出

四个数据源驱动选题，人做最终选品决策

源A：竞品非言情热度（主力）

爬取 酒馆/C.AI/Janitor 的非言情热门bot

按题材分类：悬疑/权谋/冒险/恐怖/校园/...，统计每类的热度、收藏、评论

AI 拆解热门bot的 prompt 结构 — 提取题材特征、人设方向、叙事风格

产出：竞品题材热度排行榜（每周更新）

源B：内部用户行为信号

分析用户 搜索词：搜了什么没找到？非言情搜索占比多少？

分析用户 对话内容：是否在言情bot中主动引入非言情元素？（如在恋爱bot中讨论打怪/破案）

分析 流失用户：离开的用户去了哪些竞品？消费了什么类型？

产出：内部需求缺口报告

源C：外部内容趋势

网文平台（番茄/起点/晋江）：非言情品类的热度趋势、新兴题材

短剧/影视：什么非言情题材正在爆？

AI 分析趋势 → 评估是否可翻译为bot题材

源D：社区需求表达

Discord/社群中用户对非言情内容的直接请求

如"什么时候能有推理类bot""想要修仙升级的"

AI 提取 → 归类到情绪价值框架 → 匹配题材

产出：每周「题材假设 Backlog」

每个假设包含：① 目标情绪价值 · ② 题材定义（一句话说清楚这是什么类型的内容）· ③ 和言情的交叉度（高/中/低）· ④ 需求信号来源和强度 · ⑤ 参考bot（竞品搬来的）

人做选品：每周选 1-2 个题材进入G2。优先选：需求信号强 + 言情交叉度高 + 有竞品参考bot的。

门槛：假设必须有明确的需求数据支撑（不能是"我觉得悬疑有市场"）。没有数据的假设不进入下一步。

→

G2 · 批量制造 + 题材纯度筛选 2-3天/题材

输入：G1选定的题材假设 + 竞品参考bot | 输出：50-100个题材纯净的bot

Step 1：Prompt模板构建（Day 1上午）

核心操作：把 言情prompt模板 改造为 目标题材prompt模板

如果有竞品参考bot → AI 拆解其prompt → 提取题材特征指令 → 融合进我们的模板结构

如果无参考 → AI 基于题材定义 + 情绪价值生成题材prompt模板草案

⚠ 关键：必须加入「题材锁定指令」— 明确告诉模型不要漂到言情（如"你是侦探bot，不要和用户发展恋爱关系"）

人快速审核（30分钟）：题材调性是否对？题材锁定指令是否够强？

Step 2：变体批量生成（Day 1下午-Day 2）

AI 在模板上做变异 — 同一题材 × 不同子类型 × 不同人设 × 不同世界观

如「悬疑推理」：古风探案 / 现代刑侦 / 校园怪事 / 职场阴谋 / 灵异悬疑 ...

如「权力幻想」：宫斗上位 / 商战逆袭 / 修仙升级 / 校园权力 / 末日领袖 ...

每个题材生成 50-100个bot变体，覆盖 ≥5个子类型

同时生成同设定的 言情对照组（10-20个）→ 用于后续数据对比

Step 3：题材纯度自动筛选（Day 2-3）— 本线独有

AI 扮演用户跑每个bot 20轮，对每轮做题材分类标注：

→ 每轮标注为：目标题材内容 / 言情内容 / 混合内容 / 其他

→ 计算 题材纯度 = 目标题材轮次 / 总轮次

→ 记录 漂移起始轮：从第几轮开始漂向言情？

筛选标准：题材纯度 ≥60% 且 前10轮纯度 ≥80%（开场必须是题材的）

同时做基础可玩性检测（不崩溃、角色一致、无安全问题）

目标保留：≥30个纯度达标的bot

门槛：①≥30个bot题材纯度达标 ②覆盖≥3个子类型 ③言情对照组已生成。未达标 → 强化题材锁定指令重试，或判定该题材在当前模型上不可行。

→

G3 · 内部快测 + 对照实验 1-2天/题材

输入：G2筛选后的≥30个bot + 言情对照组 | 输出：≥15个可上线bot + 题材诊断报告

AI 深度评估（自动）

AI 用不同类型用户角色跑每个bot 30轮

评估 4 个核心维度：

① 情绪命中率 — 是否传递了目标情绪价值？（如悬疑bot是否让AI"想知道真相"）

② 题材纯度（深度版） — 30轮对话中目标题材内容占比，是否越到后面越漂？

③ 爽感节奏 — 关键情绪高潮是否出现？出现在第几轮？（如悬疑的"真相大白"时刻）

④ 和言情的差异度 — 这个bot的体验是否真的和言情bot不同？（用对照组比较）

产出：按综合得分排序 + 每个bot的诊断报告

团队快速试玩（人工）

每人分配 5-8 个bot，每个玩 5-10分钟

回答 4 个问题：

① 你想继续玩吗？(Y/N)

② 这个bot给你的感觉是什么题材？(开放回答)

③ 你有没有在某个时刻想把对话往恋爱方向带？(Y/N)

④ 这个和你平时玩的言情bot体验有什么不同？(一句话)

问题③很关键：如果大多数试玩者都想带言情，说明这个题材对我们用户群的独立吸引力不够。

对照实验设计（在同一批中嵌入）

同题材做 2-3组变体 测试关键变量：

→ 纯题材 vs 题材+言情线（如纯推理 vs 推理+侦探和线人有暧昧）— 测试是否需要保留情感元素

→ 不同题材锁定强度（弱约束 vs 强约束）— 测试多大程度的言情漂移是用户可接受的

→ 不同子类型（如悬疑：社会派 vs 本格派 vs 灵异派）— 测试哪个子类型最受欢迎

门槛：①人工「想继续玩」≥40% ②人工能正确识别题材（≥70%回答的题材和预期一致）③至少1个变体组显著优于其他。未达标 → 分析是题材本身不吸引人还是prompt不够好 → 调整重测或kill。

→

G4 · 灰度上线 — 数据裁判 1周/题材

输入：G3通过的≥15个bot + 言情对照组 | 输出：上线数据 + 题材结论

上线策略

模型：先付费模型（题材能力更强）→ 达标后同时测免费模型（评估迁移差距）

对照组：同设定的言情bot作为baseline — 如"现代都市悬疑" vs "现代都市言情"，设定相同只换题材

用户分群：分开看 ①现有言情用户对新题材的反应 ②通过题材标签搜索进来的新用户

测试周期：7天数据

核心指标（4个必看）

① 题材留存 vs 言情baseline — 新题材的次日返回率和言情比怎么样？不要求更高，但不能差太多（≥baseline的0.8倍）

② 题材纯度(用户端) — 真实用户对话中，目标题材内容占比多少？用户是否在主动维持题材？

③ 用户来源结构 — 玩这个题材的用户中，多少是原言情用户，多少是新用户？这决定了这个题材是「增量」还是「存量转化」

④ 交叉消费率 — 玩了新题材的用户，是否也在继续消费言情？（理想：玩两种，而不是替代）

AI 归因分析

按子类型分组 → 哪些子类型表现好？

分析题材漂移 → 用户端的实际漂移率是多少？和AI测试时的漂移率一致吗？

分析对照实验结果 → 纯题材 vs 题材+言情线，哪个留存更好？

留存达标 + 纯度达标 → G5毕业部分子类型好 → 窄化后重测全面不如baseline → Kill，沉淀原因

毕业硬杠：①至少1个子类型次日返回≥言情baseline的0.8倍 ②该子类型题材纯度≥50%（用户端实际数据）。两个都必须达到。

→

G5 · 迁移毕业 — 从付费到免费 + 交接给产量线 1-2周

输入：G4通过的题材 + 全部数据 | 输出：完整交接包 + 免费模型迁移结论

免费模型迁移测试

用G4验证通过的prompt模板 → 在免费模型上跑同样的bot

核心评估：题材纯度是否崩塌？（免费模型是言情训练的，题材漂移率可能飙升）

如果纯度崩塌 → Prompt强化：加更强的题材锁定指令、负面示例、角色行为边界

强化后重测 → 仍然不行 → 标记「需后训练」，暂时只在付费模型上线

后训练数据来源：付费模型上的高纯度对话样本 + 人工标注的题材分类数据

交接包内容（缺一不可）

① 题材定义卡 — 情绪价值 + 题材定义 + 最佳子类型 + 言情交叉度 + 用户来源结构

② Prompt模板 — 含题材锁定指令 + 固定部分/可变部分标注 + 参数推荐值

③ 调性规范 — 这个题材的文风/情感基调/用词禁区/旁白风格（入调性库）

④ 质量标准 — 评分器新增「题材纯度」维度 + 该题材的爽感节奏模板

⑤ 批量生成规范 — 变异空间（哪些子类型可做、人设方向、世界观范围）

⑥ 迁移状态 — 免费模型是否达标？差距在哪？需什么后训练？

⑦ 数据摘要 — 所有测试数据总结 + 对照实验结论 + 关键洞察

交接去向

→ 产量线：拿到prompt模板+生成规范+调性规范，在该题材下批量生产bot（用产量线的模块化流程）

→ 质量评估系统：新增「题材纯度」评分维度 + 该题材的节奏评分模板

→ 知识库：题材定义入品类宝典，调性入调性库，失败子类型入负面样本库

→ 情报系统：上线数据回流，更新题材机会图谱（验证了的题材标记为「已验证」+ 实际数据）

质量检查：交接包由产量线接收方确认完整性。特别是prompt模板的题材锁定指令 — 必须在产量线的批量生成中也能保持题材纯度。

↓ 辅助模块 ↓

题材线完整示例

示例：权谋宫斗（高交叉题材）

情绪价值：权力快感 —「我在后宫/朝堂一步步上位」

来源：竞品热度数据 — 酒馆上权谋类bot收藏量top20中有8个是宫斗

言情交叉：高 — 很多宫斗用户也是言情用户（甄嬛传受众）

题材锁定挑战：宫斗很容易漂成宫廷言情，需要强锁定（如"权力>感情"的优先级指令）

对照实验：纯宫斗权谋 vs 宫斗+后宫恋爱 → 测试哪个留存更好

关键验证点：用户是否真的在做权力决策而非只在谈恋爱？

示例：悬疑推理（低交叉题材）

情绪价值：智力征服 —「我通过对话推理出了真相」

来源：社区需求 — Discord频繁请求"推理类""破案类"内容

言情交叉：低 — 这是完全不同的用户动机

题材锁定挑战：模型倾向给用户正面情感反馈→容易变成"侦探恋爱故事"

对照实验：社会派(重动机) vs 本格派(重逻辑) vs 灵异悬疑(重氛围)

关键验证点：AI能否维持线索逻辑不矛盾？用户端题材纯度能到多少？

题材漂移 — 这条线独有的核心质量问题

因为免费模型是言情训练的，所有非言情bot都会往言情漂。这不是bug，但必须管控。

题材纯度定义：目标题材内容轮次 / 总轮次

可接受纯度：≥60%（不要求100%，一些情感元素可能是加分项）

前10轮纯度：≥80%（开场必须牢牢是题材的，漂移只能发生在后面）

漂移监控：记录「漂移起始轮」— 如果大部分bot在第5轮就漂了，说明prompt太弱

付费vs免费漂移差：免费模型的漂移率通常比付费高很多，这是迁移的核心挑战

管控手段：题材锁定指令 / 负面示例("不要...") / 角色行为边界 / 后训练

题材线 KPI

每周测试题材数1-2 个

每题材bot数50-100 个

G1→G4 周期≤2周

题材纯度(AI测)≥60%

前10轮纯度≥80%

月度毕业题材≥2 个

留存vs言情baseline≥0.8x

题材线 × 基础设施协同

← 从情报系统获取

竞品非言情bot热度排行 · 用户搜索词和对话内容中的题材信号 · 外部内容趋势

← 从质量评估系统获取

基础可玩性检测（安全+一致性）+ 新增「题材纯度」自动检测能力

← 从模型管理获取

付费模型用于G2-G4 · 免费模型迁移测试在G5 · 后训练数据管道

→ 产出给基建

给知识库：品类宝典+调性库+负面样本 · 给评分器：题材纯度维度+节奏模板 · 给情报系统：数据回流

形态线 Format Pipeline高速探索机器 · 每周1-3形态 · 每形态50-100bot · 竞品搬运→AI改造→批量测试→数据筛选

形态线的选品逻辑 — 从用户情绪价值出发，不从技术机制出发

先问「用户想获得什么情绪」，再问「什么形态能给到这个情绪」。形态是手段，情绪是目的。

掌控感

"我的选择真的影响了结局"

→ 分支叙事、数值系统、策略博弈

→ 适配：权谋、生存、经营

社交代入

"我在和真实的角色社群互动"

→ 多角色、关系网、阵营系统

→ 适配：宫斗、校园、职场

智力快感

"我解开了/推理出了"

→ 剧本杀、密室、线索推理

→ 适配：悬疑、犯罪、惊悚

探索惊喜

"这个世界还有这么多东西"

→ 开放世界、随机事件、隐藏内容

→ 适配：奇幻、科幻、冒险

身份沉浸

"我真的变成了另一个人"

→ 深度人设代入、日记体、第一人称

→ 适配：历史、异世界、身份互换

情绪过山车

"虐到哭但停不下来"

→ 多线叙事、命运反转、牺牲抉择

→ 适配：悲剧、战争、末日

注意：一个形态可以同时提供多种情绪价值，但必须有一个主打。情绪价值决定选题优先级、评估标准和题材搭配。

↓ 选品后进入流水线 ↓

F1 · 假设采集 — 形态从哪来持续，每周产出

四个采集渠道，AI驱动，人选品

渠道A：竞品搬运（主力）

酒馆/C.AI/Janitor 爬取非标准形态bot — 多角色、带系统指令、有数值、有世界书的

AI 对搬运的bot做 结构化拆解：识别其中的形态要素（几个角色？有无数值？什么交互模式？）

按情绪价值分类标注（这个bot主要提供什么体验？）

按热度/收藏/评论排序

渠道B：社区挖掘

Discord/Reddit/贴吧 监控用户讨论中的形态需求信号

如"要是能同时和两个角色对话就好了"/"希望有好感度系统"

AI 提取需求 → 映射到情绪价值 → 匹配已有或生成新形态假设

渠道C：跨行业借鉴

互动小说/文字游戏/TRPG/恋爱游戏的玩法机制

AI 分析这些产品的核心机制，翻译成bot形态方案

如：恋爱游戏的好感度系统→bot数值系统；TRPG的GM机制→多角色世界观bot

渠道D：AI 自生成

基于已有成功形态，AI 做 组合变异：把已验证的机制要素重新组合

如：好感度系统 + 多角色 = 多角色关系网养成

如：分支叙事 + 随机事件 = roguelike 文字冒险

产出：每周的「形态假设 Backlog」

每个假设包含：① 一句话情绪价值主张（"让用户感受到___"）② 参考来源（搬运的bot/社区需求/跨行业）③ 核心机制描述（区别于标准形态的关键点）④ 建议搭配题材

人做选品：每周从backlog中选 1-3 个假设进入F2。选品标准→情绪价值是否明确、参考来源的热度信号、和已测形态的差异度

门槛：假设必须能用一句话说清楚情绪价值，否则打回重新提炼。没有情绪锚点的形态不进入下一步。

→

F2 · 批量制造 — AI驱动，不是人手搓 2-3天/形态

输入：F1选定的形态假设 + 参考bot | 输出：50-100个可测试bot

Step 1：Prompt模板构建（Day 1上午）

如果有竞品参考bot → AI 逆向拆解其system prompt结构：提取角色设定规则、交互控制指令、数值/状态管理逻辑、叙事风格指令

如果无参考 → AI 基于情绪价值主张+核心机制描述生成 system prompt模板草案

人快速审核prompt模板（30分钟）：核心机制是否能跑通？情绪价值是否能传递？有无明显漏洞？

产出：1个可参数化的 system prompt 模板 — 固定部分（机制规则）+ 可变部分（题材/角色/设定）

Step 2：变体批量生成（Day 1下午-Day 2）

AI 在模板上做 三个维度的变异：

→ 题材变异：同一形态机制 × 不同题材（言情/悬疑/奇幻/校园/权谋...）

→ 设定变异：同题材下不同世界观/角色/剧情设定

→ 参数变异：机制参数微调（如数值变化速度、角色数量、分支密度）

目标：每个形态假设生成 50-100 个bot变体

覆盖：≥3个不同题材 × 每题材≥10个设定变体

Step 3：自动可玩性筛选（Day 2-3）

AI 扮演用户对每个bot跑 20轮自动测试，检测：

→ 不崩溃：bot能正常运转20轮不出错（角色不混乱、机制不卡死、不跳出角色）

→ 机制生效：如果有数值系统，数值确实在变化；如果有多角色，角色确实在交替

→ 情绪命中：AI评估"这20轮对话是否传递了预期的情绪价值？"（如标注为"智力快感"的bot是否真的有推理体验）

淘汰不可玩的 → 目标保留率：≥50%（留下25-50个可测bot）

门槛：①prompt模板能让AI稳定执行机制 ②≥25个bot通过可玩性筛选 ③至少覆盖3个题材。未达标→回F1换假设或调整模板。

→

F3 · 内部快测 — 人机协同评估 1-2天/形态

输入：F2筛选后的25-50个bot | 输出：≥15个可上线bot + 形态诊断报告

快测方式（三层）

Layer 1：AI深度评估（自动）

AI 扮演不同类型的用户（主动型/被动型/试探型）分别跑每个bot 30轮

评估维度：① 情绪价值命中率（核心！这个bot是否给到了预期的情绪？）② 可玩深度（30轮后是否还有新内容？）③ 机制流畅度（机制是帮助体验还是打断体验？）

产出：每个bot的结构化评估报告 + 按情绪命中率排序

Layer 2：团队快速试玩（人工，关键环节）

每人分配 5-8 个bot，每个玩 5-10分钟（不需要玩完）

只回答 3 个问题：① 你想继续玩吗？(Y/N) ② 你感受到了___情绪吗？(Y/N) ③ 这和普通单角色bot有什么不同？(一句话)

不需要详细评分，不需要写报告。速度优先于深度。

Layer 3：交叉分析

AI 汇总Layer 1+Layer 2 → 产出 形态诊断报告：

→ 这个形态的情绪价值是否能被感知？（人的试玩确认了吗？）

→ 哪些题材和这个形态最搭配？（不同题材变体的表现差异）

→ 机制的哪些部分是加分项？哪些是干扰？

→ prompt模板需要做什么调整？

门槛：①人工试玩「想继续玩」比例≥40% ②人工试玩「感受到预期情绪」比例≥50% ③至少1个题材表现明显优于其他。未达标→分析原因→小幅调整模板重测或判定形态不可行→沉淀失败原因→回F1。

→

F4 · 灰度上线 — 用真实用户数据做最终裁判 1周/形态

输入：F3通过的≥15个bot | 输出：上线数据 + 形态结论

上线策略

模型选择：付费模型上线（新形态的prompt复杂度高，免费模型大概率撑不住）

流量分配：小流量灰度，每个bot分配相同曝光量以确保对比公平

对照组：同题材的标准形态（单角色简单人设）bot作为baseline

测试周期：上线后收集 7天数据

核心数据指标（vs 同题材标准形态baseline）

Session时长 — 用户每次玩多久？比baseline长说明体验有吸引力

消息条数 — 用户发了多少条消息？比baseline多说明互动更深

次日返回率 — 用户第二天还来玩吗？这是最硬的指标

完成率（如有终点）— 用户是否玩到了设计的体验高潮？

主动分享率 — 用户有没有把这个bot分享给别人？

AI 归因分析

按题材分组分析 → 哪些题材在这个形态下表现好/差

按机制参数分组 → 哪些参数配置表现好/差

分析用户对话内容 → 用户是否在使用形态的核心机制？还是在绕过机制当普通bot玩？

核心指标显著优于baseline → F5毕业部分题材好部分差 → 提取好的题材×形态组合，窄化后重测全面不如baseline → Kill，沉淀失败分析

门槛：至少1个题材分组的次日返回率 > 同题材baseline的1.2倍。这是形态毕业的硬杠。

→

F5 · 毕业 — 交接给题材线和产量线 1周

输入：F4通过的形态 + 全部数据 | 输出：完整交接包

交接包内容（缺一不可）

① 形态定义卡 — 一句话情绪价值 + 核心机制描述 + 最佳题材搭配（从数据中验证的）+ 不适合的题材（数据反面教训）

② System Prompt 模板 — 经过测试验证的完整prompt模板，标注固定部分和可变部分，附带每个参数的推荐值范围（从数据中学到的）

③ 质量标准 — 这个形态下「好」的定义：哪些评估维度重要？阈值是多少？（如：剧本杀形态需要评估"推理公平性"和"线索密度"）→ 提交给质量评估系统，新增形态专属评分维度

④ 批量生成规范 — 产量线用：变异空间定义（哪些参数可变、范围、禁止组合）、模块化生产的拆解方式、每个变体的最低质量要求

⑤ 模型需求说明 — 免费模型能否支撑？差距在哪？需要什么后训练？prompt强化能否弥补？

⑥ 数据摘要 — 所有测试数据的结构化总结：哪些变体表现最好、用户行为模式、关键洞察

交接去向

→ 题材线：拿到形态定义卡 + prompt模板，在该形态下探索更多题材的适配性

→ 产量线：拿到批量生成规范 + prompt模板，在已验证的题材×形态组合下批量生产

→ 质量评估系统：拿到新的评分维度和权重，更新评分器

→ 知识库：形态定义卡入品类宝典，prompt模板入模板库，失败案例入负面样本库

质量检查：交接包由题材线/产量线接收方确认完整性。任何模糊不清的部分必须在交接前补齐。

↓ 辅助模块 ↓

形态线完整示例 — 走一遍流程

示例A：好感度数值养成

情绪价值：掌控感 —「我的每句话都在影响角色对我的态度」

来源：竞品搬运 — C.AI上有大量带affection meter的bot，酒馆有world book实现的好感度系统

核心机制：角色对用户有一个隐藏好感度值（0-100），用户的选择和对话影响数值，不同数值区间角色有不同态度和剧情解锁

批量变异：言情（傲娇攻略）、校园（人气值竞争）、职场（上下级信任值）、奇幻（魔物驯化度）

关键验证点：用户是否能感知到数值在变化？感知到后是否更有动力继续？

示例B：多角色社交网

情绪价值：社交代入 —「我在一个有多个角色的世界里经营关系」

来源：社区需求 — Discord频繁出现"想同时和多个角色互动"；恋爱游戏的多攻略对象机制

核心机制：3-5个角色各有独立人设和关系，用户和不同角色的互动会影响其他角色的态度（三角关系、阵营分化）

批量变异：后宫（多角色争宠）、宫斗（阵营对立）、校园群像、末日小队

关键验证点：模型能否稳定维持多角色的一致性？用户是否真的在和多角色互动而非只盯着一个？

示例C：线索推理剧本杀

情绪价值：智力快感 —「我通过和角色对话收集线索推理出了真相」

来源：跨行业 — 剧本杀游戏的核心机制 + 酒馆上的mystery/detective类bot

核心机制：角色持有隐藏信息，用户需要通过提问收集线索，最终做出推理判断。有正确答案。

批量变异：古风谋杀（谁是凶手）、现代悬疑（消失的人）、校园怪谈（超自然事件）、密室逃脱（找出口）

关键验证点：AI能否不泄底？线索难度是否合适？用户是否真的在推理而非瞎猜？

形态线 × 基础设施协同

← 从情报系统获取

竞品形态扫描数据 — 酒馆/C.AI的非标bot的结构化拆解结果

用户需求信号 — 社区中关于形态的需求表达

内部数据 — 用户在现有bot中绕过标准形态的行为（如自发引入数值系统）

← 从质量评估系统获取

自动可玩性检测 — F2阶段用评分器的安全维度+角色一致性做底线筛选

注意：形态线不用结构维度和节奏维度的标准权重（那是为现有形态校准的），只用安全维度作为底线

← 从模型管理获取

付费模型 — F2-F4全程使用付费模型（新形态prompt复杂，免费模型通常不行）

迁移评估 — F5毕业时测试免费模型能否支撑，评估差距和后训练需求

→ 产出给基建

给知识库：新形态的品类宝典条目 + prompt模板 + 负面样本（失败形态的原因分析）

给评分器：新的形态专属评分维度和权重建议

给情报系统：上线数据回流，更新对用户偏好的理解

形态线 KPI

每周测试形态数1-3 个

每形态bot数50-100 个

F1→F4 周期≤2周

F2可玩率≥50%

F3内测想继续玩≥40%

F4毕业率跟踪不设目标

月度毕业形态≥2 个

失败沉淀率100%

F4毕业率不设目标：探索阶段大部分假设应该失败。如果毕业率太高说明假设不够大胆。

失败沉淀 — 每次失败都是资产

失败的形态不是浪费，是排除法。但必须结构化记录。

记录：情绪价值主张 + 实际测试结果 + 失败原因分类

常见失败原因分类

模型能力不足 — 机制太复杂模型跟不上（标注：等模型升级后重测）

情绪价值不成立 — 用户不在意这个体验维度（标注：kill，不重测）

机制干扰体验 — 机制存在但打断了叙事流畅度（标注：简化机制后重测）

题材错配 — 形态可能OK但搭配了错误题材（标注：换题材重测）

→ 全部入 负面样本库，供后续假设生成时查重避坑

反馈闭环数据→认知→生产→验证→数据 · 飞轮转速决定一切

🔄 三条线的知识流转闭环

形态线验证通过的体验范式 + prompt架构

↓

题材线验证通过的品类规范 + 模板 + 评分参数

↓

产量线批量生产 → 上线数据

↓

情报系统更新模式库/题材图谱/形态假设 → 反馈各线

产量线周级 · 题材线4周 · 形态线8周 · 知识库周增量+月深度

→

⏱ 运转节奏对比

产量线持续运转，每周产出

题材线4周一个验证周期

形态线8周一个验证周期

知识库每周增量 + 每月深度

启动路径 + 待解决问题不要同时启动三条线 · 按阶段逐步点亮

Phase 0 · 基础设施建设第1-4周

目标：让第一个端到端循环跑起来

Week 1-2 — 结构化标注器：top50+bottom50 bot做结构拆解，人工校准

Week 2-3 — 质量评估器：定义5-8维度，搭建评分器，一致性≥80%

Week 3-4 — 端到端测试：2-3蓝图 → 50bot → 评分器过滤 → 灰度上线

产出：成功模式库 v0.1 · Bot评分器 v0.1 · AI批量质量的第一手认知

→

Phase 1 · 产量线启动第5-8周

基于 Phase 0 数据迭代模式库 + 评分器

完善蓝图模板体系

IPbot + 模式复刻双子线并行

建立每周稳定节奏

产出：每周稳定 ≥30 个可上线bot

→

Phase 2 · 题材线启动第6-10周

情报系统产出题材机会图谱

选定第一个验证题材（建议：权力幻想 or 悬疑推理）

AI分析叙事结构 → 对照实验 → 付费模型测试

产出：第一个题材的验证结论

→

Phase 3 · 形态线启动第10+周

选取最可行的 1 个形态

人主导设计体验范式原型

Prompt工程师深度调试

少量用户测试 → 定性反馈

产出：第一个形态的验证结论

↓

⚠ 待解决的关键问题

Q1 用户聊天动机监控 — 纳入情报系统数据采集，识别题材偏好信号

Q2 小说/长篇叙事形态 — 形态线独立假设，需单独评估

Q3 评分器品类适配 — 维度权重按品类调整，新品类需校准

Q4 付费模型成本控制 — 只用于探索评估，随知识库积累应减少

Q5 人的产能瓶颈 — 初期最大，需明确时间预算，随系统成熟递减