EMOCHI AI 内容工厂 · 三线流水线蓝图
100%
基础设施
产量线
题材线
形态线
人工
交接

Emochi AI 内容工厂

三条流水线 · 四大基础设施 · 一个闭环飞轮
核心理念:人围着机器打螺丝 — AI 驱动生产,人做校准和决策
🧠 内容情报系统 — 整个工厂的大脑

功能:从数据中提取「什么是好内容」的结构化认知

数据采集
内部数据 — bot留存率、轮次流失点、复玩率、付费转化、用户自写内容、重新生成频率
竞品数据 — 酒馆热门卡、C.AI趋势、Discord社区需求
外部内容 — 网文热门结构、影视叙事模式、游戏剧情设计
AI 分析
结构化标注 — 拆解每个bot的人设、节奏、钩子、反差
聚类分析 — 高留存 vs 低留存的结构差异
需求缺口 — 供给 vs 需求的错配
+人工校准 — 区分信号和噪声
知识沉淀
成功模式库 — 按品类组织的结构化模式描述
失败模式库 — 质量红线定义
题材机会图谱 — 需求 × 供给 × 可行性
形态假设清单 — 新形态的结构化评估卡
节奏:内部分析每周 · 竞品每3天 · 模式库月度深度+周度增量 · 生态分析每月  |  人的角色:审核AI分析结果,每周产出认知更新报告
→ 产量线:提供成功模式库、竞品热门bot数据、用户偏好分布
→ 题材线:提供竞品非言情热度数据、用户题材需求信号
→ 形态线:提供竞品复杂形态bot数据、社区形态需求
📊 质量评估系统 — Bot 评分器升级版

多维度结构化评分 · 三条线共用 · 权重从留存数据学习

结构维度(故事种子质量)
钩子密度 — 前N轮的情感/好奇信息点数量
角色辨识度 — 遮名后AI盲测能否区分
人设反差度 — ≥1个有张力的反差要素
设定自洽度 — 人设/世界观/剧情无矛盾
可玩深度 — AI跑30轮检测重复率
开场质量 — 前3轮的情感张力/悬念/代入感
节奏维度(演绎体验)
节奏匹配度 — 张力曲线 vs 品类爽感模板
推进自然度 — 自然发展 vs 强制事件
旁白质量 — 文学质量与氛围营造
安全维度(底线质量)
内容安全 · 角色一致性 · 低质AI味检测
评分流程
① 输入 — 完整故事种子(人设+设定+prompt)
② 模拟测试 — AI扮演用户跑10/20/30轮
③ 结构化打分 — 评估模型每维1-5分+诊断
④ 综合评级 — 加权汇总→S/A/B/C/D
S模式库
A优质
B可上线
C需改
D负面
校准要求
每月人工标注校准,关键维度一致性 ≥80%
不同线可有不同及格标准(形态线可放宽)
新品类需校准专属维度权重
→ 产量线:全维度自动质检(B级以上通过)
→ 题材线:基础质检 + 题材纯度检测
→ 形态线:仅安全维度底线检测(新形态无法用标准权重)
📚 知识库体系 — 生产经验的结构化沉淀
品类宝典
成功模式结构描述
爽感结构模板
必备要素清单 + 变异空间
质量标准(评分器参数)
经验之书
Bot创作 / Prompt技巧
对话标记 / WM规范
常见坑和解决方案
负面样本库
人设过薄 / 逻辑矛盾 / 节奏失控
安全违规 / AI味过重
调性库
按题材的文风 / 情感基调
用词风格 / 旁白比例 / 对话密度
故事库 + IP资料库
核心故事母题(按题材分类)
IP角色深层情报
模板库
可参数化的人设/开场/prompt/剧情骨架模板
更新 ← 验证循环自动提议+人审核 · D级自动收集 · 产量线沉淀 · IP每日
→ 产量线:品类宝典指导蓝图生成、模板库提供prompt模板
← 题材线:新题材的品类宝典条目、调性库条目
← 形态线:新形态的品类宝典条目、prompt模板、负面样本
⚡ 模型管理 — 付费探索 / 免费生产
💎 付费模型(探索层)
形态线所有实验
题材线初始验证
情报系统深度分析
质量评估评分模型
新模板首次生成调试

成本定位:知识获取成本

🆓 免费模型(生产层)
已验证品类的用户端演绎
产量线的批量bot生成
前提:prompt充分约束

局限:基于言情训练,非言情可能不足

付费 → 免费 迁移流程
付费验证通过 能力分析 Prompt强化 免费模型测试 达标→生产
不达标 → 后训练数据积累(付费样本 + 成功对话 + 质量标注)
→ 产量线:免费模型做批量生成、付费模型做评分
→ 题材线:付费模型做验证、免费模型迁移测试
→ 形态线:全程付费模型(新形态prompt太复杂)
V1 · 周规划 — 覆盖矩阵填空格 每周一上午

输入:run_pipeline.py 产出(周报 + 覆盖矩阵 + dashboard) | 输出:本周蓝图清单

核心理念:每个bot = 内容概念(皮肤) × 体验引擎(基因)。产量线的任务 = 在「形态×配方 vs 设定×IP/OC」覆盖矩阵里填空格。

Step 1:看覆盖矩阵 → 找空格
打开 dashboard「覆盖矩阵」tab → 看哪些格子是空的
= 内容形态(F1单角色/F2群像/F3群像+对抗/F4场景/F5沙盒) × 已验证基因配方
= 设定风味(W01-W20) × 角色来源(各IP名称 / OC原创)
空格 = 已验证的配方在这个设定/IP下没有供给 → 机会
Step 2:评估空格优先级
配方历史表现 — 该基因配方的Chat/Imp越高 → 优先级越高
用户需求信号 — 该设定/IP在搜索词/竞品中有热度 → 优先级越高
形态产出难度 — F1(单角色)最容易 > F2/F3 > F4 > F6
饱和检测 — 如果某格子的新bot CI持续低于格子均值的0.8x → 该格子已饱和,停止投入
Step 3:生成蓝图(每个蓝图 = 基因配方 + 内容概念)
① 内容概念:形态(F?) + 设定(W?) + 角色来源(IP名/OC风格)
② 基因配方:I? + T组合 + E? + U? + R? + cast_size + 角色原型组合
③ Prompt工程规则(数据验证的):initPrompt轻量<500字(性格词+行为硬约束) · 多角色每人需差异化行为描述 · WM重500-2000字(沉浸场景+对话+多层矛盾) · 必须≥1个行为硬约束维持张力
④ 变异空间:哪些基因维度可变,哪些固定
⑤ 产出目标 + 质量标准:含基因一致性检查(bot是否匹配预定配方)
多样性调度(基因级别)
覆盖度 — 每周蓝图覆盖 ≥3个不同的I(起始事件),不重复同一个I×W超30%
形态平衡 — 每周至少1个非F1(单角色)的蓝图
两个目的平衡 — 填空格(扩劣势)+ 加变体(扩优势),每周都要有
门槛:覆盖≥3个I值 · 任何I×W占比≤30% · 含≥1个非F1形态 · 含≥1个新空格填充 + ≥1个已有格子加量
V2 · 批量生产 — 三条子线并行 周一下午-周三

输入:V1的蓝图 | 输出:每蓝图50-100个bot变体

子线A:模式复刻(主力产能)
输入:蓝图的prompt模板 + 变异空间
Step 1:AI在变异空间内采样参数组合(角色性格×职业×背景×世界观)
Step 2:组合兼容性检查 — AI评估每个参数组合是否合理(如「病娇+幼儿园老师+未来科幻」→ 不兼容 → 丢弃)
Step 3:对通过的组合生成完整bot(人设+世界观+开场+prompt)
产出:每蓝图 50-80 个变体
子线B:IP热点(追时效)
输入:每日IP热点 + 品类宝典
触发条件:IP热度达到阈值时启动(不是每天都有)
Step 1:品类宝典匹配 — 这个IP适合什么品类?
Step 2:AI结合IP资料+品类模板批量生成
速度要求:热点出现24h内出bot
产出:每个热点IP 10-20个bot
子线C:新品类承接(来自题材线/形态线)
输入:题材线/形态线毕业的交接包
Step 1:用交接包中的prompt模板+生成规范,首次批量生产
Step 2:生产50个bot → 跑评分器(用交接包中的新维度权重)
Step 3:首批数据验证后,该品类并入子线A的常规排产
产出:新品类首批 50 个bot
模块化生产引擎(子线A的核心能力)
不是直接生成整个bot,而是 分模块生成 → 兼容性检查 → 组装
角色模块:原型(霸总/竹马/病娇...) × 差异参数(职业/背景/外貌/口癖) → 完整人设
世界观模块:场景类型(现代/古代/校园/奇幻...) × 氛围参数(甜/虐/悬疑/热血) → 设定
⚠ 兼容性检查:AI评估角色×世界观组合是否自然(不是所有组合都合理)→ 过滤掉不兼容的
剧情骨架:基于品类爽感模板 + 角色 + 世界观 → 关键转折点序列
开场生成(单独优化):前3-5轮内容,决定留存的关键环节
Prompt组装:汇总所有模块 → 完整可运行的bot
效率增益:20个角色模块 × 10个世界观 × 兼容性过滤(~60%通过) = ~120个有效组合 × 每组合2-3个剧情变体 = 240-360个bot,但只需设计30个模块
门槛:每批次生成≥50个bot · 兼容性检查通过率≥60%(太低说明变异空间定义有问题)· IP子线24h内出bot
V3 · 自动质检 + 人工校准 周三-周四上午

输入:V2生产的所有bot | 输出:可上线bot + 质检报告

Layer 1:AI自动质检(全量)
Bot评分器对每个bot做全维度评分
底线检查(一票否决):内容安全 · 角色一致性 · 不崩溃 · 无低质AI味
质量评分:钩子密度 · 人设反差 · 开场质量 · 可玩深度 · 节奏匹配 → 综合S/A/B/C/D
新品类专项:如果是题材线/形态线交接来的品类 → 加跑题材纯度/形态机制检测
筛选:≥B级 通过 · C级标记「待优化」可选修改后重检 · D级直接丢弃(入负面样本库)
Layer 2:人工抽检(20%抽样)
从通过B级的bot中随机抽20%
每个bot试玩3-5轮,快速判断:① 评分器的评级准不准? ② 有没有评分器没检出的问题?
如果发现评分器漏检的问题类型 → 记录并反馈给评分器团队 → 新增检测规则
产出:评分器校准报告(哪些维度准确、哪些有偏差、需要新增什么规则)
目标:人工和AI评级一致性 ≥80%
Layer 3:基因一致性检查(新增)
AI对比蓝图预定的基因配方 vs 实际生成的bot → 用gene标注pipeline检测
检查项:I匹配?W匹配?T都有?E匹配?cast_size对?角色原型对?
偏离(如蓝图要I01但bot实际是I09)→ 标记不合格,需修改后重检
目标一致性:≥85%
S级/D级 特殊处理
S级(top 10%)→ AI拆解为什么好 → 提取基因要素 → 更新已验证模式库(自动提议,人审核)
D级 → 入负面样本库 + AI按基因维度归因(I选错?T不够?prompt规则没遵守?角色差异度低?)
门槛:B级以上通过率≥70% · 如果低于50%说明V1的蓝图或V2的生成质量有系统性问题,需暂停产线排查
V4 · 灰度上线 + 数据反馈闭环 周四-下周一

输入:V3通过的bot | 输出:上线数据 + 知识库更新提案

上线策略
灰度规则:每个bot分配小流量(等量曝光保证对比公平)· 12h冷却期后开始看数据
对照:同品类已有bot作为baseline · 新bot的指标必须达到baseline的一定比例才能扩量
数据窗口:72h(不是原来的12h,太短数据不稳定)
核心数据指标
留存率 — 次日返回 · 3日返回 · 7日返回(和同品类baseline对比)
互动深度 — 平均session轮次 · 每session消息条数
复玩率 — 玩完一次后再次开新session的比例
流失点 — 用户在第几轮流失?流失集中在哪个剧情阶段?
付费信号(如有)— 付费转化率 vs baseline
AI归因分析(每周自动跑,产出周报)
按品类汇总 — 本周每个品类的平均表现 vs 历史基准。哪个品类在涨?哪个在跌?
按结构要素归因 — 高留存bot vs 低留存bot的结构差异分析(哪些人设要素/开场模式/节奏节点和留存正相关?)
流失点诊断 — 聚类分析流失集中的轮次 → 追溯该轮对话内容 → 推测流失原因(人设崩了/剧情无聊了/节奏断了?)
达标(≥baseline 0.9x) → 扩量 接近(0.7-0.9x) → 诊断 → 微调prompt重测 远低(<0.7x) → 下架 + 诊断 → 反馈
数据反馈 → 基因级别闭环(核心升级)
基因表现更新:每个上线bot的Chat/Imp自动关联到其基因标注 → 更新该基因组合的均值 → 覆盖矩阵格子状态自动变化(⬜空→✅少量→🟢充足→🔴饱和)
配方级归因:AI按基因配方分组分析 — 哪些配方在本周表现好/差?哪些I×W组合新增了数据验证?
基因库迭代:run_pipeline.py 每周自动跑 → AI读Top/Bottom bot内容 → 对比现有基因库 → 提出新增/合并/废弃基因的提案
评分器校准:用本周上线数据做基因维度和Chat/Imp的相关性分析 → 调整权重
下周 pipeline 跑时自动看到这些变化 → 影响下周V1选题
闭环:上线数据 → 基因表现更新 → 覆盖矩阵状态变化 → 下周V1看到新的空格/饱和信号 → 调整生产方向。全自动,人只审批基因库更新提案。
辅助模块
产量线周节奏 — 团队一周怎么过
周一
run_pipeline.py
看周报+覆盖矩阵
审批基因库更新
按矩阵空格定蓝图
下午:启动生产
周二
AI批量生成
模块化引擎运转
兼容性检查+过滤
IP热点响应(如有)
周三
生产收尾
AI自动质检(全量)
人工抽检开始
周四
人工抽检完成
提交审核上线
灰度上线开始
早期数据监控
周五
灰度数据积累
AI生成知识库更新提案
AI生成周数据报告
→ 供下周一review
产量线 KPI + 基建协同
核心指标
周产出100-200 bot
质检通过率≥70%
基因一致性≥85%
上线达标率≥60%
I值覆盖≥3种/周
非F1形态占比≥1个/周
矩阵空格填充≥2格/周
A/S级占比≥20%
基建协同
← 获取(from run_pipeline.py)
weekly_report.md — 数据趋势+基因库更新提案+生产建议
coverage_matrix.json — 覆盖矩阵(空格=生产机会)
gene_dashboard — 已验证模式+基因组合分析+IP覆盖
评分器+基因一致性检查 · 模型管理 · 知识库
→ 产出
上线数据 → 情报系统(更新模式库)
S级bot分析 → 知识库(新成功模式)
D级bot → 负面样本库
评分器校准报告 → 评分器团队
后训练数据(高质量bot对话)→ 模型管理
题材选品逻辑 — 用户想要什么情绪?这个题材和言情用户的关系是什么?

先选情绪价值,再选题材载体。同时评估:这个题材是从现有言情用户中转化,还是需要获取新用户?

权力快感 — 高交叉,优先做
"我在一步步登上顶峰"
载体:权谋、商战、宫斗、修仙
言情用户交叉度高,爽文受众重叠,迁移成本最低
温暖治愈 — 高交叉,优先做
"无压力的日常陪伴"
载体:校园日常、治愈系、慢节奏生活
和甜宠言情受众高度重叠,prompt改动最小
智力征服 — 低交叉,验证需求
"我比角色/局面更聪明"
载体:悬疑推理、密室、谋略对弈
完全不同的用户动机,可能需要新用户获取
英雄认同 — 中等交叉
"我在拯救/改变世界"
载体:冒险、奇幻、科幻
取决于是否保留CP线,保留则交叉高
安全恐惧 — 低交叉
"好刺激但我知道我是安全的"
载体:恐怖、惊悚、末日生存
完全不同的情绪需求,需要验证平台用户是否接受
命运感 — 中等交叉
"这个故事太虐但我放不下"
载体:非恋爱悲剧、战争、牺牲、命运抗争
虐恋用户可能迁移,但需要不同的叙事技巧

优先级排序原则:先做高交叉题材(低获客成本),再做低交叉题材(需新用户)。高交叉 = 快速验证 + 快速进产量线。

选品后进入流水线
G1 · 题材假设采集 — 从数据出发不是拍脑袋 持续,每周产出

四个数据源驱动选题,人做最终选品决策

源A:竞品非言情热度(主力)
爬取 酒馆/C.AI/Janitor 的非言情热门bot
按题材分类:悬疑/权谋/冒险/恐怖/校园/...,统计每类的热度、收藏、评论
AI 拆解热门bot的 prompt 结构 — 提取题材特征、人设方向、叙事风格
产出:竞品题材热度排行榜(每周更新)
源B:内部用户行为信号
分析用户 搜索词:搜了什么没找到?非言情搜索占比多少?
分析用户 对话内容:是否在言情bot中主动引入非言情元素?(如在恋爱bot中讨论打怪/破案)
分析 流失用户:离开的用户去了哪些竞品?消费了什么类型?
产出:内部需求缺口报告
源C:外部内容趋势
网文平台(番茄/起点/晋江):非言情品类的热度趋势、新兴题材
短剧/影视:什么非言情题材正在爆?
AI 分析趋势 → 评估是否可翻译为bot题材
源D:社区需求表达
Discord/社群中用户对非言情内容的直接请求
如"什么时候能有推理类bot""想要修仙升级的"
AI 提取 → 归类到情绪价值框架 → 匹配题材
产出:每周「题材假设 Backlog」
每个假设包含:① 目标情绪价值 · ② 题材定义(一句话说清楚这是什么类型的内容)· ③ 和言情的交叉度(高/中/低)· ④ 需求信号来源和强度 · ⑤ 参考bot(竞品搬来的)
人做选品:每周选 1-2 个题材进入G2。优先选:需求信号强 + 言情交叉度高 + 有竞品参考bot的。
门槛:假设必须有明确的需求数据支撑(不能是"我觉得悬疑有市场")。没有数据的假设不进入下一步。
G2 · 批量制造 + 题材纯度筛选 2-3天/题材

输入:G1选定的题材假设 + 竞品参考bot | 输出:50-100个题材纯净的bot

Step 1:Prompt模板构建(Day 1上午)
核心操作:把 言情prompt模板 改造为 目标题材prompt模板
如果有竞品参考bot → AI 拆解其prompt → 提取题材特征指令 → 融合进我们的模板结构
如果无参考 → AI 基于题材定义 + 情绪价值 生成题材prompt模板草案
⚠ 关键:必须加入「题材锁定指令」— 明确告诉模型不要漂到言情(如"你是侦探bot,不要和用户发展恋爱关系")
人快速审核(30分钟):题材调性是否对?题材锁定指令是否够强?
Step 2:变体批量生成(Day 1下午-Day 2)
AI 在模板上做变异 — 同一题材 × 不同子类型 × 不同人设 × 不同世界观
如「悬疑推理」:古风探案 / 现代刑侦 / 校园怪事 / 职场阴谋 / 灵异悬疑 ...
如「权力幻想」:宫斗上位 / 商战逆袭 / 修仙升级 / 校园权力 / 末日领袖 ...
每个题材生成 50-100个bot变体,覆盖 ≥5个子类型
同时生成同设定的 言情对照组(10-20个)→ 用于后续数据对比
Step 3:题材纯度自动筛选(Day 2-3)— 本线独有
AI 扮演用户跑每个bot 20轮,对每轮做题材分类标注
→ 每轮标注为:目标题材内容 / 言情内容 / 混合内容 / 其他
→ 计算 题材纯度 = 目标题材轮次 / 总轮次
→ 记录 漂移起始轮:从第几轮开始漂向言情?
筛选标准:题材纯度 ≥60%前10轮纯度 ≥80%(开场必须是题材的)
同时做基础可玩性检测(不崩溃、角色一致、无安全问题)
目标保留:≥30个 纯度达标的bot
门槛:①≥30个bot题材纯度达标 ②覆盖≥3个子类型 ③言情对照组已生成。未达标 → 强化题材锁定指令重试,或判定该题材在当前模型上不可行。
G3 · 内部快测 + 对照实验 1-2天/题材

输入:G2筛选后的≥30个bot + 言情对照组 | 输出:≥15个可上线bot + 题材诊断报告

AI 深度评估(自动)
AI 用不同类型用户角色跑每个bot 30轮
评估 4 个核心维度
① 情绪命中率 — 是否传递了目标情绪价值?(如悬疑bot是否让AI"想知道真相")
② 题材纯度(深度版) — 30轮对话中目标题材内容占比,是否越到后面越漂?
③ 爽感节奏 — 关键情绪高潮是否出现?出现在第几轮?(如悬疑的"真相大白"时刻)
④ 和言情的差异度 — 这个bot的体验是否真的和言情bot不同?(用对照组比较)
产出:按综合得分排序 + 每个bot的诊断报告
团队快速试玩(人工)
每人分配 5-8 个bot,每个玩 5-10分钟
回答 4 个问题
① 你想继续玩吗?(Y/N)
② 这个bot给你的感觉是什么题材?(开放回答)
③ 你有没有在某个时刻想把对话往恋爱方向带?(Y/N)
④ 这个和你平时玩的言情bot体验有什么不同?(一句话)
问题③很关键:如果大多数试玩者都想带言情,说明这个题材对我们用户群的独立吸引力不够。
对照实验设计(在同一批中嵌入)
同题材做 2-3组变体 测试关键变量:
纯题材 vs 题材+言情线(如纯推理 vs 推理+侦探和线人有暧昧)— 测试是否需要保留情感元素
不同题材锁定强度(弱约束 vs 强约束)— 测试多大程度的言情漂移是用户可接受的
不同子类型(如悬疑:社会派 vs 本格派 vs 灵异派)— 测试哪个子类型最受欢迎
门槛:①人工「想继续玩」≥40% ②人工能正确识别题材(≥70%回答的题材和预期一致)③至少1个变体组显著优于其他。未达标 → 分析是题材本身不吸引人还是prompt不够好 → 调整重测或kill。
G4 · 灰度上线 — 数据裁判 1周/题材

输入:G3通过的≥15个bot + 言情对照组 | 输出:上线数据 + 题材结论

上线策略
模型:先付费模型(题材能力更强)→ 达标后同时测免费模型(评估迁移差距)
对照组:同设定的言情bot作为baseline — 如"现代都市悬疑" vs "现代都市言情",设定相同只换题材
用户分群:分开看 ①现有言情用户对新题材的反应 ②通过题材标签搜索进来的新用户
测试周期7天数据
核心指标(4个必看)
① 题材留存 vs 言情baseline — 新题材的次日返回率和言情比怎么样?不要求更高,但不能差太多(≥baseline的0.8倍)
② 题材纯度(用户端) — 真实用户对话中,目标题材内容占比多少?用户是否在主动维持题材?
③ 用户来源结构 — 玩这个题材的用户中,多少是原言情用户,多少是新用户?这决定了这个题材是「增量」还是「存量转化」
④ 交叉消费率 — 玩了新题材的用户,是否也在继续消费言情?(理想:玩两种,而不是替代)
AI 归因分析
按子类型分组 → 哪些子类型表现好?
分析题材漂移 → 用户端的实际漂移率是多少?和AI测试时的漂移率一致吗?
分析对照实验结果 → 纯题材 vs 题材+言情线,哪个留存更好?
留存达标 + 纯度达标 → G5毕业 部分子类型好 → 窄化后重测 全面不如baseline → Kill,沉淀原因
毕业硬杠:①至少1个子类型次日返回≥言情baseline的0.8倍 ②该子类型题材纯度≥50%(用户端实际数据)。两个都必须达到。
G5 · 迁移毕业 — 从付费到免费 + 交接给产量线 1-2周

输入:G4通过的题材 + 全部数据 | 输出:完整交接包 + 免费模型迁移结论

免费模型迁移测试
用G4验证通过的prompt模板 → 在免费模型上跑同样的bot
核心评估:题材纯度是否崩塌?(免费模型是言情训练的,题材漂移率可能飙升)
如果纯度崩塌 → Prompt强化:加更强的题材锁定指令、负面示例、角色行为边界
强化后重测 → 仍然不行 → 标记「需后训练」,暂时只在付费模型上线
后训练数据来源:付费模型上的高纯度对话样本 + 人工标注的题材分类数据
交接包内容(缺一不可)
① 题材定义卡 — 情绪价值 + 题材定义 + 最佳子类型 + 言情交叉度 + 用户来源结构
② Prompt模板 — 含题材锁定指令 + 固定部分/可变部分标注 + 参数推荐值
③ 调性规范 — 这个题材的文风/情感基调/用词禁区/旁白风格(入调性库)
④ 质量标准 — 评分器新增「题材纯度」维度 + 该题材的爽感节奏模板
⑤ 批量生成规范 — 变异空间(哪些子类型可做、人设方向、世界观范围)
⑥ 迁移状态 — 免费模型是否达标?差距在哪?需什么后训练?
⑦ 数据摘要 — 所有测试数据总结 + 对照实验结论 + 关键洞察
交接去向
→ 产量线:拿到prompt模板+生成规范+调性规范,在该题材下批量生产bot(用产量线的模块化流程)
→ 质量评估系统:新增「题材纯度」评分维度 + 该题材的节奏评分模板
→ 知识库:题材定义入品类宝典,调性入调性库,失败子类型入负面样本库
→ 情报系统:上线数据回流,更新题材机会图谱(验证了的题材标记为「已验证」+ 实际数据)
质量检查:交接包由产量线接收方确认完整性。特别是prompt模板的题材锁定指令 — 必须在产量线的批量生成中也能保持题材纯度。
辅助模块
题材线完整示例
示例:权谋宫斗(高交叉题材)
情绪价值:权力快感 —「我在后宫/朝堂一步步上位」
来源:竞品热度数据 — 酒馆上权谋类bot收藏量top20中有8个是宫斗
言情交叉:高 — 很多宫斗用户也是言情用户(甄嬛传受众)
题材锁定挑战:宫斗很容易漂成宫廷言情,需要强锁定(如"权力>感情"的优先级指令)
对照实验:纯宫斗权谋 vs 宫斗+后宫恋爱 → 测试哪个留存更好
关键验证点:用户是否真的在做权力决策而非只在谈恋爱?
示例:悬疑推理(低交叉题材)
情绪价值:智力征服 —「我通过对话推理出了真相」
来源:社区需求 — Discord频繁请求"推理类""破案类"内容
言情交叉:低 — 这是完全不同的用户动机
题材锁定挑战:模型倾向给用户正面情感反馈→容易变成"侦探恋爱故事"
对照实验:社会派(重动机) vs 本格派(重逻辑) vs 灵异悬疑(重氛围)
关键验证点:AI能否维持线索逻辑不矛盾?用户端题材纯度能到多少?
题材漂移 — 这条线独有的核心质量问题

因为免费模型是言情训练的,所有非言情bot都会往言情漂。这不是bug,但必须管控。

题材纯度定义:目标题材内容轮次 / 总轮次
可接受纯度:≥60%(不要求100%,一些情感元素可能是加分项)
前10轮纯度:≥80%(开场必须牢牢是题材的,漂移只能发生在后面)
漂移监控:记录「漂移起始轮」— 如果大部分bot在第5轮就漂了,说明prompt太弱
付费vs免费漂移差:免费模型的漂移率通常比付费高很多,这是迁移的核心挑战
管控手段:题材锁定指令 / 负面示例("不要...") / 角色行为边界 / 后训练
题材线 KPI
每周测试题材数1-2 个
每题材bot数50-100 个
G1→G4 周期≤2周
题材纯度(AI测)≥60%
前10轮纯度≥80%
月度毕业题材≥2 个
留存vs言情baseline≥0.8x
题材线 × 基础设施协同
← 从情报系统获取
竞品非言情bot热度排行 · 用户搜索词和对话内容中的题材信号 · 外部内容趋势
← 从质量评估系统获取
基础可玩性检测(安全+一致性)+ 新增「题材纯度」自动检测能力
← 从模型管理获取
付费模型用于G2-G4 · 免费模型迁移测试在G5 · 后训练数据管道
→ 产出给基建
给知识库:品类宝典+调性库+负面样本 · 给评分器:题材纯度维度+节奏模板 · 给情报系统:数据回流
形态线的选品逻辑 — 从用户情绪价值出发,不从技术机制出发

先问「用户想获得什么情绪」,再问「什么形态能给到这个情绪」。形态是手段,情绪是目的。

掌控感
"我的选择真的影响了结局"
→ 分支叙事、数值系统、策略博弈
→ 适配:权谋、生存、经营
社交代入
"我在和真实的角色社群互动"
→ 多角色、关系网、阵营系统
→ 适配:宫斗、校园、职场
智力快感
"我解开了/推理出了"
→ 剧本杀、密室、线索推理
→ 适配:悬疑、犯罪、惊悚
探索惊喜
"这个世界还有这么多东西"
→ 开放世界、随机事件、隐藏内容
→ 适配:奇幻、科幻、冒险
身份沉浸
"我真的变成了另一个人"
→ 深度人设代入、日记体、第一人称
→ 适配:历史、异世界、身份互换
情绪过山车
"虐到哭但停不下来"
→ 多线叙事、命运反转、牺牲抉择
→ 适配:悲剧、战争、末日

注意:一个形态可以同时提供多种情绪价值,但必须有一个主打。情绪价值决定选题优先级、评估标准和题材搭配。

选品后进入流水线
F1 · 假设采集 — 形态从哪来 持续,每周产出

四个采集渠道,AI驱动,人选品

渠道A:竞品搬运(主力)
酒馆/C.AI/Janitor 爬取非标准形态bot — 多角色、带系统指令、有数值、有世界书的
AI 对搬运的bot做 结构化拆解:识别其中的形态要素(几个角色?有无数值?什么交互模式?)
按情绪价值分类标注(这个bot主要提供什么体验?)
按热度/收藏/评论排序
渠道B:社区挖掘
Discord/Reddit/贴吧 监控用户讨论中的形态需求信号
如"要是能同时和两个角色对话就好了"/"希望有好感度系统"
AI 提取需求 → 映射到情绪价值 → 匹配已有或生成新形态假设
渠道C:跨行业借鉴
互动小说/文字游戏/TRPG/恋爱游戏的玩法机制
AI 分析这些产品的核心机制,翻译成bot形态方案
如:恋爱游戏的好感度系统→bot数值系统;TRPG的GM机制→多角色世界观bot
渠道D:AI 自生成
基于已有成功形态,AI 做 组合变异:把已验证的机制要素重新组合
如:好感度系统 + 多角色 = 多角色关系网养成
如:分支叙事 + 随机事件 = roguelike 文字冒险
产出:每周的「形态假设 Backlog」
每个假设包含:① 一句话情绪价值主张("让用户感受到___")② 参考来源(搬运的bot/社区需求/跨行业)③ 核心机制描述(区别于标准形态的关键点)④ 建议搭配题材
人做选品:每周从backlog中选 1-3 个假设进入F2。选品标准→情绪价值是否明确、参考来源的热度信号、和已测形态的差异度
门槛:假设必须能用一句话说清楚情绪价值,否则打回重新提炼。没有情绪锚点的形态不进入下一步。
F2 · 批量制造 — AI驱动,不是人手搓 2-3天/形态

输入:F1选定的形态假设 + 参考bot | 输出:50-100个可测试bot

Step 1:Prompt模板构建(Day 1上午)
如果有竞品参考bot → AI 逆向拆解其system prompt结构:提取角色设定规则、交互控制指令、数值/状态管理逻辑、叙事风格指令
如果无参考 → AI 基于情绪价值主张+核心机制描述 生成 system prompt模板草案
人快速审核prompt模板(30分钟):核心机制是否能跑通?情绪价值是否能传递?有无明显漏洞?
产出:1个可参数化的 system prompt 模板 — 固定部分(机制规则)+ 可变部分(题材/角色/设定)
Step 2:变体批量生成(Day 1下午-Day 2)
AI 在模板上做 三个维度的变异
题材变异:同一形态机制 × 不同题材(言情/悬疑/奇幻/校园/权谋...)
设定变异:同题材下不同世界观/角色/剧情设定
参数变异:机制参数微调(如数值变化速度、角色数量、分支密度)
目标:每个形态假设生成 50-100 个bot变体
覆盖:≥3个不同题材 × 每题材≥10个设定变体
Step 3:自动可玩性筛选(Day 2-3)
AI 扮演用户对每个bot跑 20轮自动测试,检测:
不崩溃:bot能正常运转20轮不出错(角色不混乱、机制不卡死、不跳出角色)
机制生效:如果有数值系统,数值确实在变化;如果有多角色,角色确实在交替
情绪命中:AI评估"这20轮对话是否传递了预期的情绪价值?"(如标注为"智力快感"的bot是否真的有推理体验)
淘汰不可玩的 → 目标保留率:≥50%(留下25-50个可测bot)
门槛:①prompt模板能让AI稳定执行机制 ②≥25个bot通过可玩性筛选 ③至少覆盖3个题材。未达标→回F1换假设或调整模板。
F3 · 内部快测 — 人机协同评估 1-2天/形态

输入:F2筛选后的25-50个bot | 输出:≥15个可上线bot + 形态诊断报告

快测方式(三层)
Layer 1:AI深度评估(自动)
AI 扮演不同类型的用户(主动型/被动型/试探型)分别跑每个bot 30轮
评估维度:① 情绪价值命中率(核心!这个bot是否给到了预期的情绪?)② 可玩深度(30轮后是否还有新内容?)③ 机制流畅度(机制是帮助体验还是打断体验?)
产出:每个bot的结构化评估报告 + 按情绪命中率排序
Layer 2:团队快速试玩(人工,关键环节)
每人分配 5-8 个bot,每个玩 5-10分钟(不需要玩完)
只回答 3 个问题:① 你想继续玩吗?(Y/N) ② 你感受到了___情绪吗?(Y/N) ③ 这和普通单角色bot有什么不同?(一句话)
不需要详细评分,不需要写报告。速度优先于深度。
Layer 3:交叉分析
AI 汇总Layer 1+Layer 2 → 产出 形态诊断报告
→ 这个形态的情绪价值是否能被感知?(人的试玩确认了吗?)
→ 哪些题材和这个形态最搭配?(不同题材变体的表现差异)
→ 机制的哪些部分是加分项?哪些是干扰?
→ prompt模板需要做什么调整?
门槛:①人工试玩「想继续玩」比例≥40% ②人工试玩「感受到预期情绪」比例≥50% ③至少1个题材表现明显优于其他。未达标→分析原因→小幅调整模板重测 或 判定形态不可行→沉淀失败原因→回F1。
F4 · 灰度上线 — 用真实用户数据做最终裁判 1周/形态

输入:F3通过的≥15个bot | 输出:上线数据 + 形态结论

上线策略
模型选择:付费模型上线(新形态的prompt复杂度高,免费模型大概率撑不住)
流量分配:小流量灰度,每个bot分配相同曝光量以确保对比公平
对照组:同题材的标准形态(单角色简单人设)bot作为baseline
测试周期:上线后收集 7天数据
核心数据指标(vs 同题材标准形态baseline)
Session时长 — 用户每次玩多久?比baseline长说明体验有吸引力
消息条数 — 用户发了多少条消息?比baseline多说明互动更深
次日返回率 — 用户第二天还来玩吗?这是最硬的指标
完成率(如有终点)— 用户是否玩到了设计的体验高潮?
主动分享率 — 用户有没有把这个bot分享给别人?
AI 归因分析
按题材分组分析 → 哪些题材在这个形态下表现好/差
按机制参数分组 → 哪些参数配置表现好/差
分析用户对话内容 → 用户是否在使用形态的核心机制?还是在绕过机制当普通bot玩?
核心指标显著优于baseline → F5毕业 部分题材好部分差 → 提取好的题材×形态组合,窄化后重测 全面不如baseline → Kill,沉淀失败分析
门槛:至少1个题材分组的次日返回率 > 同题材baseline的1.2倍。这是形态毕业的硬杠。
F5 · 毕业 — 交接给题材线和产量线 1周

输入:F4通过的形态 + 全部数据 | 输出:完整交接包

交接包内容(缺一不可)
① 形态定义卡 — 一句话情绪价值 + 核心机制描述 + 最佳题材搭配(从数据中验证的)+ 不适合的题材(数据反面教训)
② System Prompt 模板 — 经过测试验证的完整prompt模板,标注固定部分和可变部分,附带每个参数的推荐值范围(从数据中学到的)
③ 质量标准 — 这个形态下「好」的定义:哪些评估维度重要?阈值是多少?(如:剧本杀形态需要评估"推理公平性"和"线索密度")→ 提交给质量评估系统,新增形态专属评分维度
④ 批量生成规范 — 产量线用:变异空间定义(哪些参数可变、范围、禁止组合)、模块化生产的拆解方式、每个变体的最低质量要求
⑤ 模型需求说明 — 免费模型能否支撑?差距在哪?需要什么后训练?prompt强化能否弥补?
⑥ 数据摘要 — 所有测试数据的结构化总结:哪些变体表现最好、用户行为模式、关键洞察
交接去向
→ 题材线:拿到形态定义卡 + prompt模板,在该形态下探索更多题材的适配性
→ 产量线:拿到批量生成规范 + prompt模板,在已验证的题材×形态组合下批量生产
→ 质量评估系统:拿到新的评分维度和权重,更新评分器
→ 知识库:形态定义卡入品类宝典,prompt模板入模板库,失败案例入负面样本库
质量检查:交接包由题材线/产量线接收方确认完整性。任何模糊不清的部分必须在交接前补齐。
辅助模块
形态线完整示例 — 走一遍流程
示例A:好感度数值养成
情绪价值:掌控感 —「我的每句话都在影响角色对我的态度」
来源:竞品搬运 — C.AI上有大量带affection meter的bot,酒馆有world book实现的好感度系统
核心机制:角色对用户有一个隐藏好感度值(0-100),用户的选择和对话影响数值,不同数值区间角色有不同态度和剧情解锁
批量变异:言情(傲娇攻略)、校园(人气值竞争)、职场(上下级信任值)、奇幻(魔物驯化度)
关键验证点:用户是否能感知到数值在变化?感知到后是否更有动力继续?
示例B:多角色社交网
情绪价值:社交代入 —「我在一个有多个角色的世界里经营关系」
来源:社区需求 — Discord频繁出现"想同时和多个角色互动";恋爱游戏的多攻略对象机制
核心机制:3-5个角色各有独立人设和关系,用户和不同角色的互动会影响其他角色的态度(三角关系、阵营分化)
批量变异:后宫(多角色争宠)、宫斗(阵营对立)、校园群像、末日小队
关键验证点:模型能否稳定维持多角色的一致性?用户是否真的在和多角色互动而非只盯着一个?
示例C:线索推理剧本杀
情绪价值:智力快感 —「我通过和角色对话收集线索推理出了真相」
来源:跨行业 — 剧本杀游戏的核心机制 + 酒馆上的mystery/detective类bot
核心机制:角色持有隐藏信息,用户需要通过提问收集线索,最终做出推理判断。有正确答案。
批量变异:古风谋杀(谁是凶手)、现代悬疑(消失的人)、校园怪谈(超自然事件)、密室逃脱(找出口)
关键验证点:AI能否不泄底?线索难度是否合适?用户是否真的在推理而非瞎猜?
形态线 × 基础设施协同
← 从情报系统获取
竞品形态扫描数据 — 酒馆/C.AI的非标bot的结构化拆解结果
用户需求信号 — 社区中关于形态的需求表达
内部数据 — 用户在现有bot中绕过标准形态的行为(如自发引入数值系统)
← 从质量评估系统获取
自动可玩性检测 — F2阶段用评分器的安全维度+角色一致性做底线筛选
注意:形态线不用结构维度和节奏维度的标准权重(那是为现有形态校准的),只用安全维度作为底线
← 从模型管理获取
付费模型 — F2-F4全程使用付费模型(新形态prompt复杂,免费模型通常不行)
迁移评估 — F5毕业时测试免费模型能否支撑,评估差距和后训练需求
→ 产出给基建
给知识库:新形态的品类宝典条目 + prompt模板 + 负面样本(失败形态的原因分析)
给评分器:新的形态专属评分维度和权重建议
给情报系统:上线数据回流,更新对用户偏好的理解
形态线 KPI
每周测试形态数1-3 个
每形态bot数50-100 个
F1→F4 周期≤2周
F2可玩率≥50%
F3内测想继续玩≥40%
F4毕业率跟踪不设目标
月度毕业形态≥2 个
失败沉淀率100%
F4毕业率不设目标:探索阶段大部分假设应该失败。如果毕业率太高说明假设不够大胆。
失败沉淀 — 每次失败都是资产

失败的形态不是浪费,是排除法。但必须结构化记录。

记录:情绪价值主张 + 实际测试结果 + 失败原因分类
常见失败原因分类
模型能力不足 — 机制太复杂模型跟不上(标注:等模型升级后重测)
情绪价值不成立 — 用户不在意这个体验维度(标注:kill,不重测)
机制干扰体验 — 机制存在但打断了叙事流畅度(标注:简化机制后重测)
题材错配 — 形态可能OK但搭配了错误题材(标注:换题材重测)
→ 全部入 负面样本库,供后续假设生成时查重避坑
🔄 三条线的知识流转闭环
形态线 验证通过的体验范式 + prompt架构
题材线 验证通过的品类规范 + 模板 + 评分参数
产量线 批量生产 → 上线数据
情报系统 更新模式库/题材图谱/形态假设 → 反馈各线
产量线周级 · 题材线4周 · 形态线8周 · 知识库周增量+月深度
⏱ 运转节奏对比
产量线持续运转,每周产出
题材线4周一个验证周期
形态线8周一个验证周期
知识库每周增量 + 每月深度
Phase 0 · 基础设施建设 第1-4周

目标:让第一个端到端循环跑起来

Week 1-2 — 结构化标注器:top50+bottom50 bot做结构拆解,人工校准
Week 2-3 — 质量评估器:定义5-8维度,搭建评分器,一致性≥80%
Week 3-4 — 端到端测试:2-3蓝图 → 50bot → 评分器过滤 → 灰度上线
产出:成功模式库 v0.1 · Bot评分器 v0.1 · AI批量质量的第一手认知
Phase 1 · 产量线启动 第5-8周
基于 Phase 0 数据迭代模式库 + 评分器
完善蓝图模板体系
IPbot + 模式复刻双子线并行
建立每周稳定节奏
产出:每周稳定 ≥30 个可上线bot
Phase 2 · 题材线启动 第6-10周
情报系统产出题材机会图谱
选定第一个验证题材(建议:权力幻想 or 悬疑推理)
AI分析叙事结构 → 对照实验 → 付费模型测试
产出:第一个题材的验证结论
Phase 3 · 形态线启动 第10+周
选取最可行的 1 个形态
人主导设计体验范式原型
Prompt工程师深度调试
少量用户测试 → 定性反馈
产出:第一个形态的验证结论
⚠ 待解决的关键问题
Q1 用户聊天动机监控 — 纳入情报系统数据采集,识别题材偏好信号
Q2 小说/长篇叙事形态 — 形态线独立假设,需单独评估
Q3 评分器品类适配 — 维度权重按品类调整,新品类需校准
Q4 付费模型成本控制 — 只用于探索评估,随知识库积累应减少
Q5 人的产能瓶颈 — 初期最大,需明确时间预算,随系统成熟递减