AI 写作选什么 LLM?文案 / 公众号 / 小说创作场景实测
写作不是单看"哪个最聪明"——能把中文写得自然、不瞎编、按你要求来、价格扛得住批量产出,这四样才是真正决定能不能用的。本文用 SuperCLUE 中文实测 + Vectara HHEM 摘要幻觉率 + 官方 API 价格三个独立数据源交叉,分五档给出推荐。
一句话结论
- 不计成本求质量——Claude Opus 4.7(SuperCLUE 总分 77.02 全球第一,幻觉控制 82.95),需代理。
- 国内综合最强——DeepSeek V4 Pro(国内 SuperCLUE 总分 70.98 第一,幻觉控制 80.68),$0.435 / $0.87 一口价。
- 海量批产平价——DeepSeek V4 Flash($0.126 / $0.252,国内最便宜的能打模型),适合每天几万字社交媒体文案。
- 严控幻觉——GLM-5(幻觉控制 86.85 全场第一),适合需要事实准确的科普 / 知识类内容。
- 几十万字长篇——Claude Sonnet 4.6(1M 上下文 + 写作流畅度业界共识 Top),适合连载小说、剧本、长篇调研报告。
写作场景看哪四个维度
挑写作 LLM 别只看跑分总分。下面四件事真正决定能不能用——同一个模型可能 A 维度顶尖、B 维度一塌糊涂。
- 中文综合能力——能不能写得像中国人说话,不是"机翻 + 排比 + 升华"那种 AI 味。SuperCLUE 总分作为参考维度。
- 不胡说——写文案虚构没关系,但写历史、引数据、列产品参数时绝对不能瞎编。看 SuperCLUE 幻觉控制 + Vectara HHEM 双榜交叉,分数越高(HR 越低)越靠谱。
- 听话——指定字数、限定风格、要求带表情符号、按结构输出,能不能照做。SuperCLUE "精确指令遵循" 全场最高才 56.76,这意味着没有任何模型能 100% 按 prompt 输出,差距只是大小。
- 价格扛得住批量——单篇随便用都行,但日产万字以上时每百万 token 多几毛钱就是几百块差距。看 output_usd_per_million,单位是美元每百万 token。
数据来源:SuperCLUE 通用基准(2026年3月,2026-05-12 更新)+ Vectara HHEM-2.3(May 11, 2026 更新)+ 各厂商官方 API 价目表(2026-05-14 复核)。这三个数据源彼此独立,未做综合分汇总。
综合榜:写作场景 Top 10
以下排序按"写作权重分"——SuperCLUE 总分 40% + 幻觉控制 35% + 精确指令遵循 25%。这是本场景下的视角排序,不是 SuperCLUE 官方榜,请勿当作"综合能力榜"引用。
| # | 模型 | 总分 | 幻觉控制 | 指令遵循 | 输出价 $/M |
|---|---|---|---|---|---|
| 1 | Gemini-3.1-Pro-Preview(high) 海外 Google | 76.69 | 80.50 | 56.76 | $12.00 |
| 2 | Claude-Opus-4.6(max) 海外 Anthropic | 77.02 | 82.95 | 47.57 | — |
| 3 | GPT-5.4(xhigh) 海外 OpenAI | 72.48 | 85.43 | 44.32 | $15.00 |
| 4 | Doubao-Seed-2.0-pro-260215(high) 国内 字节跳动 | 71.53 | 79.41 | 39.46 | — |
| 5 | DeepSeek-V4-Pro(max) 国内 深度求索 | 70.98 | 80.68 | 37.84 | $0.87 |
| 6 | Gemini-3-Flash-Preview(high) 海外 Google | 68.84 | 82.37 | 35.68 | $3.00 |
| 7 | GLM-5 国内 智谱AI | 64.27 | 86.85 | 24.86 | $1.92 |
| 8 | DeepSeek-V4-Flash(max) 国内 深度求索 | 68.82 | 75.67 | 32.43 | $0.25 |
| 9 | Grok-4.20-Beta-0309(Reasoning) 海外 X.AI | 66.07 | 77.89 | 32.43 | — |
| 10 | Qwen3.5-397B-A17B-Thinking 国内 阿里巴巴 | 64.48 | 84.39 | 19.46 | — |
指令遵循全场最高 56.76 也只过半——意味着不管选哪个,prompt 要写得明确、结构化,别指望它揣摩你的意图。
平价大碗档:日产万字以上首选
每天要喂出几万字的——小红书种草、电商详情、SEO 长尾、批量改稿——价格是第一约束。下面这些 output 单价 ≤ $2/M,质量没塌下来(SuperCLUE 总分 ≥ 60)。
| 模型 | 总分 | 幻觉控制 | 输入价 | 输出价 |
|---|---|---|---|---|
| DeepSeek-V4-Pro(max) 国内 深度求索 | 70.98 | 80.68 | $0.43 | $0.87 |
| GLM-5 国内 智谱AI | 64.27 | 86.85 | $0.6 | $1.92 |
| DeepSeek-V4-Flash(max) 国内 深度求索 | 68.82 | 75.67 | $0.13 | $0.25 |
DeepSeek V4 Flash 是这一档的甜点——输出 $0.252 / 百万 token,国内综合能力第 4,幻觉控制 75.67 不算顶尖但够用。日产 10 万字(按中文 1.5 字/token 估算约 67k token)一天成本不到 $0.02。
严控幻觉档:科普 / 知识 / 引用类内容
写公众号知识文、解释行业概念、罗列产品参数——这些场景里编一个数据就废了。下面是 SuperCLUE 幻觉控制 ≥ 80 的所有模型,按分数降序排。
| 模型 | SuperCLUE 幻觉控制 | HHEM 幻觉率 | 总分 |
|---|---|---|---|
| GLM-5 国内 智谱AI | 86.85 | 10.1% | 64.27 |
| GPT-5.4(xhigh) 海外 OpenAI | 85.43 | 7.0% | 72.48 |
| Qwen3.5-397B-A17B-Thinking 国内 阿里巴巴 | 84.39 | — | 64.48 |
| Claude-Opus-4.6(max) 海外 Anthropic | 82.95 | 12.2% | 77.02 |
| Gemini-3-Flash-Preview(high) 海外 Google | 82.37 | 13.5% | 68.84 |
| DeepSeek-V4-Pro(max) 国内 深度求索 | 80.68 | 8.6% | 70.98 |
| Gemini-3.1-Pro-Preview(high) 海外 Google | 80.50 | 10.4% | 76.69 |
GLM-5 在中文幻觉控制上跑分第一(86.85)——但总分只有 64.27,意味着不胡说但综合写作能力不顶。所以"严控幻觉"是 trade-off:要么牺牲一些综合质量换准确性,要么用 Claude Opus / GPT-5.4 这种总分高且幻觉控制 ≥ 82 的旗舰,但价格贵。HHEM 那列是 Vectara 英文摘要榜的对照——GPT-5.4(xhigh) 在两边都拿了高分(中文 85.43 + 英文 HR 7.0%),跨语言稳定性最好;Claude-Opus-4.6 中文好但英文 HR 12.2% 偏高,做英文摘要时反而不如 GLM-5(10.1%)和 DeepSeek V4 Pro(8.6%)。
长篇创作档:连载小说 / 剧本 / 调研报告
一次性写 5 万字以上,或者要喂模型整本背景资料(人设、世界观、之前的章节)让它续写——这种场景上下文窗口比智能分更重要。当代模型里上下文 ≥ 50 万 token 的:
| 模型 | 上下文 | 输入价 | 输出价 | 国内可用 |
|---|---|---|---|---|
| Grok 4.1 Fast xAI | 2M | $0.2 | $0.5 | 需代理 |
| GPT-5.5 OpenAI | 1.1M | $5.00 | $30.00 | 需代理 |
| GPT-5.5 Pro OpenAI | 1.1M | $30.00 | $180.00 | 需代理 |
| GPT-5.4 OpenAI | 1.1M | $2.50 | $15.00 | 需代理 |
| Gemini 3.1 Pro Preview Google | 1M | $2.00 | $12.00 | 不稳定 |
| DeepSeek V4 Pro DeepSeek | 1M | $0.43 | $0.87 | 可用 |
| DeepSeek V4 Flash DeepSeek | 1M | $0.13 | $0.25 | 可用 |
| MiMo-V2.5-Pro Xiaomi | 1M | $1.00 | $3.00 | 可用 |
| MiMo-V2.5 Xiaomi | 1M | $0.4 | $2.00 | 可用 |
| Gemini 3 Flash Preview Google | 1M | $0.5 | $3.00 | 不稳定 |
| Gemini 3.1 Flash Lite Google | 1M | $0.25 | $1.50 | 不稳定 |
| Llama 4 Maverick Meta | 1M | $0.15 | $0.6 | 需代理 |
| Claude Opus 4.7 Anthropic | 1M | $5.00 | $25.00 | 需代理 |
| Claude Sonnet 4.6 Anthropic | 1M | $3.00 | $15.00 | 需代理 |
| Grok 4.3 xAI | 1M | $1.25 | $2.50 | 需代理 |
| Qwen3.6 Plus Alibaba (阿里云百炼) | 1M | $0.33 | $1.95 | 可用 |
Grok 4.1 Fast 200 万 token + $0.5 输出价是断档便宜——但中文写作风格社区评价一般。实操推荐:长篇连载首选 Claude Sonnet 4.6(1M 上下文 + 写作风格稳定 + 输出 $15);预算紧的用 DeepSeek V4 Pro(1M 上下文 + 国内综合第一 + 输出 $0.87,是同等上下文里最便宜的高质量选项)。
五个细分场景的具体选型
- 小红书 / 公众号短文案——需要中文语感、网感、轻幻觉。首选豆包 Seed 2.0 Pro(SuperCLUE 总分 71.53,是字节自家的,懂"姐妹们""家人们"这种语感)或DeepSeek V4 Flash(便宜大碗)。Claude 中文不算最自然,写得偏"翻译腔"。
- 小说创作 / 长篇剧本——首选 Claude Sonnet 4.6(1M 上下文 + 行文细腻),Gemini 3.1 Pro Preview(精确指令遵循 56.76 全场最高,按你设定的人设走最稳)也行。不要用 reasoning 模型——Kimi K2.5 Thinking / DeepSeek V3.2 Thinking 在创意场景反而文笔板,思维链让它倾向"分析人物动机"而非"沉浸描写"。
- 营销文案 / 广告 slogan——多备几个候选模型并行跑,挑最好的那条。Claude Opus 4.7 + DeepSeek V4 Pro + 豆包 Seed 2.0 Pro 三家风格差异最大,互相对冲 AI 味。
- SEO 长尾文 / 批量改写——纯粹拼价格质量比。DeepSeek V4 Flash($0.252 输出)是这一档无悬念冠军。日产 50 万字成本 < $0.5。
- 知识科普 / 行业解读——幻觉率是命门。GLM-5(幻觉控制 86.85)或 GPT-5.4(幻觉控制 85.43 + 综合更全面),都要配 RAG 或人工事实核查。千万别只用模型自带知识写带数据的文章,再低的幻觉率也会偶尔编。
写作场景五个最常见坑点
- 幻觉控制 ≠ 中文写作不糊——SuperCLUE 幻觉控制衡量的是"能不能准确回答事实问题",不是写作时的"自由发挥度"。GLM-5 幻觉控制冠军但总分只 64.27,写散文照样会出现 AI 味浓的排比。
- reasoning 模型不适合创意写作——SuperCLUE 推理模型榜上的 Kimi K2.5 Thinking、DeepSeek V3.2 Thinking、Qwen3.5 Thinking 等,开思维链后行文倾向"分析说明"而非"沉浸创作"。要写小说、剧本、品牌故事,关掉思考模式或者直接用非 reasoning 版本。
- 指令遵循全场最高 56.76——意思是即使最听话的 Gemini 3.1 Pro,按 prompt 输出的精确度也就过半。要求"严格 300 字"它会写 280 也会写 350。对策:写完后用 JS 截断或单独再让模型改一遍字数。
- 便宜模型批量产能容易"塌房"——DeepSeek V4 Flash 单篇质量没问题,但同一个 prompt 跑 100 次开头会高度相似("在这个快节奏的时代""随着 XX 的兴起")。批量场景需要在 prompt 里加随机种子(不同的开头限定、不同的人设视角)。
- 国内调用国际模型的隐形成本——Claude / GPT 走中转的实际价格通常是官方标价的 1.2-1.5 倍,加上延迟和稳定性问题。预算敏感时先把 DeepSeek V4 Pro 用顺,确实写不动了再上 Claude,比一上来直接卷国际模型更现实。
三步决策树
- 日产量多大?——单篇 / 小批量(< 1 万字/天)→ 任选 Top 5;中等批量(1-10 万字/天)→ DeepSeek V4 Pro 或 豆包 Seed 2.0 Pro;高批量(> 10 万字/天)→ DeepSeek V4 Flash。
- 能不能走代理?——能 → Claude Sonnet 4.6 / Opus 4.7 / Gemini 3.1 Pro 三选一;不能 → 国内 DeepSeek V4 Pro / 豆包 / GLM-5 / Kimi K2.6 四选一。
- 单篇有多长?——短文(< 5k 字)→ 任意;中长(5k-50k)→ Claude Sonnet 4.6 / DeepSeek V4 Pro;长篇连载(> 50k 字含背景资料)→ Grok 4.3 / Claude Sonnet 4.6(看你能不能走代理)。
相关阅读
- LLM 幻觉率排行——HHEM + SuperCLUE 双榜深度对照
- LLM 长上下文排行——百万 token 时代的选型清单
- 一张图看清 LLM 性价比——智能 vs 价格散点图
- 国内 6 家 LLM API 开通教程——DeepSeek / 豆包 / 智谱等注册到调用
- DeepSeek V4 Flash 详情——便宜大碗档主力
- Claude Sonnet 4.6 详情——长篇创作首选