2026-05-15 · 场景化选型

AI 写作选什么 LLM?文案 / 公众号 / 小说创作场景实测

写作不是单看"哪个最聪明"——能把中文写得自然、不瞎编、按你要求来、价格扛得住批量产出,这四样才是真正决定能不能用的。本文用 SuperCLUE 中文实测 + Vectara HHEM 摘要幻觉率 + 官方 API 价格三个独立数据源交叉,分五档给出推荐。

一句话结论

  • 不计成本求质量——Claude Opus 4.7(SuperCLUE 总分 77.02 全球第一,幻觉控制 82.95),需代理。
  • 国内综合最强——DeepSeek V4 Pro(国内 SuperCLUE 总分 70.98 第一,幻觉控制 80.68),$0.435 / $0.87 一口价。
  • 海量批产平价——DeepSeek V4 Flash($0.126 / $0.252,国内最便宜的能打模型),适合每天几万字社交媒体文案。
  • 严控幻觉——GLM-5(幻觉控制 86.85 全场第一),适合需要事实准确的科普 / 知识类内容。
  • 几十万字长篇——Claude Sonnet 4.6(1M 上下文 + 写作流畅度业界共识 Top),适合连载小说、剧本、长篇调研报告。

写作场景看哪四个维度

挑写作 LLM 别只看跑分总分。下面四件事真正决定能不能用——同一个模型可能 A 维度顶尖、B 维度一塌糊涂。

  1. 中文综合能力——能不能写得像中国人说话,不是"机翻 + 排比 + 升华"那种 AI 味。SuperCLUE 总分作为参考维度。
  2. 不胡说——写文案虚构没关系,但写历史、引数据、列产品参数时绝对不能瞎编。看 SuperCLUE 幻觉控制 + Vectara HHEM 双榜交叉,分数越高(HR 越低)越靠谱。
  3. 听话——指定字数、限定风格、要求带表情符号、按结构输出,能不能照做。SuperCLUE "精确指令遵循" 全场最高才 56.76,这意味着没有任何模型能 100% 按 prompt 输出,差距只是大小。
  4. 价格扛得住批量——单篇随便用都行,但日产万字以上时每百万 token 多几毛钱就是几百块差距。看 output_usd_per_million,单位是美元每百万 token。

数据来源:SuperCLUE 通用基准(2026年3月,2026-05-12 更新)+ Vectara HHEM-2.3(May 11, 2026 更新)+ 各厂商官方 API 价目表(2026-05-14 复核)。这三个数据源彼此独立,未做综合分汇总。

综合榜:写作场景 Top 10

以下排序按"写作权重分"——SuperCLUE 总分 40% + 幻觉控制 35% + 精确指令遵循 25%。这是本场景下的视角排序,不是 SuperCLUE 官方榜,请勿当作"综合能力榜"引用

# 模型 总分 幻觉控制 指令遵循 输出价 $/M
1
Gemini-3.1-Pro-Preview(high)
海外 Google
76.69 80.50 56.76 $12.00
2
Claude-Opus-4.6(max)
海外 Anthropic
77.02 82.95 47.57
3
GPT-5.4(xhigh)
海外 OpenAI
72.48 85.43 44.32 $15.00
4
Doubao-Seed-2.0-pro-260215(high)
国内 字节跳动
71.53 79.41 39.46
5
DeepSeek-V4-Pro(max)
国内 深度求索
70.98 80.68 37.84 $0.87
6
Gemini-3-Flash-Preview(high)
海外 Google
68.84 82.37 35.68 $3.00
7
GLM-5
国内 智谱AI
64.27 86.85 24.86 $1.92
8
DeepSeek-V4-Flash(max)
国内 深度求索
68.82 75.67 32.43 $0.25
9
Grok-4.20-Beta-0309(Reasoning)
海外 X.AI
66.07 77.89 32.43
10
Qwen3.5-397B-A17B-Thinking
国内 阿里巴巴
64.48 84.39 19.46

指令遵循全场最高 56.76 也只过半——意味着不管选哪个,prompt 要写得明确、结构化,别指望它揣摩你的意图。

平价大碗档:日产万字以上首选

每天要喂出几万字的——小红书种草、电商详情、SEO 长尾、批量改稿——价格是第一约束。下面这些 output 单价 ≤ $2/M,质量没塌下来(SuperCLUE 总分 ≥ 60)。

模型 总分 幻觉控制 输入价 输出价
DeepSeek-V4-Pro(max)
国内 深度求索
70.98 80.68 $0.43 $0.87
GLM-5
国内 智谱AI
64.27 86.85 $0.6 $1.92
DeepSeek-V4-Flash(max)
国内 深度求索
68.82 75.67 $0.13 $0.25

DeepSeek V4 Flash 是这一档的甜点——输出 $0.252 / 百万 token,国内综合能力第 4,幻觉控制 75.67 不算顶尖但够用。日产 10 万字(按中文 1.5 字/token 估算约 67k token)一天成本不到 $0.02。

严控幻觉档:科普 / 知识 / 引用类内容

写公众号知识文、解释行业概念、罗列产品参数——这些场景里编一个数据就废了。下面是 SuperCLUE 幻觉控制 ≥ 80 的所有模型,按分数降序排。

模型 SuperCLUE 幻觉控制 HHEM 幻觉率 总分
GLM-5
国内 智谱AI
86.85 10.1% 64.27
GPT-5.4(xhigh)
海外 OpenAI
85.43 7.0% 72.48
Qwen3.5-397B-A17B-Thinking
国内 阿里巴巴
84.39 64.48
Claude-Opus-4.6(max)
海外 Anthropic
82.95 12.2% 77.02
Gemini-3-Flash-Preview(high)
海外 Google
82.37 13.5% 68.84
DeepSeek-V4-Pro(max)
国内 深度求索
80.68 8.6% 70.98
Gemini-3.1-Pro-Preview(high)
海外 Google
80.50 10.4% 76.69

GLM-5 在中文幻觉控制上跑分第一(86.85)——但总分只有 64.27,意味着不胡说但综合写作能力不顶。所以"严控幻觉"是 trade-off:要么牺牲一些综合质量换准确性,要么用 Claude Opus / GPT-5.4 这种总分高且幻觉控制 ≥ 82 的旗舰,但价格贵。HHEM 那列是 Vectara 英文摘要榜的对照——GPT-5.4(xhigh) 在两边都拿了高分(中文 85.43 + 英文 HR 7.0%),跨语言稳定性最好;Claude-Opus-4.6 中文好但英文 HR 12.2% 偏高,做英文摘要时反而不如 GLM-5(10.1%)和 DeepSeek V4 Pro(8.6%)。

长篇创作档:连载小说 / 剧本 / 调研报告

一次性写 5 万字以上,或者要喂模型整本背景资料(人设、世界观、之前的章节)让它续写——这种场景上下文窗口比智能分更重要。当代模型里上下文 ≥ 50 万 token 的:

模型 上下文 输入价 输出价 国内可用
Grok 4.1 Fast
xAI
2M $0.2 $0.5 需代理
GPT-5.5
OpenAI
1.1M $5.00 $30.00 需代理
GPT-5.5 Pro
OpenAI
1.1M $30.00 $180.00 需代理
GPT-5.4
OpenAI
1.1M $2.50 $15.00 需代理
Gemini 3.1 Pro Preview
Google
1M $2.00 $12.00 不稳定
DeepSeek V4 Pro
DeepSeek
1M $0.43 $0.87 可用
DeepSeek V4 Flash
DeepSeek
1M $0.13 $0.25 可用
MiMo-V2.5-Pro
Xiaomi
1M $1.00 $3.00 可用
MiMo-V2.5
Xiaomi
1M $0.4 $2.00 可用
Gemini 3 Flash Preview
Google
1M $0.5 $3.00 不稳定
Gemini 3.1 Flash Lite
Google
1M $0.25 $1.50 不稳定
Llama 4 Maverick
Meta
1M $0.15 $0.6 需代理
Claude Opus 4.7
Anthropic
1M $5.00 $25.00 需代理
Claude Sonnet 4.6
Anthropic
1M $3.00 $15.00 需代理
Grok 4.3
xAI
1M $1.25 $2.50 需代理
Qwen3.6 Plus
Alibaba (阿里云百炼)
1M $0.33 $1.95 可用

Grok 4.1 Fast 200 万 token + $0.5 输出价是断档便宜——但中文写作风格社区评价一般。实操推荐:长篇连载首选 Claude Sonnet 4.6(1M 上下文 + 写作风格稳定 + 输出 $15);预算紧的用 DeepSeek V4 Pro(1M 上下文 + 国内综合第一 + 输出 $0.87,是同等上下文里最便宜的高质量选项)。

五个细分场景的具体选型

  1. 小红书 / 公众号短文案——需要中文语感、网感、轻幻觉。首选豆包 Seed 2.0 Pro(SuperCLUE 总分 71.53,是字节自家的,懂"姐妹们""家人们"这种语感)或DeepSeek V4 Flash(便宜大碗)。Claude 中文不算最自然,写得偏"翻译腔"。
  2. 小说创作 / 长篇剧本——首选 Claude Sonnet 4.6(1M 上下文 + 行文细腻),Gemini 3.1 Pro Preview(精确指令遵循 56.76 全场最高,按你设定的人设走最稳)也行。不要用 reasoning 模型——Kimi K2.5 Thinking / DeepSeek V3.2 Thinking 在创意场景反而文笔板,思维链让它倾向"分析人物动机"而非"沉浸描写"。
  3. 营销文案 / 广告 slogan——多备几个候选模型并行跑,挑最好的那条。Claude Opus 4.7 + DeepSeek V4 Pro + 豆包 Seed 2.0 Pro 三家风格差异最大,互相对冲 AI 味。
  4. SEO 长尾文 / 批量改写——纯粹拼价格质量比。DeepSeek V4 Flash($0.252 输出)是这一档无悬念冠军。日产 50 万字成本 < $0.5。
  5. 知识科普 / 行业解读——幻觉率是命门。GLM-5(幻觉控制 86.85)或 GPT-5.4(幻觉控制 85.43 + 综合更全面),都要配 RAG 或人工事实核查。千万别只用模型自带知识写带数据的文章,再低的幻觉率也会偶尔编。

写作场景五个最常见坑点

  1. 幻觉控制 ≠ 中文写作不糊——SuperCLUE 幻觉控制衡量的是"能不能准确回答事实问题",不是写作时的"自由发挥度"。GLM-5 幻觉控制冠军但总分只 64.27,写散文照样会出现 AI 味浓的排比。
  2. reasoning 模型不适合创意写作——SuperCLUE 推理模型榜上的 Kimi K2.5 Thinking、DeepSeek V3.2 Thinking、Qwen3.5 Thinking 等,开思维链后行文倾向"分析说明"而非"沉浸创作"。要写小说、剧本、品牌故事,关掉思考模式或者直接用非 reasoning 版本。
  3. 指令遵循全场最高 56.76——意思是即使最听话的 Gemini 3.1 Pro,按 prompt 输出的精确度也就过半。要求"严格 300 字"它会写 280 也会写 350。对策:写完后用 JS 截断或单独再让模型改一遍字数。
  4. 便宜模型批量产能容易"塌房"——DeepSeek V4 Flash 单篇质量没问题,但同一个 prompt 跑 100 次开头会高度相似("在这个快节奏的时代""随着 XX 的兴起")。批量场景需要在 prompt 里加随机种子(不同的开头限定、不同的人设视角)。
  5. 国内调用国际模型的隐形成本——Claude / GPT 走中转的实际价格通常是官方标价的 1.2-1.5 倍,加上延迟和稳定性问题。预算敏感时先把 DeepSeek V4 Pro 用顺,确实写不动了再上 Claude,比一上来直接卷国际模型更现实。

三步决策树

  1. 日产量多大?——单篇 / 小批量(< 1 万字/天)→ 任选 Top 5;中等批量(1-10 万字/天)→ DeepSeek V4 Pro 或 豆包 Seed 2.0 Pro;高批量(> 10 万字/天)→ DeepSeek V4 Flash。
  2. 能不能走代理?——能 → Claude Sonnet 4.6 / Opus 4.7 / Gemini 3.1 Pro 三选一;不能 → 国内 DeepSeek V4 Pro / 豆包 / GLM-5 / Kimi K2.6 四选一。
  3. 单篇有多长?——短文(< 5k 字)→ 任意;中长(5k-50k)→ Claude Sonnet 4.6 / DeepSeek V4 Pro;长篇连载(> 50k 字含背景资料)→ Grok 4.3 / Claude Sonnet 4.6(看你能不能走代理)。