2026-05-15 · 场景化选型

AI 写作选什么 LLM？文案 / 公众号 / 小说创作场景实测

写作不是单看"哪个最聪明"——能把中文写得自然、不瞎编、按你要求来、价格扛得住批量产出，这四样才是真正决定能不能用的。本文用 SuperCLUE 中文实测 + Vectara HHEM 摘要幻觉率 + 官方 API 价格三个独立数据源交叉，分五档给出推荐。

一句话结论

不计成本求质量——Claude Opus 4.7（SuperCLUE 总分 77.02 全球第一，幻觉控制 82.95），需代理。
国内综合最强——DeepSeek V4 Pro（国内 SuperCLUE 总分 70.98 第一，幻觉控制 80.68），$0.435 / $0.87 一口价。
海量批产平价——DeepSeek V4 Flash（$0.126 / $0.252，国内最便宜的能打模型），适合每天几万字社交媒体文案。
严控幻觉——GLM-5（幻觉控制 86.85 全场第一），适合需要事实准确的科普 / 知识类内容。
几十万字长篇——Claude Sonnet 4.6（1M 上下文 + 写作流畅度业界共识 Top），适合连载小说、剧本、长篇调研报告。

写作场景看哪四个维度

挑写作 LLM 别只看跑分总分。下面四件事真正决定能不能用——同一个模型可能 A 维度顶尖、B 维度一塌糊涂。

中文综合能力——能不能写得像中国人说话，不是"机翻 + 排比 + 升华"那种 AI 味。SuperCLUE 总分作为参考维度。
不胡说——写文案虚构没关系，但写历史、引数据、列产品参数时绝对不能瞎编。看 SuperCLUE 幻觉控制 + Vectara HHEM 双榜交叉，分数越高（HR 越低）越靠谱。
听话——指定字数、限定风格、要求带表情符号、按结构输出，能不能照做。SuperCLUE "精确指令遵循" 全场最高才 56.76，这意味着没有任何模型能 100% 按 prompt 输出，差距只是大小。
价格扛得住批量——单篇随便用都行，但日产万字以上时每百万 token 多几毛钱就是几百块差距。看 output_usd_per_million，单位是美元每百万 token。

数据来源：SuperCLUE 通用基准（2026年3月，2026-05-12 更新）+ Vectara HHEM-2.3（May 11, 2026 更新）+ 各厂商官方 API 价目表（2026-05-14 复核）。这三个数据源彼此独立，未做综合分汇总。

综合榜：写作场景 Top 10

以下排序按"写作权重分"——SuperCLUE 总分 40% + 幻觉控制 35% + 精确指令遵循 25%。这是本场景下的视角排序，不是 SuperCLUE 官方榜，请勿当作"综合能力榜"引用。

#	模型	总分	幻觉控制	指令遵循	输出价 $/M
1	Gemini-3.1-Pro-Preview(high) 海外 Google	76.69	80.50	56.76	$12.00
2	Claude-Opus-4.6(max) 海外 Anthropic	77.02	82.95	47.57	—
3	GPT-5.4(xhigh) 海外 OpenAI	72.48	85.43	44.32	$15.00
4	Doubao-Seed-2.0-pro-260215(high) 国内字节跳动	71.53	79.41	39.46	—
5	DeepSeek-V4-Pro(max) 国内深度求索	70.98	80.68	37.84	$0.87
6	Gemini-3-Flash-Preview(high) 海外 Google	68.84	82.37	35.68	$3.00
7	GLM-5 国内智谱AI	64.27	86.85	24.86	$1.92
8	DeepSeek-V4-Flash(max) 国内深度求索	68.82	75.67	32.43	$0.25
9	Grok-4.20-Beta-0309(Reasoning) 海外 X.AI	66.07	77.89	32.43	—
10	Qwen3.5-397B-A17B-Thinking 国内阿里巴巴	64.48	84.39	19.46	—

指令遵循全场最高 56.76 也只过半——意味着不管选哪个，prompt 要写得明确、结构化，别指望它揣摩你的意图。

平价大碗档：日产万字以上首选

每天要喂出几万字的——小红书种草、电商详情、SEO 长尾、批量改稿——价格是第一约束。下面这些 output 单价 ≤ $2/M，质量没塌下来（SuperCLUE 总分 ≥ 60）。

模型	总分	幻觉控制	输入价	输出价
DeepSeek-V4-Pro(max) 国内深度求索	70.98	80.68	$0.43	$0.87
GLM-5 国内智谱AI	64.27	86.85	$0.6	$1.92
DeepSeek-V4-Flash(max) 国内深度求索	68.82	75.67	$0.13	$0.25

DeepSeek V4 Flash 是这一档的甜点——输出 $0.252 / 百万 token，国内综合能力第 4，幻觉控制 75.67 不算顶尖但够用。日产 10 万字（按中文 1.5 字/token 估算约 67k token）一天成本不到 $0.02。

严控幻觉档：科普 / 知识 / 引用类内容

写公众号知识文、解释行业概念、罗列产品参数——这些场景里编一个数据就废了。下面是 SuperCLUE 幻觉控制 ≥ 80 的所有模型，按分数降序排。

模型	SuperCLUE 幻觉控制	HHEM 幻觉率	总分
GLM-5 国内智谱AI	86.85	10.1%	64.27
GPT-5.4(xhigh) 海外 OpenAI	85.43	7.0%	72.48
Qwen3.5-397B-A17B-Thinking 国内阿里巴巴	84.39	—	64.48
Claude-Opus-4.6(max) 海外 Anthropic	82.95	12.2%	77.02
Gemini-3-Flash-Preview(high) 海外 Google	82.37	13.5%	68.84
DeepSeek-V4-Pro(max) 国内深度求索	80.68	8.6%	70.98
Gemini-3.1-Pro-Preview(high) 海外 Google	80.50	10.4%	76.69

GLM-5 在中文幻觉控制上跑分第一（86.85）——但总分只有 64.27，意味着不胡说但综合写作能力不顶。所以"严控幻觉"是 trade-off：要么牺牲一些综合质量换准确性，要么用 Claude Opus / GPT-5.4 这种总分高且幻觉控制 ≥ 82 的旗舰，但价格贵。HHEM 那列是 Vectara 英文摘要榜的对照——GPT-5.4(xhigh) 在两边都拿了高分（中文 85.43 + 英文 HR 7.0%），跨语言稳定性最好；Claude-Opus-4.6 中文好但英文 HR 12.2% 偏高，做英文摘要时反而不如 GLM-5（10.1%）和 DeepSeek V4 Pro（8.6%）。

长篇创作档：连载小说 / 剧本 / 调研报告

一次性写 5 万字以上，或者要喂模型整本背景资料（人设、世界观、之前的章节）让它续写——这种场景上下文窗口比智能分更重要。当代模型里上下文 ≥ 50 万 token 的：

模型	上下文	输入价	输出价	国内可用
Grok 4.1 Fast xAI	2M	$0.2	$0.5	需代理
GPT-5.5 OpenAI	1.1M	$5.00	$30.00	需代理
GPT-5.5 Pro OpenAI	1.1M	$30.00	$180.00	需代理
GPT-5.4 OpenAI	1.1M	$2.50	$15.00	需代理
Gemini 3.1 Pro Preview Google	1M	$2.00	$12.00	不稳定
DeepSeek V4 Pro DeepSeek	1M	$0.43	$0.87	可用
DeepSeek V4 Flash DeepSeek	1M	$0.13	$0.25	可用
MiMo-V2.5-Pro Xiaomi	1M	$1.00	$3.00	可用
MiMo-V2.5 Xiaomi	1M	$0.4	$2.00	可用
Gemini 3 Flash Preview Google	1M	$0.5	$3.00	不稳定
Gemini 3.1 Flash Lite Google	1M	$0.25	$1.50	不稳定
Llama 4 Maverick Meta	1M	$0.15	$0.6	需代理
Claude Opus 4.7 Anthropic	1M	$5.00	$25.00	需代理
Claude Sonnet 4.6 Anthropic	1M	$3.00	$15.00	需代理
Grok 4.3 xAI	1M	$1.25	$2.50	需代理
Qwen3.6 Plus Alibaba (阿里云百炼)	1M	$0.33	$1.95	可用

Grok 4.1 Fast 200 万 token + $0.5 输出价是断档便宜——但中文写作风格社区评价一般。实操推荐：长篇连载首选 Claude Sonnet 4.6（1M 上下文 + 写作风格稳定 + 输出 $15）；预算紧的用 DeepSeek V4 Pro（1M 上下文 + 国内综合第一 + 输出 $0.87，是同等上下文里最便宜的高质量选项）。

五个细分场景的具体选型

小红书 / 公众号短文案——需要中文语感、网感、轻幻觉。首选豆包 Seed 2.0 Pro（SuperCLUE 总分 71.53，是字节自家的，懂"姐妹们""家人们"这种语感）或DeepSeek V4 Flash（便宜大碗）。Claude 中文不算最自然，写得偏"翻译腔"。
小说创作 / 长篇剧本——首选 Claude Sonnet 4.6（1M 上下文 + 行文细腻），Gemini 3.1 Pro Preview（精确指令遵循 56.76 全场最高，按你设定的人设走最稳）也行。不要用 reasoning 模型——Kimi K2.5 Thinking / DeepSeek V3.2 Thinking 在创意场景反而文笔板，思维链让它倾向"分析人物动机"而非"沉浸描写"。
营销文案 / 广告 slogan——多备几个候选模型并行跑，挑最好的那条。Claude Opus 4.7 + DeepSeek V4 Pro + 豆包 Seed 2.0 Pro 三家风格差异最大，互相对冲 AI 味。
SEO 长尾文 / 批量改写——纯粹拼价格质量比。DeepSeek V4 Flash（$0.252 输出）是这一档无悬念冠军。日产 50 万字成本 < $0.5。
知识科普 / 行业解读——幻觉率是命门。GLM-5（幻觉控制 86.85）或 GPT-5.4（幻觉控制 85.43 + 综合更全面），都要配 RAG 或人工事实核查。千万别只用模型自带知识写带数据的文章，再低的幻觉率也会偶尔编。

写作场景五个最常见坑点

幻觉控制 ≠ 中文写作不糊——SuperCLUE 幻觉控制衡量的是"能不能准确回答事实问题"，不是写作时的"自由发挥度"。GLM-5 幻觉控制冠军但总分只 64.27，写散文照样会出现 AI 味浓的排比。
reasoning 模型不适合创意写作——SuperCLUE 推理模型榜上的 Kimi K2.5 Thinking、DeepSeek V3.2 Thinking、Qwen3.5 Thinking 等，开思维链后行文倾向"分析说明"而非"沉浸创作"。要写小说、剧本、品牌故事，关掉思考模式或者直接用非 reasoning 版本。
指令遵循全场最高 56.76——意思是即使最听话的 Gemini 3.1 Pro，按 prompt 输出的精确度也就过半。要求"严格 300 字"它会写 280 也会写 350。对策：写完后用 JS 截断或单独再让模型改一遍字数。
便宜模型批量产能容易"塌房"——DeepSeek V4 Flash 单篇质量没问题，但同一个 prompt 跑 100 次开头会高度相似（"在这个快节奏的时代""随着 XX 的兴起"）。批量场景需要在 prompt 里加随机种子（不同的开头限定、不同的人设视角）。
国内调用国际模型的隐形成本——Claude / GPT 走中转的实际价格通常是官方标价的 1.2-1.5 倍，加上延迟和稳定性问题。预算敏感时先把 DeepSeek V4 Pro 用顺，确实写不动了再上 Claude，比一上来直接卷国际模型更现实。

三步决策树

日产量多大？——单篇 / 小批量（< 1 万字/天）→ 任选 Top 5；中等批量（1-10 万字/天）→ DeepSeek V4 Pro 或豆包 Seed 2.0 Pro；高批量（> 10 万字/天）→ DeepSeek V4 Flash。
能不能走代理？——能 → Claude Sonnet 4.6 / Opus 4.7 / Gemini 3.1 Pro 三选一；不能 → 国内 DeepSeek V4 Pro / 豆包 / GLM-5 / Kimi K2.6 四选一。
单篇有多长？——短文（< 5k 字）→ 任意；中长（5k-50k）→ Claude Sonnet 4.6 / DeepSeek V4 Pro；长篇连载（> 50k 字含背景资料）→ Grok 4.3 / Claude Sonnet 4.6（看你能不能走代理）。

LLM 幻觉率排行——HHEM + SuperCLUE 双榜深度对照
LLM 长上下文排行——百万 token 时代的选型清单
一张图看清 LLM 性价比——智能 vs 价格散点图
国内 6 家 LLM API 开通教程——DeepSeek / 豆包 / 智谱等注册到调用
DeepSeek V4 Flash 详情——便宜大碗档主力
Claude Sonnet 4.6 详情——长篇创作首选