Skip to main content

Wangxiaoming

 · 

大多数"数据护城河"是假的:三个问题,打回九成的故事

大多数"数据护城河"是假的。"数据是新石油"是这一轮误导性最强的比喻——数据是流水,位置是河床。三个问题打回九成的飞轮故事,最锋利的一问是:场景里有没有免费的对错信号。外加一场静悄悄的重定价:从训练燃料到推理上下文——而那就是锁定。

如果你听过”我们有数据护城河”这句融资话术——这篇给你三个问题,当场验真假。如果你正在创业,这篇帮你回答一个比选模型重要得多的问题:选场景,先选裁判。

先杀掉那个流行了十几年的比喻:”数据是新石油”。它错在三个根本处——石油烧掉就没了,数据复制成本为零;石油谁买都一样,数据离开产生它的场景就大幅贬值;石油越挖越少所以越值钱,数据在模型眼里边际价值递减。

把比喻换掉,真问题才显形:值钱的从来不是数据本身,是别人拿不到数据的那个位置。数据是流水,位置是河床。

三种数据,三种命运

公共训练数据:高质量矿脉已被头部和开源共同采得所剩无几——更关键的是,人人都进得去的矿,本来就不是护城河。它的故事只剩成本侧:版权方醒来,免费燃料变成有价燃料。别再为”我们爬了多少数据”付钱。

专有静态数据(行业数据库、历史档案):真实值钱,但价值结构像矿不像河——卖得掉,守不住,授权一次价值转移一次,且不随使用增长。这是资产生意,不是飞轮生意,该给资产倍数,不该给增长倍数。

闭环数据:使用产生数据→数据改进产品→更好的产品带来更多使用。唯一的真飞轮——但每个创始人都画得出这个环,画得出和转得动是两回事。

假飞轮测试:三问

第一问:数据真的能改进产品吗?大多数对话日志、点击流,对产品改进的边际贡献趋近于零——能力提升主要来自方法和算力,不来自又一批聊天记录。没有改进机制的数据积累,只是存储成本。

第二问:改进是用户可感知的吗?产品好 3% 但用户感觉不到,飞轮没有第三段,转不起来。

第三问(最锋利):环里有没有免费的”对错信号”?

真飞轮的稀缺资源,是场景里天然产生的、免费的 ground truth。

代码 agent 为什么是大模型时代最早规模化跑通的业务之一?因为代码场景自带裁判:跑没跑通、测试过没过,是免费的、即时的、无歧义的对错信号——每次使用都自动生成一条带标注的训练数据。对比客服(满意度模糊)、写作(好坏主观)、法务(反馈以月计):裁判越清晰、越快、越免费,飞轮越真。

预判一句反驳:模糊场景并非没有飞轮——是飞轮更贵、更慢,裁判要花钱雇(专家标注、滞后回流的结果)。这改变的是单位经济,不是可能性。但”裁判要花钱”本身就是筛选器:只有客单价撑得起裁判成本的场景,飞轮才转得动——这正是垂直 AI 比通用 AI 更容易出真护城河的原因。

一场静悄悄的重定价:从训练燃料到推理上下文

数据的价值重心,正在从”训练时”移向”推理时”。企业数据的真实用法越来越不是微调模型,而是推理时的上下文——检索、记忆、个性化、工作流状态。

这改变了护城河的位置:训练时代,数据价值兑现是一次性的(炼进权重);上下文时代,兑现是持续的——每次调用都需要它在场,而”在场”就是锁定。一家企业沉淀三年的工作流上下文、权限体系、组织记忆,迁移成本不是导出数据,是重建数据与流程的全部连接。上下文沉淀在谁手里,锁定就归谁。


三句话收尾。投资人:听到”数据护城河”就跑三问——尤其第三问,没有 ground truth 的飞轮是 PPT 飞轮。创业者:选场景先选裁判——你的对错信号是免费的还是要花钱买的?即时的还是滞后的?这比选模型重要。所有人:把上下文沉淀当产品设计目标——每次使用都该让你更难被卸载,否则你只是在帮模型公司做分发。

你的场景里,对错信号免费吗?多久回来一次?评论区聊。

数据来源(已核,2026-06):本篇为框架性论证,关键事实锚点——代码 agent 商业化规模(Claude Code 2026-02 超 25 亿年化,据报道);合成数据占比上升、版权诉讼与授权并行(行业公开记录)。

—— 节选自写作中的 AI 产业新书《通缩夹心》(暂名)第七章

#AI产业 #数据护城河 #AI创业

Download Pickful App

Better experience on mobile

iOS

Android

APK