随着大模型参数规模的指数级增长,高质量文本与图像数据的公共储备正面临枯竭危机。传统的数据获取路径——无论是网页爬取、版权采购还是商业授权,正陷入成本高企、法律纠纷频发以及数据质量参差不齐的困境。作为AI模型的核心命脉,训练数据的供给侧改革已成为行业不可逆转的趋势。
在公开互联网“爬无可爬”的瓶颈下,科技巨头的目光正聚焦于企业内部更为私密、细颗粒度的操作行为与工作成果。Meta在AI领域的资本支出预计高达1350亿美元,与此同时,公司计划自5月起再裁员约8000人,自2022年以来的累计裁员规模已超25000人,这种高强度的资源投入与人员调整,正是为了支撑向内挖掘数据资产的转型。
Meta正在内部全面部署代号为“模型能力计划”(MCI)的追踪软件,旨在通过记录员工在Gmail、GChat、GitHub、Slack等数百个常用工具中的真实交互,让AI模型习得人类操作计算机的逻辑。这不仅是简单的数据收集,更是为了让AI具备模拟人类完成复杂任务的能力,标志着数据采集维质的升维。
在技术执行层面,该系统将全量记录员工工作电脑上的鼠标移动轨迹、点击频次、键盘输入内容,并不定时截取屏幕画面。这些高保真的行为数据将直接用于模型训练,以解决大模型在实操能力上的短板。Meta发言人安迪·斯通对此回应称,数据设有严格的保护机制以防敏感内容泄露,且仅用于模型训练,绝不关联绩效评估。
从合规视角看,美国联邦法律对职场监控的宽松环境为该计划提供了便利。耶鲁大学法学教授伊菲玛·阿琼瓦指出,目前美国法律对白领员工的监控几乎无任何限制,仅部分州要求雇主进行“宽泛告知”。这意味着,原本仅在零工经济中存在的即时监控压力,正全面蔓延至白领职场。
与之形成强烈反差的是,欧洲严格的监管框架构成了巨大的落地障碍。欧盟《通用数据保护条例》(GDPR)明确规定,收集员工数据必须获得“明确同意”并符合“比例原则”。在这种法律环境下,Meta想要将MCI计划推广至欧洲分公司,将面临几乎不可逾越的合规壁垒。