摘要:原文作者:PatrickBush,MatthewSigel原文编译:Lynn,火星财经我们概述了到 2030 年人工智能加密货币收入情景,强调了 $ 10.2B 的基本情况,并强调公共区块链通过基本功能在推动人工智能采用方面的关键...
原文作者:PatrickBush,MatthewSigel
原文编译:Lynn,火星财经
我们概述了到 2030 年人工智能加密货币收入情景,强调了 $ 10.2B 的基本情况,并强调公共区块链通过基本功能在推动人工智能采用方面的关键作用。
请注意,VanEck 可能持有下述数字资产的头寸。
要点:
根据我们的基本情况,到 2030 年,加密 AI 收入预计将达到 $ 10.2B
区块链技术可能成为人工智能采用和去中心化人工智能解决方案进步的关键驱动力
与加密激励措施的集成可以提高人工智能模型的安全性和效率
区块链可能会成为人工智能身份验证和数据完整性挑战的解决方案
公共区块链很有可能是开启人工智能 (AI) 广泛采用的关键,而人工智能应用程序将成为加密货币存在的理由。这是因为加密货币提供了人工智能所需的重要基础元素,例如透明度、不变性、明确定义的所有权属性和对抗性测试环境。我们相信这些特性将有助于让人工智能充分发挥其潜力。根据对人工智能增长的估计,我们断言以人工智能为重点的加密项目到 2030 年年收入将达到 10.2B 美元。在本文中,我们推测加密在促进人工智能采用方面的作用以及加密将带来的价值源自人工智能业务:
请在此处查看此博客的 PDF 版本。
我们发现加密货币在人工智能中的最佳应用是:
提供分散的计算资源
模型测试、微调和验证
版权保护和数据完整性
人工智能安全
身份
加密货币对人工智能来说非常有用,因为它已经解决了人工智能当前和未来面临的许多挑战。从本质上讲,加密货币解决了协调问题。加密货币将人员、计算和货币资源结合在一起来运行开源软件。它通过以与每个网络的价值相关的代币形式向创建、支持和使用每个区块链网络的人提供奖励来实现这一目标。该奖励系统可用于引导人工智能价值堆栈的不同组件。将加密技术与人工智能相结合的一个重要意义在于,利用加密货币激励措施来开发必要的物理基础设施,例如 GPU 集群,专门用于训练、微调和支持生成模型的使用。由于加密货币是一种使用加密货币来奖励所需用户行为的对抗性环境,因此它是测试和微调人工智能模型以优化符合某些质量标准的输出的最佳基础。
区块链还带来了数字所有权的透明度,这可能有助于解决人工智能将在法庭上面临的一些开源软件问题,这在《纽约时报》诉 OpenAI 和微软的诉讼中已经很引人注目。也就是说,加密可以透明地证明数据所有者、模型构建者和模型用户的所有权和版权保护。这种透明度还将扩展到将模型有效性的数学证明发布到公共区块链上。最后,由于不可伪造的数字签名和数据完整性,我们相信公共区块链将有助于减轻识别和安全问题,否则这些问题会削弱人工智能的有效性。
定义加密货币在人工智能企业中的作用
2030 年预计加密货币人工智能收入:熊市、基本情况、牛市情景
资料来源:摩根士丹利、彭博资讯、VanEck Research 截至 2024 年 1 月 29 日。过去的表现并不能保证将来的结果。本博客中提供的信息、估值情景和价格目标无意作为财务建议或任何行动号召、购买或出售建议,或作为对人工智能业务未来表现的预测。未来的实际表现尚不清楚,可能与此处描述的假设结果有很大差异。所提出的场景中可能存在未考虑到的风险或其他因素,这些因素可能会阻碍绩效。这些仅仅是基于我们研究的模拟结果,仅供说明之用。请进行自己的研究并得出自己的结论。
为了预测加密人工智能的市场,我们首先估计人工智能带来的商业生产力收益的总可寻址市场(TAM),我们对该数字的基线来自麦肯锡对 2022 年的假设。然后,我们将经济和生产力增长假设应用于麦肯锡的预测计算得出 2030 年 TAM 为 5.85 T 美元的基本情况。在此基本情况下,我们假设 AI 生产力增长比 GDP 增长高 50% ,GDP 增长 3% 。然后,我们预测人工智能在全球企业中的市场渗透率(在基本情况下为 33% ),并将其应用到我们的初始 TAM 中,预计人工智能将为企业带来 1.93 T 美元的生产力提升。为了计算所有人工智能业务的收入,我们假设这些生产力收益的 13% 由人工智能业务捕获(或由企业消费者花费)作为收入。我们通过应用标准普尔 500 强企业劳动力成本的平均收入份额来估算人工智能收入占比,并假设人工智能支出应该相似。我们分析的下一部分应用 Bloomberg Intelligence 对 AI 价值堆栈分布的预测来估算每个 AI 业务群体的年收入。最后,我们对每个人工智能业务的加密货币市场份额进行具体估计,以得出每个案例和每个市场的最终数据。
我们设想未来将利用开源公共存储库构建的去中心化人工智能模型应用于每个可以想象的用例。在许多情况下,这些开源模型胜过集中式人工智能创作。这一假设的基础源于这样的假设:开源社区将有独特动机改进事物的爱好者和爱好者聚集在一起。我们已经看到开源互联网项目打破了传统业务。这种现象最好的例子是维基百科有效地结束了商业百科全书业务,而推特则扰乱了新闻媒体。这些开源社区在传统企业失败的地方取得了成功,因为开源团体通过社会影响力、意识形态和团体团结的结合来协调和激励人们提供价值。简而言之,这些开源社区之所以成功,是因为它们的成员 关心。
将开源人工智能模型与加密货币激励相结合,可以扩大这些新兴社区的影响力,赋予他们财务能力,以创建必要的基础设施来吸引新参与者。将这一前提应用于人工智能将是热情和金钱资源的迷人结合。人工智能模型将在加密货币激励竞赛中接受测试,建立模型评估基准的环境。在这种环境下,最有效的模型和评估标准会获胜,因为每个模型的价值都被明确量化。因此,在我们的基本案例中,我们预计区块链生成的人工智能模型将占所有人工智能软件收入的 5% 。这一估计包括硬件、软件、服务、广告、游戏等,反映了企业运营数量的转变。在 AI 软件的总收入中,我们预计这将占所有 AI 收入的一半左右,即 $ 125.50 B 左右。因此,我们预计开源模型的 5% 市场份额相当于加密代币支持的 AI 模型的收入为 $ 6.27 B 。
我们预计,到 2030 年,用于微调、训练和推理的计算(或人工智能基础设施即服务)的 TAM 可能会达到 $ 47.44 B。随着人工智能的广泛采用,人工智能将成为世界经济许多功能不可或缺的一部分,计算和存储的供应可以被设想为类似于发电和配电的公共设施。在这种动态中,绝大多数「基本负载」将来自 Amazon 和 Google 等 GPU 云超大规模企业,其市场份额将接近 80% 的帕累托分布。我们看到区块链分配的后端服务器基础设施可以满足特殊需求,并在高网络需求期间充当「峰值」提供商。对于定制人工智能模型的生产者来说,加密存储和计算提供商提供了诸如按需服务交付、更短的 SLA 锁定期、更定制的计算环境以及更高的延迟敏感性等优势。此外,去中心化 GPU 可以与智能合约中的去中心化 AI 模型无缝集成,从而实现 AI 代理扩展自己的计算需求的无需许可的用例。将区块链提供的 GPU 视为人工智能计算基础设施的 Uber/Lyft 等价物,我们认为区块链提供的计算和存储将占据人工智能基础设施非超大规模市场的 20% ,到 2030 年可能产生 $ 1.90 B 的收入。
通过可证明的链上人性在人工智能代理和模型的背景下定义「身份」可以被视为世界计算机网络的女巫防御机制。我们可以通过检查与保护不同区块链网络相关的费用来估计这项服务的成本。2023 年,比特币、以太坊和 Solana 的这些成本分别约为每个网络通胀发行价值的 1.71% 、 4.3% 和 5.57% 。保守地说,我们可以推断身份识别应占人工智能市场的 3.5% 左右。考虑到 AI 软件的 TAM 为 $ 125.5 B,这对应于 $ 8.78 B 的年度收入。由于我们相信加密货币为身份问题提供了最佳解决方案,因此我们相信它将占据该终端市场 10% 的市场份额,预计其年收入约为 8.78 亿美元。
人工智能安全有望成为人工智能设备的另一个重要组成部分,其基本要求是使用未损坏的、相关的最新数据来验证模型是否运行正确。随着人工智能扩展到人类生命面临风险的应用领域,例如自动驾驶汽车、工厂机器人和医疗保健系统,对失败的容忍度变得很小。发生事故时问责的需要将推动保险市场需要具体的安全证明。公共区块链是实现此功能的理想选择,因为它们可以在任何人都可以看到的不可更改的分类账上发布「安全证明」。这项业务可以被认为类似于金融机构的合规性。考虑到美国商业和投资银行产生 $ 660 B 的收入,同时花费 $ 58.75 B 的合规成本(占收入的 8.9% ),我们预计 AI 安全应占 $ 251 B AI TAM 的 $ 22.34 B 左右。尽管加密货币具有增强人工智能安全的潜力,但鉴于美国政府对人工智能的关注,我们相信人工智能的大部分合规性将是集中的。因此,我们估计加密货币将占该市场的 5% 左右,即 $ 1.1 2B 左右。
组织分散的计算资源
加密货币可以将其巨大的社会和财务协调优势应用于计算访问的民主化,从而解决当前困扰人工智能开发人员的痛点。除了高昂的成本和获得优质 GPU 的机会有限之外,人工智能模型构建者目前还面临着其他棘手的问题。其中包括供应商锁定、缺乏安全性、计算可用性有限、延迟差以及国家法律规定的地理围栏。
加密货币能够满足人工智能对 GPU 的需求,源于加密货币通过代币激励汇集资源的能力。比特币网络的代币价值为 850 B 美元,股权价值为 20 B 美元,这证明了这种能力。因此,当前的比特币矿工和有前途的去中心化 GPU 市场都有潜力通过提供去中心化计算来为人工智能增加巨大的价值。
对于理解通过区块链提供 GPU 的一个有用的类比是发电业务。简单来说,有一些实体运营着大型、昂贵的工厂,可以稳定地发电以满足大多数电网需求。这些「基本负荷」工厂的需求稳定,但需要大量的建设资本投资,导致资本回报率相对较低但有保证。补充基本负载的是另一类称为「峰值功率」的发电机。当电力需求超过基本负荷发电能力时,这些企业提供电力。这涉及高成本、小规模的能源生产,其战略定位接近该能源的需求。我们预计「按需计算」领域也会出现类似的动态。
比特币矿工多元化进入人工智能领域
比特币和其他工作量证明加密货币与人工智能一样对能源有很高的需求。这种能源必须被创造、获取、运输并分解成可用电力来为采矿设备和计算集群供电。该供应链需要矿商对发电厂、购电协议、电网基础设施和数据中心设施进行大量投资。挖矿 PoW 加密货币带来的货币激励导致了许多分布在全球的比特币矿工的出现,这些矿工拥有能源和电力权利以及集成的网格架构。这些能源大部分来自成本较低、社会回避的碳密集型能源。因此,比特币矿工可以提供的最引人注目的价值主张是为人工智能后端基础设施提供动力的低成本能源基础设施。
AWS 和微软等超大规模计算提供商一直奉行投资垂直整合运营并建立自己的能源生态系统的战略。大型科技公司已经向上游发展,设计自己的芯片并采购自己的能源,其中大部分是可再生能源。目前,数据中心消耗了美国企业可用的可再生能源的三分之二。微软和亚马逊都承诺到 2025 年实现 100% 可再生能源供应。然而,如果预期的计算需求超出预期,正如一些人所说,到 2027 年,以人工智能为中心的数据中心数量可能会增加一倍,资本支出可能是目前估计的三倍。大型科技公司已经支付了 0.06-0.10 美元 / 千瓦时的电力费用,比竞争性比特币矿工通常支付的价格(0.03-0.05 千瓦时)贵得多。如果人工智能对能源的需求超过了大型科技公司当前的基础设施计划,那么比特币矿商相对于超大规模矿商的电力成本优势可能会大幅增加。矿工越来越被与 GPU 供应相关的高利润人工智能业务所吸引。值得注意的是,Hive 在 10 月份报告称,按每兆瓦计算,其 HPC 和 AI 业务产生的收入是比特币挖矿的 15 倍。其他抓住人工智能机会的比特币矿工包括 Hut 8 和 Applied Digital。
比特币矿商在这个新市场中经历了增长,这有助于实现收入多元化并增强收益报告。在 Hut 8 的 2023 年第三季度分析师电话会议中,首席执行官 Jaime Leverton 表示:「在我们的 HPC 业务中,我们在第三季度通过新客户的增加和现有客户的增长创造了一些动力。上周,我们推出了按需云服务,为那些从我们的 GPU 寻求 HPC 服务的客户提供基于 Kubernetes 的应用程序,这些应用程序可以支持人工智能、机器学习、视觉效果和渲染工作负载。这项服务将控制权交到我们的客户手中,同时将配置时间从几天缩短到几分钟,这对于那些寻求短期 HPC 项目的人来说尤其具有吸引力。Hut 8 从 2023 年第三季度的 HPC 业务中实现了 450 万美元的收入,占该公司同期收入的 25% 以上。对 HPC 服务和新产品的需求不断增长,应有助于该业务线的未来增长,随着比特币减半即将到来,HPC 收入可能很快就会超过挖矿收入,具体取决于市场状况。
尽管他们的业务听起来很有前途,但转向人工智能的比特币矿工可能会因缺乏数据中心建设技能或无法扩大电力供应而陷入困境。由于雇用新的以数据中心为中心的销售人员的成本,这些矿工还可能会发现与运营管理费用相关的挑战。此外,当前的采矿作业没有足够的网络延迟或带宽,因为它们对廉价能源的优化导致它们位于偏远地区,通常缺乏高速光纤连接。
为人工智能实施去中心化云
我们还看到了以计算为中心的加密项目的长尾,这些项目将占据人工智能服务器资源市场的一小部分但很大一部分。这些实体将协调超大规模之外的计算集群,以提供适合新贵人工智能构建者需求的价值主张。去中心化计算的好处包括可定制性、开放访问和更好的合同条款。这些基于区块链的计算公司使小型人工智能参与者能够避免 H 100 和 A 100 等高端 GPU 的巨额费用和普遍不可用的情况。加密人工智能企业将通过创建围绕加密代币激励构建的物理基础设施网络来满足需求,同时提供专有 IP 来创建软件基础设施以优化人工智能应用程序的计算使用。区块链计算项目将使用市场方法和加密奖励来从独立数据中心、具有过剩计算能力的实体和前 PoW 矿工那里发现更便宜的计算。为 AI 模型提供去中心化计算的一些项目包括 Akash、Render 和 io.net。
Akash 是一个基于 Cosmos 的项目,可以被认为是一个通用的去中心化「超级云」,提供 CPU、GPU、内存和存储。实际上,它是一个连接云服务用户和云服务提供商的双向市场。Akash 的软件旨在协调计算供应与需求,同时创建促进 AI 模型训练、微调和运行的工具。Akash 还确保市场买家和卖家诚实履行其义务。Akash 通过其 $AKT 代币进行协调,该代币可用于以折扣价支付云服务费用。$AKT 还作为 GPU 计算提供商和其他网络参与者的激励机制。在供应方面,Akash 在添加计算供应商方面取得了长足进步,因为 Akash 市场上有 65 家不同的供应商。尽管在 Akash 的 AI 超级云于 2023 年 8 月 31 日首次亮相之前,计算需求一直低迷,但在发布日期之后,计算买家已花费了 13.8 万美元。
最近迁移到 Solana 的 Render 最初专注于将艺术家与分散的团体联系起来,这些团体将提供 GPU 能力来渲染图像和视频。然而,Render 已开始将其去中心化 GPU 集群的重点放在满足机器学习工作负载上,以支持深度学习模型。通过网络改进提案 RNP-004 ,Render 现在拥有一个 API 可以连接外部网络(例如 io.net),该网络将利用 Render 的 GPU 网络进行机器学习。Render 社区随后提出的提案获得通过,允许通过 Beam 和 FEDML 访问其 GPU,以完成机器学习任务。因此,Render 已成为 GPU 工作负载的去中心化促进者,通过向提供商支付 RNDR 美元以及向运行网络后端基础设施的实体提供 RNDR 激励来协调。
Io.net GPU 价格比较。来源:io.net 截至 2024 年 1 月 4 日。
Solana 上另一个有趣的项目是 io.net,它被认为是 DePIN 或去中心化物理基础设施网络。io.net 的目的也是提供 GPU,但其重点仅在于应用 GPU 来驱动 AI 模型。除了简单地协调计算之外,Io.net 还在其核心堆栈中添加了更多服务。其系统声称可以处理人工智能的所有组件,包括创建、使用和微调,以正确促进整个网络中的人工智能工作负载并对其进行故障排除。该项目还利用了其他去中心化 GPU 网络,例如 Render 和 Filecoin 及其自己的 GPU。尽管 io.net 目前缺乏代币,但计划于 2024 年第一季度推出。
克服去中心化计算的瓶颈
然而,由于训练深度学习模型所需的典型 633 TB 以上数据所带来的网络需求,利用这种分布式计算仍然是一个挑战。由于计算机能力的延迟和差异,位于全球各地的计算机系统也给并行模型训练带来了新的障碍。Together 是一家积极进军开源基础模型市场的公司,该公司正在构建一个去中心化云来托管开源人工智能模型。Together 将使研究人员、开发人员和公司能够通过结合数据、模型和计算的直观平台来利用和改进人工智能,扩大人工智能的可访问性并为下一代科技公司提供支持。Together 与领先的学术研究机构合作,构建了 Together 研究计算机,使实验室能够集中计算进行人工智能研究。该公司还与斯坦福基础模型研究中心 (CRFM) 合作创建了语言模型的整体评估 (HELM)。HELM 是一个「活基准」,旨在通过提供评估此类基础模型的标准化框架来提高人工智能的透明度。
自 Together 成立以来,创始人 Vipul Ved Prakash 率先启动了多个项目,包括 1) GPT-JT,一个开放式 LLM,具有通过 <1 Gbps 链路进行训练的 6 B 参数模型, 2) OpenChatKit,一个强大的开源基础,可创建专用和通用聊天机器人,以及 3) RedPajama,一个创建领先的开源模型的项目,其目标是成为研究和商业应用的基础。Together 平台是一个基础模型,由商品硬件上的开放模型、去中心化云和综合开发者云组成,汇集了不同的计算源,包括消费者矿工、加密矿场、T 2-T 4 云提供商和学术计算。
我们相信像 Together 这样的去中心化和民主化的云计算解决方案可以显着削减构建新模型的成本,从而有可能颠覆亚马逊网络服务、谷歌云和 Azure 等老牌巨头并与之竞争。就上下文而言,将 AWS 容量块和 AWS p 5.48 xlarge 实例与配置有相同数量的 H 100 SXM 5 GPU 的 Together GPU 集群进行比较,Together 的定价大约比 AWS 低 4 倍。
随着开放式法学硕士变得越来越准确并得到更广泛的采用,Together 可能成为开源模型的行业标准,就像红帽之于 Linux 一样。该领域的竞争对手包括模型提供商 Stability A 和 HuggingFace,以及人工智能云提供商 Gensyn 和 Coreweave。
通过加密货币激励增强人工智能模型
区块链和加密货币激励措施证明,网络效应和与网络效应大小相关的奖励迫使人们从事有用的工作。在比特币挖矿的背景下,该任务是通过使用昂贵的电力、技术人力和 ASIC 机器来保护比特币网络。这种经济资源的协调提供了一种女巫攻击防御机制,防止对比特币的经济攻击。作为交换,协调这些资源的矿工将获得 BTC 美元。然而,人工智能有用工作的绿色空间要大得多,一些项目已经在推动人工智能和机器学习模型的改进。
这些项目中最原始的是 Numerai。目前,Numerai 可以被视为一项去中心化数据科学锦标赛,旨在确定最佳机器学习模型,通过建立股票投资组合来优化财务回报。在每个时代,匿名 Numerai 参与者都被授予访问隐藏原始数据的权限,并被要求利用这些数据来构建表现最佳的股票投资组合。为了参与,用户不仅被要求提交预测,还被迫在其模型的预测背后投入 NMR 代币,以证明这些模型的价值。其他用户也可以在他们认为性能最佳的模型上投入代币。然后,每个质押、提交的模型的输出都会被输入到机器学习算法中,以创建一个元模型,为 Numerai One 对冲基金的投资决策提供信息。提交具有最佳信息系数或有效性的「推论」的用户将获得 NMR 代币奖励。与此同时,那些质押最差模型的人的代币将被削减(没收并重新用于奖励获胜者)。
Bittensor 上的子网和用例。来源: https: //taostats.io/api/ 截至 2024 年 1 月 2 日。
Bittensor 是一个大规模扩展 Numerai 核心概念的类似项目。Bittensor 可以被认为是「机器智能的比特币」,因为它是一个为 AI/ML 模型提供经济激励的网络。这是由构建人工智能模型的「矿工」和评估这些模型输出质量的「验证者」实体来完成的。Bittensor 的架构是一个基础网络和许多较小的子网(子网)的架构。每个子网络都专注于机器智能的不同领域。验证者会向这些子网上的矿工提出各种问题或请求,以评估其人工智能模型的质量。
表现最好的模型将获得最高的 TAO 代币奖励,而验证者则因对矿工的准确评估而获得补偿。在更高的层面上,验证者和矿工都必须质押代币才能参与每个子网,每个子网占总质押的比例决定了它从所有 Bittensor 总通胀中获得多少 TAO 代币。因此,每个矿工不仅有动力优化其模型以赢得最多的奖励,而且有动力将其模型集中在最佳的人工智能领域子网上。此外,由于矿工和验证者必须维持资金才能参与,因此每个人都必须超过资本成本障碍,否则就会退出系统。
截至 2024 年 1 月,共有 32 个不同的子网,每个子网专用于机器学习或人工智能的特定领域。例如,Subnet 1 是类似于 ChatGPT 的提示 LLM 的文本。在这个子网上,矿工运行各种经过调整的 LLM 版本,以最好地响应评估响应质量的验证者的提示。在名为「Taoshi」的子网 8 上,矿工提交对比特币和各种金融资产价格的短期预测。Bittensor 还拥有专用于人类语言翻译、存储、音频、网络抓取、机器翻译和图像生成的子网。子网创建是无需许可的,任何拥有 200 TAO 的人都可以创建子网。子网运营商负责为每个子网的活动创建评估和奖励机制。例如,Bittensor 背后的基础 Opentensor 运行子网 1 ,并最近与 Cerebras 合作发布了一个模型,以评估该子网上矿工的 LLM 输出。
虽然这些子网最初都是由通货膨胀奖励全额补贴的,但每个子网最终都必须在经济上维持自身。因此,子网运营商和验证者必须协调创建工具,以允许外部用户付费访问每个子网的服务。随着通货膨胀的 TAO 奖励减少,每个子网将越来越依赖外部收入来维持自身。在这种竞争环境中,存在创建最佳模型的直接经济压力,并激励其他人为这些模型创建有利可图的现实应用程序。Bittensor 正在利用斗志旺盛的小型企业来识别人工智能模型并从中获利,从而释放人工智能的潜力。正如著名的 Bittensor 传播者 MogMachine 所说,这种动态可以被视为「人工智能的达尔文竞争」。
另一个有趣的项目是利用加密技术来激励人工智能代理的创建,这些人工智能代理被编程为代表人类或其他计算机程序自主完成任务。这些实体本质上是旨在解决特定问题的自适应计算机程序。代理是一个包罗万象的术语,涵盖聊天机器人、自动交易策略、游戏角色,甚至虚拟宇宙助手。该领域的一个著名项目是 Altered State Machine,这是一个使用 NFT 创建拥有、供电和训练的人工智能代理的平台。在 Altered State Machine 中,用户创建他们的「代理」,然后使用分散的 GPU 集群「训练」它们。这些代理针对特定用例进行了优化。另一个项目 Fetch.ai 是一个用于创建根据每个用户的需求定制的代理的平台。Fetch.ai 也是一家 SaaS 业务,允许注册和租赁或出售代理。
自 2023 年 1 月 1 日起 AI 代币的回报
来源:Artemis XYZ 截至 2024 年 1 月 10 日。过去的表现并不能保证将来的结果。
通过零知识 (zk) 证明进行验证
2023 年是新 AI 模型的标志性一年,OpenAI 推出了 ChatGPT、Meta 推出的 LLAMA-2 以及 Google 推出的 BERT。由于深度学习的前景,截至 2023 年 6 月,美国有超过 18, 563 家人工智能相关初创企业。这些初创企业和其他企业已经生产了数千个新的基础模型和微调模型。然而,在人工智能相关公司投资的每 4 美元风险投资中就有 1 美元投资的领域中,许多新实体的激增应该引起严重关注。
谁实际创建并拥有每个模型?
输出实际上是由指定模型产生的吗?
该模式真的像宣传的那样有效吗?
每个模型的数据源是什么以及谁拥有该数据?
训练、微调和 / 或推理是否侵犯了任何版权或数据权?
这些模型的投资者和用户都应该 100% 确定他们可以解决这些问题。目前,针对 LLM 输出的不同组件存在许多基准测试,例如用于代码生成的 HumanEval、用于 LLM 辅助任务的 Chatbot Arena 以及用于 LLM 推理能力的 ARC Benchmark 。然而,尽管尝试了像 Hugging Face 的 Open LLM Leaderboard 这样的模型透明度,但没有具体证明模型的有效性、最终出处或其训练 / 推理数据的来源。不仅可以对基准进行游戏,而且还不能确定特定模型是否实际运行(而不是使用连接到另一个模型的 API),也不能保证排行榜本身是诚实的。
这就是公共区块链、人工智能和称为零知识(zk)证明的前沿数学领域的统一。zk 证明是密码学的一种应用,它允许某人以所需水平的数学确定性证明他们对数据所做的陈述是正确的,而无需向任何人透露底层数据。语句可以包括简单的声明(例如排名),但可以扩展到复杂的数学计算。例如,某人不仅可以证明他或她知道某个样本的相对财富而不向另一方透露该财富,而且他或她还可以证明该群体的平均值和标准差的正确计算。本质上,您可以证明您了解数据和 / 或您使用该数据做出了真实的断言,而无需透露该数据的细节或您如何进行计算。在人工智能之外,zk 证明已经被应用于扩展以太坊,允许交易在第 2 层区块链上进行链下交易。最近,zk 证明已应用于深度学习模型,以证明:
使用特定数据来生成模型或提供推理输出(此外,未使用哪些数据 / 源)
使用特定模型来生成推论
推理输出未被篡改
zk 证明可以发布到公共、永久的区块链上,并通过智能合约进行验证。结果是区块链可以公开且无可辩驳地证明人工智能模型的重要属性。将 ZK 应用于 AI 的两个前沿项目被称为「零知识机器学习」(ZKML),即 EZKL 和 Modulus。EZKL 使用 Halo 2 证明系统生成 zk-snarks,这是一种零知识证明,然后可以在以太坊的 EVM 上公开验证。虽然 EZKL 目前可以证明的模型大小相对较小,大约有 100 M 个参数,而 ChatGPT 4 的参数为 175 B,但 EZKL 的首席执行官 Jason Morton 认为他们正在考虑「工程问题」而不是「技术限制」问题。EZKL 相信他们可以通过拆分并行执行的证明来克服证明问题,从而减少内存限制和计算时间。事实上,杰森·莫顿相信有一天,「验证模型将像签署区块链交易一样简单。」