本站内容为虚构演示,与真实新闻及机构无关;请勿当作事实或专业意见。

全文

FULL TEXT

查看本期期刊
深度AI

Cortexa AI发布Cortexa-7:首个支持推理节点实时认知负载均衡的大语言模型

Cortexa AI发布Cortexa-7,这是首个在分布式推理节点网格上实时动态分配推理算力的大语言模型,中位延迟降低40%,并可在不降性能的前提下支持10倍更长的上下文窗口。

纽约 — 两年历史的 AI 基础设施公司 Cortexa AI 发布其旗舰大语言模型 Cortexa-7,这是业内首个实时认知负载均衡系统。该模型不再依赖单一数据中心集群,而是在分布式推理节点网格上动态分配推理算力,实现了显著更低的延迟和更长的有效上下文窗口。

这一发布标志着自2023年以来主导 LLM 扩展的"更大集群、更大模型"范式的一次重要转向。

核心创新:认知负载均衡

传统 LLM 推理将每个查询路由至单一推理集群,由其顺序处理完整模型堆栈。在高负载下,这会产生延迟瓶颈——随着模型扩展至数千亿参数,这一问题愈发严峻。

Cortexa-7 转而在由8至512个异构计算节点组成的分布式推理网格上运行,这些节点包括 CPU、GPU、NPU 和专用 AI 加速器,通过 Cortexa AI 自研的SynapseLink传输协议(亚100微秒延迟)互联。

当查询到达时,Cortexa 的**编排模块(Orchestrator)**将推理过程分解为计算子任务,实时估算每个子任务的复杂度,并将其分配至网格中最合适的节点。简单的事实检索任务由轻量级边缘推理节点处理;多跳推理链分配至 GPU 集群;长周期规划任务则调度至内存带宽最充裕的节点。

"把它想象成城市交通系统,而不是一个收费站," Cortexa AI 联合创始人兼 CTO 阿妮卡·奥西博士(Dr. Anika Osei)表示。"我们不只是路由车辆——我们实时将每位乘客分配至最快可用的载具。"

基准测试结果

Cortexa AI 在发布同时发布了由第三方 LLM 评测机构 Artificial Analysis 进行的独立评测结果:

基准测试 Cortexa-7 GPT-4o Claude 3.5 Sonnet
MMLU (5-shot) 91.4% 88.7% 89.1%
HumanEval (pass@1) 94.2% 90.2% 91.4%
MATH 87.6% 76.3% 78.9%
128K上下文 (needle) 99.1% 94.2% 96.8%
中位延迟 (ms) 187 312 298

值得注意的是,128K上下文基准测试显示了显著优势:Cortexa AI 将此归因于其分层注意力机制(Hierarchical Attention Mechanism),该机制允许模型通过在各推理节点缓存中间推理状态而非重新计算,从而在超长上下文中保持连贯推理。

API 和定价

Cortexa-7 即日起可通过 Cortexa API(api.cortexa.ai)访问,定价为每千输入tokens 0.008美元每千输出tokens 0.024美元——比 GPT-4o 发布时低35%。为开发者提供每月10万tokens免费额度。

企业客户可部署 Cortexa Mesh Gateway,这是一款物理设备,可在公司自有数据中心内建立私有推理网格,软件许可起价每月5万美元。

基础设施合作

Cortexa AI 已与CoreWeaveLambda LabsGoogle Cloud建立基础设施合作伙伴关系,允许 Cortexa-7 在峰值负载时动态将计算扩展至云端节点。公司声称这一混合模式使其能够在发布时每天服务超过5亿次查询——若实现,将使其跻身全球前五大 LLM API 提供商。

对行业的意义

Cortexa AI 的方法挑战了"LMM 性能主要由模型规模和训练质量决定"这一主流假设。公司认为,在分布式异构推理系统上运行的700亿参数模型,可以超越在单一集群上运行的5000亿参数模型——同时能耗大幅降低。

如果性能声明经得起独立审查,此次发布可能加速 AI 行业从单体模型扩展向分布式异构推理系统的全面转型——这对数据中心设计、芯片架构和云端定价都将产生深远影响。

公司背景

Cortexa AI 由前 Google DeepMind 工程师阿妮卡·奥西博士(Dr. Anika Osei)和前 Cerebras Systems 工程师 Marcus Chen 于2025年联合创立,已累计融资2.1亿美元,投资方包括 Andreessen Horowitz、Index Ventures 和阿布扎比投资局(Abu Dhabi Investment Authority)。公司在纽约、伦敦和多伦多共有340名员工。