Databricks发布Genie Code,瞄准企业数据系统“代理式编码”新赛道

AI编码代理在企业软件领域的应用正快速扩张,从早期的自动补全工具演进为可通过自然语言指令参与完整软件开发周期的系统。在这一趋势推动下,围绕所谓“vibe编码”的新一代开发工具迅速成长为重要收入来源。

据报道,Cursor在2025年实现年度经常性收入(ARR)超过10亿美元,并在2026年第一季度接近20亿美元。Anthropic推出的Claude Code增长更为迅速,首年即达到约25亿美元的年化收入规模,占Anthropic 140亿美元ARR的相当部分,被视为该细分领域增速最快的产品之一。

然而,在大型企业内部,代码编写往往并非技术团队工作的主要难点。大量数据科学家、工程师和分析师的时间被用于维护和扩展现有数据管道,而不是从零搭建新系统。Databricks联合创始人兼首席执行官Ali Ghodsi认为,企业AI的关键瓶颈在于复杂数据系统在生产环境中的运维,而非软件开发本身。

在这一判断基础上,Databricks推出了Genie Code——一套面向数据工程、数据科学和分析运维场景的自主AI代理系统。该产品扩展了公司既有的Genie平台生态,后者支持知识工作者以自然语言查询企业数据。Databricks表示,目前已有超过2万家机构使用其数据管理和分析工具,公司ARR在今年2月已超过54亿美元。

Ghodsi表示,Genie Code的目标并非仅充当“更快写代码”的助手,而是理解企业数据结构及其问题。“这些代理不仅仅是编码助手或帮助更快生成代码,它们实际上理解数据结构和现有数据问题,”他称。根据介绍,Genie Code可以自动搭建数据管道,分析故障原因,识别数据集模式变化或权限调整带来的影响。

在具体应用中,Genie Code可参与从数据准备到模型评估的完整流程。例如,系统可建议如何为建模准备数据,包括随机化数据、划分测试集与训练集等;在模型训练完成后,协助使用F1分数或曲线下面积等指标评估结果,并分析模型表现是否需要改进。Ghodsi表示,系统还可建议重新训练模型、生成可视化图表并推理哪些调整可能提升效果,试图覆盖数据科学家或工程师在建模工作流中的关键环节。

深入企业数据环境

Databricks认为,许多现有AI编码代理在企业数据环境中表现受限,主要原因在于缺乏业务和数据上下文。多数开发工具基于公共代码库和通用编程示例训练,而企业内部数据系统往往承载业务语义、治理规则和访问策略,这些因素共同决定数据的使用方式。缺乏这些信息,AI代理可能生成技术上正确但在实际部署中失败的代码。

为应对这一问题,Genie Code与Databricks的企业数据治理框架Unity Catalog进行了直接集成。公司称,这一集成使系统能够理解数据血缘、访问权限以及企业范围内的数据资产治理策略,从而在维护和调整数据管道时更贴近实际运行环境。

“维护管道并确保其可靠运行是数据工程师的重要职责,这正是Genie Code能大幅辅助的地方,”Ghodsi表示。他称,该系统可以持续监控数据管道,在出现故障时立即响应,即便在非工作时间也能分析复杂追踪信息并诊断问题,协助恢复和稳定管道运行。

在技术架构上,Genie Code采用多代理、多模型的设计。Ghodsi介绍,系统结合了Anthropic、OpenAI和Google等提供的大型语言模型,以及针对特定任务优化的小型开源模型。“工作流程中有许多环节不需要大型模型,只需快速且可靠执行特定操作的模型。”

大型模型主要负责复杂问题求解和整体规划,小型模型则用于高频、常规操作,以提高效率。系统由多个专职代理协同工作,而非单一整体模型:有的代理专注诊断管道故障,有的负责分析数据模式等。这些代理共享上下文、记忆和技能,在数据栈不同层面协同执行复杂工作流。

Databricks将这一模式称为“代理式数据工作”。在这种模式下,用户不必为每一小段代码单独向助手发出指令,而是可以将完整目标交由系统处理。

评估与可靠性

在生产环境中长期保持稳定表现是自主AI系统面临的另一挑战。代理在遇到不熟悉场景时可能出现性能波动。为此,Databricks此前收购了专注AI代理评估和强化学习的初创公司Quotient AI。

据介绍,Quotient AI的技术用于评估代理行为、持续监测输出质量、检测性能回退并防止生产故障。该公司创始人曾参与提升GitHub Copilot质量,具备针对AI编码系统评估的相关经验。Databricks希望借此在引入更高程度自动化的同时,维持对系统表现的持续监控。

面向数据系统的“vibe编码”

“vibe编码”的兴起,使AI编码代理成为软件基础设施领域新的竞争焦点。Cursor和Anthropic等公司主要围绕开发者写代码的体验展开竞争,而Databricks则试图从企业数据系统运维角度切入。

Ghodsi表示,AI编码市场与企业数据自动化市场正在并行发展,但相对独立。前者聚焦软件工程师如何编写应用代码,后者则关注企业如何管理和运营数据系统。“虽然我们的产品名中含‘code’,但真正关注的是数据工作,”他说。

Genie Code主要针对数据进入企业平台后的各类工作流程。Databricks希望通过聚焦数据层,解决通用编码助手难以覆盖的问题。“市场上的其他工具帮助软件工程师编写应用代码,这很好,”Ghodsi表示,“但我们的最终目标是数据:可靠地转换数据,帮助组织高效使用数据。”

目前,包括SiriusXM和Repsol在内的多家机构已开始试用Genie Code。SiriusXM利用该系统构建和维护内部数据产品,生成SQL查询并调试数据管道。根据Ghodsi的说法,该公司在数据工程任务上的生产力提升约20%。Genie Code还被用于帮助工程师创建具备服务级别协议和可靠性保证的数据产品。

跨国能源和石化公司Repsol则使用该技术加速预测和生产相关工作流程。工程师无需手动连接分散在不同系统中的笔记本、管道和模型,而是依赖Genie Code自动协调这些流程。Ghodsi称,已有数千家客户在试验该技术,但多数部署仍处于早期阶段。

人类工程师角色变化

对于自主代理是否会取代人类工程师的问题,Ghodsi表示,他并不认为人类会被完全替代。他预计,工程师在未来可能减少直接编写代码的时间,更多参与架构设计、监督自动化系统运行以及对AI驱动工作流进行质量把关。

他指出,随着自动化成本下降和工具易用性提升,自动化需求自然增加。“看一些数据,机器上的大量活动实际上是代理在后台操作,”他说。

Databricks最新发布的《AI代理现状》报告显示,目前在其平台上,AI代理创建了80%的数据库以及97%的测试和开发环境。两年前,这些活动几乎全部由人类开发者完成,代理所占比例接近于零。

“我不会惊讶这个比例很快从80%升至99%。但这并不意味着人类会从流程中消失,”Ghodsi表示。他强调,在法律责任和质量保证等环节,人类仍将发挥重要作用。


分享:


发表评论

登录后才可评论。 去登录