LangChain发布《AI Agent代理现状报告》
1、代理采用趋势
在过去的一年里,许多代理框架都获得了极大的欢迎——无论是使用 ReAct 来结合 LLM 推理和表演,还是多代理编排器,或者是像LangGraph这样更易于控制的框架。
大约51% 的受访者目前在生产中使用代理。当我们按公司规模查看数据时,中型公司(100-2000 名员工)在将代理投入生产方面最为积极(占 63%)。
令人鼓舞的是,78% 的公司有积极的计划很快将代理投入生产。虽然很明显人们对 AI 代理的需求很强烈,但实际的生产部署对许多人来说仍然是一个障碍。
2、领先代理用例
人们使用代理来做什么?代理既处理日常任务,也为知识工作打开了新的可能性。
主要进行研究和总结(58%),其次是简化任务以提高个人工作效率或提供协助(53.5%)。这些都表明人们希望有人(或某物)为他们处理耗时的任务。用户不必筛选无尽的数据进行文献综述或研究分析,而是可以依靠人工智能代理从大量信息中提炼关键见解。同样,人工智能代理通过协助安排和组织等日常任务来提高个人工作效率,让用户可以专注于重要的事情。效率的提高不仅限于个人。客户服务(45.8%)是代理用例的另一个主要领域,帮助公司处理查询、排除故障并加快跨团队的客户响应时间。
3、代理跟踪和可观察性工具
在测试 LLM 申请时,人们更多地提到离线评估(39.8%)而不是在线评估(32.5%)。这可能说明了监控实时性能的难度。在填写的回复中,许多公司还请了人工专家手动检查或评估回复,以增加一层预防措施。
尽管人们对代理表现出兴奋之情,但大多数人在允许代理自由发挥到何种程度方面采取了更为保守的态度。很少有受访者允许他们的代理自由读写和删除。相反,大多数团队要么允许只读工具权限,要么要求人工批准更重要的操作,例如写入或删除。
在代理控制方面,不同规模的公司也会有不同的优先级。不出所料,大型企业(2000 多名员工)更加谨慎,严重依赖“只读”权限来避免不必要的风险。他们还倾向于将护栏与离线评估相结合,以便在客户看到任何响应之前,在预生产中捕捉回归。
与此同时,小公司和初创公司(员工人数少于 100 人)更注重跟踪,以了解其代理应用程序中发生的事情(而不是其他控制措施)。从我们的对话来看,小公司往往专注于运输,只需查看数据即可了解结果;而企业则全面实施了更多控制措施。
虽然非科技公司和科技公司受访者的代理采用率相似,但在那些在生产中使用代理控制的受访者中,科技公司更有可能使用多种控制方法。51 % 的科技公司受访者目前使用 2 种或更多种控制方法,而其他行业的受访者只有39% 。这表明科技公司在构建可靠代理方面可能走得更远,因为控制是高质量体验所必需的。
4、生产部署的障碍和挑战
保持法学硕士 (LLM) 申请的高质量(无论答复是否准确或是否符合正确的风格)并不容易。
代理使用 LLM 来控制工作流程的固有不可预测性带来了更多的错误空间,使得团队很难确保其代理始终提供准确、符合上下文的响应。
性能质量是受访者最关注的问题——其重要性是成本和安全等其他因素的两倍多。
尤其是对于小公司来说,性能质量远远超过其他考虑因素,45.8% 的受访者将其列为首要考虑因素,而成本(第二大考虑因素)仅占 22.4%。这一差距凸显了可靠、高质量的性能对于组织将代理从开发转移到生产的重要性。
虽然质量仍然是企业的首要考虑因素,但安全问题对这些必须遵守法规并更谨慎地处理客户数据的大公司来说也很普遍。
挑战并不止于质量。从书面回复来看,许多人对构建和测试代理的最佳实践感到不确定。特别是,两个主要障碍脱颖而出:知识和时间。
•知识:团队经常难以掌握使用代理所需的技术知识,包括针对特定用例实施它们。许多员工仍在学习诀窍,需要提高技能才能有效利用人工智能代理。
•时间:构建和部署所需的时间投入非常大,特别是在尝试确保代理可靠运行时——这可能需要调试、评估、微调等。
5、代理成功案例
在我们的调查中, Cursor是讨论最多的代理应用程序,紧随其后的是Perplexity和Replit等重量级应用程序。
Cursor是一款人工智能代码编辑器,可帮助开发人员通过智能自动完成和上下文帮助编写、调试和解析代码。Replit 还可以通过设置环境和配置来加速软件开发生命周期,并让您在几分钟内构建和部署功能齐全的应用程序。Perplexity 是一个人工智能答案引擎,可以使用网络搜索和链接源来回答复杂的查询。
这些应用程序正在突破代理功能的界限,表明人工智能代理不再是理论上的——它们正在解决当今生产环境中的实际问题。
6、人工智能代理新兴主题
从我们的书面回复中,我们看到组织在将 AI 代理引入其工作流程时面临着许多不断变化的期望和挑战。人们对 AI 代理的这些功能表示钦佩:
但对于构建代理的团队来说,也有一些挑战需要考虑。这包括:
•理解代理行为的障碍。几位工程师写信谈到了他们向公司其他利益相关者解释人工智能代理的能力和行为的困难。有时,一些额外的步骤可视化可以解释代理响应发生了什么。其他时候,LLM 仍然是一个黑匣子。可解释性的额外负担留给了工程团队。
尽管面临挑战,但以下领域仍然充满活力:
对开源 AI 代理的兴奋:人们对开源人工智能代理表现出明显的兴趣,许多人认为集体智慧可以加速代理的创新。
自动任务的期待:许多人都在等待人工智能代理的下一次飞跃,即由更大、更强大的模型驱动,以便代理能够以更高的效率和自主性处理更复杂的任务
2024 年人工智能现状报告(附原文下载)
如果说去年是基础模型的突破之年,那么今年则是整合之年。虽然今年的报告继续记录了基础模型能力的重大进步,但我们与基础模型的关系已经发生了变化。研究人员现在对如何加速他们的工作以及如何最好地减轻他们的劣势有了更好的理解。与此同时,公司现在正在投入真正的努力,从仅仅构建模型转向创造产品。
在去年的报告中,我们问到,生成式人工智能产品在最初的“惊喜”因素(和试用订阅)结束后是否能够留住用户。这个问题已经得到了明确的答案。OpenAI 现在已经赚取了数十亿美元的收入,而 ElevenLabs 和 Synthesia 等公司已成为财富 500 强公司的日常工具。
然而,采用率的提高也意味着挑战的增加。其中一些挑战来自政策层面。国际峰会、协议和议定书的蓬勃发展未能掩盖治理方面的重大分歧。大型科技公司与欧洲监管机构发生争执,而加州提出的人工智能监管则引发了社区的内战。欧盟人工智能法案现在可能已经通过成为法律,但欧洲大陆的买家后悔情绪正在日益高涨。
长期以来,人工智能的讨论主要集中在模型缩放定律及其后果上。今年,企业被迫面对非常现实的物理限制,因为它们对电力、水和土地的需求给计算基础设施带来了越来越大的压力。五年前理想主义地接受的乐观净零承诺现在似乎处于严重危险之中。与此同时,这种人工智能基础设施建设所需的资金远远超出了许多机构投资者的能力范围,迫使企业将目光投向海外,这会产生地缘政治影响。
在所有这些挑战中,一个无可争议的赢家出现了。英伟达已加入市值 3 万亿美元的俱乐部,成为股市领头羊,可以说是世界上最强大的公司。越来越多的挑战者、对其中国业务的限制以及老对手迟来的软件投资都未能给英伟达留下任何痕迹。
虽然 NVIDIA 是最极端的例子,但处于 AI 开发前沿的上市公司已经获得了数万亿美元的企业价值。更令人印象深刻的是,他们是在高利率和市场普遍停滞的时期做到这一点的。再加上采用率不断提高、基础设施建设规模庞大以及核电站只是为了满足与 AI 相关的需求而启动——感觉我们真的进入了一个新时代。
2024 年报告的主要内容包括:
随着 GPT-4 与其他模型之间的差距缩小,前沿实验室的表现开始趋同,专有模型失去优势。OpenAI o1 让该实验室重回榜首——但能持续多久?
随着公司探索将 LLM 与强化学习、进化算法和自我改进相结合以解锁未来的代理应用,规划和推理在 LLM 研究中占据优先地位。
基础模型展示了它们突破语言的能力,支持数学、生物学、基因组学、物理科学和神经科学的多模式研究。
美国制裁对中国实验室生产高性能模型的能力影响有限,因为库存、经批准的硬件、走私和云访问等因素让它们能够制造出高性能的 (V)LLM。与此同时,中国打造国内半导体产业的努力仍然举步维艰。
随着上市公司在人工智能领域迎来牛市,人工智能公司的企业价值已达到 9 万亿美元。尽管 GenAI 在美国取得了巨大成功,但对私营人工智能公司的投资也有所增加,但幅度却有所下降。
少数 AI 公司开始产生可观的收入, 包括基础模型构建者和从事视频和音频生成的初创公司。然而,随着企业争夺地盘,模型变得越来越便宜,关于长期可持续性的问题仍未得到解答。
伪收购成为人工智能公司的出路,因为一些公司很难找到可行的商业模式,因为停留在前沿的成本太高。
关于生存风险的讨论已经冷却下来,尤其是在 OpenAI 政变失败之后。然而,研究人员继续加深对潜在模型漏洞和滥用的了解,并提出了潜在的修复和保障措施。
本报告是团队努力的成果,我们感谢人工智能社区不断创造突破,为本报告提供动力。感谢我们的审阅者让我们保持诚实。
我们撰写这份报告的目的是汇编我们所看到的最有趣的事情,目的是引发关于人工智能现状的知情讨论。因此,我们很乐意听到您对这份报告的任何想法、您对我们预测的看法,或对明年版本的任何贡献建议。
原文报告下载:https://share.weiyun.com/JltWyOMA
收起阅读 »2024年 甲子光年 AI agent中国AI Agent 行业研究报告
随着大型模型在各行各业的广泛应用,基于大型模型的人工智能体(AI Agent)迎来了快速发展的阶段。研究AI Agent是人类不断接近人工通用智能(AGI)的探索之一。知名AI Agent项目AutoGPT已经在GitHub的星星数已经达到 140,000 颗,进一步反映了用户对于AI Agents 项目的广泛兴趣和支持。
随着AI Agent变得越来越易用和高效,"Agent+"的产品越来越多,未来AI Agent有望成为AI应用层的基本架构,涵盖toC和toB产品等不同领域。
因此甲子光年推出《2024年AI Agent行业报告》,探讨AI Agent在概念变化,学术及商业界的尝试与探索,对各行业、各场景对于AIGC技术的需求进行调研及梳理,展示AI Agent领域近期的突破及商业实践范式,对未来行业的趋势进行研判。
2024年 甲子光年 AI agent中国AI Agent 行业研究报告.pdf