3月31日,智谱在中关村论坛上正式发布AutoGLM沉思,这一全新智能体不仅具备深度研究能力(Deep Research),还能实现实际操作(Operator),真正推动AI Agent进入“边想边干”的阶段。
在现场演示环节可以看到,该智能体可以像人类一样打开并浏览网页,完成数据检索、分析,并生成万字报告,还可以自主选择通过写稿挣钱,完成从上网搜索征稿启事、根据要求构思写稿、通过邮件向平台投稿获取稿费等一系列复杂操作。
记者从发布会上了解到,从2023年10月最早推出具备Function Call能力的智谱清言,到2024年1月率先上线支持智能体编排的GLMs,再到2024年10月推出全球首个设备操控智能体AutoGLM,智谱一直引领AI Agent上界的探索。此次,智谱推出全新的AutoGLM沉思模型被认为是全球首个集深度研究与实际操作能力于一体的Agent,这是自主智能体技术的一次重要进步,也是设备操控智能体的进一步升级。
智谱CEO张鹏表示,AutoGLM沉思体现了智谱对AI Agent的核心理解,即让机器不仅能够思考,还能主动行动,实现“边想边干”的目标。这一能力的实现依赖于三个关键特性:一是深度思考,能够模拟人类在面对复杂问题时的推理与决策过程;二是感知世界,能够像人一样获取并理解环境信息;三是工具使用,能够像人一样调用和操作工具,完成复杂任务。
不同于OpenAI 的Deep Research(深度研究)功能,智谱AutoGLM沉思不仅能深入研究,还能真正执行任务,推动AI Agent从单纯的思考者,进化为能交付结果的智能执行者。其背后的沉思模型作为全新的Agent大脑,能够通过强化学习,让模型学会自我批评、反思甚至沉思,并通过更长的深度思考时间换取更优的效果。它突破了实时联网搜索、动态工具调用、深度分析和自我验证,实现真正的长程推理和任务执行。
据悉,在斯坦福大模型中心《AI指数2024》选定的智能体基准评测AgentBench上,智谱AutoGLM系列模型在5个测试环境中也取得了 SOTA的成绩。其中,在Phone Use基准(AndroidLab & AndroidWorld)中,AutoGLM-Phone的任务成功率较此前最佳成绩提升超过20%;在Browser Use基准上,AutoGLM-Web也全面超越OpenAI GPT-4o和Anthropic Claude-3.5-Sonnet,展现了在网页交互场景中的领先能力。
在GUI智能体领域,智谱自研模型GLM-PC(CogAgent)在多个权威评测榜单上取得SOTA 成绩。凭借仅9B的参数,CogAgent超越了包括GPT-4o + UGround、Claude Computer Use等更大规模的同类模型或商用API。
智谱方面表示,目前,AutoGLM沉思已在智谱清言PC客户端上线,用户可免费体验其研究能力和操作能力。此次发布的为 preview版本,核心支持 research 场景;在未来两周,智谱将进一步扩展更多智能体执行能力。包括推出“虚拟机”版本,进一步增强AI Agent的实际落地能力。另外,沉思功能也已正式上线智谱清言网页端、PC端和手机 App,免费、不限量地开放给用户。这也是国内首个正式开放的Deep Research功能。
转载旨在分享,尊重版权和原创,如有问题请联系删除。