对比了6家国产智能体（AI Agent），我找到了企业落地AI的标的

发布日期：2024-12-15 06:24 点击次数：91

当今智能体的应用也曾越来越闲居，除了个东谈主用在生涯中之外，企业也开动尝试应用在责任中。但不同厂家的只嗯你提和阐扬略有不同，有的基本知识不实，有的能顺利完成。这篇著作，咱们来望望作家分析的阐扬。

在最近驱散的百度寰球大会（Baidu World 2024）上，百度首创东谈主李彦宏提到百度文心智能体平台已蛊惑15万家企业、80万名拓荒者使用，并称11岁的小学生也顺利搭建了智能体。

这个数据确凿惊东谈主，其实智能体（AI Agent）这一宗旨，以过火同义术语如数字职工、AI助手等，均已不再是清新话题。

尽管刻下市面上智能体的种类繁密，但大多面向个东谈主用户，行为企业盘算者，我更关怀的是智能体在企业方面的应用。跟着智能体在交易范围的说合愈发烧烈，我对智能体在企业中的本色应用价值抱有一定的疑虑：

智能体是否能感知用户发问的真实意图？智能体是否能领悟复杂语境和非规范抒发？智能体是否能从丰富的知识库圆善抽取信息？智能体是否能保执凹凸文、致使多文档之间的语义连贯性？智能体是否能准确索求复杂数据，判断多元数据？

为了考证以上问题，本篇著作将从以下两个方面来探讨智能体（AI Agent）：

企业级智能体测评（从3个维度起程，测评10个问题）刻下智能体们能为企业作念什么？

先说论断

为了寻找合适的国产智能体（AI Agent）进行测评，我在不同的AI平台搜索：

试用下来，从操作粗略性和功能实用性方面讨论，最终筛选出了6家功能相似的企业级智能体（或数字职工）：扣子、文心智能体、司马诸葛、智谱清言智能体、腾讯元器、LinkAI。

我准备了4份文档，以相同的教唆词，相同的文档，分别在这6家平台创建了一个企业常见的智能体：行政小助手sunny。围绕行政方面的场景，复原企业里面职工之间真实疏导场景。

为了保证平允性，同期也讨论到智能体证明不表露，此次共成立了10个问题（从易到难）进行测评。分别从精准度、圆善性、逻辑性方面，检测智能体们的回答质地。

先上论断：大部分智能体齐具备了领悟约略指示的材干，扣子和司马诸葛的阐扬最令东谈主称心，不偏离事实，基本能达到企业使用的需求，适用于严肃交易场景，但仍有高出空间。LinkAI、智谱清言智能体和腾讯元器的阐扬比前两者稍逊，对付可使用。文心智能体阐扬一般，有较大的升级空间。

【提醒：评分后果只代表智能体们当下在企业应用场景对问题的回答质地，且评价维度有限，不代表居品全体水平。】

一、正确领悟语义，回答准确度

正确领悟语义，能领悟凹凸文，具备回答的准确度，是讨论智能体是否可用的要紧考量身分。

为了测试智能体是否能正确领悟语义及基础的信息抽取材干，针对公司的行政轨制，我淡薄了4个问题。

第一个问题：“请一天事假，奈何请？”

原文如下：

扣子从知识库径直索求了信息，不作念过多发散，回答正确。

文心智能体的回答很挑升义性，对原文作念出了正确领悟，回答无误。

司马诸葛分智商列出，念念路明晰，回答正确。

智谱清言智能体天然也给出了请假智商，但他给出的审批东谈主是径直支配领导，而原文中正常经过中请假单的审批东谈主是总司理，回答不实。

腾讯元器相同给出了正确谜底，智商明晰。

LinkAI的回答也正确领悟了原文，回答准确。

第二个问题：“不错在卫生间吸烟吗？”

原文如下：

扣子领悟正确，给出了精准回答。

文心智能体莫得索求出关连信息，无法给出卫生间是否不错吸烟的关连建议。

司马诸葛正确领悟原文语义，给出了精准的回话。

智谱清言智能体也回答正确。

腾讯元器率先给出论断，然后给出关连轨制条目，回答正确。

LinkAI的谜底不实，遗漏了“指定场地外。”

第三个问题：“入职第一天，迟到半小时奈何扣钱”

原文如下：

扣子未能给出具体扣钱金额，回答不实。

文心智能体给出的谜底是第一次迟到会被罚20元，回答准确。

司马诸葛率先给出迟到的界说，再凭证原文档信息进行准确回答。

智谱清言智能体未能回答出具体的扣钱金额。

腾讯元器先给出了迟到的界说，然后再给出了扣钱的情况，回答准确。

LinkAI相同先给出了迟到的界说，然后再回答第一次迟到罚20元，回答正确。

第四个问题：“我是财务，因为个东谈主毅力给公司变成了2000元的亏空，会赔钱吗”

原文是这么的：

扣子给出的谜底相同是需要抵偿200元，回答正确。

文心智能体莫得给出灵验回答。

司马诸葛回答的是需要抵偿200元，正确领悟了原文兴味，输出的后果准确。

智谱清言智能体莫得给出具体抵偿比例和金额，回答得不睬想。

腾讯元器的回答忠于原文档，层次明晰，给出了正确的回答。

LinkAI的回答干脆利落，与原文档亦然相符的。

第一个维度测评下来，不错看出，在对基础信息索求方面，司马诸葛和腾讯元器用有较高的准确度，沿途回答正确，扣子、LinAI回答对3谈题，信息抽取材干也阐扬优秀，文心智能体和智谱清言智能体阐扬较为一般。

二、归纳追忆材干，回答圆善性

智能体若要提高坐蓐力，那么它就必须具备较强的信息归纳追忆材干，能从大宗数据和信息中过滤掉冗余或次要的信息，索求出要害要素并进行整合，以长话短说的步地讲述出来。

第一个问题：“我前年考察90分，不错升职吗？”

原文如下：

智能体需要索求出4个晋升经验，不可偏废。

扣子给出了4项需同期餍足的晋升条件，回答圆善。

文心智能体给出文档中对应的4项具体晋升条件，但遗漏了“无受过处罚”，全体回答阑珊圆善性。

司马诸葛给出了需同期餍足的沿途晋升条件，回答圆善。

智谱清言智能体圆善地整理了晋升条件，回答正确。

腾讯元器给出的晋升条件和原文进出较大。

LinkAI给出了圆善的4项晋升条件。

第二个问题：“除了法定假，公司的福利假还有哪些？”

原文如下：

从原文中不错看出，除了法定假，公司的福利假还有7项：年假、婚假、丧假、病假、产假/陪产假、哺乳假、工伤假。

扣子回答的亦然除了法定假还有年假、婚假等七种福利假，并作念出解说。

文心智能体的回答中漏掉了产假/陪产假。

司马诸葛圆善地追忆出了法定假期之外的七种福利假，并对每种福利假作念了解说。

智谱清言智能体给出了7个福利假，相同作念了相应的解说，回答圆善。

腾讯元器智能体的回答阑珊了工伤假。

LinkAI只给出了四种福利假，阑珊了3个，回答不圆善。

第三个问题：“哪些报销名堂报销时需附上追忆”

原文如下：

智能体需要凭证全文档，归纳出报销团队成立费和市集扩充费时需附上追忆，不成有遗漏。且文档中提到的欢迎费仅仅需要过后追忆，并不需要在报销时附上追忆。

扣子回答的是市集扩充费和团队成立费需要追忆行为报销附件，信息归纳得很圆善。

文心智能体归纳信息不实，不实地以为报销欢迎费也需要附上追忆。

司马诸葛归纳信息不全，阑珊了团队成立费。

智谱清言智能体归纳了5个名堂报销时需附上追忆，回答不实。

腾讯元器相同归纳信息不实。

LinkAI输出的谜底是“扫数出差名堂标报销齐需要附上出差追忆行为报销附件”，回答偏离事实。

第二个维度测评下来，扣子回答的圆善度阐扬最佳，沿途回答正确。司马诸葛和智谱清言智能体次之，回答对了2谈题，LinkAI、文心智能体、腾讯元器阐扬平平。

三、数据处理材干，回答逻辑性

对复杂数据进行处理和分析，能基于事实和数据进行合理推导，并在生成回答时具有逻辑性，这是拉开智能体差距的中枢竞争力之一。

第一个问题：“5个东谈主团建，吃饭600块预算不错吗”

原文如下：

这个问题只需要智能体进行约略的数据计较，并判断出是否超出名额规范。

扣子数据计较正确，并判断出600块超出预算。

文心智能体相同判断出600超预算了，回答正确。

司马诸葛回答“吃饭600块预算是不错的”，回答不实。

智谱清言智能体判断出600元卓越了公司的限定规范，数据计较正确。

腾讯元器判断出600元的预算是合理的，以为还有100元的预算不错天真使用，判断不实。

LinkAI无法回答该问题。

问题二：“我的各项用度齐相宜公司的报销规范，得到了公司的允许。其中交通费和住宿费花了3000元，欢迎客户花了800元，我报销差旅费3800元对吗？”

原文如下：

这谈题需要智能体判断出欢迎费报销并在不差旅费名堂中，而应以欢迎费名堂报销。

扣子回答正确，明确指出欢迎费不在差旅费中报销，由此给出报销的差旅费应是3000元。

文心智能体莫得给出是否应以差旅费报销的谜底，莫得作念出正确的判断。

司马诸葛提到交通、住宿费3000元属于差旅费，800元属于欢迎费，应分开报销，判断正确。

智谱清言智能体给出的论断是总差旅费是3800元，回答不实。

腾讯元器相同也作念出了不实的判断。

LinkAI淡薄最终报销的差旅费是3000元，作念出了合理的判断。

问题三：“行政部司理去大连出差的住宿规范”。

原文如下：

智能体需要先从「差旅费报销规范」表格中判断行政部司理在表格中对应的级别为三级东谈主员，再通过「地分离类及住宿规范」表格中判断大连属于二类城市（省会城市），并正确推理出正确谜底。

扣子回答的是每晚不卓越400元，对应的是三级东谈主员去一类地区的住宿规范，回答不实。

文心智能体回答的是不卓越500元，回答不实。

司马诸葛回答的是每晚300元，回答正确。

智谱清言智能体莫得给出具体的谜底。

腾讯元器回答的是300元，且推理念念路明晰，先给出行政部司理的级别，再衔尾大连属于二类地区，给出正确谜底。

LinkAI回答的是180元，这个数字并莫得在表格中出现，回答不实。

在第三个维度中，莫得任何一家智能体沿途回答正确，扣子、司马诸葛、LinkAI的阐扬尚可，回答对了两谈题，其他智能体的回答后果令东谈主不太称心。

测评沿途戒指！本次测评重心仅仅企业级智能体在AI知识库范围的应用材干。受限于本次测评的教唆词、发问步地及文档内容的各异，测评后果无法全面反应智能体们的真实水平。因此，本次测评后果更多地是为企业家们提供了一个企业应用的参考标的。

刻下智能体们能为企业作念什么？

从测评后果看来，刻下智能体们已具备了基本的材干，可在企业的某些范围证明价值。

1.优化企业里面经过

智能体不错通过在线企业里面知识库，匡助职工快速赢得所需信息，减少重叠疏导。智能体不错使任务自动化，通过自动扩充重叠性、廉价值的任务，智能体省略开释职工的时刻，匡助团队合理分拨东谈主力资源，让他们专注于更高价值的责任，适用于企业行政、培训等要害。

2.为企业客户做事提供复旧

企业不错讹诈智能体处理常见辩论，提供即时反馈，减少客户恭候时刻，提高客户称心度。此外，在处理复杂问题时，智能体省略准确识别用户意图，从而给出个性化的处置决策，适用于企业客服、销售等要害。

3.为企业提供决策复旧

智能体通过分析大宗的布景贵寓和数据，提真金不怕火出要害信息，并将其以结构化的样式呈现。这种材干在企业进行市集调研和数据分析时尤为紧迫。企业不错讹诈智能体快速赢得市集趋势、客户反馈和行业动态，风险经管和算计提供了强有劲的复旧。

行为一个企业盘算者，我深知智能体在股东企业数字化转型中的紧迫性。每个智能体齐具备私有的上风和专长，跟着本事的不停升级和迭代，这些智能体在不停擢升自己材干，赋能企业的昔时。我期待看到这些智能体省略跨越界限，形成强强邻接，以其各自的上风相互和会，为咱们企业带来真实的处置决策，匡助企业冲突瓶颈，收尾高效运营与立异发展。我信服，通过协同合营和聪惠分享，企业AI的全面落地成功在望。

本文由 @刘小锋原创发布于东谈主东谈主齐是居品司理。未经作家许可，退却转载

题图来自Unsplash，基于CC0条约

该文不雅点仅代表作家本东谈主，东谈主东谈主齐是居品司理平台仅提供信息存储空间做事

上一篇：全新蓝山成爆款，刘艳钊：“智能长城”还将提速

下一篇：这场科技效果对接活动 500家创新主体来“赶集”