代码大模子越来越卷,评估AI编程水平的“考卷”也被动升级。12月5日,字节豆包大模子团队开源最新代码大模子评估基准FullStack Bench,在业界初度囊括编程全栈本事中超11类着实场景,粉饰16种编程谈话,包含3374个问题,比拟此前基准,不错更有用地评估大模子在推行全国中的代码成就智商。
代码评估基准是臆度大模子编程智商的步地器用,亦然推进模子优化的关节驱能源。不外,现时的代码评估基准粉饰的利用类型和编程谈话较为有限,难以反应着实全国中代码成就场景的千般性和复杂性。
比如,主流代码评测集HumanEval和MBPP中近80%数据只聚焦基础编程和高等编程问题;DS-1000中95%数据齐累积于数据分析和机器学习任务,且仅对Python谈话进行评测;xCodeEval虽粉饰多项任务,但基本局限于高等编程和数学范围。
因此,字节豆包大模子团队与M-A-P开源社区协调提议FullStack Bench,一个专注于全栈编程和多谈话编程的代码评估数据集。为囊括在着实全栈成就中触及的千般利用场景,商榷团队从寰球最大的步地员本事问答社区Stack Overflow中速即抽取了50万个问题进行分析,筛选出占总问题数前88.1%的利用范围,并对其分手作念了合适调遣来保证每个范围的鲁棒性,最终变成了FullStack Bench真贵的普及11种利用场景及分手比例。
FullStack Bench包含3374个问题,每个问题均包括题目神志、参考惩处有筹谋及单位测试用例,共计15168个单位测试。为保证评估准确性,问题骨子均由干系范围的编程各人联想,并经AI和东说念主工考据进行质地复核。在运转数据集构建后,团队左证主流代码大模子测试效用,按问题难度、浑沌性和可解性对数据质地进行了交叉评估和进一步完善。
FullStack Bench数据集组成情况
为便捷成就者对大模子代码智商进行系统性测试,豆包大模子团队还开源了一款高效的代码沙盒扩充器用——SandboxFusion,用于评估来自不同谈话的不同编程任务。除了FullStack Bench,SandboxFusion还兼容普及10种平凡使用的代码评估数据集,支握23种编程谈话。成就者在单职业器上即可猖狂部署SandboxFusion,也可径直在GitHub上进行体验。
发布评测基准及沙盒的同期,字节代码大模子也初度曝光。商榷中,豆包大模子团队对寰球20余款代码大模子及谈话大模子的编程证明进行了评测(详见论文),其中包括未清晰过的豆包代码大模子Doubao-Coder。
近半年,字节在代码大模子范围进展赶紧,本年6月字节发布了由自研代码基座模子复古的AI编程助手豆包MarsCode,现在每月为用户孝顺百万量级代码。