PG·电子(中国文化有限公司)- 数字纹身技术领航者

『行业资讯』提供数字纹身行业最新动态,包含PG电子技术突破、市场数据及行业趋势,年发布专业资讯120+篇。

大模型“自动修bug”能力将提升豆包开源多语言代码修复基准

2025-05-31  

  IT之家 4 月 10 日消息,豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。

  在 SWE-bench 基础上,Multi-SWE-bench首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈工程”的评测基准。其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。

  Multi-SWE-bench 旨在推动自动编程技术从仅能解决单一语言(如 Python)和低复杂度的任务,朝着支持多语言、具备真实问题解决能力的通用型智能体迈进。

  SWE-bench 是当前最具代表性的代码修复评测基准,强调任务真实、难度高。它基于 GitHub issue,要求模型自动定位并修复 Bug,兼具跨文件修改、复杂语义推理与上下文理解等挑战。

  Multi-SWE-bench 旨在补全现有同类基准语言覆盖方面的不足,系统性评估大模型在复杂开发环境下的“多语言泛化能力”,推动多语言软件开发 Agent 的评估与研究,其主要特性如下:

  首次覆盖 7 种主流编程语言(包括Java、Go、RuPG电子官方网站st、C、C++、TypeScript、JavaScript),构建多语言开发环境下的代码修复任务,系统评估模型的跨语言适应与泛化能力;

  引入任务难度分级机制,将问题划分为简单(Easy)、中等PG电子官方网站(Medium)和困难(Hard)三类,涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战;

  1,632 个实例全部来源于真实开源仓库,并经过统一的测试标准和专业开发者的审核筛选,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。

上一篇:投融界观察:联袂杭州六小龙AI编程教育站上风口
上一篇:全面屠榜!谷歌最强编程模型提前释出碾压Claude 37

猜你喜欢

  • 合肥地铁全面引入DeepSeek AI技术探索六大智慧应用场

    合肥地铁全面引入DeepSeek AI技术探索六大智慧应用场

      近日,合肥地铁正式宣布与DeepSeek大模型的成功对接,该模型已与银河麒麟智算操作系统完成兼容适配。这一重要举措让人们看到了轨道交通智能化服务水平的显著提升,并为合肥地铁的未来发展指明了方向。基于当前人工智能技术的迅猛发展,我们对DeepSeek在合肥地铁未来六大应用场景进行了前瞻性分析,探索其可能带来的...
  • 纹身对就业影响有多大?行业差异、位置选择、社会观念全解析!

    纹身对就业影响有多大?行业差异、位置选择、社会观念全解析!

      在这个追求自我表达的时代,纹身早已不是“不良少年”的专属标签,它成了许多人记录生活、展现个性的方式。   公务员、事业单位就别想了,体检标准摆在那儿呢,《公务员录用体检特殊标准》明文规定,纹身不合格,所以想进体制内,还是先掂量掂量吧。   医疗、教育、法律,这些职业讲究的是专业形象和客户...
  • 20 - OFweek电子工程网

    20 - OFweek电子工程网

         你的内存又要涨价了,这次无风、无水、无火、无电。在早些年,内存涨价的原因大抵是韩国某某厂商的芯片厂突遭“天灾人祸”导致价格飙升。然而5月12日消息,据Electronic Times引援业内人士报导:三星已与核心客户达成协议,计划将DRAM内存价格...
  • DeepSeek爆火AI世界的“新搅局者”来了?

    DeepSeek爆火AI世界的“新搅局者”来了?

      DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司 ,于 2023 年 7 月 17 日正式成立,是一家专注于开发先进大语言模型(LLM)及相关技术的创新型科技公司,由知名量化资管巨头幻方量化创立。   自成立以来,DeepSeek 发展迅猛,在大模型领域成果斐然。2024 年 1 月 5...

手机扫一扫添加微信