PG·电子(中国文化有限公司)- 数字纹身技术领航者

『行业资讯』提供数字纹身行业最新动态,包含PG电子技术突破、市场数据及行业趋势,年发布专业资讯120+篇。

大模型“自动修bug”能力将提升豆包开源多语言代码修复基准

2025-05-31  

  IT之家 4 月 10 日消息,豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。

  在 SWE-bench 基础上,Multi-SWE-bench首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈工程”的评测基准。其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。

  Multi-SWE-bench 旨在推动自动编程技术从仅能解决单一语言(如 Python)和低复杂度的任务,朝着支持多语言、具备真实问题解决能力的通用型智能体迈进。

  SWE-bench 是当前最具代表性的代码修复评测基准,强调任务真实、难度高。它基于 GitHub issue,要求模型自动定位并修复 Bug,兼具跨文件修改、复杂语义推理与上下文理解等挑战。

  Multi-SWE-bench 旨在补全现有同类基准语言覆盖方面的不足,系统性评估大模型在复杂开发环境下的“多语言泛化能力”,推动多语言软件开发 Agent 的评估与研究,其主要特性如下:

  首次覆盖 7 种主流编程语言(包括Java、Go、RuPG电子官方网站st、C、C++、TypeScript、JavaScript),构建多语言开发环境下的代码修复任务,系统评估模型的跨语言适应与泛化能力;

  引入任务难度分级机制,将问题划分为简单(Easy)、中等PG电子官方网站(Medium)和困难(Hard)三类,涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战;

  1,632 个实例全部来源于真实开源仓库,并经过统一的测试标准和专业开发者的审核筛选,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。

上一篇:投融界观察:联袂杭州六小龙AI编程教育站上风口
上一篇:全面屠榜!谷歌最强编程模型提前释出碾压Claude 37

猜你喜欢

  • zyz在线视频一级黄片 MBA智库

    zyz在线视频一级黄片 MBA智库

      [环球时报综合报道]“一段时间以来,比亚迪、吉利等中国自主品牌的崛起给不少外国汽车品牌带来压力。”美国CNBC网站18日报道称,美银证券汽车产业分析师约翰·墨菲当天在美国汽PG电子文化有限公司车媒体协会有关活动中表示,美国底特律三巨头(即通用汽车、福特汽车和斯特兰蒂斯)应“尽快”退出中国市场。他同时警告说,...
  • t=纹身|小图纹身设计分享

    t=纹身|小图纹身设计分享

      5月7日,浙江杭州,74岁张纪中开车送娃上学撞车,聊天感叹养娃负担重。   张纪中送娃上学途中发生剐蹭 “我先去送小孩 我不会跑 我是张纪中” 当事人:不好意思 我不认识!   5月7日(发布时间),74岁张纪中开车送娃上学撞车被判全责,“我先去送小孩 我不会跑 我是张纪中”,对方:我不认识张纪...
  • 软件能力成熟度模型集成(CMMI)的级别划分

    软件能力成熟度模型集成(CMMI)的级别划分

         CMMI(软件能力成熟度模型集成)是一个用于产品与服务开发的过程改进成熟度模型。它包含开发与维护活动的最佳执行方法,涵盖产品从构思到交付与维护的生命周期。   CMMI是由美国国防部委托卡耐基-梅隆大学(Carnegi...
  • 征服14亿球迷!NBA在中国市场人气最高的十大巨星传奇

    征服14亿球迷!NBA在中国市场人气最高的十大巨星传奇

         在中国,NBA不仅仅是一个篮球联赛,更是一种文化现象。从1980年代通过央视进入中国家庭以来,NBA球星们成为了几代中国人的集体记忆。有些球星在中国的人气甚至超过了他们在美国本土的影响力。以下是在中国人气最高的十大NBA巨星,他们用不同的方式征服了...

手机扫一扫添加微信