- 2026-05-24 15:13
- 来源: 武汉市数据局
-
- 分享到
数据、算法、算力,是人工智能大模型发展的三大基石。当前,全球AI产业面临多模态数据处理能力不足、标注工程效率低下、高质量数据集稀缺等瓶颈,数据工程时长占大模型开发周期的80%以上。整数智能信息技术(杭州)有限责任公司以“多模态数据智能中枢”为核心,研发智能数据工程平台,实现图像、视频、文本、音频、点云等多模态数据的AIPower智能标注与MLOps(机器学习运营)训练闭环工作,为大模型训练提供丰富的PB级高质量数据集。

图1 产品能力介绍
一是构建AI数据智能工程新范式,促成大规模数据汇聚。利用多模态数据融合、4D时序标注、CoT思维链数据等关键技术,推动数据工程从“人工密集型”向“技术密集型”与“专家密集型”的产业范式跃迁。平台集成自主研发的AIPower引擎,支持垂直模型预标注,准确率可达99%,日均处理能力达百万量级。通过MLOps闭环,平台打通“数据-模型-专家”闭环,构建越训越强的模型“数据飞轮”。
二是建立智能全链路数据流程,驱动数据要素流通与价值释放。一方面,数据流程覆盖数据采集、数据清洗、数据标注、数据治理、模型测评、成品数据集,形成高质量、多场景、全模态数据资源池。累计汇聚超9.6亿张图片、1.2亿部视频、10亿份文本及多模态题库数据集,累计交付超10PB的高质量成品数据集。另一方面,探索形成“企业-科研-产业”多元参与的数据流通机制,鼓励高质量数据集在数据交易所(中心)挂牌,实现数据要素从资源到资产的价值释放。
三是以高质量数据集训练提升大模型能力,推动应用提质增效。在缩短模型开发周期上,头部车企通过应用智能数据工程平台后,缩短端到端VLM智驾模型开发周期3个月以上,标注效率提升500%,关键帧识别准确率提升80%,降低标注成本超500万元。在模型推理能力提升上,某大模型公司在应用项目的高质量思维链(CoT)数据集后,模型推理能力提升100%以上,实现从对话能力到推理能力的跃迁。在构建评测基准上,SuperGPQA数据集涵盖285个研究生级别学科的AI评测基准,已被字节跳动的豆包、阿里巴巴的通义千问、小米的蜜莫等大模型选为技术报告中核心能力的评测标准。
四是营造“数据+平台+生态”的开源生态,提供产业创新不竭动力。发起的2077AI全球开源数据社区,吸引哈佛大学、斯坦福大学、麻省理工、浙江大学等全球顶尖高校师生,共同构建高质量前沿数据集,推动了大模型训练数据从“闭源”转向“开源”的根本性转变,解决现有大模型在复杂视觉理解与多模态关系推理上的关键痛点。目前已累计服务全球近2000家科技企业与科研机构,交付高质量数据集总量超10PB,支持的智能驾驶标注数据里程超200万公里,直接或间接创造数据标注师就业岗位超10000个。
(本项目获得2025年“数据要素×”大赛全国总决赛科技创新赛道优秀奖-商业价值奖)