人工智能行业的数据合伙人——多模态数据智能中枢

数据、算法、算力，是人工智能大模型发展的三大基石。当前，全球AI产业面临多模态数据处理能力不足、标注工程效率低下、高质量数据集稀缺等瓶颈，数据工程时长占大模型开发周期的80%以上。整数智能信息技术（杭州）有限责任公司以“多模态数据智能中枢”为核心，研发智能数据工程平台，实现图像、视频、文本、音频、点云等多模态数据的AIPower智能标注与MLOps（机器学习运营）训练闭环工作，为大模型训练提供丰富的PB级高质量数据集。

图1 产品能力介绍

一是构建AI数据智能工程新范式，促成大规模数据汇聚。利用多模态数据融合、4D时序标注、CoT思维链数据等关键技术，推动数据工程从“人工密集型”向“技术密集型”与“专家密集型”的产业范式跃迁。平台集成自主研发的AIPower引擎，支持垂直模型预标注，准确率可达99%，日均处理能力达百万量级。通过MLOps闭环，平台打通“数据－模型－专家”闭环，构建越训越强的模型“数据飞轮”。

二是建立智能全链路数据流程，驱动数据要素流通与价值释放。一方面，数据流程覆盖数据采集、数据清洗、数据标注、数据治理、模型测评、成品数据集，形成高质量、多场景、全模态数据资源池。累计汇聚超9.6亿张图片、1.2亿部视频、10亿份文本及多模态题库数据集，累计交付超10PB的高质量成品数据集。另一方面，探索形成“企业－科研－产业”多元参与的数据流通机制，鼓励高质量数据集在数据交易所（中心）挂牌，实现数据要素从资源到资产的价值释放。

三是以高质量数据集训练提升大模型能力，推动应用提质增效。在缩短模型开发周期上，头部车企通过应用智能数据工程平台后，缩短端到端VLM智驾模型开发周期3个月以上，标注效率提升500%，关键帧识别准确率提升80%，降低标注成本超500万元。在模型推理能力提升上，某大模型公司在应用项目的高质量思维链（CoT）数据集后，模型推理能力提升100%以上，实现从对话能力到推理能力的跃迁。在构建评测基准上，SuperGPQA数据集涵盖285个研究生级别学科的AI评测基准，已被字节跳动的豆包、阿里巴巴的通义千问、小米的蜜莫等大模型选为技术报告中核心能力的评测标准。

四是营造“数据+平台+生态”的开源生态，提供产业创新不竭动力。发起的2077AI全球开源数据社区，吸引哈佛大学、斯坦福大学、麻省理工、浙江大学等全球顶尖高校师生，共同构建高质量前沿数据集，推动了大模型训练数据从“闭源”转向“开源”的根本性转变，解决现有大模型在复杂视觉理解与多模态关系推理上的关键痛点。目前已累计服务全球近2000家科技企业与科研机构，交付高质量数据集总量超10PB，支持的智能驾驶标注数据里程超200万公里，直接或间接创造数据标注师就业岗位超10000个。

（本项目获得2025年“数据要素×”大赛全国总决赛科技创新赛道优秀奖－商业价值奖）

扫一扫在手机上查看当前页面

下载

打印

相关链接