面向人工智能应用的高质量手语数据训练资源平台

为解决手语数据获取难、规模小、质量低、标注成本高等核心问题，天津鲸言科技有限公司构建全球最大的高质量手语数据训练资源平台，旨在通过多模态采集与AI处理，形成标准化、规模化数据集，为手语识别与翻译系统提供训练支撑，已应用于冬奥会手语数字人、医保智能服务等场景，助力听障人士无障碍沟通与社会融合。

图1天津市河西区医保中心应用场景

一是多模态数据汇聚与合规采集，构建高质量手语数据集。汇聚RGB视频、深度信息、骨架坐标、光流等多模态手语数据，涵盖面部表情、手部动作、肢体姿态等要素，数据内容符合国家通用手语标准。通过深度摄像头、多角度摄像机等专业设备与自研手语采集APP，联合聋人群体、手语专家开展数据采集。采用点对点合同授权模式，整合自有采集与外部授权数据，形成可持续更新机制，为模型训练提供规模化的高质量数据来源。

二是技术驱动数据治理与模型训练，提升识别准确率与可用性。运用AI模型进行数据自动筛选，实现骨架序列自动分割与标注，显著降低人工标注成本。通过多模态融合与时序建模，构建覆盖大词汇量的连续手语识别数据集，有效提升手语识别模型的准确率与泛化能力，为各类AI手语应用提供可靠数据基础。

三是多场景应用落地，赋能无障碍服务与智能交互。经治理后的高质量数据集已应用于手语实时识别与翻译系统，并融入银行、医疗、交通、教育等多个民生领域，支撑包括冬奥会手语数字人、医保智能服务终端等多种公共服务与智能硬件，实现听障人士与公共服务设施的无障碍交互，目前已服务听障人群约14万人。

四是形成可持续数据服务模式，兼具社会价值与商业潜力。通过点对点授权方式向企业及机构提供数据集与数据产品，已服务百度、搜狗、vivo、医保局等单位，实现年收入超百万元，形成“采集－治理－授权－应用”的可持续数据服务闭环。在取得商业收益的同时，显著推动信息无障碍环境建设，兼具公益价值与市场潜力，为听障人群融入数字社会提供了重要的数据基础设施。

（本项目获得2025年“数据要素×”大赛全国总决赛医疗保障赛道优秀奖－应用实践奖）

扫一扫在手机上查看当前页面

下载

打印

相关链接