喜报!中国科学技术大学携手中科类脑斩获国际竞赛大奖

点击:2158次发布日期:2021-07-06

日前,2021年ICDAR国际会议的文档照片组件分割比赛结果揭晓,中国科学技术大学智能多媒体内容计算实验室(IMCC-Lab)联合中科类脑在文本区域分割任务中夺得全球第三名。


111.png

444.png


此次文档照片组件分割(Components Segmentation Task of Document Photos)挑战赛由ICDAR 2021(International Conference on Document Analysis and Recognition)举办,吸引了16个来自不同国家地区的高校和企业队伍参加,包括来自中国、德国、瑞士等国家地区的顶级科研机构,如:中国科学技术大学、西安交通大学、德国人工智能研究中心等,以及顶尖技术公司,如:韩国NAVER Papago,中国网易,中国平安OneConnect等。


相比于常规的文档文本行分割任务,本次比赛为对移动摄像头获取的ID文档图像中文本行的分割,挑战的难度和对分割算法的要求更高。ID文档的质量、位置、文档与摄像机之间的距离、透视失真、曝光、聚焦以及由于环境光线引起的反射或阴影等问题均可能影响分割算法的性能。


44.png


基于此前在文本分割领域的技术积累,IMCC-Lab基于Cascade Mask-RCNN实例分割模型进行改进及调优。由于比赛数据的特殊性,该组首先在一些通用公开场景文本数据集上进行模型预训练,继而引入文档数据集在模型微调过程中作为扩充数据参与训练。为了更好捕获文本语义,模型加入了可变形卷积操作及针对困难样本的在线难样例挖掘算法。此外,针对背景文本干扰问题,IMCC-Lab利用文档边界分割任务来辅助过滤背景文本噪声并采用了多模型融合策略来获取更准确的分割结果。通过以上一些技术综合,IMCC-Lab以89.04的DSC指标评估结果获得了该文本行分割任务的第三名,证明了其在文本检测及分割领域的技术先进性。


中国科大IMCC-Lab团队参赛人员分别有Yuxin Wang、Mengting Xing、Yadong Qu、Shancheng Fang、Yu Zhou、Zilong Fu。中科类脑平台研发总监Feng Chang、核心骨干Jingxiang Wang等全程参与此项目。


秉持公司“推动前沿智能技术,赋能产业转型升级”的使命,立足于该团队在复杂移动环境下的文本检测核心技术,我们将积极探索并推动此项技术在能源领域的表计识别、缺陷检测,工业智能的外观品质检测等方向上的创新应用。同时此次类脑智能开放平台(bitahub.com), 作为省内的人工智能公共服务设施,为团队提供了算力支撑,全力支撑了赛事工作。 


作为一家技术创新型企业,中科类脑联合类脑智能技术及应用国家工程实验室搭建类脑智能开放平台,为用户提供高性能计算资源、持续更新精选的算法和开箱可用的数据集,让开发者专注于业务和科研。同时,公司坚持以类脑智能开放平台的核心能力为支撑,全面聚焦能源、工业领域,布局智能化产品解决方案,致力于成为能源智能化引领者、泛工业智能化的领航者。