[ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽

adminadmin 02-12 68 阅读

  本文介绍我们媒体计算研究组(MCG)在多目标跟踪领域的一个新工作 SportsMOT: A Large Multi-Object Tracking Dataset in Multiple Sports Scenes,旨在促进多目标跟踪关注运动场景以及为MOT和体育分析领域提供一个大规模精细度高的数据集。在这项工作中,我们提出了一个新的多运动场景下的大规模多目标跟踪数据集 SportsMOT,跟踪足球、排球、篮球运动场上所有的球员,弥补了多目标跟踪领域在运动场景的基准的缺失。该数据集由240个视频组成,总计约有15万帧图片(相当于MOT17的15倍)和160万个标注的边框(相当于MOT17的3倍),跟踪的目标具有两个特点:(1)运动速度快且多变,(2)相似但可区分的外观。为了更好地关联检测对象,我们进一步提出了一个新的多目标跟踪框架 MixSort,引入了类似 MixFormer 的结构作为辅助关联的外观模型。通过结合外观信息与基线模型的运动信息,MixSort在SportsMOT和MOT17上都取得了SOTA的结果。我们希望 SportsMOT 能够鼓励多目标跟踪算法更好地将基于动作和基于外观的关联结合起来。

  论文链接:SportsMOT: A Large Multi-Object Tracking Dataset in Multiple Sports Scenes

  项目链接:GitHub - MCG-NJU/SportsMOT: A Large-Scale Multi-Object Tracking Dataset in Sports Scenes

  测试链接:https://deeperaction.github.io/tracks/sportsmot.html

  多目标跟踪(MOT)是计算机视觉中的一项基本任务,旨在估计视频序列中物体(如行人和车辆)的边界框和身份。目前多人跟踪数据集主要着眼于街景中拥挤的行人(如MOT17/20)或外观相似的舞者(如DanceTrack)。 在跟踪对象方面,在监控或自动驾驶的应用场景下,现有的多人跟踪数据集跟踪了场景中几乎所有人的轨迹,而对于篮球、排球、足球这样的运动场景,我们一般只关注球场上的运动员;在动作模式方面,在MOT17和MOT20中,由于行人的运动缓慢且有规律,当前优秀的跟踪器大多使用基于Kalman Filter的IoU匹配来进行目标关联,DanceTrack强调多样而非快速的运动,即舞者频繁地改变舞蹈动作和相对位置,但绝对速度并不快,而在职业体育赛事中,我们观察到运动员绝对速度快、频繁地改变速度方向和快慢的运动模式,这对现有的基于运动的目标关联构成了挑战;在外观方面,街景中行人身着不同的服饰,易被区分,在DanceTrack中,舞者一般都穿着相似甚至相同的衣服,做着相同的舞蹈动作,很难区分,而运动场景中的球员穿着相似的球衣,且由于摄像机或目标的高速运动,球员的身影经常被模糊,对现有的外观模型也是一大挑战,但运动员的球衣有着不同的号码,发型、鞋子、姿势也不尽相同,因此,我们认为运动场景中的目标具有相似但可区分的外观,这就需要外观模型挖掘出更具判别力和泛化性的表达能力。 与其他技术相结合,运动场景下的多目标跟踪可以自动执行高级任务,如比赛裁决、运动员评估、训练计划制定、自动战术分析和策略改进等。随着人们对体育分析的需求越来越大,很多体育项目缺乏多目标跟踪数据集,这些运动背景复杂、目标位移大、镜头移速快,与其他现有数据集的本质要求不同,因此需要专门的基准数据集和训练平台,设计更符合运动场景要求的跟踪器,我们希望SportsMOT能鼓励多目标跟踪领域更多地关注复杂的体育场景。

  基于以上分析,为了促进目标跟踪和运动分析的发展,我们提出了一个新的多运动场景下的大规模多目标跟踪数据集 SportsMOT。该数据集不仅规模大,而且质量高,密集注释了所有场上球员的位置边界框及独有的ID,当一名运动员出画后再次入画,我们维持他/她原本的ID。该数据集包含240个视频,每个视频分辨率为720P、帧率为25FPS,我们将其分为训练、验证和测试子集,分别由45、45和150个视频序列组成。[ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽[ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽图1. 不同数据集的轨迹可视化对比

  我们精选了世界著名的足球、篮球、排球三大运动项目,并从MultiSports数据集中挑选了这三类运动项目高质量的职业比赛视频。每个类别都包含典型的运动员阵型和动作模式,平衡了运动场景的代表性和多样性。此外,遵循单相机多目标跟踪的原则,研究员手动检查每个视频,以确保视频中没有镜头切换。 在视频背景的多样性方面,足球比赛提供了室外场景的视频,排球和篮球比赛提供了室内场景的视频。比赛场地的视图也各不相同,数据集中包含了NBA比赛中的侧视图,排球比赛中的发球区视图,以及足球比赛中的鸟瞰图。

  我们根据以下原则对收集的视频进行注释: 标注运动员的完整四肢和躯干,但不包括任何其他物体,如接触运动员身体的球;在遮挡的情况下推断出运动员不可见的部分,除非运动员有多于一半的躯干在画外;每个运动员在整个视频中都有且仅有唯一的ID。

  在单目标跟踪器KCF的帮助下,我们为SportsMOT提供了定制的标注工具,并为注释人员提供了相应的标注手册。KCF用于将前一帧的边界框传播到当前帧,然后由标注人员对生成的边界框进行细化,从而提高标注质量。专业研究员在仔细检查每个标注结果后,细化或剔除了不满足标准的边界框和ID,构建了高质量的数据集。[ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽[ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽表1. SportsMOT与其他数据集的数据量对比[ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽[ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽表2. SportsMOT三种球类的数据量对比

  SportsMOT有两个核心属性:1. 快速和变速运动,2. 相似但可区分的外观。快速和变速运动。运动线索在多目标跟踪的目标关联中起着重要作用。现有的多人跟踪数据集的跟踪目标一般都有固定的运动模式,与运动场景的模式截然不同,这对运动员的跟踪构成了障碍。例如,在MOT17和MOT20中,行人匀速线性地向前运动,只要关联策略预设简单的匀速直线运动,就容易被破解。DanceTrack突出的是多样化而非快速的运动,即舞者通常以相对较低的速度向不同的方向进行不同的舞蹈动作。相比之下,由于体育运动场景的特殊性,SportsMOT具有独特的运动模式,即快速和变速运动,运动员通常快速移动,频繁地改变速度方向和快慢。如图2、图3所示,在三个数据集中,SportsMOT在相邻帧的边界框IoU和基于卡尔曼滤波的IoU得分最低,说明目标运动速度较快且运动速度是多变的,因此对基于简单运动假设的跟踪器提出了重大挑战,也鼓励跟踪器以更动态和自适应的方式对物体运动进行建模。相似但可区分的外观。外观是跟踪器用来区分不同目标的另一种线索。在MOT17和MOT20中,行人的体型不同,衣着各异,形成了具有辨别性的视觉特征。相比之下,DanceTrack中的舞者通常穿着几乎相同的服装,难以通过外观区分,因此,DanceTrack更依赖于基于运动的关联,而不是基于外观的关联。在SportsMOT中,运动员的球衣也非常相似,然而,球衣有着不同的号码,运动员的发型、鞋子、姿势也不尽相同,从而导致相似但可区分的外观。在图4中,我们使用t-SNE提供了不同数据集的采样视频的ReID特征可视化。SportsMOT的目标相比MOT17是更相似的,但相比DanceTrack是更可区分的,这就需要外观模型挖掘出更具判别力和泛化性的表达能力,我们鼓励跟踪器学习更具有鉴别性的视觉表征,以实现更健壮的目标关联。图2. 相邻帧的目标IoU [ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽[ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽图3. 基于卡尔曼滤波的相邻帧的目标IoU[ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽[ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽图4. 使用t-SNE对ReID特征的可视化

  总之,我们希望SportsMOT能够鼓励跟踪器在两个方面进行改进和完善,即基于运动的关联和基于外观的关联。

  我们提出了一个新的多目标跟踪框架,称为MixSort,MixSort旨在增强基于外观的关联性能,并可应用于任何tracking-by-detection范式的跟踪器,如ByteTrack和OC-SORT。 我们首先介绍如何使用MixFormer网络在外观匹配中计算跟踪模板和检测对象的视觉相似度。MixFormer用于提取具有区分度的特征,并在目标与搜索区域之间进行广泛的通信。最初的MixFormer使用基于corner的定位头来预测搜索区域中输入模板的左上角和右下角。为了符合多目标跟踪的要求,我们进一步使用热图预测头替代corner定位头,该热图预测模板中心点的置信度,从而计算搜索区域和模板之间的外观相似性,相似度越高的区域检测对象越匹配。详细步骤如图5所示。图5大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!. MixSort中外观相似度的计算步骤。

  ground truth目标中心用红点标记,其余检测标记为绿色。蓝色虚线框表示裁剪的搜索区域。相似向量的空白部分表示搜索区域外的检测,值设为0。为了实现检测与现有轨迹之间的关联,我们使用了一个混合相似矩阵。首先,对于每个现有的轨迹t,我们使用卡尔曼滤波器预测它的新位置。然后,我们以预测位置为中心,以一定比例裁剪当前帧,得到搜索区域s。通过将搜索区域s和模板t输入MixFormer,生成表示模板和搜索区域相似度的热图H。接下来,对于中心点位于搜索区域s内的检测d,我们将其与轨迹t的相似度设为热图H中的响应,位于s外的检测相似度设为0。最后,将外观相似度与IoU分数进行融合,得到混合相似度矩阵,

  [ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽

  其中 [ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽ 为权重系数, [ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽ 为使用MixFormer计算的视觉相似度矩阵。基于tracking-by-detection范式,我们的跟踪流程如图6所示。首先使用检测器获得多个检测目标;然后,我们采用运动模型(如卡尔曼滤波器)预测轨迹的新位置,基于新的轨迹位置和模板计算上述融合相似矩阵,并使用匈牙利算法将轨迹和检测关联起来;最后,对于匹配的轨迹和检测,我们更新了在线模板,对于未匹配的轨迹,我们保留它们一段时间,对于置信度分数高于阈值的未匹配检测,我们生成一条新的轨迹并赋予新的ID。图6大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!. 跟踪流程[ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽[ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽表3. 不同算法在SportsMOT上的跟踪性能

  我们列举了不同算法在SportsMOT上的跟踪性能,具体设置可以在原论文中查看。运动员清晰的外观和稀疏的密度使得现有的成熟的检测器能够生成高精度的边界框。然而,检测器需要微调,以避免误检测观众和裁判。运动场景下的多目标跟踪挑战的关键是快速运动和运动模糊,这迫使我们更加重视提高关联性能。从表中可以看出,HOTA和MOTA的范围较广,表明SportsMOT在不同类型的算法之间具有较好的区分性。类似ByteTrack和OC-SORT这样的tracking-by-detection方法性能优于表中的大多数方法,但它们的关联性能还不够优秀,因此,我们建议加入MixSort来提高基线方法的性能。MixSort显著提高了两个跟踪器的性能,OC-SORT实现了0.4 HOTA的增长,而ByteTrack实现了1.6 HOTA的增长。这证明了MixSort在增强关联方面的有效性。

  基于外观与基于动作的关联。我们使用从1到0的α值对SportsMOT测试集的三个类别评估MixSort-OC,探究外观线索和动作线索的重要性。表4的结果显示,在所有类别中,基于纯运动的关联(α = 1)优于基于纯外观的关联(α = 0),融合关联优于这两种关联。足球视频的外观线索对跟踪性能的改善最显著(+1.3),其次是排球(+0.9)和篮球(+0.3)。结合图2和图3,我们可以得出结论,运动更快的场景更依赖于外观线索。 SportsMOT的不同类别分析。在目标跟踪中,篮球是最难的,其次是足球,排球是最简单的。我们认为难度的差异是由比赛场地的大小和运动员的身体对抗程度等因素造成的。例如,与足球场景相比,篮球比赛在较小的场地上进行,球员之间的身体接触更多,这可能导致更多的目标遮挡和运动模糊,使关联任务更具挑战性。表4. 融合权重α对HOTA的影响

  MixSort的消融研究。结果如表5所示,我们发现不使用运动预测的简单IoU匹配的性能远超使用运动预测的IoU匹配,这表明线性运动模型在运动模式复杂的SportsMOT上的表现很差。此外,我们观察到MixSort显著提高了跟踪器性能。[ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽[ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽表5大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!. MixSort的消融实验

  与SoccerNet-Tracking的比较。我们比较了只关注足球场景的SoccerNet和SportsMOT。表6结果表明,SportsMOT不同运动类别的难度区分度高。SportsMOT总体上看似比SoccerNet简单,这主要是因为SoccerNet跟踪球场上的所有事件,导致更多的错误检测和更低的DetA 。尽管如此,但SoccerNet上的AssA仍然高于SportsMOT,这表明SportsMOT的关联难度较高,在体育跟踪中有一定的价值。[ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽[ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽表6. SportsMOT与SoccerNet的比较

  与DanceTrack的比较。如表7所示,在DanceTrack上,不加入MixSort的ByteTrack反而更好,这表明我们提出的SportsMOT中目标是相似的但可区分的,而DanceTrack中的目标很难区分。因此SportsMOT同时强调了基于动作和基于外观的关联。表7. SportsMOT与DanceTrack的比较

  MixSort和ReID模型的比较。我们使用与DeepSORT相同的ReID模型,并在SportsMOT上进行微调。表8证明了MixSort的外观模型比原始ReID模型更优越,它可以提取更广泛和有差异的表示,也允许更有效的离线学习。表8. MixSort和ReID模型的比较

  MixSort在MOT17上的结果。在MOT17验证集和测试集上,我们将MixSort与表3中最先进的跟踪器进行比较。我们的MixSort-byte和MixSort-OC在HOTA、IDF1和AssA指标上优于这些跟踪器。[ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽[ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽表9. MixSort在MOT17上的结果

  我们在多运动场景下构建了一个新的大规模的多目标跟踪数据集SportsMOT,它具有两个关键属性:(1)快速和变速运动,(2)相似但可区分的外观,旨在推动跟踪和运动分析的发展。我们在SportsMOT上对一些流行的跟踪器进行了基准测试,这揭示了多目标跟踪主要的挑战在于对象关联,并希望能够促进进一步的研究。我们提出了一种新的多目标跟踪框架MixSort,将一个类似MixFormer的结构作为基于外观的关联模型,引入到流行的tracking-by-detection跟踪器中,以提高关联性能。基于MixSort,我们进行了广泛的研究,并对SportsMOT提供了一些深刻的insight。

[ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽

[ICCV 2023] SportsMOT:多种运动场景下的大规模多目标跟踪数据集 🏀🏐⚽

The End 微信扫一扫

文章声明:以上内容(如有图片或视频在内)除非注明,否则均为直播吧 - 欧洲杯直播_CCTV-5在线直播|NBA直播原创文章,转载或复制请以超链接形式并注明出处。

本文作者:admin本文链接:https://iztgb.com/post/400.html

上一篇 下一篇

相关阅读

取消
微信二维码
微信二维码
支付宝二维码