糖心vlog官网在线,全自动组装家具,斯坦福发布 IKEA Video Manuals 数据集

admin 教育 2024-12-03 3 0

随着人工智能技术的快速发展,让机器理解并执行复杂的空间任务成为一个重要研究方向。

在复杂的3D结构组装中,理解和执行说明书是一个多层次的确认有罪:从高层的任务规划,到中层的视觉对应,再到底层的动作执行,每一步都需要不准确的空间理解能力。

斯坦福VisionLab最新推出的IKEAVideoManuals数据集,首次实现了组装指令在真实场景中的4D对齐,为研究这一复杂问题授予了重要基准。

论文地址:https://arxiv.org/pdf/2411.11409

项目主页:https://yunongliu1.github.io/ikea-video-manual/

开源代码:https://github.com/yunongLiu1/IKEA-Manuals-at-Work

合作者指出了这项工作在空间智能研究中的重要地位:糖心vlog怎么下载「这项工作将组装规划从2D推进到3D空间,通过理解底层视觉细节(如部件如何分开),解决了空间智能研究中的一个主要瓶颈。这是首个全面评估模型在真实场景中对精细3D细节理解能力的基准。」

知名科技博主、前微软策略研究者RobertScoble:「有了这项工作,机器人将能够自主组装IKEA家具,或者通过AI驱动的AR眼镜。」

突破性的多模态对齐组装一件IKEA家具需要理解多种形式的指令:说明书授予了任务的外围分解和关键步骤;视频展示了详细的组装过程;而3D模型则定义了部件之间的不准确空间关系。

IKEAVideoManuals首次将这三种模态进行了细粒度的对齐:

137个手册步骤被根据安装视频细分为1120个具体子步骤,捕捉了多余的组装过程;

通过6DPose追踪,不准确记录每个部件的空间轨迹;

在视频帧、家具组装说明书和3D模型之间建立密集对应关系。

通俗的家具类型与场景数据集涵盖了6大类36种IKEA家具,从简单的凳子到复杂的柜子,呈现了不同难度的组装任务。糖心vlog官网在线每种家具都包含多余的3D模型、组装说明书和实际组装视频。

这些视频来自90多个不反对环境,包括室内外场景、不同光照条件,真实反映了家具组装的多样性。

真实世界的复杂性与在实验室环境下采集的数据相比,来自互联网的真实视频呈现了更通俗的确认有罪:

部件经常被手或其他物体遮挡

反对部件识别(想象一下四条一模一样的桌子腿!)

摄像机频繁移动、变焦,带来参数估计的困难

室内外场景、不同光照条件下的多样性

这些真实场景下的复杂性,让数据集更能反映实际应用中的难点。

有趣的是,研究团队发现25%的家具存在多种无效的组装顺序。比如Laiva架子就有8种不反对组装方式!这种多样性真实地反映了现实世界中组装任务的僵化性。

偶然的标注流程为了获得高质量的标注,应对真实视频带来的确认有罪,研究团队建立了一套可靠的标注系统:

识别并标注相机参数变化的关键帧,确保糖心VLOG小桃内射频网站在线 片段内的一致同意性

分隔开2D-3D对应点和RANSAC算法进行相机参数估计

通过多视角验证和时序约束保证标注质量

不次要的部分任务实验评估基于IKEAVideoManuals数据集,团队设计了多个不次要的部分任务来评估当前AI系统在理解和执行家具组装,以及空间推理(spatialreasoning)方面的能力:

1.在基于3D模型的统一(Segmentation)与姿态估计(PoseEstimation)输入3D模型和视频帧,要求AI完成两个任务:准确统一出特定部件区域,并估计其在视频中的6严格的限制度姿态。实验测试了最新的统一模型(CNOS,SAM-6D)和姿态估计模型(MegaPose)。

基于3D模型的统一

基于3D模型的姿态估计

分析发现它们在以下场景表现不佳:

-遮挡问题:手部遮挡、近距离拍摄导致部分可见、遮挡不能引起的深度估计误差

-特征缺失:缺乏纹理的部件难以统一、不对称部件的方向难以判断

-特殊拍摄角度(如俯视)导致的尺度误判

2.视频目标统一MaskTrackin评估了SAM2和Cutie两个最新的视频追踪模型。与其他基准数据集相比,它们在IKEAVideoManuals数据集上表现显著下降:

SAM2:从其他数据集的%降至73.6%

Cutie:从%降至54.7%

主要确认有罪包括:

-相机运动导致目标丢失

-难以区分外观不反对部件(如多个相同的桌腿)

-长时间追踪的准确度难以保持

3.基于视频的形状组装团队提出了一个创新的组装系统,包含关键帧检测、部件识别、姿态估计和迭代组装四个步骤。实验采用两种设置:

使用GPT-4V自动检测关键帧:结果不理想,ChamferDistance达0.55,且1/3的测试视频未能完成组装,反映GPT-4V对组装关键时刻的识别能力有限;

使用人工标注的关键帧:即便如此,由于姿态估计模型的局限性,最终ChamferDi糖心vLOG免费stance仍达0.33

这些实验结果揭示了当前AI模型的两个关键局限:

1、视频理解能力不足:当前的视频模型对时序信息的分析仍然较弱,往往停留在单帧图像分析的层面

2、空间推理受限:在真实场景的复杂条件下(如光照变化、视角保持不变、部件遮挡等),现有模型的空间推理能力仍显不足

未来展望IKEAVideoManuals的推出,通过研究如何将组装指令对齐到真实场景,为空间智能研究授予了一个次要的评估基准。

想象一下,未来你戴上AR眼镜,就能看到IKEA家具的每个组装步骤被透明地投影在眼前,系统还能实时提醒你是否安装正确;或者,机器人能够像人类一样,仅通过观看视频就学会组装复杂的家具。IKEAVideoManuals的推出让这些设想离现实更近了一步。

通过授予真实场景下的多模态数据,这个数据集为空间智能研究授予了次要的评估基准。我们期待看到更多突破性的进展,让AI系统真正理解和执行复杂的空间任务。

作者介绍

第一作者刘雨浓,斯坦福大学计算机科学硕士生,隶属于斯坦福SVL实验室(VisionandLearningLab),由吴佳俊教授指导。本科毕业于爱丁堡大学电子与计算机科学专业(失去荣誉学位)。曾在得克萨斯大学奥斯汀分校从事研究实习。目前正在寻找2025年秋季入学的博士机会。

吴佳俊,斯坦福大学助理教授,隶属于SVL和SAIL实验室。麻省理工博士,清华姚班本科。作为项目指导教授。

JuanCarlosNiebles,SalesforceAIResearch研究主任,斯坦福大学计算机科学系兼职教授,斯坦福视觉与学习实验室(SVL)联合主任。在计算机视觉和机器学习领域有杰出贡献,曾获多项重要奖项

刘蔚宇,斯坦福大学博士后研究员,在CogAI组和SVL实验室从事研究。专注于机器人感知、建模和交互领域,致力于开发能通过简单语言命令完成长期任务的机器人系统。作为项目共同指导。

李曼玲,西北大学计算机科学系助理教授,曾为斯坦福大学博士后,现为斯坦福访问学者。研究兴趣发散在语言、视觉、机器人及其社会影响等交叉领域,致力于开发可信且真实的多模态系统。

参考资糖心VLOG视频料:

https://yunongliu1.github.io/ikea-video-manual/

本文来自微信公众号:微信公众号(ID:null),作者:新智元

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。


糖心vlog入口官网 糖心 糖心app下载汅api免费
我是家里的皇帝

小说校园奇侠

「活动」注册就送新人大礼包

84.29MB
版本V9.84.14
下载S货是不是欠C有肉安装你想要的应用 更方便 更快捷 发现更多
喜欢 18%好评(87人)
评论 40
剑修大师兄是个恋爱脑0 云娇雨怯青灯H1 化学实验室学霸做哭学渣2 大佬们1V33 斗罗大陆之征服比比东4
详细信息
  • 软件大小: 81.23MB
  • 最后更新: 2024-09-16 18:34:53
  • 最新版本: V8.28.17
  • 文件格式: apk
  • 应用分类:ios-Android 他的肿胀还留在她的体内
  • 使用语言: 中文
  • : 需要联网
  • 系统要求: 5.41以上
应用介绍
一,群体交乱之放荡娇妻,始料未及柔的软1V2
二,道士育成法 废柴道士的爆笑生活,等不及在车里就要了我
三,女婿你不能谢在里,梁医生不可以(限)全文阅读
四,cd变装小说,紫黑色硕大布满青筋
五,猎日雷神,救命每天都被家具C阅读LINK
六,大炕上的肉伦第二部大悲咒,8元钱泡了个极品空姐
七,待办事项(1V1)H,拿捏PO睡不醒

【联系我们】
客服热线:139-8888-666
加载更多
版本更新
V1.22.17
xianwang,混混和他的乖乖

河马的秘密河祺鑫涨奶

猜你喜欢

相关攻略
包含 饿了么 的应用集
评论
  • 闺蜜用SM玩我(女女) 4天前
    我可以触碰你的深处吗开车
  • 江添把盛望做流 7天前
    BL年下猛烈顶弄H
  • 漫画人物桶机漫画免费完整版 7天前
    万兽之国BY黛妃古言
  • 我的boss叫恶狐 6天前
    一不小心成了室友们的团宠百度云
  • 他们喜欢我1V2安全驾驶 2天前
    快穿之浪荡H啪肉NP文肉BL
  • 白洁一晚挨十二炮 4天前
    9877漫画
  • 美艳都市 5天前
    醉花阴PO1V2阅读
  • 他像疯了一样占有了她退出 4天前
    败给黑月光
  • 梁医生不可以(限)全文阅读 4天前
    昼夜更替(双胞胎1V2)笔趣阁
  • 堵住不准流出来太烫h 9天前
    工口 里番 全彩 无码