[time] 2022-06-27T12:55:52+02:00 [track] 2 [team_name] SZUSCRI [team_institution] Shenzhen University Smart City Research Institute [logolink] [team_members] Yusong Li, Jiawei Wan, Shengjun Tang [reference_person] Yusong Li, Jiawei Wan, Shengjun Tang [reference_email] IPIN2022@wjwent.onmicrosoft.com [description_short] 数据预处理
在接收到图像输入之后
1. 首先会进行检索,将查询图像与数据库图像进行匹配来执行地图级别的粗略搜索。
2. 然后对搜索结果进行共性聚类。
3. 接着进行局部特征匹配,对于每个地点,依次将查询图像中检测到的2D关键点与该地点中包含的3D点进行匹配,我们会使用一种新型的基于MobileNet的轻量级神经网络取代流行的SIFT算子以降低模型的计算瓶颈。
4. 最后我们可以得到一个关于查询图像以及参考图像的匹配序列。
定位阶段
1. 首先会使用CNN模型预测匹配序列中查询图像与参照图像的密集特征,我们会提取多层次的特征以实现在大型鲁棒性测试中依旧保持良好的收敛效果。
2. 根据上一步的特征得到局部3D点以及初始的相机位姿。
3. 计算查询图像与参考图像之间的误差,对每个3D点,特征都会定义一个由置信度赋权的损失,置信度的设置可以忽略掉画面中的运动物体以及容易产生局部最小值的自相似物体。
4. 使用优化器对齐特征以调整相机位姿。
5. 结合基于梯度的优化算法不断迭代进行优化。
6. 最后输出误差最小的相机位姿,我们仅在该位姿上进行监督学习,因此摆脱了对真实三维几何模型的依赖,从而使模型适用于通用场景。
[description_long_link] https://wjwent-my.sharepoint.com/:b:/g/personal/ipin2022_wjwent_onmicrosoft_com/EQFkX7m2q4RDoQS9UotTQMQB5fJR_Jn5lniuW7c6K6Ak7g?e=DbVlzd [publish_check_] true [results_check_] true [data_check_] true [pdf_check_] false [video_check_] false