开源推荐
morning
GitHub 热门项目:ml-深度-pro
2026-05-29
1 阅读
GitHub Trending
GitHub 项目:ml-深度-pro
仓库地址:https://github.com/apple/ml-depth-pro
星级:5532 | 作者:苹果
项目描述:Depth Pro:在一秒内获得清晰的单目公制深度。
===================================================
自述文件内容:
## Depth Pro:不到一秒的清晰单目公制深度
该软件项目附带研究论文:
**[Depth Pro:不到一秒的锐利单目公制深度](https://arxiv.org/abs/2410.02073)**,
*Aleksei Bochkovskii、Amaël Delaunoy、Hugo Germain、Marcel Santos、Yichao Zhou、Stephan R. Richter 和 Vladlen Koltun*。

我们提出了零样本度量单目深度估计的基础模型。我们的模型 Depth Pro 可以合成具有无与伦比的清晰度和高频细节的高分辨率深度图。预测是公制的,具有绝对比例,不依赖于元数据(例如相机内在参数)的可用性。而且该模型速度很快,在标准 GPU 上可在 0.3 秒内生成 2.25 兆像素的深度图。这些特性是通过许多技术贡献实现的,包括用于密集预测的高效多尺度视觉变换器、结合真实和合成数据集以在精细边界追踪的同时实现高度量精度的训练协议、估计深度图中边界精度的专用评估指标,以及来自单个图像的最先进的焦距估计。
该存储库中的模型是一个参考实现,已经过重新训练。它的性能接近论文中报告的模型,但并不完全匹配。
## 开始使用
我们建议设置虚拟环境。使用例如miniconda,`depth_pro` 包可以通过以下方式安装:
````bash
conda 创建-n 深度pro -y python=3.9
conda 激活深度专业版
pip install -e 。
````
要下载预训练的检查点,请按照以下代码片段操作:
````bash
source get_pretrained_models.sh # 文件将被下载到 `checkpoints` 目录。
````
### 从命令行运行
我们提供了一个帮助程序脚本来直接在单个图像上运行模型:
````bash
# 对单个图像运行预测:
深度专业运行-i ./data/example.jpg
# 运行 `depth-pro-run -h` 以获取可用选项。
````
### 从 python 运行
````蟒蛇
从 PIL 导入图像
导入深度_pro
# 加载模型和预处理变换
模型,变换 = height_pro.create_model_and_transforms()
模型.eval()
# 加载并预处理图像。
图像,_,f_px = height_pro.load_rgb(图像路径)
图像 = 变换(图像)
# 运行推理。
预测 = model.infer(图像, f_px=f_px)
深度 = 预测["深度"] # 深度 [m]。
focuslength_px = Prediction["focallength_px"] # 焦距(以像素为单位)。
````
### 评估(边界指标)
我们的边界指标可以在“eval/boundary_metrics.py”下找到,并按如下方式使用:
````蟒蛇
# 对于基于深度的数据集
border_f1 = SI_boundary_F1(预测深度, 目标深度)
# 基于掩模的数据集(图像抠图/分割)
border_recall = SI_boundary_Recall(预测深度, target_mask)
````
## 引文
如果您发现我们的工作有用,请引用以下论文:
````bibtex
@inproceedings{Bochkovskii2024:arxiv,
作者=