思考
我们必须不断学习,跟上时代潮流。
背景
最近被segment-anything刷屏。
然后上https://segment-anything.com/demo测试了一下,被彻底惊艳了。
Segment-anything介绍
Segment-anything是Meta AI研究团队开发的一种新的AI模型,可以用一种可提示的分割系统,对任何图像中的任何对象进行“剪切”¹。Segment-anything模型(SAM)可以从输入提示(如点或框)生成高质量的对象掩码,也可以用于生成图像中所有对象的掩码²。SAM具有零样本泛化的能力,可以在不需要额外训练的情况下,处理不熟悉的对象和图像¹³。
SAM的数据引擎
SAM的先进能力是由于它在数百万张图像和掩码上的训练,这些数据是通过使用模型循环的“数据引擎”收集的。研究人员使用SAM及其数据交互式地标注图像并更新模型。这个循环重复了多次,以改善模型和数据集。最终的数据集包括了约1100万张经过许可和隐私保护的图像和超过11亿个分割掩码¹⁴。
SAM的效率和灵活性
SAM使用了多种输入提示,如文字、点、框等,来指定图像中要分割的内容,从而实现了广泛的分割任务。输出掩码可以作为其他AI系统的输入,例如,对象掩码可以在视频中进行跟踪,实现图像编辑应用,提升到3D,或用于创意任务,如拼贴¹²。
学习
上github.com找了一下,非常活跃。
发现一个项目,https://github.com/JoOkuma/napari-segment-anything,是napari的插件,集成了segment-anything,一定是神器。
查询napari,果然是利器。https://zhuanlan.zhihu.com/p/489075670
napari介绍
napari是一个快速、交互式的多维图像查看器,用Python编写¹。它设计用于浏览、标注和分析大型多维图像。它基于Qt(用于GUI)、vispy(用于高性能的基于GPU的渲染)和科学Python栈(numpy,scipy)构建¹⁴。它包含了一些关键的查看器功能,如支持大型多维数据、分层和标注。通过与Python生态系统紧密集成,napari可以轻松地与领先的机器学习和图像分析工具(如scikit-image,scikit-learn,TensorFlow,PyTorch)结合,实现更友好的自动化分析¹。
napari可以通过pip或conda-forge安装为Python包,也可以从源代码安装。安装后,你可以通过运行napari命令来启动查看器,或者在Python代码中导入napari模块来编程地与应用程序交互²。你也可以选择不同的Qt后端(PyQt5或PySide2)来运行napari的用户界面²。
napari是一个开源项目,在GitHub上进行透明、可重用和可扩展的开发。它的核心是提供一些关键的查看器功能,如支持大型多维数据;“层”来同时可视化图像、模型和分析结果;以及在3D中进行简单的手动、交互式标注³。
napari-segment-anything
napari-segment-anything是一个napari插件,可以使用Segment Anything Model (SAM)来对任何图像中的任何对象进行分割¹²。SAM是Meta AI研究团队开发的一种新的AI模型,可以用一种可提示的分割系统,对任何图像中的任何对象进行“剪切”¹³。
要使用napari-segment-anything插件,你需要先安装napari和pyqt5或pyside2,然后通过pip或从源代码安装napari-segment-anything。你还需要下载网络权重文件,并将其放在合适的位置¹²。
安装后,你可以通过命令行或用户界面来启动napari-segment-anything插件。你可以在“SAM points”和“SAM box”层上使用napari的现有功能进行交互。只有矩形形状才会触发网络预测。对于点监督,左键单击是正面提示(对象),右键单击是负面提示(背景)。按下“Confirm Annot.”按钮(或“C”键)将当前分割掩码传播到标签图像。你可以使用napari标签层的功能来删除或编辑已确认的标签¹²。
使用指南
安装
pip install napari
pip install napari-segment-anything
使用
1.命令行输入 napari
2.Plugins->segment-anything(napari-segment-anything)
3.File->Open Files
-
右侧窗口最下方点击 Auto.Segm.
-
将opacity设置为0.4,方便显示labels
6.选择SAM box,可以框选目标
7.选择 SAM labels, 左上方窗口,Activate the Fill bucket可以更换标签颜色,Pick model可以选择标签的颜色,Activate the paint bucket可以修补标签。最后记得点击右侧窗口的Confirm Annot.
-
右键点击SAM labels->convert to image,然后File->Save Selected Layers,导出标签文件。
导出和保存napari的标签层,有以下几种可能的方法:
- 在napari的图形用户界面中,选择要保存的标签层,然后点击“文件”菜单中的“保存选定的图层”或“保存所有图层”选项。你可以选择保存为tif或zarr格式,以及是否压缩¹²⁵。
- 在napari的控制台中,使用viewer.layers.save方法,指定要保存的标签层的名称和路径。你也可以选择保存为tif或zarr格式,以及是否压缩¹²。
- 使用napari-stl-exporter插件,将标签层导出为stl格式,用于3D打印或其他应用³。这个插件可以将标签层转换为表面层,并使用vedo库来导出stl文件。
- 使用zarr库,直接将标签层数据写入磁盘,无需另外保存。这种方法可以节省内存和时间,但是需要在创建标签层时指定zarr数组作为数据源⁴。
问题和展望
Q:Segment-anything还不支持3D图像。
A:是的,目前Segment-anything只支持2D图像的分割。这是一个有趣的未来方向,可以探索如何将Segment-anything扩展到3D图像,例如医学图像或点云数据。也许可以借鉴一些已有的3D分割模型,如3D U-Net或PointRend,来改进Segment-anything的架构和数据引擎。
查询github,发现大量项目已经探索支持3D。其中面向医学图像的为:https://github.com/AxDante/SAAMI