segment-anything

思考

我们必须不断学习，跟上时代潮流。

背景

最近被segment-anything刷屏。
然后上https://segment-anything.com/demo测试了一下，被彻底惊艳了。

Segment-anything介绍

Segment-anything是Meta AI研究团队开发的一种新的AI模型，可以用一种可提示的分割系统，对任何图像中的任何对象进行“剪切”¹。Segment-anything模型（SAM）可以从输入提示（如点或框）生成高质量的对象掩码，也可以用于生成图像中所有对象的掩码²。SAM具有零样本泛化的能力，可以在不需要额外训练的情况下，处理不熟悉的对象和图像¹³。

SAM的数据引擎

SAM的先进能力是由于它在数百万张图像和掩码上的训练，这些数据是通过使用模型循环的“数据引擎”收集的。研究人员使用SAM及其数据交互式地标注图像并更新模型。这个循环重复了多次，以改善模型和数据集。最终的数据集包括了约1100万张经过许可和隐私保护的图像和超过11亿个分割掩码¹⁴。

SAM的效率和灵活性

SAM使用了多种输入提示，如文字、点、框等，来指定图像中要分割的内容，从而实现了广泛的分割任务。输出掩码可以作为其他AI系统的输入，例如，对象掩码可以在视频中进行跟踪，实现图像编辑应用，提升到3D，或用于创意任务，如拼贴¹²。

学习

上github.com找了一下，非常活跃。
发现一个项目，https://github.com/JoOkuma/napari-segment-anything，是napari的插件，集成了segment-anything，一定是神器。
查询napari，果然是利器。https://zhuanlan.zhihu.com/p/489075670

napari介绍

napari是一个快速、交互式的多维图像查看器，用Python编写¹。它设计用于浏览、标注和分析大型多维图像。它基于Qt（用于GUI）、vispy（用于高性能的基于GPU的渲染）和科学Python栈（numpy，scipy）构建¹⁴。它包含了一些关键的查看器功能，如支持大型多维数据、分层和标注。通过与Python生态系统紧密集成，napari可以轻松地与领先的机器学习和图像分析工具（如scikit-image，scikit-learn，TensorFlow，PyTorch）结合，实现更友好的自动化分析¹。

napari可以通过pip或conda-forge安装为Python包，也可以从源代码安装。安装后，你可以通过运行napari命令来启动查看器，或者在Python代码中导入napari模块来编程地与应用程序交互²。你也可以选择不同的Qt后端（PyQt5或PySide2）来运行napari的用户界面²。

napari是一个开源项目，在GitHub上进行透明、可重用和可扩展的开发。它的核心是提供一些关键的查看器功能，如支持大型多维数据；“层”来同时可视化图像、模型和分析结果；以及在3D中进行简单的手动、交互式标注³。

napari-segment-anything

napari-segment-anything是一个napari插件，可以使用Segment Anything Model (SAM)来对任何图像中的任何对象进行分割¹²。SAM是Meta AI研究团队开发的一种新的AI模型，可以用一种可提示的分割系统，对任何图像中的任何对象进行“剪切”¹³。

要使用napari-segment-anything插件，你需要先安装napari和pyqt5或pyside2，然后通过pip或从源代码安装napari-segment-anything。你还需要下载网络权重文件，并将其放在合适的位置¹²。

安装后，你可以通过命令行或用户界面来启动napari-segment-anything插件。你可以在“SAM points”和“SAM box”层上使用napari的现有功能进行交互。只有矩形形状才会触发网络预测。对于点监督，左键单击是正面提示（对象），右键单击是负面提示（背景）。按下“Confirm Annot.”按钮（或“C”键）将当前分割掩码传播到标签图像。你可以使用napari标签层的功能来删除或编辑已确认的标签¹²。

使用指南

安装

pip install napari
pip install napari-segment-anything

使用

1.命令行输入 napari

2.Plugins->segment-anything(napari-segment-anything)
3.File->Open Files

右侧窗口最下方点击 Auto.Segm.
将opacity设置为0.4,方便显示labels

6.选择SAM box，可以框选目标
7.选择 SAM labels，左上方窗口，Activate the Fill bucket可以更换标签颜色，Pick model可以选择标签的颜色，Activate the paint bucket可以修补标签。最后记得点击右侧窗口的Confirm Annot.

右键点击SAM labels->convert to image，然后File->Save Selected Layers，导出标签文件。

导出和保存napari的标签层，有以下几种可能的方法：

在napari的图形用户界面中，选择要保存的标签层，然后点击“文件”菜单中的“保存选定的图层”或“保存所有图层”选项。你可以选择保存为tif或zarr格式，以及是否压缩¹²⁵。
在napari的控制台中，使用viewer.layers.save方法，指定要保存的标签层的名称和路径。你也可以选择保存为tif或zarr格式，以及是否压缩¹²。
使用napari-stl-exporter插件，将标签层导出为stl格式，用于3D打印或其他应用³。这个插件可以将标签层转换为表面层，并使用vedo库来导出stl文件。
使用zarr库，直接将标签层数据写入磁盘，无需另外保存。这种方法可以节省内存和时间，但是需要在创建标签层时指定zarr数组作为数据源⁴。

问题和展望

Q：Segment-anything还不支持3D图像。
A：是的，目前Segment-anything只支持2D图像的分割。这是一个有趣的未来方向，可以探索如何将Segment-anything扩展到3D图像，例如医学图像或点云数据。也许可以借鉴一些已有的3D分割模型，如3D U-Net或PointRend，来改进Segment-anything的架构和数据引擎。
查询github，发现大量项目已经探索支持3D。其中面向医学图像的为：https://github.com/AxDante/SAAMI