运行segment anything模型的web demo 教程

news/2024/7/21 7:35:37 标签: SAM, 图像处理

这个web应用放在在源码的demo文件夹里:

在这里插入图片描述

这个前端仅基于React的web演示了如何加载固定图像和相应的SAM image embedding的.npy文件。

运行需要配置npm环境。

首先导出onnx的模型:

import torch
import numpy as np
import cv2
import matplotlib.pyplot as plt
from segment_anything import sam_model_registry, SamPredictor
from segment_anything.utils.onnx import SamOnnxModel

import onnxruntime
from onnxruntime.quantization import QuantType
from onnxruntime.quantization.quantize import quantize_dynamic

# 我本地存在checkpoints/sam_vit_h_4b8939.pth
checkpoint =  "../checkpoints/sam_vit_h_4b8939.pth"
model_type = "vit_h"

sam = sam_model_registry[model_type](checkpoint=checkpoint)

onnx_model_path = None  # Set to use an already exported model, then skip to the next section.

import warnings

onnx_model_path = "sam_onnx_example.onnx"

onnx_model = SamOnnxModel(sam, return_single_mask=True)

dynamic_axes = {
    "point_coords": {1: "num_points"},
    "point_labels": {1: "num_points"},
}

embed_dim = sam.prompt_encoder.embed_dim
embed_size = sam.prompt_encoder.image_embedding_size
mask_input_size = [4 * x for x in embed_size]
dummy_inputs = {
    "image_embeddings": torch.randn(1, embed_dim, *embed_size, dtype=torch.float),
    "point_coords": torch.randint(low=0, high=1024, size=(1, 5, 2), dtype=torch.float),
    "point_labels": torch.randint(low=0, high=4, size=(1, 5), dtype=torch.float),
    "mask_input": torch.randn(1, 1, *mask_input_size, dtype=torch.float),
    "has_mask_input": torch.tensor([1], dtype=torch.float),
    "orig_im_size": torch.tensor([1500, 2250], dtype=torch.float),
}
output_names = ["masks", "iou_predictions", "low_res_masks"]

with warnings.catch_warnings():
    warnings.filterwarnings("ignore", category=torch.jit.TracerWarning)
    warnings.filterwarnings("ignore", category=UserWarning)
    # 这里导出了sam_onnx_example.onnx
    with open(onnx_model_path, "wb") as f:
        torch.onnx.export(
            onnx_model,
            tuple(dummy_inputs.values()),
            f,
            export_params=True,
            verbose=False,
            opset_version=17,
            do_constant_folding=True,
            input_names=list(dummy_inputs.keys()),
            output_names=output_names,
            dynamic_axes=dynamic_axes,
        )   
        
        
onnx_model_quantized_path = "sam_onnx_quantized_example.onnx"
quantize_dynamic(
    model_input=onnx_model_path,
    model_output=onnx_model_quantized_path,
    # 这个实际运行的时候,会报错
    #optimize_model=True,
    per_channel=False,
    reduce_range=False,
    weight_type=QuantType.QUInt8,
)
onnx_model_path = onnx_model_quantized_path        

这样会生成两个onnx模型:

  • sam_onnx_example.onnx
  • sam_onnx_example.onnx 这个模型是所需的,需要

然后选一个示例图像dog.jpg进行编码,输出其.npy的编码文件:

# 注意,这个一定要重新导入,因为下面的代码使用的cuda加速的,上面导出模型用的是CPU模式
checkpoint = "../checkpoints/sam_vit_h_4b8939.pth"
model_type = "vit_h"
sam = sam_model_registry[model_type](checkpoint=checkpoint)
sam.to(device='cuda')
predictor = SamPredictor(sam)

image = cv2.imread('../demo/src/assets/data/dogs.jpg')
predictor.set_image(image)
image_embedding = predictor.get_image_embedding().cpu().numpy()
np.save("dogs_embedding.npy", image_embedding)
type(image_embedding),image_embedding.shape

按照demo/src/App.tsx规定的路径放置文件:

const IMAGE_PATH = "/assets/data/dogs.jpg";
const IMAGE_EMBEDDING = "/assets/data/dogs_embedding.npy";
const MODEL_DIR = "/model/sam_onnx_quantized_example.onnx";

运行demo:

cd demo
yarn 

http://www.niftyadmin.cn/n/5117335.html

相关文章

itbuilder软件在线设计数据库模型,AI与数据库擦出的火花

今天要介绍一款强大的软件,它就是itBuilder软件,一款在线设计数据库模型软件,借助人工智能提高效率,可以生成CRUD代码并推送至开发工具中;它涵盖了几乎所有语言,如Java、Python、JavaScript等,并…

GitHub commit时出现 无法访问443 Operation timed out的解决办法

GitHub commit时出现 无法访问443 Operation timed out的解决办法 1.问题描述2. 环境3.解决方法4.如果上述方法不行,那就再试一试下面这个方法4.1 首先确认自己的网页可以打开github4.2 按照如下配置http和https代理4.2.1 找端口号 5. 参考链接 1.问题描述 当使用g…

SpringMvc接收参数

接受参数:1.路径设置RequestMapping(value"地址",method"请求方式") 类|方法GetMapping PostMapping 方法2.接受参数[重点]param直接接收---handler(类型 形参名) 形参名请求参数名注解指定---handler(RequestParam(name"请求参…

耳机没声音解决方法

重启音频服务 可以尝试重启音频服务 1. 同时按下【Win】和【R】键,输入【services.msc】并按回车; 2. 找到【Windows Audio】服务,选择【重启动】。

云计算技术的新发展:公有云、私有云还是混合云的未来?

在当今数字化时代,云计算技术已经成为企业和组织不可或缺的工具。在众多的云计算服务模式中,公有云、私有云和混合云备受关注。这些服务模式各具特点,分别适用于不同的应用场景和需求,为企业的信息化建设带来了无限的可能性。 一…

Kamailio不被重视的模块:nat_traversal

nat_traversal几乎没人用,我专门发邮件问kamailio是否准备抛弃这个模块,回复是no

UI设计中设计文章列表左右的思考优漫动游

当我们仔细看APP的文章列表时我们会发现:有些采用的是左文右图;有些采用的则是左图右文。这个时候我们有没有进一步思考过,这两种方式有什么区别呢?各自的优缺点又是什么呢? UI设计中设计文章列表左右的思考   在对比各大APP时,我们会…