图像分割经典算法简介
发布网友
发布时间:2024-10-17 05:24
我来回答
共1个回答
热心网友
时间:2024-11-26 22:18
概述
目前图像分割主要分为三大领域:语义分割、实例分割与全景分割,它们之间的关系为:
语义分割每个像素对应一个类标签,实例分割每个对象的掩码和类标签,全景分割每像素类+实例标签。全景分割任务最为复杂,相较于语义与实例分割,对精度要求更高。
与检测的关系
分割相较于检测,提供更准确的位置信息,利于后续计算如IoU或面积,但数据标注难度增大,因分割需细化至每个像素点,且个人主观感受差异。
数据集
常用2D分割数据集包括PASCAL VOC、PASCAL Context、MS COCO、Cityscapes、ADE20K。
语义分割
FCN(2014)全卷积网络,为图像分割领域开山之作,通过反卷积层进行上采样,以匹配原始图像大小。损失函数为交叉熵损失。优点是首次将CNN引入图像分割,但上采样层未考虑多尺度信息,影响精度。
U-Net(2015)简化网络结构,通过上采样、复制特征图与通道拷贝,实现多尺度信息传递。损失函数仍为交叉熵损失。简洁清晰的结构是其优势。
FPN(2017)通过横向连接、自顶向下传输,解决多尺度问题,结构美观、易于理解,适合作为图像检测的Backbone。
实例分割
实例分割通常与目标检测使用同一套网络参数,Mask-RCNN(2017)最具代表性,其Mask模块用于实例分割。
全景分割
相关概念包括Things(可数物体)、Stuff(无定形区域)。Panoptic FPN(2019)使用一个网络实现语义分割与实例分割,采用FPN作为Backbone,包含语义分割、实例分割与前景、背景分支。损失函数融合两任务损失,平衡不同部分权重。优点为统一模型实现全景分割。
AUNet(2019)融合多种主流技术,通过注意力机制提高BG理解能力,包含RPN与FC分割掩码的注意力,结构合理,逻辑清晰,但未公开代码。
UPSNet(2019)统一处理语义与实例分割,采用FCN与RPN、RCNN、Mask等部件,Panoptic Head整合两分支输出。结构清晰,提供代码。
Panoptic FCN(2020)提出“generate-kernel-then-segment”框架,Kernel Generator与Fusion组件生成与整合权重,Feature Encoder编码高分辨率特征。使用Focal Loss与Dice Loss作为损失函数。