PaddleX目标检测任务模块数据准备教程¶

这部分将介绍如何使用Labelme和PaddleLabel标注工具完成目标检测相关单模型的数据标注。点击上述链接，参考⾸⻚⽂档即可安装数据标注⼯具并查看详细使⽤流程。

1. 标注数据示例¶

2. Labelme 标注¶

2.1 Labelme标注工具介绍¶

Labelme 是一个 python 语言编写，带有图形界面的图像标注软件。可用于图像分类，目标检测，图像分割等任务，在目标检测的标注任务中，标签存储为 JSON 文件。

2.2 Labelme 安装¶

为避免环境冲突，建议在 conda 环境下安装。

conda create -n labelme python=3.10
conda activate labelme
pip install pyqt5
pip install labelme

2.3 Labelme 标注过程¶

2.3.1 准备待标注数据¶

创建数据集根目录，如 hemlet。
在 hemlet 中创建 images 目录（必须为images目录），并将待标注图片存储在 images 目录下，如下图所示：

alt text * 在 hemlet 文件夹中创建待标注数据集的类别标签文件 label.txt，并在 label.txt 中按行写入待标注数据集的类别。安全帽检测数据集的label.txt为例，如下图所示：

alt text

2.3.2 启动 Labelme¶

终端进入到待标注数据集根目录，并启动 Labelme 标注工具:

cd path/to/hemlet
labelme images --labels label.txt --nodata --autosave --output annotations

* flags 为图像创建分类标签，传入标签路径。 * nodata 停止将图像数据存储到 JSON文件。 * autosave 自动存储。 * ouput 标签文件存储路径。

2.3.3 开始图片标注¶

启动 Labelme 后如图所示：

alt text * 点击"编辑"选择标注类型

alt text * 选择创建矩形框

alt text * 在图片上拖动十字框选目标区域

alt text * 再次点击选择目标框类别

alt text * 标注好后点击存储。（若在启动 Labelme 时未指定 output 字段，会在第一次存储时提示选择存储路径，若指定 autosave 字段使用自动保存，则无需点击存储按钮）。

alt text * 然后点击 Next Image 进行下一张图片的标注。

alt text * 最终标注好的标签文件如图所示:

alt text * 调整目录得到安全帽检测标准Labelme格式数据集 * 在数据集根目录创建train_anno_list.txt和val_anno_list.txt两个文本文件，并将annotations目录下的全部json文件路径按一定比例分别写入train_anno_list.txt和val_anno_list.txt，也可全部写入到train_anno_list.txt同时创建一个空的val_anno_list.txt文件，使用数据划分功能进行重新划分。train_anno_list.txt和val_anno_list.txt的具体填写格式如图所示：

alt text * 经过整理得到的最终目录结构如下：

alt text

2.3.4 格式转换¶

使用Labelme标注完成后，需要将数据格式转换为coco格式。下面给出了按照上述教程使用Lableme标注完成的数据和进行数据格式转换的代码示例：

cd /path/to/paddlex
wget https://paddle-model-ecology.bj.bcebos.com/paddlex/data/det_labelme_examples.tar -P ./dataset
tar -xf ./dataset/det_labelme_examples.tar -C ./dataset/

python main.py -c paddlex/configs/object_detection/PicoDet-L.yaml \
    -o Global.mode=check_dataset \
    -o Global.dataset_dir=./dataset/det_labelme_examples \
    -o CheckDataset.convert.enable=True \
    -o CheckDataset.convert.src_dataset_type=LabelMe

3. PaddleLabel 标注¶

3.1 PaddleLabel的安装和启动¶

为避免环境冲突，建议创建一个干净的conda环境：

conda create -n paddlelabel python=3.11
conda activate paddlelabel

同样可以通过pip一键安装

pip install --upgrade paddlelabel
pip install a2wsgi uvicorn==0.18.1
pip install connexion==2.14.1
pip install Flask==2.2.2
pip install Werkzeug==2.2.2

安装成功后，可以在终端使用如下指令之一启动：
```
paddlelabel  # 启动paddlelabel
pdlabel # 缩写，和paddlelabel完全相同
```
PaddleLabel 启动后会自动在浏览器中打开网页，接下来可以根据任务开始标注流程了。

3.2 PaddleLabel的标注过程¶

打开自动弹出的网页，点击样例项目，点击目标检测

alt text * 填写项目名称，数据集路径，注意路径是本地机器上的绝对路径。完成后点击创建。

alt text * 首先定义需要标注的类别，以版面分析为例，提供10个类别，每个类别有唯一对应的id，点击添加类别，创建所需的类别名 * 开始标注 * 首先选择需要标注的标签 * 点击左侧的矩形选择按钮 * 在图片中框选需要区域，注意按语义进行分区，如出现多栏情况请分别标注多个框 * 完成标注后，右下角会出现标注结果，可以检查标注是否正确 * 全部完成之后点击项目总览

alt text * 导出标注文件 * 在项目总览中按需求划分数据集，然后点击导出数据集

alt text * 填写导出路径和导出格式，导出路径依然是一个绝对路径，导出格式请选择coco

alt text * 导出成功后，在指定的路径下就可以获得标注文件。

alt text * 调整目录得到安全帽检测标准coco格式数据集 * 并将三个json文件以及image目录进行重命名，对应关系如下：

源文件(目录)名	重命名后文件(目录)名
`train.json`	`instance_train.json`
`val.json`	`instance_train.json`
`test.json`	`instance_test.json`
`image`	`images`

在数据集根目录创建annotations目录，并将json文件全部移动到annotations目录下，得到最后的数据集目录如下：

alt text * 将hemlet目录打包压缩为.tar或.zip格式压缩包即可得到安全帽检测标准coco格式数据集

4. 数据格式¶

PaddleX 针对目标检测任务定义的数据集，名称是 COCODetDataset，组织结构和标注格式如下：

dataset_dir                  # 数据集根目录，目录名称可以改变
├── annotations              # 标注文件的保存目录，目录名称不可改变
│   ├── instance_train.json  # 训练集标注文件，文件名称不可改变，采用COCO标注格式
│   └── instance_val.json    # 验证集标注文件，文件名称不可改变，采用COCO标注格式
└── images                   # 图像的保存目录，目录名称不可改变

标注文件采用 COCO 格式。请大家参考上述规范准备数据，此外可以参考示例数据集。