简介

  • MS COCO的全称是Microsoft Common Objects in Context,起源于微软于2014年出资标注的Microsoft COCO数据集,与ImageNet竞赛一样,被视为是计算机视觉领域最受关注和最权威的比赛之一。
  • COCO数据集是一个大型的、丰富的物体检测,分割和字幕数据集。这个数据集以scene understanding为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的segmentation进行位置的标定。图像包括91类目标,328,000影像和2,500,000个label。目前为止有语义分割的最大数据集,提供的类别有80 类,有超过33 万张图片,其中20 万张有标注,整个数据集中个体的数目超过150 万个。

COCO API

install

clone

cd <workdir>
git clone https://hub.fastgit.org/cocodataset/cocoapi.git

setup

  • 编译并安装到本地:
cd cocoapi/PythonAPI/
python setup.py build_ext --inplace
  • 报错如下:

cl: 命令行 error D8021 :无效的数值参数“/Wno-cpp”

extra_compile_args=['-Wno-cpp''-Wno-unused-function''-std=c99'],
  • 再次执行,报错如下:

c1: fatal error C1083: 无法打开源文件: “pycocotools/_mask.c”: No such file or directory

  • 搜索得知编译依赖库:Cython
pip install Cython
  • 再次执行,成功,继续执行如下指令,安装库到pyhton site-packages:
python setup.py build_ext install
  • 如遇到依赖的某个库没有安装,则会默认从https://pypi.org/下载,会很慢,可以Ctrl+C中止,自己执行pip install(假设自己已经配置过国内源)
    安装成功后,用jupyter notebook 打开 pycocoDemo.ipynb,执行第一段import库操作,没有报错则说明安装成功。

COCO DataSet Download

官网下载数据集没反应

1

  • F12打开网页调试,转到Console,可以看到错误信息,意思是原链接地址是个不安全的地址,HTTP要改成HTTPS,复制链接修改后拷贝到浏览器便可成功下载(炒鸡慢)。
  • 好像直接点击console里面的网址也可以下载?
  • 网页下载太慢了,试了下面的方法:
wget -c https://images.cocodataset.org/zips/val2017.zip --no-check-certificate
  • -c 断点续传;
  • --no-check-certificate 对非安全网址不检查验证
  • 0.5-1M/s,也不是很快,但可以接受了( :

解压

  • 在cocoapi根目录下新建两个文件夹images和annotations,将图片和标注分别拷贝到这两个目录下,解压,图片保留val2017这一级子目录,注释的json文件则直接放在annotations文件夹下;
  • 数据准备完毕,pycocoDemo.ipynb可以一路执行下去,观察API的功能。