数据对于模型训练而言非常重要,但寻找合适自己项目的数据集却并不简单。计算机视觉社区经常出现新的数据集,但研究者很难追踪新型数据集。
于是,哥伦比亚大学博士冯捷在 2017 年 8 月创建了一个专用于搜索计算机视觉数据集和代码/模型的搜索引擎 VisualData。
VisualData 网站地址:https://www.visualdata.io/
该网站现已收集 281 个计算机视觉数据集,用户可以在该网站上通过简单的搜索找到适合自己项目的数据集。
用户注册网站后可以实时收到新数据集、代码发布的消息,还可以点击「Add my dataset」贡献自己的数据集。
此外,每个数据集都有多个标签,如图像分类、目标检测、图像搜索、3D 重建等,还标注了数据集的公开状态、是否已有代码,以及数据集的流行度。
VisualData 网站上数据集示例。
用户可以点击数据集,查看数据集详情。点击「View Dataset」跳转链接,查看该数据集相关链接,比如 GitHub 项目等。
每个数据集的流行度得分就是根据用户查看数据集详情以及点击数据集链接的频率来计算的。
收集方法
VisualData 网站创建者冯捷 2017 年获得哥伦比亚大学博士学位,现任亚马逊应用科学家,研究兴趣为计算机视觉和机器学习。
他在 reddit 上表示,他首先写脚本来监控大量数据源(如 arXiv、实验室主页、社交媒体等),然后手动评估这些自动收集到的数据集,再更新到 VisualData 网站上。
其他数据集资源网站
VisualData 是专门提供计算机视觉数据集信息的网站,当然还有其他一些数据集资源网站。比如:
更多数据资源,参见:20 个安全可靠的免费数据源,各领域数据任你挑