人脸识别——亚洲人脸数据集


这学期开了Python课,刚开始的时候老师给了几个课程设计的选题,其中有一个是人脸识别,脑子抽风选了它。现在将自己制作的数据集分享出来,规模不是很大,共两万多张图片,希望可以帮到需要亚洲人脸识别数据的朋友。

数据集所有数据均收集自网络,图片所有权为原网站,如果您发现侵权的内容,请与我取得联系,将第一时间删除。

邮箱:oxygen@mapletown.xyz

看了一些资料和文献,决定使用FaceNet实现,网上也找到了预训练模型,但是对于识别亚洲人脸的精度似乎并不高,于是萌生了自己训练模型的念头。

训练模型自然需要数据来支撑,网上翻了好几天,只找到中科院的Casia-FaceV5数据集,但是这个数据集太小了,只有500个人的2500张图片,于是干脆自己做个数据集算了。根据论文《大规模亚洲人脸数据集的构建》的大体思想(没有进行数据集打分),使用爬虫爬取明星等公众人物的图片,然后进行清洗,经过层层筛选,得到一个相对干净、规模较大(理论上可以很大,但迫于我的算力有限,太大的数据集短时间内处理不完)的数据集。

爬虫程序放在博客的VPS上爬取了5000个人的图片40000多张图片,经过打包后大小为5GB+,无奈服务器1M小水管,下载了一天才把爬到的数据从服务器下载到本地

经过清洗,删除了损坏的文件、没有人脸的图片、有多个人脸的图片、同一类别下其他人的图片(如张三文件夹下李四的图片,借助百度的人脸比对api清洗),还剩4029个人的21673张图片。压缩后大小为2.3GB。

数据集预览

下载地址

目前传到了百度网盘中(链接挂了文末评论踢我一下,我回来更新链接),但百毒网盘有毒,所以往OneDrive和Google Drive也传一份。自行选择最优的链接下载吧。

百度网盘(提取码:c7rc)

OneDrive

Google云盘

声明:楓の街|版权所有,违者必究|如未注明,均为原创|本网站采用BY-NC-SA协议进行授权

转载:转载请注明原文链接 - 人脸识别——亚洲人脸数据集


Just For Fun...