概要

深層学習による画像解析を行う場合、学習データとして大量の画像ファイルが必要になるかと思います。そのために、Web上から大量の画像ファイルを収集する方法をメモします。

Microsoft AzureなどにもWebから画像ファイルを収集する機能がありますが、アカウント作成が必要であったり場合によっては有料になってしまう事もあるため、当ブログでは本方法をオススメしています。

事前準備（前提とする環境）

Vagrant（ubuntu/xenial64）で構築したUbuntu16.04

「概要」に記載したとおりのため、当ブログでは「Google 画像検索」でスクレイピングする方法を選択しており、「https://qiita.com/skcvim/items/efc296ae1bf0e62f6704」様にて記載されている方法を採用しました。

$ sudo apt -y update
$ sudo apt -y upgrade
$ sudo apt-get install python3-pip
$ sudo pip3 install bs4
$ sudo pip3 install lxml

「https://qiita.com/skcvim/items/efc296ae1bf0e62f6704」様に記載されている「image_collector_cui.py」をダウンロードする。

$ python3 image_collector_cui.py 検索キーワード 件数
(ex)
$ python3 image_collector_cui.py cat 100

以上になります。