2019年7月27日土曜日

Web上から大量の画像ファイルを収集する方法

概要

深層学習による画像解析を行う場合、学習データとして大量の画像ファイルが必要になるかと思います。そのために、Web上から大量の画像ファイルを収集する方法をメモします。

Microsoft AzureなどにもWebから画像ファイルを収集する機能がありますが、アカウント作成が必要であったり場合によっては有料になってしまう事もあるため、当ブログでは本方法をオススメしています。

事前準備(前提とする環境)

Vagrant(ubuntu/xenial64)で構築したUbuntu16.04

手順

「概要」に記載したとおりのため、当ブログでは「Google 画像検索」でスクレイピングする方法を選択しており、「https://qiita.com/skcvim/items/efc296ae1bf0e62f6704」様にて記載されている方法を採用しました。

動作に必要なライブラリのインストール

$ sudo apt -y update
$ sudo apt -y upgrade
$ sudo apt-get install python3-pip
$ sudo pip3 install bs4
$ sudo pip3 install lxml

プログラムの準備

「https://qiita.com/skcvim/items/efc296ae1bf0e62f6704」様に記載されている「image_collector_cui.py」をダウンロードする。

実行方法

$ python3 image_collector_cui.py 検索キーワード 件数
(ex)
$ python3 image_collector_cui.py cat 100

以上になります。

0 件のコメント:

コメントを投稿

FX自動トレード_2021年6月実績

      概要 2021年6月が終わり、FX自動トレードによる収益実績を取り纏めましたので振り返ってみたいと思います。 2021年6月結果 2021年6月の実績は、実利利益額:\66,761、実績利益率は1.42%でした。 今月もボラが全く出ず。利益率の連続過去最低記録更新は免...