【Python3】画像のURLから画像を一括ダウンロードする方法

機械学習などで画像などを集めるとき、画像のダウンロードのやり方には色々あります。

今回は画像のURLを収集し、そのURL一覧から画像をダウンロードする場合のダウンロードスクリプトをPythonで作成した際の備忘録です。

※ダウンロードしたい画像のURL一覧を、CSVファイルとして準備しておく必要があります。

Contents

画像のURLから画像をダウンロードしたい
URLからの画像ダウンロードスクリプト
- 画像ファイルを作成してから、URLから取得してきた画像データを書き込む
- クローリングのマナーを守り、ダウンロードの間隔は5秒おきとした
まとめ

画像のURLから画像をダウンロードしたい

やりたいことは以下のようなケースです。

ダウンロードしたい画像のURL一覧を取得済み
そのURL一覧を元に画像をダウンロードしたい

例えば機械学習などで、犬の画像を大量に取得する必要があるときに、ひとまず犬画像のURLを取得したが、ダウンロードはこれからという状況が当てはまります。

以下のように1行に1つのURLが書いてあるCSVを元に、一括でダウンロードしていきます。

https://4.bp.blogspot.com/-VTNahljO4H8/W3abJRPoivI/AAAAAAABN-4/IDo9tfs_j4wuXeH_M-MLRugdkArapplGwCLcBGAs/s800/dog2_2_surprise.png
https://2.bp.blogspot.com/-SW2SI1vs9Qk/WCqsDMBoKOI/AAAAAAAA_00/x96NcaFuhWMC65_pq1k5AIqsytZPO8kDACLcB/s800/inugoya_dog.png
https://1.bp.blogspot.com/-k2Fv1qBMod0/XwkxbNu09lI/AAAAAAABaAI/o3LbX9iveygEAD3LRUsUMX9QAGvgBi_lQCNcBGAsYHQ/s1600/dog_kaiken.png

URLからの画像ダウンロードスクリプト

実際に実装したコードは以下のとおりです。

# coding: utf-8

import urllib.request
import csv
import time

PATH = './downloadpic/main/{}.jpg'
CSV = './downloadpic/main/imgurl.csv'
HEADERS = {"User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0"}
START = 0


def download_image(url, title):
    print(url)
    request = urllib.request.Request(url=url, headers=HEADERS)
    with open(title, "wb") as f:
        f.write(urllib.request.urlopen(request).read())


def download():
    with open(CSV, newline='') as csv_file:
        count = START
        for row in csv.reader(csv_file):
            time.sleep(5)
            count += 1
            url = row[0]
            download_image(url, PATH.format(str(count)))


if __name__ == "__main__":
    print('ダウンロード開始')
    download()
    print('ダウンロード終了')

このコードを実行すると「imgurl.csv」ファイル内に記載されたURLから画像をダウンロードします。

かなり簡単なコードですが、ポイントは2つあります。

画像ファイルを作成してから、URLから取得してきた画像データを書き込む
クローリングのマナーを守り、ダウンロードの間隔は5秒おきとした

画像ファイルを作成してから、URLから取得してきた画像データを書き込む

「urllib.request.urlretrieve」を使用することで直接ダウンロードすることができますが、残念ながらdeprecatedとなっています。

そのため、若干ややこしい方法になりますが先にファイルを作成してから、画像データを書き込むという方法を取る必要があります。

with open(title, "wb") as f:
    f.write(urllib.request.urlopen(request).read())

クローリングのマナーを守り、ダウンロードの間隔は5秒おきとした

こちらはクローリングをする場合の一般常識ですが、アクセスするサイトに迷惑をかけないように、ダウンロードの間隔をしっかりと開けています。

ネットを見ていると1秒開ければ良いといった話も見かけますが、もっと開けたほうが良いです。

今回は5秒にしましたが、もっと長くしてもいいくらいです。

15秒位が良いかもしれません。

まとめ

Pythonを使用して、画像URLからの画像一括ダウンロードは簡単に実装することができました。

クローリングなど、サイトに連続アクセスするような処理を書く場合には、しっかりと間隔を開けて相手サイトの迷惑にならないように意識することが大切です。

最近読んだ「Pythonによるアルゴリズム入門」という本は、Pythonの実装力向上のための良書でした。

Pythonで簡単なスクリプトなどを書く際にも役に立つのでオススメできる一冊です。

Pythonによるアルゴリズム入門

posted with ヨメレバ

酒井　和哉オーム社 2020年09月08日頃

楽天ブックス

Amazon

Kindle

【Python3】画像のURLから画像を一括ダウンロードする方法

画像のURLから画像をダウンロードしたい

URLからの画像ダウンロードスクリプト

画像ファイルを作成してから、URLから取得してきた画像データを書き込む

クローリングのマナーを守り、ダウンロードの間隔は5秒おきとした

まとめ

Day Stacks – A Simple iOS Task App to Manage “Just Today’s Tasks” Effortlessly

Day Stacks – 今日やること”だけ”をサクサク管理できるシンプルなiOSタスクアプリを作った話

Xcode 15のString Catalogs（.xcstrings）完全ガイド｜iOSアプリの多言語対応がこんなに楽になった

ドラクエ小話ぱふぱふって何？Hなやつ？実は重要な役割をしていた？？

文系出身者がpaizaでSランクを取って変わったこと

Amazonのアレクサは家に何台置いておくと良いか【アレクサ】

画像のURLから画像をダウンロードしたい

URLからの画像ダウンロードスクリプト

画像ファイルを作成してから、URLから取得してきた画像データを書き込む

クローリングのマナーを守り、ダウンロードの間隔は5秒おきとした

まとめ

【2026年版】Python入門完全ガイド｜環境構築から基礎文法まで初心者向けに徹底解説

【2022/4 更新】エンジニア未経験者がJavaを効率的に勉強する手順を紹介します【学習ロードマップ】

アレクサができること総まとめ！【アレクサ】

Flutterに入門するためのオススメ勉強法【間違いない動画があります】

まどろみバーメイドを読んでほしい3つの理由【2021年一番おススメのマンガ】

当ブログの人気記事ランキング

Day Stacks – A Simple iOS Task App to Manage “Just Today’s Tasks” Effortlessly

Day Stacks – 今日やること”だけ”をサクサク管理できるシンプルなiOSタスクアプリを作った話

Xcode 15のString Catalogs（.xcstrings）完全ガイド｜iOSアプリの多言語対応がこんなに楽になった

ドラクエ小話 ぱふぱふって何？Hなやつ？ 実は重要な役割をしていた？？

文系出身者がpaizaでSランクを取って変わったこと

Amazonのアレクサは家に何台置いておくと良いか【アレクサ】

Mac マウスが使いづらい？ロジクールのMX MASTER 2Sがおススメ！

当ブログの人気記事ランキング

まどろみバーメイドを読んでほしい3つの理由【2021年一番おススメのマンガ】

ドラクエ小話 ぱふぱふって何？Hなやつ？ 実は重要な役割をしていた？？

【2022/4 更新】エンジニア未経験者がJavaを効率的に勉強する手順を紹介します【学習ロードマップ】

ドラクエ小話ぱふぱふって何？Hなやつ？実は重要な役割をしていた？？

ドラクエ小話ぱふぱふって何？Hなやつ？実は重要な役割をしていた？？