Retronum Technologies

ガジェットとIT情報を発信

MENU

WEBからデータを自動で集める方法は?スクレイピングって何

秒速で Pythonを使用してHTMLデータを集める方法

スクレイピングとは、WEBからデータを持ってきてくれるIT技術です。この技術があれば自動で情報を毎日、同じ時間に持ってきてくれたり、画像なども自動で集めてくれる優れた技術です。

 

1.pipのダウンロード

これはpythonをダウンロードしている前提でスタートします。

下記のコマンドをコマンドプロンプトに打ち込みます。

 

windows

pip install BeautifulSoup4

 Mac

pip install BeautifulSoup4

 

2.requestsのダウンロード
pip install requests

pipとは、

パッケージを管理するためのツール

 

 

pip list

 インストールされたパッケージ名とバージョンなどの確認コマンドです。この確認してbeautifulsoupやrequestsがインストールされていないとエラーが発生します。

 

 

 3.実際に動かしてみよう

import requests
from bs4 import BeautifulSoup4

load_url = "取得したいWEBページURL"
html = requests.get(load_url)
soup = Beautiful.Soup(html.content, "html.parser")

print(soup)

 これだけでWEBページ情報が簡単に取得できます。"取得したいWEBページURL"部分を変更してトライしてみてください。今回の説明は非常にシンプルです。 

 

あとは実行コマンドを行うだけ。

 

<参考資料>

qiita.com

qiita.com

 

商品紹介のご依頼や各種問い合わせ

お問い合わせ