WEBからデータを自動で集める方法は?スクレイピングって何
秒速で Pythonを使用してHTMLデータを集める方法
スクレイピングとは、WEBからデータを持ってきてくれるIT技術です。この技術があれば自動で情報を毎日、同じ時間に持ってきてくれたり、画像なども自動で集めてくれる優れた技術です。
1.pipのダウンロード
これはpythonをダウンロードしている前提でスタートします。
下記のコマンドをコマンドプロンプトに打ち込みます。
pip install BeautifulSoup4
Mac版
pip install BeautifulSoup4
2.requestsのダウンロード
pip install requests
pipとは、
パッケージを管理するためのツール
pip list
インストールされたパッケージ名とバージョンなどの確認コマンドです。この確認してbeautifulsoupやrequestsがインストールされていないとエラーが発生します。
3.実際に動かしてみよう
import requests
from bs4 import BeautifulSoup4
load_url = "取得したいWEBページURL"
html = requests.get(load_url)
soup = Beautiful.Soup(html.content, "html.parser")
print(soup)
これだけでWEBページ情報が簡単に取得できます。"取得したいWEBページURL"部分を変更してトライしてみてください。今回の説明は非常にシンプルです。
あとは実行コマンドを行うだけ。
<参考資料>