【超簡単】Pythonでウェブの情報を取得する(スクレイピング)

この記事のポイント

Pythonでウェブ上の情報を自動で取得する方法を解説します。

目次

はじめに 

前回の記事で、Python実行Webアプリの「PyWeb」を使って、超簡単にPythonを始めることができました。

今回はPythonで最も有益な使い方の一つであるウェブ上の情報を自動取得する方法「ウェブスクレイピング」を超簡単に実行する方法を解説します。

今回も1分で実施できます。

ろぼてく

ウェブスクレイピングができるようになると一気にプログラミングの凄さを実感できるようになります!

前回の記事

前回はPythonのWeb実行環境である「PyWeb」を使って、サクッとPythonプログラミングを始める方法を説明しました。

PyWebは以下リンクから始めることができます。完全無料です!

サンプルプログラムを使ってみる。

さすがにウェブスクレイピングのプログラムを初心者が1分でプログラミングすることは難しいです。ただし、PyWebには簡単にウェブスクレイピングが試せる「サンプルプログラム」が存在します。

サクッと使い方を解説します。

まず、画面左の「#SAMPLE」をクリックします。

次に、「スクレイピング.py」をダブルクリックします。

すると、画面中央に以下のようなコードが現れます。

最後に、画面右上の緑色の三角ボタン(run)をクリックします。

すると、画面右に「PyWeb 【Webで動作するPython実行/学習環境】」という文字が現れます。

以下の「緑色の三角ボタン」を押すと、実際にウェブスクレイピングを試すことができます。

これでウェブ上の情報を自動的に取得してコマンドに表示することに成功しました。

本当に1分で終わりましたね!

ウェブ上の情報が入手出来ているか確認する。

何か文字が表示されましたが、これはどこのウェブから取得した情報なのでしょうか?

答えはプログラムをよく読むと何となくわかります。

URL = ‘https://pyweb.ayax.jp/’

と4行目に記述があります。これが情報を取得するウェブページを示しています。

さらに、

print(soup.title.text)

と9行目に記述があります。これがさきほど取得したウェブページのタイトルを表示するという記述になっています。

では実際に「https://pyweb.ayax.jp/」のウェブページのタイトルを見てみましょう。ちなみにこのウェブページは、「PyWeb」のホームページです。

タイトルは検索した際に表示されるものなので、Googleで「PyWeb」と検索してみましょう。検索結果の中から「https://pyweb.ayax.jp/」のウェブページを探してみて、そのタイトルを確認してください。さきほど表示された文字と一致していることが確認できました。

このようにPythonを使うと簡単にウェブページの情報を取得できることがわかったと思います。

【発展】別のウェブサイトの情報を取得してみる。

タイトルでは、すこし分かりづらかったかもしれないので、実際にウェブページにある文章を取得してみたいと思います。

先ほどのURLを、このブログのホームページである「https://oyako-programming.com」に変更して、

表示する対象を「title」から「h1」に変更します、h1はウェブページのヘッダーにある大きな文字です。

これでまた、以下で緑色の三角ボタン(run)をクリックしてください。すると画面右に「ファミプログ【入門】」と表示されます。これがこのウェブページのヘッダーです。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

現役エンジニア 歴12年。
仕事でプログラミングをやっています。
長女がスクラッチ(学習用プログラミング)にハマったのをきっかけに、スクラッチを一緒に学習開始。
このサイトではスクラッチ/プログラミング学習、エンジニアの生態、エンジニアによる生活改善について全力で解説していきます!

コメント

コメントする

CAPTCHA


目次