うめすこんぶ

日々のプログラミングで残しておきたいメモ.何かの役に立てれば幸いです.

スクレイピング

Wikipediaのデータをダンプしてスクレイピングする方法(スクレイピング編)

前回、Wikipediaの全ページをダンプする手順を書きました。今回は、調べたいページ本文をだして、実際にスクレイピングしてみる。とりあえず、「静岡県出身の有名人一覧」から有名人の名前だけ取り出してみる。これを応用すれば、何かの一覧ページだったら同…

Wikipediaをスクレイピングするなら、ダンプデータを利用しよう

Wikipediaのデータを使って有名人の出身地一覧を作りたいと思った。 しかし、Wikipediaは公式ではクローラによるスクレイピングを禁止しているとのこと。 参考: Wikipedia:データベースダウンロード - Wikipedia その代わり、Wikipediaのダンプデータを入手…