うめすこんぶ

日々のプログラミングで残しておきたいメモ.何かの役に立てれば幸いです.

Wikipediaのデータをダンプしてスクレイピングする方法(スクレイピング編)

前回、Wikipediaの全ページをダンプする手順を書きました。今回は、調べたいページ本文をだして、実際にスクレイピングしてみる。とりあえず、「静岡県出身の有名人一覧」から有名人の名前だけ取り出してみる。これを応用すれば、何かの一覧ページだったら同…

「スタバではグランデを買え!」を読んで価格設定の秘密がわかった

最近、経済学に興味が出てきました。 この本は、そんな経済の仕組みに興味を持った人が最初に学ぶ際に、すごくおすすめできる本です。 扱ってるのも、スターバックス・コーヒーや、100円ショップの価格設定 の疑問です。すごく身近ですね。 例えば、同じジュ…

Wikipediaをスクレイピングするなら、ダンプデータを利用しよう

Wikipediaのデータを使って有名人の出身地一覧を作りたいと思った。 しかし、Wikipediaは公式ではクローラによるスクレイピングを禁止しているとのこと。 参考: Wikipedia:データベースダウンロード - Wikipedia その代わり、Wikipediaのダンプデータを入手…

Inside Out (邦題:インサイド・ヘッド)を見た

映像がリアルなのがよかったのと、何度も泣けた。 最後に、悲しみも人生には必要だよね、というテーマなのはわかったけど、 なぜ必要なのかが映像からつかめなかった。 まだまだ読み取りが足らない。 なんとなく、苦しみが人を強くする、というよりは、 苦し…

Vimのキー設定を確認する方法

vim

Vim初心者だと、しょっちゅうキーバインドを確認したくなります。初心者でなくとも、キーバインドの設定を.vimrcで変更する場合は、やはり既存のキーバインドを確認したくなるのでは。 キーバインドの確認は、基本以下でやってます。vimを起動後、以下コマン…

Emacs使いだったけどVimに移行するのでMacにHomebrew版Vim入れる

Emacs使ってましたが、最近ターミナルでviを使う機会が多くなってきたので、いっそのこととVimに乗り換えることにしました。 MacでのVimですが、(OSX Yosemite 10.10.3) の/usr/bin/vimは、バージョンが7.3で、このままではコード自動補完をしてくれるneocom…

松尾豊作、「人工知能は人間を超えるか」を読了

「人工知能は人間を超えるか」を読みました。 著者は日本の人工知能研究でトップクラスの研究者である松尾豊教授。 人工知能は人間を超えるか (角川EPUB選書)作者: 松尾豊出版社/メーカー: KADOKAWA / 中経出版発売日: 2015/03/10メディア: Kindle版この…

cakephpでログがでない問題の解決

php

最近cakephpを使って保守対応してました。デバッグ時にログが出せなくて、すごく焦りました涙。 以下、ログが出ない場合の対処をメモ程度ですが記しました。 環境として、 cakephp 2.0.5 apache を使用しています。 logが新規作成できない → logsをapacheさ…

railsインストール時にnokogiriのインストールでエラーになった時の対処

MacのOSをYosemiteにアップグレードした時に、ファイルが壊れてしまったのでもういちどrailsをインストールしましたorz。その時にgemのnokogiriがインストールできず、困ってました。 こんなコマンドを打ちましたが無理。 sudo gem install nokogiri -- \ --…

又吉直樹さん作「火花」を読了

第153回芥川賞受賞おめでとうございます。 帯見たら160万部突破してました。 火花作者: 又吉直樹出版社/メーカー: 文藝春秋発売日: 2015/03/11メディア: 単行本この商品を含むブログ (97件) を見る 概要 かけだしの若手芸人である主人公「徳永」と、主人公の…

nodeのuninstallとnodebrewのインストール

nodeとnpmを再インストールする 久々にnodeをさわろうとして、npmとうつと、 module.js:340 throw err; ^ Error: Cannot find module './lib/optional' at Function.Module._resolveFilename (module.js:338:15) at Function.Module._load (module.js:280:25…

Yasnnipetで日付をささっと表示して日記を付けたい

モチベーション Emacsでよく日記のようなログを書くことがあります。今日あった出来事とか、 今日見つけたものとか。 そうゆうとき、日付をショートカットで入力できると便利です。それまでは、google日本語入力で、わざわざ「きょう」と入力して変換で「201…

Yosemiteのアップグレードに失敗したけどなんとか成功した

mac

自分のMacbookAir、未だにMarbericksだったので、暇になったのを機にYosemiteにアップグレードすることに。 結論から言うと、最初は失敗するけど、2回目にうまくいきました。 注意 アップグレードの前に、外付けHDDとかにバックアップをとっておくこと! ア…

MacBookAirのSSDの容量が足りなくなってきたのでTrancendを入れた話

mac

実は私のMacBookAirは、SSDの容量がたったの64GBと、それ開発環境として使えるの?というだめ容量でした。 今回 Transcend SSD MacBook Air専用アップグレードキットを買ってみました。(2万円…) こいつで我がMacのSSDを一気に240GBにします。ここまで容量があ…

gitで特定のファイルだけ前の状態に戻したいときのコマンド

git

gitで何かのファイルを編集していて、しまった、失敗したから戻したい、となった時に、 git resetを使うと戻さなくていいファイルまで戻してしまう。 そうならないように、特定ファイルだけ戻す方法です。 git log ファイルパス git checkout ad9772b1dbcf4e…

シェルスクリプトを使うときのsshの使い方

sshは ssh ユーザ名@ホスト と使ってリモートマシンに入ることが多いけど、 ssh ユーザ名@ホスト コマンド か ssh ホスト -l ユーザ名 コマンド でローカルにいながらリモートマシンのターミナル上のコマンドを打つことができる。 例えば、 ssh user@192.168…

AZUMAの納豆はうまい! 四万十川産川のりだれ付納豆が来た!

最近、夕食はかならず納豆を食べるようにしています。 納豆は長年食べてきましたが、なかなかいい納豆に出会えませんでした。 しかし、最近近所のスーパーに売りだされた、この納豆がうまい! 「AZUMAの納豆 四万十川産川のりだれ付納豆」 しその甘さが引き立…

rm -fr /してしまった

Macで魔のコマンド、rm -fr /してしまいました。 幸い、ルート権限ではなかったので、通常通り使えていますが、非root権限のeclipseが壊れて起動できなくなりました。 こんどからrmするときはちゃんとチェックしてから実行するようにしよ。

Emacsの起動時間を早めるautoloadを使う

最近macのemacsがよくクラッシュします。知人に聞いたところ、(require 'なんとか)で余計なelファイルをロードしているのが原因だと。 .emacsでrequireとなっている部分をautoloadにするだけで、プラグインが必要になった時にロードされるようになります。 …

EmacsでもGoogle検索したい!(search-web.el, google-this)

Google先生をEmacsから呼んじゃいましょう。2通り方法を記します。 search-web.el google以外にも、yahoo, alcとかweblioとか、いろいろなサイトで検索ができるすごいやつ。 インストール list-packages でsearch-web.elを探す。あとは、いつもの様にクリッ…

macにEmacsの検索が楽になるmigemoをインストール

migemoをMacにインストールする。 migemoとは Emacs上で日本語検索するとき、いちいちローマ字変換で日本語を書いて検索してたけど、ローマ字を打っただけで検索できるようになるよ。 検索効率アップ! migemoの準備 ターミナルでcmigemoをインストール brew …

WebページのCSSパスを簡単に知る方法

Nokogiri.rbなどのスクレイピングをやるときに、Webページの特定要素のCSSセレクタを調べることが多くあります。 環境 Mac OSX 10.9.5 Chrome やり方 chromeでは、Command + Option + i でデベロッパーツールが下から表示されます。 ここで、左上のルーペ部…

nokogiri.rbの使用方法をまとめた

nokogiri.rbの主な使用方法のまとめです。 # htmlをデータ抽出用のNokogiriオブジェクトに変換 doc = Nokogiri::HTML.parse(open("http://www.google.com/search?q=ruby&hl=ja")) # CSSセレクタ # ※CSSセレクタを使用すれば、任意の要素を抽出できます。 # X…

nokogiri.rbでgoogle検索結果の一覧表示

nokogiri.rbの主な使用方法のまとめです。 ############################## ### Nokogiriオブジェクト ############################## # htmlをデータ抽出用のNokogiriオブジェクトに変換 doc = Nokogiri::HTML.parse("<h1 id='title'><a href='http://konbu13.hatenablog.com/'>プログラミングのメモ</a></h1>") # webページ…

ハードリンクとシンボリックリンクの違い

ファイルを別の場所にコピーしたい時ってよくあります。 でも、単にコピーするのではなく、リンクを作ってやると、ファイルの複製処理が要らないし、 容量も増えないのでお得です。 LinuxやMacでは、リンクの仕方に二種類あります。リンク方法によってやって…

Vagrantのインストール方法(Mac OS X 10.9.05)

mac

Vagrantでものすごく簡単に仮想マシンが作れちゃいます。 VirtualBoxのインストール まずVirtualBoxが必要。 Downloads – Oracle VM VirtualBoxからダウンロード。 Macの場合、dmgパッケージを開き、箱をダブルクリック。 あとは流れに沿って続けるを押すだ…

mac OSX 10.9.4でスクレイピング用gem Nokogiri.rbのインストールでつまった

スクレイピングに興味があり、rubyで気軽に試してみようと思いました。 スクレイピングで、Web上のHTMLの必要部分を切り抜いて多種多様に利用することができます。 例えば、私が作ったのですと、定期的に人気曲のランキングサイトに行ってランキング部分だけ…

Cygwin上のEmacsでできない設定のめも

cygwin上のEmacsでできないこと Windows7上でCygwinにEmacsをインストールしたはいいのですが、Emacsで使えてた設定の幾つかが出来ませんでした。 参考までにメモっときます。 (tool-bar-mode nil) ;; ツールバーの表示を消す (set-scroll-bar-mode 'right) …

emacsの便利プラグインauto-install.elでハマったこと

windows版のwgetを使用していると、auto-install.elを使用時に、auto-install-batchなどでエラーが発生する問題。 解決方法はこちらを参照:(Daregada (だれがだ): WindowsでEmacsのauto-installとGnuWin版wgetを併用するときの問題(SYSTEM_WGETRC, syswgetr…

macでIPアドレスを確かめる方法

mac

システム環境設定→真ん中へんにある「ネットワーク」のアイコンをクリック →Wifiなど項目を選択するとIPアドレスが書かれています。 他にも方法はありまして、ネットワークユーティリティ.appを使ったりしてもわかりますが、 手軽に確認するならこれで十分。…