2018年02月 一覧

ブログ村のランキングポイントを単純にスクレイピングしてみた

ウェブから情報を収集する際には、簡単に使えるものですとRSSリーダーや
キーワードを登録すると向こうから情報が送られてくるような、
Googleアラートカメリオなんてサービスがあります。

もっとピンポイントで自分の欲しい情報を取ってくるにはどうすればいいか?

クローリング・スクレイピングという方法を使えば、そういうことは出来ます。

クローリングはウェブページをいろいろとたどっていくことで、
スクレイピングはウェブページから必要な情報を抜き出すことです。

実はそれを試そうと思ってこんな本を買っていた。

少しだけさわりをやってそのままだった。

そろそろ簡単なことでもやろうかと思って、
自分のブログ村のランキングポイントをスクレイピングしてみることにしました。

前にLinux標準コマンドだけで出来る仕事じゃないか?と思ってやってみたんですが、
ポイントの部分はどうやらjavascriptを解釈しなきゃいけないらしく、wgetやcurlコマンドを使うだけでは無理でした。

書籍を見るとPhantomJSというのを使えば、javascriptの解釈が出来るようです。

ということで、さっそくやってみた。

書籍ではPythonも使ってますが、自分としてはPhantomJSだけでも十分なことが出来るんじゃないかと思ったので、今回はPhantomJSだけで処理をしてみることにしました。

PhantomJSを使って色々試してみる

上記のExperiment #3を参考にこんな感じに一部を書き換えてみました。

// headlessブラウザを作成
var page = require('webpage').create();

//URLを開く
page.open('https://www.blogmura.com/point/01451148.html', function(status) {
  //ブラウザ内でJSを介してデータを取得  
  var pointTable = page.evaluate(function() {
    return document.getElementById('pointTable').innerText;
  });
  console.log('ポイントテーブル ' + pointTable);
  phantom.exit();
});

これをjsファイルとして保存しPhantomJSに読み込ませてみると

$ phantomjs pointTable.js
ポイントテーブル 今日	02/16	02/15	02/14	02/13	02/12	02/11	全参加数
総合ランキング(IN)	47109位	48399位	61922位	91483位	88933位	87463位	86714位	932904サイト
INポイント	0	20	0	10	0	0	0	30/週
OUTポイント	30	60	50	30	0	20	40	230/週
PVポイント	170	320	300	250	190	480	460	2170/週
その他日記	528位	562位	886位	1544位	1511位	1503位	1491位	25416サイト
フリーター日記	19位	17位	22位	37位	38位	37位	36位	448サイト
挑戦・チャレンジ	6位	6位	6位	7位	6位	5位	5位	157サイト

いいですね。ランキングポイント部分が取り出せました。
これが出来れば自分としては十分。

あとは好きな部分だけ抽出すればいい。

$ phantomjs pointTable.js | grep 'ポイント'
ポイントテーブル 今日	02/16	02/15	02/14	02/13	02/12	02/11	全参加数
INポイント	0	20	0	10	0	0	0	30/週
OUTポイント	30	60	50	30	0	20	40	230/週
PVポイント	190	320	300	250	190	480	460	2190/週

意外と単純な方法もあったんですね。
これで好きなデータを取り出すことが出来そうです。

ちなみに、スクレイピングツールというのもあるみたいですね。
それを使えば、そもそもコードを書いたりする必要もなさそうです。

簡単にWEBからデータ抽出ができる!スクレイピングツールまとめ

スポンサーリンク
 

セコい本の読み方思いついたので少し試してみていた

最近、音声入力というものを使っているわけですが、
これを使えばもっと色々と得られるものがあるんじゃないかと思いついた。

本を自分で読み上げてしまう。

読み上げれば、話し方の練習が出来てしまうんじゃないか。

そしてこれによって本の内容そのものを残してしまう!
テキストデータ、そして音声として。

音声で残した場合。
耳で聞き直すことが可能。

これは通勤時や目が疲れている時にいいんじゃないか。

ということでさっそく試してみた

ものによると思いますが、2ページ読み上げるだけで5分弱。
誤字の修正なんかしてたら、結構時間かかってしまいますな。

読み上げている時は声の録音もしておきますが、
自分の声を聞くのはキモいですな。

なら声を変えればいいじゃないか。

ということで探してみるとボイスチェンジャーアプリというものがあった。

スマホのやついくつか使ってみてクソ笑ってしまった。
もっとネタじゃなくて可愛い声にでも変更したいわ。

ということでほか探してみた。

これすごい。こういうのだといいかもしれない。
こういうのを使って自分の声で聞きたくないものを変換して聞くのはありかもしれない。

で、結局なんだけど。
本すべて読み上げるのはダルいという結論でおしまい。

OCRスキャンで内容をテキストデータにしたら、
テキストデータをロボット音声に変換することが出来るので、
そういうことを自動化出来たらいいでしょうね。

スポンサーリンク
 

目標は紙に書くと実現するらしい

非常識な成功法則という本にそんなことが書かれていた。

自分自身、これについては実際に体験していることなので、

目標は紙に書くと実現するらしい。

ではなく、

目標は紙に書くと実現する。

と言い切ってもいいかもしれない。

不思議なことにノートに色々書いた目標は結構達成出来たりした。

書くことによって、その目標に意識が向かって
自然とそれに関係する情報やチャンスみたいなものに敏感になるし、
行動に向かいやすくなる。

たとえすぐに動き出さなかったとしても、
そのうちタイミングが来たりする。

そんで、
さて、そろそろやろうかな。
となることもあった。

ということで、自分はそんなことをこれからもやっておこうと思う。

スポンサーリンク
 
1 2 3 4 5 6