- http://d.hatena.ne.jp/alpinix/20040318
- http://d.hatena.ne.jp/komb/20040317
- http://d.hatena.ne.jp/higeorange/20040319
- http://d.hatena.ne.jp/manpukuya/20040321
- http://d.hatena.ne.jp/hm24/20040321
今日の正午ごろのはてなダイアリー
上で集めた情報をもとに、「×日以内に日記を更新している人」(=最終更新時刻が×日以内の人)の人数を調べてみた。
日記の数 | 32,071 |
24時間(1日)以内に更新された日記 | 6,727 |
48時間(2日)以内に更新された日記 | 8,709 |
72時間(3日)以内に更新された日記 | 9,862 |
7日以内に更新された日記 | 12,143 |
30日以内に更新された日記 | 17,438 |
90日以内に更新された日記 | 24,088 |
約1/4の日記が1日〜2日以内に更新されている一方で、約1/4の日記が3ヶ月以上更新されていないことになる。
はてなダイアリーの情報をかき集める話
ネタ元はd:id:smoking186:20040318#1079563826さん。LIRS形式でアクセスすれば、はてなダイアリーの全ユーザ、日記のタイトル、アクセス時点での最終更新時刻を一気に取得できる。
ちょうど、IDやタイトルの一覧を使って、24時間以内に更新している人、48時間以内に更新している人…の人数を調べられないかと考えていたところだったので、とても便利。
得られたデータから、更新時刻や日記のタイトル、ユーザIDを抽出してみた。
秀丸エディタでは、置換機能で「^LIRS,..........,\f..........\f,32400,,http://d.hatena.ne.jp/[a-zA-Z0-9\-_^,]*/,\f.*\f,http://a.hatena.ne.jp/,,$」を「\1,\3」に置換すると、「更新時刻のエポック秒,日記のタイトル,ユーザID」という一覧を得られた。正規表現の処理系によっては、「..........」の部分を「[0-9]{10}」で代用できるかもしれない。また、「\f」は秀丸エディタでのタグ置換の区切り記号なので、これも適宜読み替えれば同じように置換できるだろう。
たとえば、Perlの正規表現では「s|^LIRS,[0-9]{10},([0-9]{10}),32400,,http://d.hatena.ne.jp/[a-zA-Z0-9\-_^,]*/,(.*),http://a.hatena.ne.jp/,,$|$1,$2|;」としてやれば、上と同様に「更新時刻のエポック秒,日記のタイトル,ユーザID」という形式に変換できた。
なお、日記名が長く、ユーザIDとの区切り文字「,」が抜けている日記が2つ、対象サイトのURLが「http://d.hatena.ne.jp/ユーザID」ではない日記が1つなど、例外がいくつかあった。また日記のタイトルに「,」が入っているものがたくさんある。上の形式のテキストを、単にカンマ区切りのテキストとして処理しようとしたり、「,」をタブに一括置換したりすると大変な目に遭うだろう(遭いました)。
今日の正午ごろ取得したLIRSファイルをもとに、「更新時刻のエポック秒,日記のタイトル,ユーザID」の一覧を作ってみたところ、ファイルの容量は約1.1MBになった。
全ユーザのIDを取得できたので、d:id:alpinix:20040318さんが根気強く調べた「ユーザー登録から本日までに日記をつけた日数」が最も長いユーザーも、より正確に調べることができるだろう。
曇り、雨
- 2004年3月18日の記事をまとめ読み:http://ima.hatenablog.jp/entries/2004/03/18