22年分のはてなダイアリーをはてなブログにインポートした

いやー大変だった。はてなダイアリーhttp://d.hatena.ne.jp/Imamura/)をこのはてなブログhttp://ima.hatenablog.jp/)にインポートするので、はてなダイアリーの書き方をはてなブログ向けに事前に調整しようとしたら思いのほかたくさん手を入れることになった。はてな記法の解釈はダイアリーとブログでけっこう違っていて、トリッキーな書き方をしていたりするとブログでうまく表示されない。一括検索/置換するスクリプトで一発変換とはなかなかいかず、正規表現をたくさん書いて確認しながら置換して、テキスト処理用のスクリプトもいくつか書いた。

「今日の電子書籍記事リンク」(d:id:Imamura+epub)も引っ越した。その際は、このダイアリーのカテゴリがメインのダイアリーのカテゴリに混ざらないようにした。

今回の引っ越しで、分散していた日記コンテンツが統合された。中身も標準的な記法にリファクタリングされたので、そこは苦労したかいがあったと思う。

具体的にどうしたかは下にまとめてある。いったん投稿したあとも実作業で見落としが見つかったりして何度も修正した。

トラックバックの移転も最初は考えていなかったが、そういえばクローズアップ現代の書き起こしではトラックバックがたくさん来たなと思い出して気が変わり、スクレイピングと整形をちょっとがんばった。

とはいえその日のトラックバックをまとめて1つのエントリにするのがせいいっぱいだった。

トラックバックの移行はid:rnaさんがすごくがんばっていて、これをちゃんと読めばもっといい感じになりそう。どの記事にトラックバックが来ているかを見て、対象の記事の末尾に一覧されている。全ページのHTMLは取得してあるから、そこからなんとかできるかも。

そもそもはてなブログへの移転は自分で望んでしたことではない。はてなが「ダイアリーは終了します」というので、ダイアリーの編集機能が停止される28日までに終わらせなければとがんばった。そして大変だった。

はてなダイアリーの蓄積がはてなブログにやってきて、「月別アーカイブ」が一気に増えた。2010年のエントリが突出して多いのは「電子書籍記事リンク」をやっていた年だから。2017年以降は「今日のツイート」のまとめをやめたのでエントリ数が一気に減っている。

f:id:Imamura:20190129101936p:plain:h600

はてなダイアリーの「月ごとにまとめ読み」も大したものだ。

f:id:Imamura:20190129084940p:plain

メインのダイアリーの全テキストは17MBだったのが、「電子書籍記事リンク」も含めてはてなブログへ統合したら24MBに増えた。あれ、でもそんなに増えるものかな?

そうか、元のテキストファイルは文字コードシフトJISだったけれど、はてなブログUTF-8だから容量が増えるんだ。UTF-8は扱える文字が増える一方、1文字を表現するのに必要なバイト数が増える。はてなブログの全テキストをシフトJISに変換したら20MBになった。

はてなダイアリーへアクセスするとはてなブログへ転送される「リダイレクト」は、もうちょっと落ち着いたら設定するつもり。

はてなブログへの引っ越しの過程でわかったことがいろいろあった。それは次の記事でまとめます。