ブログの記事を抽出しMovable Type形式に変換するための ヒント
Posted on 2007年07月14日 at 8:12 午後 by ぽっと
はじめに
前回はエキサイトのブログの記事をJavaScriptで抽出するコードについてお話をしましたが、皆さんもエクスポートツールを作ってみたいと思う方もいらっしゃると思いますので、ちょっとしたヒントを記事にしますね。
Movable Type形式について
変換形式についての情報を知る必要があります。実際のシステムの吐き出すファイルを解析する方法もありますが、まず始めは仕様を眺めてみるとよいかもしれません。そして、最低限必要なものはどれなのかを把握してから、実際のシステムに入れてみるなどのテストを行うと面白いと思います。
Movable Type形式で注意点したこと
複数行フィールドは、 -----\nで始まるとなっており、本文中に同じ文字列で始まってしまう可能性を少なくするために、本文の改行コード取り除いています。そのかわり改行は<br>で表現できるので、HTMLのソースをそのままで利用しています。
perlでWebのソースを取得する方法
Webの情報を取得して解析するのならば、Perlも選択肢のひとつに入るでしょう。(Rubyもなかなか良いよね)Perlで指定URLのソースを取得する場合は以下のコードになります。簡単でしょ。あとは構文解析を行えばブログの記事を全て取り出すことができます。
Posted in (RSS)
Powered by SHINOBI.JP