Menu:

Categories:

Archives:

XML Feed:

Entries (RSS)

Links:

Andreas Viklund
Ainslie Johnson
Thingamablog
Valid XHTML
Valid CSS

資料

BBS

リンクについて

ブログの記事を抽出しMovable Type形式に変換するための ヒント

Posted on 2007年07月14日 at 8:12 午後 by ぽっと

はじめに

前回はエキサイトのブログの記事をJavaScriptで抽出するコードについてお話をしましたが、皆さんもエクスポートツールを作ってみたいと思う方もいらっしゃると思いますので、ちょっとしたヒントを記事にしますね。

Movable Type形式について

 変換形式についての情報を知る必要があります。実際のシステムの吐き出すファイルを解析する方法もありますが、まず始めは仕様を眺めてみるとよいかもしれません。そして、最低限必要なものはどれなのかを把握してから、実際のシステムに入れてみるなどのテストを行うと面白いと思います。

Movable Type形式で注意点したこと

 複数行フィールドは、 -----\nで始まるとなっており、本文中に同じ文字列で始まってしまう可能性を少なくするために、本文の改行コード取り除いています。そのかわり改行は<br>で表現できるので、HTMLのソースをそのままで利用しています。

perlでWebのソースを取得する方法

 Webの情報を取得して解析するのならば、Perlも選択肢のひとつに入るでしょう。(Rubyもなかなか良いよね)Perlで指定URLのソースを取得する場合は以下のコードになります。簡単でしょ。あとは構文解析を行えばブログの記事を全て取り出すことができます。

Posted in (RSS)

Powered by SHINOBI.JP