Data import from Web pages

〜Web pageから情報インプット〜


Newtonに情報を蓄積しようとすると、やはり自分でデータをこまめに入力していくといった方法が主体になるでしょう。スケッチでメモ情報を描いてため込む作業なんていうのは、まさにこの方法の典型ですね。この方法って一番Newtonらしい方法ではあるんだけど、基本的に全部自分でこなさなきゃいけない訳ですから、それなりに労力を要してしまうってのは、なんとも仕方ない処です。

その一方で、普段アクセスするインターネットにも、使える情報って一杯ありますよね。これをうまく使えばいいトコ取りで楽に情報を蓄えられるんじゃないか?ってのが、このコーナーの発端です。今回はWeb上で公開されているテーブル情報をNewtonに取り込む場合の手順をご紹介しましょう。

最近、エディタの多機能化には目をみはるものがあります。コード変換はもとより、文書のHTML化やHTML文書からのテーブル抽出までこなせる多機能エディタなんてのもありますね。今回使うのはMac版になってしまいますが、そんな多機能エディタの1つ、その名も"TheDukeOfText"(500円の図書券ウェア)。このエディタを使ってテーブル抽出した情報をNewtonに取り込んでみました。

今回取り込みに使ったのはWeb上で公開されていたバス時刻表。こういうのって従来だと全部手作業でNewtonに入力しなくちゃなりませんでした。これだとちょっと数が増えるだけでもううんざり(いやはや…)。折角こういう情報があるんなら、利用しない手はないですよね。

取り込みしたい情報があったら、とりあえずブラウザの「別名で保存」からHTML形式で保存しましょう。


保存したページには複数のテーブル情報が含まれていました。TheDukeOfTextは複数のテーブルが含まれたHTMLも解析可能なのですが、その分処理に時間がかかるため、今回はHTMLエディタを使ってテーブル部分だけを別のHTML文書に取り出しました。と言っても作業自体はテーブルを選択して、新規文書に張り付けるだけ。下がその手順で取り出したテーブルです。


取り出したテーブルをHTMLエディタで保存したら、TheDukeOfTextで開きます。HTMLがテキスト状態で表示されるので、「ツール」メニューから「HTML変換」→「テーブルをCSVに変換」を選択します。


変換には若干時間がかかりますが、テーブルからデータ部分のみが抽出され、CSV形式のデータになります。


後はこのデータをExcel等で見やすい様に編集し、Newtonに転送します。今回はX-Port2.1Jを使い、CSV形式のまま、QF Worksに取り込んでみました。

これが取り込んだデータをNewtonで表示した状態。セル幅をNewton上で見やすく編集すれば完成です。これを一々手入力する事を考えれば、手間は全然楽。TheDukeOfTextにはこの他にもHTML文書からテキスト情報を抽出する機能もあるため、Web上のコンテンツをNewtonで持ち歩く情報の供給元として活用する事ができます。こうやって自分に役立つ情報をどんどんため込んで活用すれば、Newtonはあなたにとって本当の「アシスタント」になってくれるはずですね(いやはや…)。


Back to "data link"