Download List

Project Description

blanco Framework is code generation framework for Java. It include R/O mapping tool 'blancoDb', SQL editor plug-in 'BlancoSqlEditorPlugin'.
blancoWebCrawler
blancoWebCrawler-0.0.2

Released at 2007-10-24 22:33
blancoWebCrawler blancoWebCrawler-0.0.2

Name Size MD5 Date Download count
blancoWebCrawler-0.0.2-src.zip 2.6 MB
085ddf56818062ac398d691dd484facf
2007-10-24 22:33 97

Release Note

blancoWebCrawlerは Web巡回ロボットを簡単に利用できるようにするためのJavaライブラリ(jarファイル)です。
イントラネットの検索サイト構築などの際の基本キットなどとして活用することができます。
※他の blanco Frameworkプロダクト群と異なり、blancoWebCrawlerはソースコード自動生成処理系ではありません。通常の実行ライブラリによる提供となります。

[ステータス]
1.blancoWebCrawler : 開発中

[機能]
blancoWebCrawlerには以下のような機能があります。

[開発者]
1.伊賀敏樹 (Tosiki Iga / いがぴょん): 開発および維持メンテ担当

[ライセンス]
1.ライセンス として GNU Lesser General Public License を採用しています。

[利用の前に]
※利用の前に、この注意書きを必ず読んでください。
1.このプロダクトは、Web巡回ソフトを作成するためのAPIライブラリです。
うまく使わないと巡回先サーバに負荷をかけたり思わぬトラブルを引き起こすことがあります。
十分注意して利用してください。
もし意味がわからないのでしたら、このライブラリは利用しないでください。

[依存するライブラリ]
コンパイル及び実行には下記のライブラリを必要とします。
クラスパスに含めるようにしてください。
1.Jakarta Commons (Codec, HttpClient, Logging)
概要: Jakarta により配布されているコーデック, HTTPクライアント, ロギングライブラリ。
2.blancoLog
概要: blanco Framework共通ロギングライブラリ
ライセンス: GNU Lesser General Public License
3.blancoCommons
概要: blanco Framework共通ライブラリ
ライセンス: GNU Lesser General Public License

Changelog

2007.10.24 (0.0.2)
・jarファイルに、BlancoHttpMethodSetting_ja.properties を含まないように変更しました。
TODO リクエストヘッダ、レスポンスヘッダのバリューオブジェクトを作成すること。
TODO いがぴょん日記作成ルーチンの一部機能を移植すること
TODO リクエストヘッダの内容をサーバ側で受けて内容の妥当性チェックする試験を実施すること。
TODO HeadMethod を実装した headメソッドを実現すること。
TODO The Web Robots Pages
http://www.robotstxt.org/wc/robots.html
TODO A Standard for Robot Exclusion
http://www.robotstxt.org/wc/norobots.html

2007.10.15 (0.0.1)
新規作成。

TODO (HttpMethod) SSL対応
TODO (HttpMethod) ユーザエージェント設定(リクエストヘッダ)への対応。
TODO (HttpMethod) レスポンスヘッダ取得機能
TODO (HttpMethod) ベーシック認証などへの対応可否検討。
TODO (HtmlParser) 与えられた HTMLファイルをパースする。
TODO (HtmlParser) HTMLメタ解析機能
TODO (HtmlParser) リンク解析機能: リンクのマップ(?)を取得する (単にリンク先のアドレスを抽出するでも可。ポイントは ローカルアドレスの解決方法。URIでフルアドレスのほうが良いかも?)。
TODO (HtmlParser) description, keyword, タイトルなどの取得。
TODO (HtmlParser) 強調部分などのHTML構造から単語を類推する。
TODO (HtmlParser) テーブル構造から単語を類推する (?)
TODO (Web巡回) ロボット拒否 (NO ROBOTS)への対応。仕様の調査。
TODO (Web巡回) クロールの際にクエリに対応するのは危険かどうか検討
「?」の場所で切断するもの妥当かも知れない。
ただし、基本はパーマネントリンクのみ対応が妥当かと考える。
TODO (Web巡回) クッキー対応についてもリスクを検討。
TODO (Web巡回) クロールのネストの回数上限に関する機能。
TODO (Web巡回) 静的検索の機能の検討。「いがぐり」(?)
TODO (Web巡回) リンク先存在チェック機能。
TODO (Web解析?) リンク主体のページはインディックスページ。