Website Explorer
ウェブサイト・エクスプローラ

HOME

OVERVIEW

STRATEGY

FLOWCHART

INSTRUMENTS

SAMPLE DATA

DOWNLOAD

LEARNING

INFORMATION

ECHO



Back To the Umechando

- Strategy 2 -

1 | 2 | 3

<データの詳細取得>

Website Explorer は、HTML 解析作業の中で、リンク先のファイル検出、 内部ファイルと外部ファイルの振り分け、(内部ファイルの場合)階層構造の描写を行います。

HTML から検出(detect)された URL(リクエスト URI)は、ほとんどの場合ファイル名を指し示しています。 http://www.umechando.com/ のようなリクエスト URI は、 そのあとに続くべきファイル名(index.html など)を省略しているに過ぎません。

Website Explorer は、このファイルの存在をそのままでは受け入れず、 いったんサーバに対して問い合わせます。サーバから「200 OK」や「404 Not Found」といったステータスコードが返されると、 それに従い当該ファイルを内部サイト或いは外部サイトの選別に振り向けるか、エラー一覧に加えるかの判断をします。

HTTP リクエストが成功した(「200 OK」)場合、 対象ファイルが HTML ファイル(或いはそれに相当するもの。下記参照)であってなおかつ内部ファイルであれば、 Website Explorer はこれを HTML 解析作業に供します。 この際、ファイルの詳細情報(ファイルの種類、サイズ、最終更新日)をいっしょに取得します。 なぜなら HTML ファイルを解析するためにはサーバにアクセスする必要があるからです。

一方、HTML ファイル以外のウェブ・リソース(イメージ、サウンド、ビデオ、プログラム、圧縮ファイル、HTML 以外のテキストファイル等々。 メディアタイプが「text/html」以外のもの)のファイル詳細の取得は任意です。 Website Explorer の「設定」ダイアログの中にある「リソースの詳細を取得」をチェックオンにした場合、 それらについての詳細情報(ファイルの種類、サイズ、最終更新日)を取得します。

これをオンにするとすべてのファイルについて個別にアクセスするため、 探査に時間がかかるのでデフォルトではオフになっていますが、 正確なデータを取得したい場合はオンにすることをおすすめします。そうしないと、データの詳細表示の際に不備が生じますし、 サイトリポートも不完全なものとなります。

なお、探査対象がウェブでなくローカルディスク上のファイルの場合は、 「リソースの詳細を取得」にチェックのあるなしに関わらずファイルの詳細情報を取得します。 これは詳細情報がユーザのローカルディスク上にすでにあるため、個別のファイルへの HTTP アクセスによるトラフィックを無視できるからです。

一方、探査対象がウェブ上にあり、CGI によって返されたファイルの場合、 ファイルの詳細情報を取得できない場合があることをお断りしておきます。

<CGI ファイルの取り扱い>

ところでリンク先のリクエスト URI が指し示すものは必ずしも特定のファイルであるとは限りません。 特に CGI の場合がそうで、http://***/***/***.cgi というような URI 構文をサーバに送った場合、 返されるのは CGI ファイルそのものではなく、 (ポストされるデータ、或いはクエリー文字列への応答として)生成された HTML ファイルであったり、画像などのリソースであったりします。

Website Explorer は HTTP リクエストに対するサーバからのレスポンスに忠実に従うので、 リンク先 CGI からの応答が HTML ファイルである場合には、それを通常のウェブページと同じくHTML 解析の対象として扱います。

但し一般に CGI は掲示板に見られるようにデータ量が多くなる傾向があるので、 そこからのデータ取得を省略したいと考える場合もあるかの知れません。 その場合は「設定」ダイアログの中にある「CGIファイルのリンク先もチェック」をオフにすればOKです。

Website Explorer はサーバに GET メソッドを送信するだけで、 データをポストすることはありませんが、リクエスト URI に ...cgi?a=b&c=d とか /search?p=aheahe&d=honyarara といったクエリーが含まれる場合は、 サーバから返されるデータをファイルとして扱います。 この設定を無効にしたい場合は、「設定」ダイアログの中にある「?に続くクエリーを取得」をチェックオフして下さい。

1 | 2 | 3
前ページに戻る次ページに進む