Website Explorer
ウェブサイト・エクスプローラ

HOME

OVERVIEW

STRATEGY

FLOWCHART

INSTRUMENTS

SAMPLE DATA

DOWNLOAD

LEARNING

INFORMATION

ECHO



Back To the Umechando

- Strategy 1 -

1 | 2 | 3

<動作原理>

Website Explorer のメイン画面にはアドレスバーがあります。 これは WWW ブラウザの場合とよく似ていますが、WWW ブラウザでは指定された URL のファイルを画面に表示するだけであるのに対し、 Website Explorer ではこれを「スタートアドレス」として扱います。

Website Explorer はスタートアドレスを出発点として、 検出されたリンクをたどりつつ、リンクされているすべてのファイルのリストを作り、それらの詳細データ(ファイルの種類、サイズ、最終更新日、全リンク元、全リンク先など)を取得すると共に、 リンク構造を解析して、ウェブサイトのディレクトリ構成をエクスプローラ形式で表示します。

これらはすべて同時進行で行われるために、見る人には目まぐるしい印象を与えるでしょう。 探査作業が終了すると、Website Explorer は静かになります。 その後は、Windows のエクスプローラを使う要領で、フォルダを指定してファイルを確認したり、ウェブサイトについての情報ページを閲覧することが出来ます。

<ウェブサイトの概念>

スタートアドレスは出発点であると同時に、基準でもあります。 なぜならWebsite Explorer はスタートアドレスで指定されたディレクトリとその下位ディレクトリを1個の「ウェブサイト」として扱いますが、 全く別のサーバはもちろんのこと、同一サーバであっても上位ディレクトリは「外部サイト」として扱うからです。 例えば、

http://www.umechando.com/tips/index.html

をスタートアドレスに指定した場合、

http://www.umechando.com/index.html
http://www.umechando.com/playroom/01.htm
http://www.umechando.com/anonymous/
http://www.aheahe.com/

は、すべて「外部サイト」扱いとなります。

もとより「ウェブサイト」の概念は曖昧です。1サイト=1サーバであるとは限らす、個人サイトであっても(レンタル掲示板を使った場合のように)、 1サイトが異なるサーバにまたがる場合もあります。逆に、サーバを共有していても、全く別のウェブサイトであることもよくあります。

結局、サイト管理者は誰か、また何をテーマとしているかによって、 サイト管理者や閲覧者が主観的に「ウェブサイト(ホームページ)」の範囲を決めているに過ぎません。

<Website Explorer の対応>

スタートアドレスよりも上位のディレクトリをも同一サイトに含めると、

http://www.umechando.com/

http://www.umechando.com/anonymous/

のように、プロバイダのサーバを間借りしている別人のウェブサイトまで同一サイトとして扱うことになりかねません。 Website Explorer が原則として、スタートアドレスよりも上位のディレクトリを外部サイト扱いにしているのは、このためです。

しかしこれでは、レンタル CGI 等のように別サーバであってもウェブサイトの一部に含めている場合や、 特定の上位ディレクトリのみ同一サイトに含めたい場合には、不便です。

そのため Website Explorer には、ウェブサイトの範囲を設定する機能があります。 その1つは、「ドメイン名の第1要素を無視」する設定です。

例えばスタートアドレスが http://www.hogehoge.co.jp/ だとすればリンク先に www 以外のサーバ(shop.hogehoge.co.jpsearch.hogehoge.co.jp など)があっても、 デフォルトではこれを外部サイトとして扱います。「ドメイン名の第1要素を無視」にチェックを入れると、第1要素の違いが無視されますので、 これらも同一ウェブサイトとして扱われます。

もう1つは、URL が特定のキーワードを含んでいれば、これをスタートアドレスと同じウェブサイトに含める機能です。 設定ダイアログの「右のキーワードを含むアドレスをサイトに含める」にチェックを入れ、キーワードを cgi.members.interq.or.jp/engineer/umechan に設定したとします。 スタートアドレスが http://www.umechando.com/ だとすると、 http://cgi.members.interq.or.jp/engineer/umechan/cgi-bin/resbbs4.cgi は初期設定では外部サイト扱いになりますが、 キーワードを含んでいるので、内部サイトとして扱うことが出来ます。

<内部サイトと外部サイト>

「それはわかったけど、内部サイトと外部サイトを区別することにどういう意味があるの?」

ふむ、オーケー、説明しましょう。 内部サイトとは或るウェブサイト自体、外部サイトとは他のウェブサイトを意味します。

Website Explorer が探査を開始すると、スタートアドレスを出発点としてリンクをたどり、 検出したファイルが内部サイトに属するか外部サイトに属するかを指定された条件に従って選別します。

内部サイトに属すると認識されたファイルは、Website Explorer のメイン画面でエクスプローラ表示され、 ファイルについての様々な情報を確認することが出来ます。 (なお、内部サイトに属するファイルであっても、ファイルが見つからないなどのエラーを検出した場合は、 メイン画面には登録されず、情報ページの「エラー一覧」の中に記載されます。)

それだけではありません。内部サイトに属すると認識されたファイルが HTML ファイルの場合は、 スタートアドレスと同様に、リンク検出の対象として解析されます。

これに対して外部サイトに属すると認識されたファイルはメイン画面にエクスプローラ表示されず、 リンク検出の対象として解析されることもありません。情報ページの「外部リンク一覧」の中に記載されるだけです。 但し、リンクが正しいかどうかを(後から)テストすることは出来ます。

1 | 2 | 3
前ページに戻る次ページに進む