HOME > 製品・サービス > WiSE Webクローラ

WiSE Webクローラ

    

高度なクローリングで高速の検索を実現 ワイズ ウェブクローラ

WiSE Webクローラ

WiSE Webクローラとは

検索サービスのために、文書ファイルを一定の規則に基づいて収集する作業をクローリングといい、クローリングを行うプログラムをクローラと呼びます。クローラのうち、クローリングの対象として、Web上のデータを収集するプログラムをWebクローラといいます。WiSE Webクローラは、ビジネスサーチテクノロジ株式会社が提供する全文検索エンジンWiSEのために開発されたWebクローラです。

クローリング・スクレイピングによる情報収集・コンテンツ活用については、下記スクレイピングサービスをご参照ください。
webscraping_TOP

WiSE Webクローラのダイアグラム

WiSE Webクローラー説明画像

主な特長

WiSE Webクローラは、指定されたURLからハイパーリンクをたどってデータファイルを収集します。
WiSE Webクローラは次のような特長を備えています。

高速かつ最大20並列でのクローリング

WiSE Webクローラは、並列度を指定することで一度に最大20並列でクローリングすることが可能です。このため、文書の取得を高速に行うことができます。ただし、Webサーバへの負荷を考慮して、設定する並列数は、変更することもできます。

差分クローリング

WiSE Webクローラは、対象となる文書が取得済みか、収集対象とするべきかどうかなどの判定に独自の収集条件データベース (WCDB) を使用します。このデータを元に、変更のない文書は取得しないようにクローリングを行います。

柔軟な収集条件の指定

収集を行うドメイン(Webサーバ名)、URL、ファイル形式などを柔軟に指定することができます。正規表現にマッチしたURLを収集したり除外したりでき、PDFファイルも同時に収集する、などといったことが実現できます。
さらに1回のクローリングで取得するURL数や、ファイルサイズの合計、巨大なファイルの取得を除外するための指定など、多彩なオプションでクローリング対象を指定することができます。

HTMLの指定した部分のみの収集

HTMLの特定のタグに囲まれたテキストなど、指定したパターンにマッチした部分のみを検索対象のテキストとして取り出すことができます。この指定により、収集対象のHTMLからヘッダやフッタなどの共通の要素を取り除いて、本文のみを収集するといったことが可能になります。

リスタート機能

クローリングを途中で中断しても、WCDBの収集履歴を元に、中断したクローリングを再開することが可能です。サーバへの負荷が高まる時間帯を避けたり、一度で収集することが困難な大規模サイトを複数回に分割して収集するなどといった用途に利用します。

クローリング開始URLを複数指定可能

WiSE Webクローラでは、クローリングを開始するURLを複数指定することができます。クローリングを開始するURLを深さ0(ゼロ)として、その文書から張られたリンクを1とカウントする方法で、指定された深さ(リンクの隔たり)までクローリングします。

多彩なオプションによるクローリングの制御

WiSE Webクローラでは、クローリングの範囲や、時間、ファイル数などを制限するオプションが用意されています。クローリングの範囲は、ドメインや、パス、アンカーテキスト、URLのパターンによって制限することが可能です。

ご利用に際して

WiSE Webクローラをご利用になる際は、WiSEとセットでご購入いただく必要がございますので、ご注意ください。

クローリング・スクレイピングによる情報収集・コンテンツ活用については、下記スクレイピングサービスをご参照ください。
webscraping_TOP