サイト内検索ブログ

Web掲載された複数のPDFファイルの文字を全文検索する方法とは?


Web掲載された複数のPDFファイルの文字を全文検索する方法とは?

PDFファイルはカタログやマニュアル、リリース情報など、多くのWebサイトでコンテンツとして利用されています。

しかしながら、通常のコンテンツと同じようにPDFファイルをWebサイトに掲載するだけでは使い勝手が良いとは言えず、かえってユーザのWebサイト利用の妨げとなっているケースも見受けられます。

今回は、こうしたPDFファイルのWebサイト利用について考えます。


▼ページ単位で全文検索できるPDFナビ▼

PDFナビの詳細・サービス資料はこちら

目次

PDFファイルを検索できる全文検索とは?

PDFファイルを検索できる全文検索とは?

そもそも「全文検索」とは、ネット上にある複数の文書ファイルから特定の文字列(キーワード)を検索する技術のことを指します。全文検索が使われている代表的な検索エンジンとしては、GoogleやYahoo!があげられます。

ここでは全文検索による情報の抽出方法について解説していきます。

逐次検索で行う全文検索

逐次検索(ちくじけんさく)とは、別名「greq型」「全文照合方式」などと呼ばれます。テキストデータを順番に、くまなく検索していくのが主な特徴です。

一文字入力するごとに検索を行い、精度が高いことがメリットです。しかし、ネット上にある膨大なデータをひとつひとつを見ていくため、時間が多くかかってしまうデメリットがあります。

索引で行う全文検索

「索引」とは、情報のまとまりから語句や名称などの文字列を抽出して、すぐに探し出すことができるように並べた表を指します。「索引」は「インデックス」とも呼ばれ、ユーザが特定の情報を探しやすいように、文字列を一定の順番で配列した表になります。

索引で行う全文検索

一般的なWeb検索では「索引」が利用されています。上に示した図では、表の2列目の「索引」というキーワードを検索した場合、事前に索引(インデックス)登録されている表の中から「サイトBの3と2文字目、サイトCの3と・・・」といった該当するサイトを結果として返します。

これが、検索エンジンでキーワード検索を行った際に検索結果が表示される仕組みです。

索引検索のメリットは検索速度が比較的速いことです。

一方で、索引データは事前に作成する必要があり、辞書に登録がされていない用語は、抽出が難しいとされています。例えば「コラボレーション」と検索ができたとしても「コラボ」と略された文字列が事前に登録されていない場合は検索漏れにつながります。

ここまでは、PDFファイルの検索で使われる全文検索について解説しました。次の章では、PDFファイルをWebサイトに掲載することで得られるメリットをご紹介します。

Web上にPDFファイルを掲載するメリット

Web上にPDFファイルを掲載するメリット

PDFファイルは、Portable Document Format(ポータブル・ドキュメント・フォーマット)の名前の由来通り、従来紙に印刷していた情報を、デザインやレイアウトを残したまま表現できる電子化文書です。

再現性が高く、かつ固定化した情報を配布する用途に適しています。PDFリーダーがあれば閲覧できる汎用性も受け手にとっては重要です。

WebでPDFファイルを掲載するメリット

Web上でのPDFファイル掲載のメリットには以下が挙げられます。

  • レイアウト崩れや文字化けがないため閲覧環境を選ばない。
  • 表示通りのレイアウトでプリントアウトが可能。
  • 文書の改竄防止や各種セキュリティ設定が可能。
  • テキスト情報を保持できるため文書内の検索が可能。
  • ページボリュームのある文書も比較的データ容量をコンパクトにできる。

セキュリティが重要視されるWeb上では、PDFファイルの活用は非常に有効な手段となります。また、環境に依存せずPDFファイルの管理者や閲覧ユーザにとって使い勝手が良いことから、PDFファイルを掲載しているWebサイトは少なくありません。

しかし、PDFファイルをWebサイトに複数掲載することで、訪問したユーザが陥りがちな残念な検索ループが存在します。

サイトのPDF検索で陥りがちな残念な検索ループ

よくあるがっかりなPDFファイル利用
前述したようにWebサイトにPDFファイルを掲載するメリットはありますが、一方でユーザに使いづらさを感じさせてしまう可能性がある「陥りがちな残念な検索ループ」の事例をご紹介します。

よくあるがっかりなPDFファイル利用

PDFファイルは汎用性が高く便利なフォーマットである一方で、Webサイトで探している情報がPDFファイルであった場合、ファイルをダウンロードして中身を確認するのは面倒、と感じたことがある方は多いのではないでしょうか?

サイト内検索でPDFファイルがヒットすると、ファイルをダウンロードして開き、文書の中身をもう一度検索して、該当のページを探し出す必要があります。さらに、開いたPDFファイルが目的の内容と違っていた場合には、再度検索をやり直す必要があります。

このような手間の多さから、せっかくのPDFコンテンツが活用してもらえないばかりか、情報を探しているユーザにとって使いづらいと感じさせてしまう可能性があります。

PDFファイルのサイズが重すぎて表示に時間がかかる

PDFファイルのデータサイズが大きすぎると、表示に時間がかかってしまうことがあります。一つひとつ時間をかけて開いた中身が、求めている内容ではなかった、もしくは目的のものが見つからなかったという経験をされた方は多いと思います。

重すぎるPDFファイルをいくつも繰り返しダウンロードして確認するストレスは、ユーザビリティの低下につながります。

こうした課題の解決方法として、Webサイト上のPDFファイルの検索性や閲覧性を手軽に改善できる「PDFナビ」の導入がおすすめです。次の章ではこの「PDFナビ」を詳しくご紹介していきます。

複数のファイルから一括で全文検索ができるPDFナビ

複数のファイルから一括で全文検索ができるPDFナビ

HTMLだけでは再現できない、独自のメリットを持つPDFファイルをWebサイトで効果的に活用するためのポイントとなるのが次の3つです。

  • 検索性の補完
  • 閲覧性の向上
  • ファイルサイズへの配慮

ファイル内の情報を探しやすく、かつ見やすく、使い勝手を改善することで、PDFファイルの利用を促進しWebサイトの情報提供力とユーザビリティを向上させることができます。

PDFファイルの活用を促進するPDF検索・閲覧機能による改善策をご紹介します。PDFナビはPDFファイルをサーバ上にアップするだけでページ単位での全文検索が利用いただけます。

検索性の補完

検索性の補完

PDFをファイル単位ではなく、ページ単位で全文検索することで、キーワードにヒットした情報が「どのファイル」の「どのページ」にあるかまでピンポイントでわかります。

閲覧性の向上閲覧性の向上

検索結果では、ファイル名の羅列になりがちなPDFファイルを、ページのサムネイルとファイルごとのグルーピングで探しやすく、かつ見やすく表示します。

目的のページへのダイレクトな到達と、複数ページのファイルに適した一覧性を備えています。さらに、見つかったページは2つのプレビュー表示で快適に閲覧することができます。

ファルサイズへの配慮

通常、PDFファイルの検索では、探している情報があると思われるPDFファイルのリンクをクリックすると、ファイル全体のダウンロードが開始されます。PDFナビでは、重たいファイルでもダウンロードを行なう前にブラウザ上でプレビューを表示して、目的のページのみをスピーディに確認することができます。

既存のPDFファイルも、ナビゲーションを工夫して活用することでWebサイトの情報提供力の強化が可能です。さらに、PDFファイルでサポート情報を充実させることで、スムーズなお客様サポートを可能にして、お問い合わせ対応の手間とコスト削減が期待できます。

ぜひ、自社の貴重なコンテンツであるPDFファイル活用を実践してみてください。


▼ページ単位で全文検索できるPDFナビ▼

PDFナビの詳細・サービス資料はこちら

まとめ

Web上でPDFファイルを掲載するメリットから、活用方法の注意点まで解説しました。

PDFファイルの検索は、基本的にファイル単位での検索が一般的ですが、前述したように、PDFナビを利用することで細かなページでの検索が可能になります。PDFナビは乳製品や牛乳の製造販売で有名な雪印メグミルク様のホームページにも導入されています。

雪印メグミルク株式会社様では、PDFナビの検索性・関連性の高さと、複数ドメインの横断検索が可能な点を評価いただき導入につながりました。

WebサイトでのPDFファイル掲載や検索に課題をお持ちの方は、PDFナビのご検討をおすすめします。

<PDFファイル活用事例>

サイト内検索ノウハウのオススメ記事


ENIEE SEARCH編集部

GENIEE SEARCH編集部
(X:@BST_hoshiko

ECサイトや企業サイトにおける快適なユーザ体験を実現するための導線改善方法から、ECマーケティングの手法まで幅広く情報を発信しています。

新着事例

株式会社チヨダ様

資料ダウンロード

いいね!で最新情報を受け取る

TOP