自社ウェブサイトのページを対象にしたセマンティック検索システムを作りたい

トピック作成者：TARO (2024/09/05 15:24 投稿)

こんにちは。
KandaSearchを使って、自社ウェブサイトの全ページを対象にセマンティック検索を行いたいと思っています。

システム構成案

graph TB
    Webサイトと検索窓-->セマンティック検索用インスタンス
    Webページクローラー-->Webサイトと検索窓
    subgraph KandaSearch
    Webページクローラー-->セマンティック検索用インスタンス
    end
    subgraph 自社サイト
    Webサイトと検索窓
    end

やりたいこと

自社ウェブサイトの約500ページを対象にしたセマンティック検索。
検索窓はその自社ウェブサイトに設置する。
検索窓に文字を入力し「検索」ボタンをクリックすると検索結果としてページタイトルが検索結果ページで表示され、それクリックすると当該ページが表示される。

環境的なこと

ウェブサイトは、共有レンタルサーバーで独自ドメインで公開中。
ページはほとんどが静的HTMLで、検索対象ページはクロールできる範囲でOK。
レンタルサーバーではPHP、Pythonが利用可能。自社でそれらを使ったプログラミングも可能。
レンタルサーバーではcronが利用可能。

KandaSearchの契約等

スタンダードEntry以上のプランの契約。
Webページクローラーは無料のものを使う。無料版の制約的な部分はそれでOKとする。

ここからが質問です。
セマンティック検索用のフィールドのスキーマ定義と、ドキュメントに記載されているEmbeddingsProcessorFactoryの定義をSolrコンフィグに行ったコレクションがあるとします。

Ｑ１.無償のWebページクローラーを使用してのベクトル計算はどのタイミングで行うのでしょうか？
それとも、無償のWebページクローラーを介したクロールではベクトル計算を行うことは難しいでしょうか？（当方、Solrは詳しくありません。javaも書けません）

Ｑ２．Ｑ１が「できない」場合は、クローラーを自前で用意するなどしてインデクシング用のドキュメントを準備し、EmbeddingsProcessorFactoryを使ってベクトル計算＆インデクシングを行うアプリやスクリプトを自社ウェブサイト上などに作り実行すれば実現できるのでしょうか？

Ｑ３．ドキュメントによれば「EmbeddingsProcessorFactoryは、少量のインデクシング時ベクトル計算を行うのに向くApache SolrのUpdateRequestProcessorです」とあります。今回の用途では使えないのでしょうか？

よろしくお願いします。

トピックへ返信するには、ログインが必要です。

トピック一覧へ戻る