fix: hit test npe

090bd7ca · John Wang · e14ffcca · 090bd7ca · 090bd7ca · 090bd7ca
Commit 090bd7ca authored Jun 20, 2023 by John Wang
Showing with 29 additions and 0 deletions

multi_dataset_router_chain.py api/core/chain/multi_dataset_router_chain.py +3 -0

dataset.py api/models/dataset.py +17 -0

hit_testing_service.py api/services/hit_testing_service.py +9 -0

No files found.
--- a/api/core/chain/multi_dataset_router_chain.py
+++ b/api/core/chain/multi_dataset_router_chain.py
@@ -106,6 +106,9 @@ class MultiDatasetRouterChain(Chain):
        dataset_tools = {}
        for dataset in datasets:
            # fulfill description when it is empty
+            if dataset.available_document_count == 0 or dataset.available_document_count == 0:
+                continue
+
            description = dataset.description
            if not description:
                description = 'useful for when you want to answer queries about the ' + dataset.name

--- a/api/models/dataset.py
+++ b/api/models/dataset.py
@@ -66,6 +66,23 @@ class Dataset(db.Model):
    def document_count(self):
        return db.session.query(func.count(Document.id)).filter(Document.dataset_id == self.id).scalar()

+    @property
+    def available_document_count(self):
+        return db.session.query(func.count(Document.id)).filter(
+            Document.dataset_id == self.id,
+            Document.indexing_status == 'completed',
+            Document.enabled == True,
+            Document.archived == False
+        ).scalar()
+
+    @property
+    def available_segment_count(self):
+        return db.session.query(func.count(DocumentSegment.id)).filter(
+            DocumentSegment.dataset_id == self.id,
+            DocumentSegment.status == 'completed',
+            DocumentSegment.enabled == True
+        ).scalar()
+
    @property
    def word_count(self):
        return Document.query.with_entities(func.coalesce(func.sum(Document.word_count))) \

--- a/api/services/hit_testing_service.py
+++ b/api/services/hit_testing_service.py
@@ -20,6 +20,15 @@ from models.dataset import Dataset, DocumentSegment, DatasetQuery
 class HitTestingService:
    @classmethod
    def retrieve(cls, dataset: Dataset, query: str, account: Account, limit: int = 10) -> dict:
+        if dataset.available_document_count == 0 or dataset.available_document_count == 0:
+            return {
+                "query": {
+                    "content": query,
+                    "tsne_position": {'x': 0, 'y': 0},
+                },
+                "records": []
+            }
+
        model_credentials = LLMBuilder.get_model_credentials(
            tenant_id=dataset.tenant_id,
            model_provider=LLMBuilder.get_default_provider(dataset.tenant_id),