add notion sync

6cc4f47d · Jyong · a5a61197 · 6cc4f47d · 6cc4f47d
Commit 6cc4f47d authored Jun 05, 2023 by Jyong
Hide whitespace changes
Inline Side-by-side

Showing with 168 additions and 149 deletions

datasets_document.py api/controllers/console/datasets/datasets_document.py +8 -12

dataset_service.py api/services/dataset_service.py +160 -137

No files found.
--- a/api/controllers/console/datasets/datasets_document.py
+++ b/api/controllers/console/datasets/datasets_document.py
@@ -101,6 +101,7 @@ class DocumentResource(Resource):
        return documents
 class GetProcessRuleApi(Resource):
    @setup_required
    @login_required
@@ -364,16 +365,11 @@ class DocumentIndexingStatusApi(DocumentResource):
        documents = self.get_batch_documents(dataset_id, batch)
        documents_status = []
        for document in documents:
-            completed_segments = DocumentSegment.query \
+            completed_segments = DocumentSegment.query.filter(DocumentSegment.completed_at.isnot(None),
-                .filter(DocumentSegment.completed_at.isnot(None),
+                                                              DocumentSegment.document_id == str(document.id),
-                        DocumentSegment.document_id == str(document.id),
+                                                              DocumentSegment.status != 're_segment').count()
-                        DocumentSegment.status != 're_segment') \
+            total_segments = DocumentSegment.query.filter(DocumentSegment.document_id == str(document.id),
-                    )
+                                                          DocumentSegment.status != 're_segment').count()
-                .count()
-            total_segments = DocumentSegment.query \
-                .filter_by(document_id=str(document.id)) \
-                .count()
            document.completed_segments = completed_segments
            document.total_segments = total_segments
            documents_status.append(marshal(document, self.document_status_fields))
@@ -427,7 +423,7 @@ class DocumentDetailApi(DocumentResource):
                'disabled_by': document.disabled_by,
                'archived': document.archived,
                'segment_count': document.segment_count,
-                'average_segment_length':   document.average_segment_length,
+                'average_segment_length': document.average_segment_length,
                'hit_count': document.hit_count,
                'display_status': document.display_status
            }
@@ -447,7 +443,7 @@ class DocumentDetailApi(DocumentResource):
                'created_at': document.created_at.timestamp(),
                'tokens': document.tokens,
                'indexing_status': document.indexing_status,
-                'completed_at': int(document.completed_at.timestamp())if document.completed_at else None,
+                'completed_at': int(document.completed_at.timestamp()) if document.completed_at else None,
                'updated_at': int(document.updated_at.timestamp()) if document.updated_at else None,
                'indexing_latency': document.indexing_latency,
                'error': document.error,

--- a/api/services/dataset_service.py
+++ b/api/services/dataset_service.py
@@ -382,90 +382,92 @@ class DocumentService:
        if dataset.indexing_technique == 'high_quality':
            IndexBuilder.get_default_service_context(dataset.tenant_id)
+        documents = []
        if 'original_document_id' in document_data and document_data["original_document_id"]:
            document = DocumentService.update_document_with_dataset_id(dataset, document_data, account)
-        # save process rule
+            documents.append(document)
-        if not dataset_process_rule:
+        else:
-            process_rule = document_data["process_rule"]
+            # save process rule
-            if process_rule["mode"] == "custom":
+            if not dataset_process_rule:
-                dataset_process_rule = DatasetProcessRule(
+                process_rule = document_data["process_rule"]
-                    dataset_id=dataset.id,
+                if process_rule["mode"] == "custom":
-                    mode=process_rule["mode"],
+                    dataset_process_rule = DatasetProcessRule(
-                    rules=json.dumps(process_rule["rules"]),
+                        dataset_id=dataset.id,
-                    created_by=account.id
+                        mode=process_rule["mode"],
-                )
+                        rules=json.dumps(process_rule["rules"]),
-            elif process_rule["mode"] == "automatic":
+                        created_by=account.id
-                dataset_process_rule = DatasetProcessRule(
-                    dataset_id=dataset.id,
-                    mode=process_rule["mode"],
-                    rules=json.dumps(DatasetProcessRule.AUTOMATIC_RULES),
-                    created_by=account.id
-                )
-            db.session.add(dataset_process_rule)
-            db.session.commit()
-        position = DocumentService.get_documents_position(dataset.id)
-        batch = time.strftime('%Y%m%d%H%M%S') + str(random.randint(100000, 999999))
-        document_ids = []
-        documents = []
-        if document_data["data_source"]["type"] == "upload_file":
-            upload_file_list = document_data["data_source"]["info"]
-            for upload_file in upload_file_list:
-                file_id = upload_file["upload_file_id"]
-                file = db.session.query(UploadFile).filter(
-                    UploadFile.tenant_id == dataset.tenant_id,
-                    UploadFile.id == file_id
-                ).first()
-                # raise error if file not found
-                if not file:
-                    raise FileNotExistsError()
-                file_name = file.name
-                data_source_info = {
-                    "upload_file_id": file_id,
-                }
-                document = DocumentService.save_document(dataset, dataset_process_rule.id,
-                                                         document_data["data_source"]["type"],
-                                                         data_source_info, created_from, position,
-                                                         account, file_name, batch)
-                db.session.add(document)
-                db.session.flush()
-                document_ids.append(document.id)
-                documents.append(document)
-                position += 1
-        elif document_data["data_source"]["type"] == "notion_import":
-            notion_info_list = document_data["data_source"]['info']
-            for notion_info in notion_info_list:
-                workspace_id = notion_info['workspace_id']
-                data_source_binding = DataSourceBinding.query.filter(
-                    db.and_(
-                        DataSourceBinding.tenant_id == current_user.current_tenant_id,
-                        DataSourceBinding.provider == 'notion',
-                        DataSourceBinding.disabled == False,
-                        DataSourceBinding.source_info['workspace_id'] == f'"{workspace_id}"'
                    )
-                ).first()
+                elif process_rule["mode"] == "automatic":
-                if not data_source_binding:
+                    dataset_process_rule = DatasetProcessRule(
-                    raise ValueError('Data source binding not found.')
+                        dataset_id=dataset.id,
-                for page in notion_info['pages']:
+                        mode=process_rule["mode"],
+                        rules=json.dumps(DatasetProcessRule.AUTOMATIC_RULES),
+                        created_by=account.id
+                    )
+                db.session.add(dataset_process_rule)
+                db.session.commit()
+            position = DocumentService.get_documents_position(dataset.id)
+            batch = time.strftime('%Y%m%d%H%M%S') + str(random.randint(100000, 999999))
+            document_ids = []
+            if document_data["data_source"]["type"] == "upload_file":
+                upload_file_list = document_data["data_source"]["info"]
+                for upload_file in upload_file_list:
+                    file_id = upload_file["upload_file_id"]
+                    file = db.session.query(UploadFile).filter(
+                        UploadFile.tenant_id == dataset.tenant_id,
+                        UploadFile.id == file_id
+                    ).first()
+                    # raise error if file not found
+                    if not file:
+                        raise FileNotExistsError()
+                    file_name = file.name
                    data_source_info = {
-                        "notion_workspace_id": workspace_id,
+                        "upload_file_id": file_id,
-                        "notion_page_id": page['page_id'],
                    }
                    document = DocumentService.save_document(dataset, dataset_process_rule.id,
                                                             document_data["data_source"]["type"],
                                                             data_source_info, created_from, position,
-                                                             account, page['page_name'], batch)
+                                                             account, file_name, batch)
                    db.session.add(document)
                    db.session.flush()
                    document_ids.append(document.id)
                    documents.append(document)
                    position += 1
+            elif document_data["data_source"]["type"] == "notion_import":
+                notion_info_list = document_data["data_source"]['info']
+                for notion_info in notion_info_list:
+                    workspace_id = notion_info['workspace_id']
+                    data_source_binding = DataSourceBinding.query.filter(
+                        db.and_(
+                            DataSourceBinding.tenant_id == current_user.current_tenant_id,
+                            DataSourceBinding.provider == 'notion',
+                            DataSourceBinding.disabled == False,
+                            DataSourceBinding.source_info['workspace_id'] == f'"{workspace_id}"'
+                        )
+                    ).first()
+                    if not data_source_binding:
+                        raise ValueError('Data source binding not found.')
+                    for page in notion_info['pages']:
+                        data_source_info = {
+                            "notion_workspace_id": workspace_id,
+                            "notion_page_id": page['page_id'],
+                        }
+                        document = DocumentService.save_document(dataset, dataset_process_rule.id,
+                                                                 document_data["data_source"]["type"],
+                                                                 data_source_info, created_from, position,
+                                                                 account, page['page_name'], batch)
+                        db.session.add(document)
+                        db.session.flush()
+                        document_ids.append(document.id)
+                        documents.append(document)
+                        position += 1
-        db.session.commit()
+            db.session.commit()
-        # trigger async task
+            # trigger async task
-        document_indexing_task.delay(dataset.id, document_ids)
+            document_indexing_task.delay(dataset.id, document_ids)
        return documents
@@ -486,76 +488,97 @@ class DocumentService:
        )
        return document
-@staticmethod
+    @staticmethod
-def update_document_with_dataset_id(dataset: Dataset, document_data: dict,
+    def update_document_with_dataset_id(dataset: Dataset, document_data: dict,
-                                    account: Account, dataset_process_rule: Optional[DatasetProcessRule] = None,
+                                        account: Account, dataset_process_rule: Optional[DatasetProcessRule] = None,
-                                    created_from: str = 'web'):
+                                        created_from: str = 'web'):
-    document = DocumentService.get_document(dataset.id, document_data["original_document_id"])
+        document = DocumentService.get_document(dataset.id, document_data["original_document_id"])
-    if document.display_status != 'available':
+        if document.display_status != 'available':
-        raise ValueError("Document is not available")
+            raise ValueError("Document is not available")
-    # save process rule
+        # save process rule
-    if 'process_rule' in document_data and document_data['process_rule']:
+        if 'process_rule' in document_data and document_data['process_rule']:
-        process_rule = document_data["process_rule"]
+            process_rule = document_data["process_rule"]
-        if process_rule["mode"] == "custom":
+            if process_rule["mode"] == "custom":
-            dataset_process_rule = DatasetProcessRule(
+                dataset_process_rule = DatasetProcessRule(
-                dataset_id=dataset.id,
+                    dataset_id=dataset.id,
-                mode=process_rule["mode"],
+                    mode=process_rule["mode"],
-                rules=json.dumps(process_rule["rules"]),
+                    rules=json.dumps(process_rule["rules"]),
-                created_by=account.id
+                    created_by=account.id
-            )
+                )
-        elif process_rule["mode"] == "automatic":
+            elif process_rule["mode"] == "automatic":
-            dataset_process_rule = DatasetProcessRule(
+                dataset_process_rule = DatasetProcessRule(
-                dataset_id=dataset.id,
+                    dataset_id=dataset.id,
-                mode=process_rule["mode"],
+                    mode=process_rule["mode"],
-                rules=json.dumps(DatasetProcessRule.AUTOMATIC_RULES),
+                    rules=json.dumps(DatasetProcessRule.AUTOMATIC_RULES),
-                created_by=account.id
+                    created_by=account.id
-            )
+                )
-        db.session.add(dataset_process_rule)
+            db.session.add(dataset_process_rule)
+            db.session.commit()
+            document.dataset_process_rule_id = dataset_process_rule.id
+        # update document data source
+        if 'data_source' in document_data and document_data['data_source']:
+            file_name = ''
+            data_source_info = {}
+            if document_data["data_source"]["type"] == "upload_file":
+                upload_file_list = document_data["data_source"]["info"]
+                for upload_file in upload_file_list:
+                    file_id = upload_file["upload_file_id"]
+                    file = db.session.query(UploadFile).filter(
+                        UploadFile.tenant_id == dataset.tenant_id,
+                        UploadFile.id == file_id
+                    ).first()
+                    # raise error if file not found
+                    if not file:
+                        raise FileNotExistsError()
+                    file_name = file.name
+                    data_source_info = {
+                        "upload_file_id": file_id,
+                    }
+            elif document_data["data_source"]["type"] == "notion_import":
+                notion_info_list = document_data["data_source"]['info']
+                for notion_info in notion_info_list:
+                    workspace_id = notion_info['workspace_id']
+                    data_source_binding = DataSourceBinding.query.filter(
+                        db.and_(
+                            DataSourceBinding.tenant_id == current_user.current_tenant_id,
+                            DataSourceBinding.provider == 'notion',
+                            DataSourceBinding.disabled == False,
+                            DataSourceBinding.source_info['workspace_id'] == f'"{workspace_id}"'
+                        )
+                    ).first()
+                    if not data_source_binding:
+                        raise ValueError('Data source binding not found.')
+                    for page in notion_info['pages']:
+                        data_source_info = {
+                            "notion_workspace_id": workspace_id,
+                            "notion_page_id": page['page_id'],
+                        }
+            document.data_source_type = document_data["data_source"]["type"]
+            document.data_source_info = json.dumps(data_source_info)
+            document.name = file_name
+        # update document to be waiting
+        document.indexing_status = 'waiting'
+        document.completed_at = None
+        document.processing_started_at = None
+        document.parsing_completed_at = None
+        document.cleaning_completed_at = None
+        document.splitting_completed_at = None
+        document.updated_at = datetime.datetime.utcnow()
+        document.created_from = created_from
+        db.session.add(document)
        db.session.commit()
-        document.dataset_process_rule_id = dataset_process_rule.id
+        # update document segment
-    # update document data source
+        update_params = {
-    if 'data_source' in document_data and document_data['data_source']:
+            DocumentSegment.status: 're_segment'
-        file_name = ''
+        }
-        data_source_info = {}
+        DocumentSegment.query.filter_by(document_id=document.id).update(update_params)
-        if document_data["data_source"]["type"] == "upload_file":
+        db.session.commit()
-            file_id = document_data["data_source"]["info"]
+        # trigger async task
-            file = db.session.query(UploadFile).filter(
+        document_indexing_update_task.delay(document.dataset_id, document.id)
-                UploadFile.tenant_id == dataset.tenant_id,
-                UploadFile.id == file_id
-            ).first()
-            # raise error if file not found
-            if not file:
-                raise FileNotExistsError()
-            file_name = file.name
-            data_source_info = {
-                "upload_file_id": file_id,
-            }
-        document.data_source_type = document_data["data_source"]["type"]
-        document.data_source_info = json.dumps(data_source_info)
-        document.name = file_name
-    # update document to be waiting
-    document.indexing_status = 'waiting'
-    document.completed_at = None
-    document.processing_started_at = None
-    document.parsing_completed_at = None
-    document.cleaning_completed_at = None
-    document.splitting_completed_at = None
-    document.updated_at = datetime.datetime.utcnow()
-    document.created_from = created_from
-    db.session.add(document)
-    db.session.commit()
-    # update document segment
-    update_params = {
-        DocumentSegment.status: 're_segment'
-    }
-    DocumentSegment.query.filter_by(document_id=document.id).update(update_params)
-    db.session.commit()
-    # trigger async task
-    document_indexing_update_task.delay(document.dataset_id, document.id)
-    return document
+        return document
    @staticmethod
    def save_document_without_dataset_id(tenant_id: str, document_data: dict, account: Account):