first commit

2026-01-11 16:09:16 +08:00
parent 38192d5b9d
commit df1279633e
9 changed files with 4119 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@@ -1,3 +1,9 @@
+# custom .gitignore
+.claude/
+.vscode/
+paper/
+papers_chroma_db/
+
 # ---> Python
 # Byte-compiled / optimized / DLL files
 __pycache__/
--- a/.python-version
+++ b/.python-version
@@ -0,0 +1 @@
+3.12
--- a/embeddings.py
+++ b/embeddings.py
@@ -0,0 +1,70 @@
+"""
+嵌入模型模块
+
+提供多种文本嵌入模型的统一接口
+"""
+
+from abc import ABC, abstractmethod
+from typing import Optional
+
+from langchain_huggingface import HuggingFaceEmbeddings
+from langchain_openai import OpenAIEmbeddings
+
+
+class BaseEmbeddings(ABC):
+    """嵌入模型基类"""
+
+    @abstractmethod
+    def get_embeddings(self):
+        """获取 LangChain 兼容的 embeddings 实例"""
+        pass
+
+
+class HuggingFaceEmbeddingsProvider(BaseEmbeddings):
+    """HuggingFace 本地嵌入模型提供者"""
+
+    def __init__(self, model_name: str):
+        """
+        初始化 HuggingFace 嵌入模型
+
+        Args:
+            model_name: 模型名称或路径
+        """
+        self.model_name = model_name
+        self._embeddings: Optional[HuggingFaceEmbeddings] = None
+
+    def get_embeddings(self) -> HuggingFaceEmbeddings:
+        """获取 HuggingFace embeddings 实例（懒加载）"""
+        if self._embeddings is None:
+            print(f"[INFO] Initializing HuggingFace embeddings: {self.model_name}")
+            self._embeddings = HuggingFaceEmbeddings(model_name=self.model_name)
+        return self._embeddings
+
+
+class OpenAIEmbeddingsProvider(BaseEmbeddings):
+    """OpenAI API 嵌入模型提供者"""
+
+    def __init__(self, api_key: str, base_url: str, model: str = "text-embedding-3-large"):
+        """
+        初始化 OpenAI 嵌入模型
+
+        Args:
+            api_key: OpenAI API 密钥
+            base_url: API 基础 URL
+            model: 嵌入模型名称
+        """
+        self.api_key = api_key
+        self.base_url = base_url
+        self.model = model
+        self._embeddings: Optional[OpenAIEmbeddings] = None
+
+    def get_embeddings(self) -> OpenAIEmbeddings:
+        """获取 OpenAI embeddings 实例（懒加载）"""
+        if self._embeddings is None:
+            print(f"[INFO] Initializing OpenAI embeddings: {self.model}")
+            self._embeddings = OpenAIEmbeddings(
+                model=self.model,
+                api_key=self.api_key,
+                openai_api_base=self.base_url
+            )
+        return self._embeddings
--- a/ingest_pipeline.py
+++ b/ingest_pipeline.py
@@ -0,0 +1,147 @@
+"""
+学术论文向量化和存储系统
+
+模块化、面向对象的论文检索系统，支持将论文文档向量化并持久化到 Chroma 向量数据库。
+
+Usage:
+    # 基本用法
+    python papers_embedding.py --input xxx.md
+
+    # 自定义输出目录
+    python papers_embedding.py --input xxx.md --output ./my_db
+
+    # 程序化调用
+    from papers_embedding import PaperIngestionPipeline
+    pipeline = PaperIngestionPipeline()
+    pipeline.ingest(Path("icde2025.md"))
+"""
+
+import os
+import argparse
+from pathlib import Path
+from typing import Optional
+
+from dotenv import load_dotenv
+
+from parsers import BaseParser, MarkdownPaperParser, PaperFileReader
+from embeddings import BaseEmbeddings, HuggingFaceEmbeddingsProvider, OpenAIEmbeddingsProvider
+from vector_stores import BaseVectorStore, ChromaVectorStore
+
+
+# ============================================================================
+# Pipeline: 数据摄取管道
+# ============================================================================
+
+class PaperIngestionPipeline:
+    """
+    论文摄取管道
+
+    整合解析、嵌入、存储三个模块，提供完整的论文向量化流程
+    """
+
+    def __init__(
+        self,
+        parser: Optional[BaseParser] = None,
+        embeddings_provider: Optional[BaseEmbeddings] = None,
+        vector_store: Optional[BaseVectorStore] = None,
+    ):
+        """
+        初始化摄取管道
+
+        Args:
+            parser: 论文解析器（默认 MarkdownPaperParser）
+            embeddings_provider: 嵌入模型提供者（需显式指定）
+            vector_store: 向量存储（需显式指定）
+        """
+        self.parser = parser or MarkdownPaperParser()
+        self.embeddings_provider = embeddings_provider
+        self.vector_store = vector_store
+
+    def ingest(self, input_file: Path) -> None:
+        """
+        执行论文摄取流程
+
+        Args:
+            input_file: 输入论文文件路径
+
+        Raises:
+            ValueError: 如果未配置 embeddings_provider 或 vector_store
+        """
+        if self.embeddings_provider is None:
+            raise ValueError("embeddings_provider must be configured")
+        if self.vector_store is None:
+            raise ValueError("vector_store must be configured")
+
+        # Step 1: 解析论文
+        reader = PaperFileReader(self.parser)
+        texts, metadatas = reader.read(input_file)
+
+        # Step 2 & 3: 向量化并存储
+        self.vector_store.persist(texts, metadatas)
+
+
+# ============================================================================
+# CLI Interface
+# ============================================================================
+
+def create_default_pipeline(output_dir: str) -> PaperIngestionPipeline:
+    """
+    创建默认配置的摄取管道
+
+    Args:
+        output_dir: 输出目录路径
+
+    Returns:
+        配置好的 PaperIngestionPipeline 实例
+    """
+    load_dotenv()
+
+    # 可选：使用 HuggingFace 本地模型
+    # embeddings = HuggingFaceEmbeddingsProvider(
+    #     model_name=r"E:\hf_models\all-mpnet-base-v2"
+    # )
+
+    # 使用 OpenAI API
+    embeddings = OpenAIEmbeddingsProvider(
+        api_key=os.getenv("OPENAI_API_KEY"),
+        base_url="https://api.chatanywhere.tech/v1",
+        model="text-embedding-3-large"
+    )
+
+    vector_store = ChromaVectorStore(
+        persist_directory=Path(output_dir),
+        embeddings_provider=embeddings
+    )
+
+    return PaperIngestionPipeline(
+        embeddings_provider=embeddings,
+        vector_store=vector_store
+    )
+
+
+def main() -> None:
+    """命令行入口"""
+    parser = argparse.ArgumentParser(
+        description="将论文 Markdown 文件向量化并存储到 Chroma 数据库"
+    )
+    parser.add_argument(
+        "--input", "-i",
+        type=str,
+        required=True,
+        help="输入的 Markdown 论文文件路径"
+    )
+    parser.add_argument(
+        "--output", "-o",
+        type=str,
+        default="papers_chroma_db",
+        help="Chroma 数据库输出目录（默认: papers_chroma_db）"
+    )
+    args = parser.parse_args()
+
+    # 创建并执行管道
+    pipeline = create_default_pipeline(args.output)
+    pipeline.ingest(Path(args.input))
+
+
+if __name__ == "__main__":
+    main()
--- a/parsers.py
+++ b/parsers.py
@@ -0,0 +1,137 @@
+"""
+数据解析模块
+
+提供论文文档的解析功能，支持多种格式（当前实现 Markdown 格式）
+"""
+
+import re
+from abc import ABC, abstractmethod
+from pathlib import Path
+from typing import List, Tuple
+
+
+class BaseParser(ABC):
+    """解析器基类"""
+
+    @abstractmethod
+    def parse(self, content: str) -> Tuple[List[str], List[dict]]:
+        """
+        解析内容文本
+
+        Args:
+            content: 待解析的文本内容
+
+        Returns:
+            (texts, metadatas): 文本列表和对应的元数据列表
+        """
+        pass
+
+
+class MarkdownPaperParser(BaseParser):
+    """
+    Markdown 格式论文解析器
+
+    解析格式:
+    - 论文以 '---' 分隔
+    - 每篇论文以 '## Title' 开头
+    - 内容包含标题、摘要和其他部分
+    """
+
+    def __init__(self, separator: str = r'\n---\s*\n', title_pattern: str = r'^##\s+(.+)$'):
+        """
+        初始化解析器
+
+        Args:
+            separator: 论文分隔符正则表达式
+            title_pattern: 标题匹配正则表达式
+        """
+        self.separator = separator
+        self.title_pattern = title_pattern
+
+    def parse(self, content: str) -> Tuple[List[str], List[dict]]:
+        """
+        解析 markdown 格式的论文内容
+
+        Args:
+            content: markdown 文件内容
+
+        Returns:
+            (texts, metadatas): 论文文本列表和元数据列表
+
+        Raises:
+            ValueError: 如果未找到有效论文
+        """
+        raw_chunks = re.split(self.separator, content)
+
+        texts: List[str] = []
+        metadatas: List[dict] = []
+
+        for chunk in raw_chunks:
+            chunk = chunk.strip()
+            if not chunk:
+                continue
+
+            # 提取标题
+            title_match = re.search(self.title_pattern, chunk, re.MULTILINE)
+            if not title_match:
+                self._handle_missing_title(chunk)
+                continue
+
+            title = title_match.group(1).strip()
+            paper_content = chunk
+
+            texts.append(paper_content)
+            metadatas.append({
+                "title": title,
+                "content_length": len(paper_content),
+            })
+
+        if not texts:
+            raise ValueError("No valid papers were found in the content.")
+
+        return texts, metadatas
+
+    def _handle_missing_title(self, chunk: str) -> None:
+        """处理缺少标题的论文块"""
+        preview = chunk[:50].replace('\n', ' ')
+        print(f"[WARN] Skipping paper without ## title: {preview}...")
+
+
+class PaperFileReader:
+    """论文文件读取器"""
+
+    def __init__(self, parser: BaseParser):
+        """
+        初始化文件读取器
+
+        Args:
+            parser: 内容解析器实例
+        """
+        self.parser = parser
+
+    def read(self, file_path: Path) -> Tuple[List[str], List[dict]]:
+        """
+        从文件读取并解析论文
+
+        Args:
+            file_path: 论文文件路径
+
+        Returns:
+            (texts, metadatas): 解析后的文本和元数据
+
+        Raises:
+            FileNotFoundError: 如果文件不存在
+        """
+        if not file_path.exists():
+            raise FileNotFoundError(f"Paper file not found: {file_path}")
+
+        print(f"[INFO] Reading papers from: {file_path}")
+        content = file_path.read_text(encoding="utf-8")
+
+        texts, metadatas = self.parser.parse(content)
+
+        # 添加源文件信息到元数据
+        for meta in metadatas:
+            meta["source_file"] = file_path.name
+
+        return texts, metadatas
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -0,0 +1,17 @@
+[project]
+name = "embedding"
+version = "0.1.0"
+description = "Add your description here"
+readme = "README.md"
+requires-python = ">=3.12"
+dependencies = [
+    "chromadb>=1.4.0",
+    "huggingface>=0.0.1",
+    "langchain>=1.2.3",
+    "langchain-community>=0.4.1",
+    "langchain-huggingface>=1.2.0",
+    "langchain-openai>=1.1.7",
+    "python-dotenv>=1.2.1",
+    "requests>=2.32.5",
+    "sentence-transformers>=5.2.0",
+]
--- a/retriever.py
+++ b/retriever.py
@@ -0,0 +1,151 @@
+"""
+学术论文检索工具
+
+Usage:
+    from retriever import retrieve_papers
+    results = retrieve_papers("natural language to SQL")
+"""
+
+from pathlib import Path
+from typing import List
+import os
+from dotenv import load_dotenv
+
+from langchain_community.vectorstores import Chroma
+
+from embeddings import HuggingFaceEmbeddingsProvider, OpenAIEmbeddingsProvider
+from vector_stores import BaseEmbeddings
+
+
+# ============================================================================
+# Configuration
+# ============================================================================
+
+CHROMA_DIR = Path(r"E:\studio2\embedding\papers_chroma_db")
+HUGGINGFACE_MODEL = r"E:\hf_models\all-mpnet-base-v2"
+
+
+# ============================================================================
+# Retrieval Service
+# ============================================================================
+
+class PaperRetriever:
+    """
+    论文检索服务
+
+    使用已有的 embeddings 和 vector_stores 模块进行论文检索
+    """
+
+    def __init__(
+        self,
+        persist_directory: Path,
+        embeddings_provider: BaseEmbeddings,
+    ):
+        """
+        初始化检索器
+
+        Args:
+            persist_directory: Chroma 数据库目录
+            embeddings_provider: 嵌入模型提供者
+        """
+        self.persist_directory = Path(persist_directory)
+        self.embeddings_provider = embeddings_provider
+
+    def _validate_db_exists(self) -> None:
+        """验证向量数据库是否存在"""
+        if not self.persist_directory.exists():
+            raise FileNotFoundError(
+                f"论文知识库目录不存在: {self.persist_directory}，"
+                f"请先运行 papers_embedding.py 生成数据库"
+            )
+
+    def retrieve(self, query: str, k: int = 10) -> List:
+        """
+        从论文向量数据库中检索相关论文
+
+        Args:
+            query: 检索查询文本
+            k: 返回结果数量，默认10
+
+        Returns:
+            检索到的文档列表
+        """
+        self._validate_db_exists()
+
+        embeddings = self.embeddings_provider.get_embeddings()
+        vectorstore = Chroma(
+            persist_directory=str(self.persist_directory),
+            embedding_function=embeddings
+        )
+
+        retriever = vectorstore.as_retriever(search_kwargs={"k": k})
+        docs = retriever.invoke(query)
+
+        print(f"检索到 {len(docs)} 篇相关论文")
+        return docs
+
+
+# ============================================================================
+# Convenience Functions
+# ============================================================================
+
+def create_default_retriever() -> PaperRetriever:
+    """
+    创建默认配置的检索器（使用 HuggingFace 本地模型）
+
+    Returns:
+        配置好的 PaperRetriever 实例
+    """
+    # embeddings = HuggingFaceEmbeddingsProvider(model_name=HUGGINGFACE_MODEL)
+    embeddings = OpenAIEmbeddingsProvider(
+        api_key=os.getenv("OPENAI_API_KEY"),
+        base_url="https://api.chatanywhere.tech/v1",
+        model="text-embedding-3-large"
+    )
+    return PaperRetriever(
+        persist_directory=CHROMA_DIR,
+        embeddings_provider=embeddings
+    )
+
+
+def retrieve_papers(query: str, k: int = 10) -> List:
+    """
+    便捷函数：检索相关论文
+
+    Args:
+        query: 检索查询文本
+        k: 返回结果数量，默认10
+
+    Returns:
+        检索到的文档列表
+    """
+    retriever = create_default_retriever()
+    return retriever.retrieve(query, k)
+
+
+# ============================================================================
+# CLI Interface
+# ============================================================================
+
+def main():
+    """测试检索功能"""
+    import sys
+
+    if len(sys.argv) < 2:
+        query = "natural language to SQL disambiguation"
+    else:
+        query = " ".join(sys.argv[1:])
+
+    load_dotenv()
+    print(f"查询: {query}\n")
+    docs = retrieve_papers(query)
+
+    for i, doc in enumerate(docs, 1):
+        print(f"[{i}] {doc.metadata.get('title', 'N/A')}")
+        # print(f"    来源: {doc.metadata.get('source_file', 'N/A')}")
+        # print(f"    内容预览: {doc.page_content[:200]}...")
+        print()
+
+
+if __name__ == "__main__":
+    main()
--- a/uv.lock
+++ b/uv.lock
--- a/vector_stores.py
+++ b/vector_stores.py
@@ -0,0 +1,64 @@
+"""
+向量存储模块
+
+提供向量数据库的统一接口，当前支持 Chroma
+"""
+
+from abc import ABC, abstractmethod
+from pathlib import Path
+from typing import List
+
+from langchain_community.vectorstores import Chroma
+
+from embeddings import BaseEmbeddings
+
+
+class BaseVectorStore(ABC):
+    """向量存储基类"""
+
+    @abstractmethod
+    def persist(self, texts: List[str], metadatas: List[dict]) -> None:
+        """
+        持久化文本到向量数据库
+
+        Args:
+            texts: 文本列表
+            metadatas: 元数据列表
+        """
+        pass
+
+
+class ChromaVectorStore(BaseVectorStore):
+    """Chroma 向量数据库实现"""
+
+    def __init__(self, persist_directory: Path, embeddings_provider: BaseEmbeddings):
+        """
+        初始化 Chroma 向量存储
+
+        Args:
+            persist_directory: 持久化目录
+            embeddings_provider: 嵌入模型提供者
+        """
+        self.persist_directory = Path(persist_directory)
+        self.embeddings_provider = embeddings_provider
+
+    def persist(self, texts: List[str], metadatas: List[dict]) -> None:
+        """
+        将文本向量化并持久化到 Chroma
+
+        Args:
+            texts: 文本列表
+            metadatas: 元数据列表
+        """
+        self.persist_directory.mkdir(parents=True, exist_ok=True)
+
+        embeddings = self.embeddings_provider.get_embeddings()
+
+        print(f"[INFO] Writing {len(texts)} papers to Chroma: {self.persist_directory}")
+        vectorstore = Chroma.from_texts(
+            texts=texts,
+            metadatas=metadatas,
+            embedding=embeddings,
+            persist_directory=str(self.persist_directory),
+        )
+        print("[OK] Chroma persistence complete.")