大模型相关资源

双语文本挖掘（Bitext Mining）
- 目标：寻找两种语言句子集之间的最佳匹配。
- 流程：输入是来自两种不同语言的两个句子集，对于来自第一个句子集的句子，找到在第二个子集中最匹配的句子。模型将句子编码成向量后用余弦相似度来寻找最相似的句子对。
- 评估指标：F1（主指标）、准确率、召回率。
文本分类（Classification）
- 目标：基于嵌入向量标注文本类别（如情感分析、新闻分类）
- 流程：用嵌入向量训练LR分类器（限制100次迭代），然后使用测试集来打分。
- 评估指标：准确率（多分类）、精确率（二分类）
文本聚类（Clustering）
- 目标：将句子或段落分组为有意义的簇
- 流程：在编码后的文档上训练一个 mini-batch k-means 模型(batch size=32, k=标签个数)
- 评估指标：V-measure（平衡同质性和完整性）
句子对分类（Pair Classification）
- 目标：判断两文本是否语义等价（如重复问题检测）
- 流程：计算文本对多种距离（余弦、点积、欧氏、曼哈顿等），优化阈值判断二元关系
- 评估指标：基于余弦相似度的平均精度（AP）
重排序（Reranking）
- 目标：根据与查询的相关性对结果进行重新排序
- 流程：输入是一个查询语句以及一个包含相关和不相关文本的列表。模型编码文本后比较与查询语句的余弦相似性。
- 评估指标：MAP（Mean Average Precision，主指标）
检索（Retrieval）
- 目标：从海量文档中找出相关结果（如知识库问答）
- 流程：编码查询和语料库文档，计算余弦相似度返回Top-k
- 评估指标：nDCG@10（主指标）、Recall@k、MRR@k
语义文本相似度（STS）
- 目标：量化句子对的语义相关性（如FAQ匹配）
- 流程：嵌入句子后计算相似度（如余弦），与人工评分标签对比
- 评估指标：基于余弦的Spearman相关系数（主指标）
摘要（Summarization）
- 目标：评估机器生成摘要的质量
- 流程：嵌入人工摘要与机器摘要，计算机器摘要与最近人工摘要的相似度
- 评估指标：Spearman相关性（主指标）

指标(NDCG@k,MRR@k,Recall@k)

MTEB 论文 3.2 节 Tasks and Evaluation 中 Retrieval 任务的指标说明中提到指标计算沿用了 BEIR 论文：

After ranking the corpus documents for each query based on the scores, nDCG@k, MRR@k, MAP@k, precision@k and recall@k are computed for several values of k. nDCG@10 serves as the main metric. MTEB reuses datasets and evaluation from BEIR (Thakur et al., 2021)

BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models
https://arxiv.org/abs/2104.08663

BEIR 论文中附录 G Capped Recall@k Score 中有 recall@k 的计算公式及说明：

Recall at k is calculated as the fraction of the relevant documents that are successfully retrieved within the top k extracted documents. More formally, the R@k score is calculated as:

$$R@k = \frac{1}{|Q|} \sum_{i=1}^{|Q|} \frac{|\max_k(A_i) \cap A_i^{}|}{|A_i^{}|}$$

where Q is the set of queries, $A_i^{*}$ is the set of relevant documents for the $i$ th query, and $A_i$ is a scored list of documents provided by the model, from which top k are extracted.

也就是 $|A_i^{}|$ 是 Ground Truth 标注集个数，$A_i$ 是模型召回的文档。
但是，为了避免 GT 个数很大时 Recall@k 值过小，recall@k 的分母取值是 k 和 $|A_i^{}|$ 的最小值：

However measuring recall can be counterintuitive, if a high number of relevant documents (> k) are present within a dataset. For example, consider a hypothetical dataset with 500 relevant documents for a query. Retrieving all relevant documents would produce a maximum R@100 score = 0.2, which is quite low and unintuitive. To avoid this we cap the recall score (R_cap@k) at k for datasets if the number of relevant documents for a query greater than k. It is defined as:

$$R_cap@k = \frac{1}{|Q|} \sum_{i=1}^{|Q|} \frac{|\max_k(A_i) \cap A_i^{}|}{\min(k, |A_i^{}|)}$$

where the only difference lies within the denominator where we compute the minimum of k and $|A_i^{}|$, instead of $|A_i^{}|$ present in the original recall.

CMTEB

Chinese Massive Text Embedding Benchmark
https://github.com/FlagOpen/FlagEmbedding/tree/master/research/C_MTEB

Embedding 向量化

向量模型可以将任意文本映射为低维稠密向量，以用于检索、分类、聚类或语义匹配等任务，并可支持为大模型调用外部知识。

BGE 向量模型(BAAI智源)

BAAI(Beijing Academy of Artificial Intelligence) 北京智源人工智能研究院发布最强开源可商用中英文语义向量模型BGE（BAAI General Embedding），在中英文语义检索精度与整体语义表征能力均超越了社区所有同类模型，如 OpenAI 的 text embedding 002等。此外，BGE 保持了同等参数量级模型中的最小向量维度，使用成本更低。
BGE模型将任意文本映射为低维稠密向量，以用于检索、分类、聚类或语义匹配等任务，并可支持为大模型调用外部知识。

C-Pack: Packed Resources For General Chinese Embeddings
https://arxiv.org/abs/2309.07597

FlagOpen / FlagEmbedding
https://github.com/FlagOpen/FlagEmbedding/blob/master/README_zh.md

text2vec-base-chinese 中文语句转向量

中文语句转 768 维向量，可用于语义匹配

shibing624/text2vec-base-chinese
https://huggingface.co/shibing624/text2vec-base-chinese

tao-8k

https://huggingface.co/Amu/tao-8k
Huggingface 开发者 amu 研发并开源的长文本向量表示模型，支持8k上下文长度的长文本向量表示模型，模型效果在 C-MTEB 上居前列，是当前最优的中文长文本embeddings模型之一

Embedding Atlas 向量可视化

https://github.com/apple/embedding-atlas

NDCG 归一化折损累计增益

NDCG(Normalized Discounted Cumulative Gain) 归一化折损累计增益，是信息检索和推荐系统中用于衡量排序质量的核心指标，尤其关注结果的相关性及其位置对整体效果的影响。
通常用在搜索排序任务中，在这样的任务里，通常会返回一个 list 作为搜索排序的结果进行输出，为了验证这个 list 的合理性，就需要对这个 list 的排序进行评价。

核心概念与计算逻辑
1、CG（累计增益，Cumulative Gain）
CG 仅对前 k 个结果的相关性分数简单累加，公式为：
$$CG@k = \sum_{i=1}^k rel_i$$
其中，$rel_i$ 表示第i个位置的结果相关性（比如 es 检索结果的相关性得分 _score，或者简单的召回正确得分即为1）。
局限性：CG未考虑排序位置的影响。例如，高相关性结果排在末尾与前列时，CG值相同。

2、DCG（折损累计增益，Discounted Cumulative Gain）
DCG 在 CG 基础上引入位置折扣因子，降低靠后结果的贡献。常用公式有两种：
（1）基础形式（适用于二元或分级相关性）：
$$DCG@k = rel_1 + \sum_{i=2}^k \frac{rel_i}{\log_2(i+1)}$$

（2）增强形式（适用于多级相关性，如0-5分）：
$$DCG@k = \sum_{i=1}^k \frac{2^{rel_i} - 1}{\log_2(i+1)}$$

核心思想：位置越靠前，对分数的贡献越大（因分母随位置增加而增大）。

3、IDCG（理想DCG，Ideal DCG）
将前 k 个结果按真实相关性从高到低排序后计算 DCG，即完美排序下的最大可能值。
$$IDCG@k = \sum_{i=1}^k \frac{2^{rel_{(i)}} - 1}{\log_2(i+1)}$$
其中，$rel_{(i)}$ 表示降序排列后的相关性分数。

4、NDCG（归一化DCG）
将 DCG 与 IDCG 的比值作为最终指标，公式为：
$$NDCG@k = \frac{DCG@k}{IDCG@k}$$
NDCG 的取值范围为[0, 1]，值越接近1表示排序结果越接近理想状态。

适用领域：

搜索引擎：评估搜索结果排序是否符合用户需求（如高相关结果是否靠前）。
推荐系统：衡量推荐列表的排序质量（如热门商品是否合理分布）。
广告排序：优化广告投放的点击率与收益。

工具

AI工具集

https://ai-bot.cn/

AI工具中文文档库

http://www.aidoczh.com/

MCP 模型上下文协议

MCP(Model Context Protocol) 模型上下文协议，是由 Anthropic 提出并于 2024 年 11 月开源的一种通信协议，旨在解决大型语言模型（LLM）与外部数据源及工具之间无缝集成的需求。

https://mcp.so/

https://mcpservers.org/

https://github.com/modelcontextprotocol/servers

MCP server 开发示例
https://modelcontextprotocol.io/quickstart/server

GitHub MCP Server

https://github.com/github/github-mcp-server

Model Context Protocol(MCP) 编程极速入门

https://github.com/liaokongVFX/MCP-Chinese-Getting-Started-Guide

大模型排行榜与竞技场

OpenCompass 大模型排行榜

大模型榜单
https://rank.opencompass.org.cn/home

大模型竞技场，可对比多个模型的效果
https://opencompass.org.cn/arena

Chatbot Arena 大模型竞技场

https://openlm.ai/chatbot-arena/

AI Ping 大模型服务性能排行榜

https://aiping.cn/

云上大模型应用平台

百度千帆文心一言免费 ERNIE-Speed 模型对接

百度智能云-千帆大模型平台

千帆ModelBuilder 部分ERNIE系列模型免费开放公告

通过ak/sk调用v1接口(baidu格式)

1、注册百度智能云账号，找到自己的 ak，sk，需要实名认证后才能免费调用 ERNIE-Speed-8K
百度智能云-如何获取AKSK

2、进入管理控制台 - 计费管理，选择免费的模型，开通计费。
虽然 ERNIE-Speed-128K 和 ERNIE-Speed-8K 是免费的，但也需要开通计费，否则接口调用报错 {“error_code”:17,”error_msg”:”Open api daily request limit reached”}
千帆 - 管理控制台 - 计费管理

3、把 postman 签名脚本加入 pre-script，配置环境变量 ak、sk
百度智能云-生成签名(认证字符串)的脚本

4、通过api调用 ERNIE-Speed
百度智能云 - 推理服务Api V1 - ERNIE-Speed-128K
https://cloud.baidu.com/doc/WENXINWORKSHOP/s/6ltgkzya5

通过ApiKey调用v2接口(兼容OpenAI格式)

推理服务V2 - 认证鉴权
https://cloud.baidu.com/doc/WENXINWORKSHOP/s/Um2wxbaps

1、在 API Key 查看自己的 Api Key
如果没开通千帆ModelBuilder 权限无法调用接口，需先开通

2、调接口时加个 header 即可： ‘Authorization: Bearer bce-v3/ALTAK-/2d7‘
百度智能云 - 推理服务Api V2 – 完全兼容 OpenAI 标准
https://cloud.baidu.com/doc/WENXINWORKSHOP/s/Fm2vrveyu

阿里百炼大模型平台

https://bailian.console.aliyun.com/

UI界面

Chrome扩展 Page Assist

https://chromewebstore.google.com/detail/page-assist-%E6%9C%AC%E5%9C%B0-ai-%E6%A8%A1%E5%9E%8B%E7%9A%84-web/jfgfiigpkhlkbnfnbobbkinehhfdhndo

Open WebUI

https://github.com/open-webui/open-webui
UI界面，支持 Ollama 和 OpenAI 兼容的 API，支持网页搜索、本地 RAG 集成、权限管理、适配移动端、Markdown 和 LaTeX 等功能

LLMOps 大模型应用平台

Ollama 大模型部署平台

主要通过命令行操作，适合有一定技术背景的用户
https://ollama.com/
https://github.com/ollama/ollama

Mac Ollama+PageAssist本地部署DeepSeekR1

ollama 安装后直接 ollama run deepseek-r1:7b 自动下载并启动模型
或者可以分两步，先下载，再启动
ollama pull deepseek-r1:7b
ollama run deepseek-r1:7b

Mac 上的模型下载目录：~/.ollama/models

ollama ps 查看运行中的模型

ollama ps
NAME              ID              SIZE      PROCESSOR    UNTIL
deepseek-r1:7b    0a8c26691023    6.0 GB    100% GPU     3 minutes from now

停止模型
ollama stop deepseek-r1:7b
注意：默认情况下，模型会在内存中保留 5 分钟后才被卸载，此间如果向模型发送对话，还会立即将模型加载起来。
可以在启动 Ollama 服务器时通过设置 OLLAMA_KEEP_ALIVE 环境变量来更改所有模型加载到内存中的时间。

退出ollama
在 Mac 顶部状态栏找到 ollama 图标，点退出即可。

LM Studio 大模型部署平台

https://lmstudio.ai/
提供图形化用户界面，使得操作更为直观和简单，适合新手和追求易用性的用户

独显 8G 以上显存，推荐选 DeepSeek-R1-Distill-Qwen-7B 或者 DeepSeek-R1-Distill-Qwen-32B

Dify 大模型应用平台

https://dify.ai/zh

LlamaIndex 大模型应用框架

https://github.com/run-llama/llama_index
LlamaIndex 是一个专为构建基于大语言模型（LLM）的数据应用而设计的开源框架，其核心目标是简化私有数据与LLM的集成，实现高效的检索增强生成（RAG）系统。

数据接入层（Data Connectors）
通过 LlamaHub 提供社区维护的300+数据加载器，支持从本地文件（PDF/Word）、云服务（Google Docs/Notion）、数据库（PostgreSQL/MongoDB）等获取数据

from llama_index.core import SimpleDirectoryReader
documents = SimpleDirectoryReader("./data", file_extractor={".pdf": "PDFReader"}).load_data()

索引管理层（Indexes）
向量索引（VectorStoreIndex）：基于嵌入向量（如OpenAI text-embedding）实现语义搜索，适合非结构化数据。
树状索引（TreeIndex）：构建文档层次摘要，提升长文本处理效率（如法律合同分析）。
关键词表索引（KeywordTableIndex）：通过正则表达式和LLM提取关键词，加速精确匹配

from llama_index.core import VectorStoreIndex
index = VectorStoreIndex.from_documents(documents)
index.storage_context.persist(persist_dir="./storage")  # 持久化索引

查询与增强层（Query Interface）
查询引擎（Query Engine）：整合检索与生成，支持问答、摘要和多文档对比。
聊天引擎（Chat Engine）：内置记忆缓冲（ChatMemoryBuffer），实现多轮对话上下文管理。
智能体（Agents）：结合工具（如搜索引擎、API）执行多步骤任务（如“分析财报并生成图表”）

from llama_index.core.agent import ReActAgent
tools = [QueryEngineTool(query_engine=engine, name="财报分析")]
agent = ReActAgent.from_tools(tools)
response = agent.chat("对比Q1和Q2营收趋势")

混合检索（Hybrid Search）
结合向量相似度与BM25关键词算法，提升召回准确率。

from llama_index.retrievers import HybridRetriever
hybrid_retriever = HybridRetriever(vector_retriever, bm25_retriever)

LangSmith 大模型应用平台

https://www.langchain.com/langsmith
LLM DevOps平台，专门用于开发、测试、部署LLM（大语言模型）应用程序。
LangSmith 的关键功能包括链路追踪调试应用、提示工具协作构建提示、数据集管理测试数据、自动评估应用质量、一键部署等。

模型训练/微调

Search-R1

https://github.com/PeterGriffinJin/Search-R1
训练使推理大模型可调用搜索引擎

ZeroSearch

https://github.com/Alibaba-nlp/ZeroSearch?tab=readme-ov-file

模型蒸馏

手把手教你三步极速蒸馏DeepSeek R1，效果媲美OpenAI o3 mini！
https://cloud.baidu.com/news/news_2fd7c390-d23d-434f-b7d3-1689b33fd732

Unsloth 模型微调优化

https://github.com/unslothai/unsloth
用于微调和优化大型语言模型（LLM）的 Python 工具库。它通过动态量化和显存优化技术，提高了模型微调速度，同时将显存占用降低 70%-80%，并支持多种硬件配置、LLM、超长上下文任务等功能。除此之外，还提供了可直接在线体验的 Jupyter Notebook 示例，降低了大模型微调的门槛。

mlx/mlx-examples 苹果的大模型框架及示例

2023年苹果开源的适用于 macOS 和 Apple Silicon 的高效灵活的机器学习框架 MLX
https://github.com/ml-explore/mlx/

mlx-examples 库中包含了各种使用 MLX 框架的独立示例。
https://github.com/ml-explore/mlx-examples

有用示例：
1、Transformer 语言模型训练
https://github.com/ml-explore/mlx-examples/tree/main/transformer_lm
2、使用 LLMs 目录中的 LLaMA、Mistral、通义千问等进行大规模文本生成
https://github.com/ml-explore/mlx-examples/tree/main/llms
3、采用 Mixtral 8x7B 的专家混合 (MoE) 语言模型
https://github.com/ml-explore/mlx-examples/tree/main/llms/mixtral
4、使用 LoRA 或 QLoRA 进行参数高效微调
https://github.com/ml-explore/mlx-examples/tree/main/lora
5、使用 T5 的文本到文本多任务 Transformer
https://github.com/ml-explore/mlx-examples/tree/main/t5
6、使用 BERT 进行双向语言理解
https://github.com/ml-explore/mlx-examples/tree/main/bert

7、用 Stable Diffusion生成图像
https://github.com/ml-explore/mlx-examples/tree/main/stable_diffusion?ref=geekyuncle.com

8、使用 OpenAI 的 Whisper 进行语音识别
https://github.com/ml-explore/mlx-examples/tree/main/whisper?ref=geekyuncle.com

verl 字节火山引擎强化学习框架

https://github.com/volcengine/verl

专为大语言模型（LLM）设计，解决传统强化学习（RL）训练流程复杂、计算效率低的问题，提供灵活、高效、生产就绪的 RL/RLHF（人类反馈强化学习）训练方案

verl 通过 HybridFlow 架构解决了 RLHF 训练的灵活性与效率矛盾，其模块化设计、多模态支持及生产级优化，使其成为 LLM 强化学习领域的标杆工具。无论是学术研究（如复现 DeepSeek-R1）还是工业部署（如字节跳动豆包模型），均验证了其可靠性和前沿性

LLaMA-Factory

https://github.com/hiyouga/LLaMA-Factory

LLaMA-Factory 是由北航团队开发的开源大语言模型（LLM）微调框架，旨在解决传统微调流程复杂、资源消耗大的问题。其核心目标是通过模块化设计和高效算法集成，实现从模型加载、微调训练到推理部署的全流程优化，显著降低技术门槛与硬件成本。

LLaMA-Factory 采用分层模块化设计，分为四大核心组件：
1、模型加载器（Model Loader）

动态加载与修补：支持100+主流模型（如LLaMA-3、ChatGLM、Qwen、Mistral），通过 AutoModel API 自动适配不同架构，结合 RoPE缩放处理长上下文。
量化技术：支持4/8-bit QLoRA（结合NF4与双量化），显存占用降至全参数微调的1/10（例如7B模型仅需6GB显存）。
注意力优化：集成 Flash Attention 与 S²-Attention，加速前向计算。

2、数据工作者（Data Worker）

数据集标准化：统一多轮对话与指令数据格式（如Alpaca、ShareGPT），支持本地/云端数据加载。
预处理流水线：自动分词、截断与模板匹配，适配单轮/多轮任务。

3、训练器（Trainer）

微调算法集成：
- 参数高效微调：LoRA、QLoRA、DoRA，仅调整0.1%-1%参数。
- 训练范式：SFT（监督微调）、DPO（直接偏好优化）、RLHF（人类反馈强化学习）。
分布式加速：支持 DeepSpeed ZeRO、FSDP，实现多GPU并行训练与显存分片。

4、LlamaBoard（可视化界面）

基于Gradio的零代码操作界面，支持参数配置、训练监控（损失曲线、评估指标）与交互式测试。

DPO 直接偏好优化

Direct Preference Optimization: Your Language Model is Secretly a Reward Model
https://arxiv.org/abs/2305.18290

基于人类反馈的强化学习技术（Reinforcement Learning from Human Feedback, RLHF）
直接偏好优化（Direct Preference Optimization, DPO）

传统RLHF（基于人类反馈的强化学习）需先训练奖励模型（Reward Model），再通过强化学习（如PPO算法）优化语言模型，流程复杂且存在训练不稳定、计算成本高、超参数敏感等问题。DPO由Rafailov等人在2023年提出，核心目标是省去显式奖励模型和强化学习循环，将偏好对齐简化为监督学习任务，直接利用偏好数据优化语言模型策略。

直接偏好优化：你的语言模型其实是一个奖励模型
https://hackernoon.com/lang/zh/直接偏好优化你的语言模型其实是一个奖励模型

Agent 强化训练

https://github.com/OpenPipe/ART

数据集/评估

Easy Dataset

https://github.com/ConardLi/easy-dataset

Easy Dataset 是一个专为大型语言模型（LLM）微调而设计的强大数据集创建工具。它旨在解决一个核心痛点：将非结构化的领域知识文档（如PDF、Word、Markdown文件）高效、高质量地转换为结构化的、可用于微调LLM的数据集（如问答对、指令遵循数据）。

Dingo 数据质量评估

https://github.com/DataEval/dingo/blob/dev/README_zh-CN.md
Dingo 是一款数据质量评估工具，帮助你自动化检测数据集中的数据质量问题。Dingo 提供了多种内置的规则和模型评估方法，同时也支持自定义评估方法。Dingo 支持常用的文本数据集和多模态数据集，包括预训练数据集、微调数据集和评测数据集。

主要用于评估大模型训练数据集的质量。

主要有两种质量评估方式：
1、基于规则的
https://github.com/DataEval/dingo/blob/main/dingo/model/rule/rule_common.py
例如

RuleDocRepeat 文本重复
RuleIDCard 包含身份证号
RuleSpecialCharacter 包含特殊字符

2、基于大模型的
https://github.com/DataEval/dingo/blob/main/dingo/model/prompt/prompt_text_quality.py
例如：

PromptTextQualityV3: Your primary objective is to assess the suitability of this dataset for training a large language model

Ragas

https://docs.ragas.io/en/stable/
https://github.com/explodinggradients/ragas

Ragas 是一个专为评估和优化大语言模型应用程序而设计的开源工具库。它的核心目标是解决 LLM 应用（如 RAG 系统、AI 智能体等）在开发和生产过程中面临的评估难题，让评估过程从依赖主观、费时的人工检查转变为客观、数据驱动、可自动化的流程。

客观的评估指标：利用 LLM（如GPT-4）作为“裁判”来评估答案的忠实度、答案相关性等。
忠实度：评估生成的答案是否基于给定的上下文，是否存在事实性错误或“幻觉”。
答案相关性：评估答案是否直接回答了问题。

智能测试集生成：从文档或生产数据中自动生成各种类型的问题（如简单问题、多跳推理问题、需要否定回答的问题等）

推理框架

vLLM

https://docs.vllm.ai/en/latest/
https://github.com/vllm-project/vllm

vLLM 已经成为了 LLM 服务领域的事实标准之一。它通过革命性的 PagedAttention 技术解决了核心的内存瓶颈问题，在提供极高吞吐量的同时，保持了出色的易用性和灵活性。

性能优化

大模型推理性能指标(TTFT/TGR)

大语言模型推理后端基准评测
https://zhuanlan.zhihu.com/p/711229268

Time to First Token (TTFT)：表示由发送请到模型吐出第一个token的时间（以毫秒计）
Token Generation Rate (TGR)：以秒为单位，衡量一秒种内系统吐出的tokens数。

LLM 推理的核心指标

https://ninehills.tech/articles/107.html

LLM 推理的核心指标：

Time To First Token (TTFT): 首 Token 延迟，即从输入到输出第一个 token 的延迟。在在线的流式应用中，TTFT 是最重要的指标，因为它决定了用户体验。
Time Per Output Token (TPOT)：每个输出 token 的延迟（不含首个Token）。在离线的批处理应用中，TPOT 是最重要的指标，因为它决定了整个推理过程的时间。
Latency：延迟，即从输入到输出最后一个 token 的延迟。
Latency = (TTFT) + (TPOT) * (the number of tokens to be generated).
Latency 可以转换为 Tokens Per Second (TPS)：TPS = (the number of tokens to be generated) / Latency。
Throughput：吞吐量，即每秒针对所有请求生成的 token 数。以上三个指标都针对单个请求，而吞吐量是针对所有并发请求的。

优秀LLM

DeepSeek-V3/R1

https://www.deepseek.com/

相同水平下，训推资源仅1/10
https://github.com/deepseek-ai/DeepSeek-V3
https://github.com/deepseek-ai/DeepSeek-R1

DeepSeek V3 详细解读：模型&Infra 建设
https://mp.weixin.qq.com/s/DKdXcguKcCS5gcwIRLH-Cg

DeepSeek R1 阅读清单

https://ninehills.tech/articles/121.html

多模态大模型

LLaVA-OneVision

hf：https://llava-vl.github.io/blog/2024-08-05-llava-onevision/
arxiv：https://arxiv.org/abs/2408.03326

OpenAI Whisper 语音转文字模型

openai / whisper-large-v3
https://huggingface.co/openai/whisper-large-v3

Automatic Speech Recognition(ASR), Speech to Text (STT)
https://huggingface.co/tasks/automatic-speech-recognition

VQA 视觉问答

VQA（Visual Question Answering）指的是，给机器一张图片和一个开放式的的自然语言问题，要求机器输出自然语言答案。
答案可以是以下任何形式：短语、单词、 (yes/no)、从几个可能的答案中选择正确答案。VQA是一个典型的多模态问题，融合了CV与NLP的技术，计算机需要同时学会理解图像和文字。为了回答某些复杂问题，计算机还需要了解常识，基于常识进行推理（common-sense resoning）。

MiniCPM-V 多图/视频理解/OCR/端侧可用

MiniCPM 端侧大模型系列，是由面壁智能（ModelBest）联合 OpenBMB 开源社区和清华 NLP 实验室开源的轻量高性能端侧大模型。包含基座模型 MiniCPM 和多模态模型 MiniCPM-V 双旗舰，凭借以小博大、高效低成本的特性享誉全球。

面壁小钢炮MiniCPM通关宝典
https://modelbest.feishu.cn/wiki/D2tFw8Pcsi5CIzkaHNacLK64npg

MiniCPM端侧系列模型的使用指南
OpenBMB / MiniCPM-CookBook
https://github.com/OpenBMB/MiniCPM-CookBook

https://github.com/OpenBMB/MiniCPM-V/blob/main/README_zh.md
MiniCPM-V 是面壁智能面向图文理解的端侧多模态大模型系列。该系列模型接受图像和文本输入，并提供高质量的文本输出。

特定领域大模型

Awesome Domain LLM
https://github.com/luban-agi/Awesome-Domain-LLM

LawGPT 法律中文大语言模型

https://github.com/pengxiao-song/LaWGPT

chatlaw

https://chatlaw.cloud/

知识库/知识加工

Embedding 模型中的“迟分”策略

迟分(Late Chunking)
长文本 Embedding 模型中的“迟分”策略
https://mp.weixin.qq.com/s?__biz=MzkyODIxMjczMA==&mid=2247501187&idx=1&sn=94fd0b8f53b39bd0adbaab86834996cd

JinaAI 智能切分

RAG 系统的分块难题：小型语言模型如何找到最佳断点？
https://mp.weixin.qq.com/s/_8aStJchSoHN6jYVMb0Hkw

HuggingFists 低代码工作流

https://github.com/Datayoo/HuggingFists
https://github.com/Datayoo/HuggingFists/blob/main/README_ZH.md

HuggingFists 支持通过低代码的方式使用Hugging Face网站提供的各类模型

HuggingFists 还内置了丰富的数据接入、解析、处理等算子，方便用户搭建出复杂的数据处理及模型应用场景

RagFlow

https://github.com/infiniflow/ragflow

https://demo.ragflow.io/knowledge

FastGPT 知识库

https://github.com/labring/FastGPT
FastGPT 是一个基于 LLM 大语言模型的知识库问答系统，提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排，从而实现复杂的问答场景！

OCR/PDF扫描件识别

OHR-Bench 文档OCR对RAG检索效果的影响评估

opendatalab / OHR-Bench
https://github.com/opendatalab/OHR-Bench

OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation
https://arxiv.org/abs/2412.02592
检索增强生成（RAG）通过整合外部知识来增强大型语言模型（LLM），以减少幻觉，并在不进行再训练的情况下整合最新信息。作为RAG的重要组成部分，外部知识库通常是通过使用光学字符识别（OCR）从非结构化PDF文档中提取结构化数据来构建的。然而，鉴于OCR的不完美预测和结构化数据固有的非均匀表示，知识库不可避免地包含各种OCR噪声。在本文中，我们介绍了OHRBench，这是了解OCR对RAG系统级联影响的第一个基准。OHRBench包括来自六个真实RAG应用领域的350个精心挑选的非结构化PDF文档，以及从文档中的多模态元素中导出的问答，挑战了用于RAG的现有OCR解决方案。为了更好地了解OCR对RAG系统的影响，我们识别了两种主要类型的OCR噪声：语义噪声和格式噪声，并应用扰动来生成一组具有不同程度OCR噪声的结构化数据。使用OHRBench，我们首先对当前的OCR解决方案进行了全面评估，发现没有一个解决方案能够为RAG系统构建高质量的知识库。然后，我们系统地评估了这两种噪声类型的影响，并证明了RAG系统的脆弱性。此外，我们讨论了在RAG系统中使用没有OCR的视觉语言模型（VLM）的潜力。

PaddleOCR

https://www.paddleocr.ai/latest/

MinerU 扫描件pdf解析转md/json

在线使用
https://mineru.net/
https://mineru.net/OpenSourceTools/Extractor

一站式开源高质量数据提取工具，将PDF转换成Markdown和JSON格式。
https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md

M1 Mac 本地运行 MinerU 源码

1、下载代码，创建并激活 Python 3.11 虚拟环境

git clone https://github.com/opendatalab/MinerU
cd MinerU
python -m venv .venv
source .venv/bin/activate

2、安装 uv，安装依赖

pip install --upgrade pip -i https://mirrors.aliyun.com/pypi/simple
pip install uv -i https://mirrors.aliyun.com/pypi/simple
uv pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple

3、然后 mineru 命令就可以使用了

mineru -v    
mineru, version 2.6.4

4、解析 pdf

mineru -p /path/a.pdf -o /path/mineru

执行后会自动从 HuggingFace 下载所需模型
M1 Mac 上模型会下载到 tree ~/.cache/huggingface/hub/models–opendatalab–PDF-Extract-Kit-1.0 目录
如下：

tree ~/.cache/huggingface/hub/models--opendatalab--PDF-Extract-Kit-1.0/snapshots/1d9a3cd772329d0f83d84638a789296863f940f9/models
~/.cache/huggingface/hub/models--opendatalab--PDF-Extract-Kit-1.0/snapshots/1d9a3cd772329d0f83d84638a789296863f940f9/models
├── Layout
│   └── YOLO
│       └── doclayout_yolo_docstructbench_imgsz1280_2501.pt -> ../../../../../blobs/1b152460888dc30be6db7f5dfab28bde3dcc999e5202f46187a764a1699c80be
├── MFD
│   └── YOLO
│       └── yolo_v8_ft.pt -> ../../../../../blobs/41029d5abb9b0b6df825ecaf8adf9151762ea0688ac0fc4ea0ea34ab9a5808fc
├── MFR
│   └── unimernet_hf_small_2503
│       ├── config.json -> ../../../../../blobs/ac850a4c0b3f9ad6bd3e1dea90cc354a74721171
│       ├── generation_config.json -> ../../../../../blobs/018a339659fba42e55f0e30df0af9ab61e7909eb
│       ├── model.safetensors -> ../../../../../blobs/9244e2565585c0f89bc3a6eeeea080ef3c588375fc0d536074fe88e80b917cda
│       ├── README.md -> ../../../../../blobs/822f27f20b8db4475cd004a96adcf59a3ec1cdb4
│       ├── special_tokens_map.json -> ../../../../../blobs/a782b2f1cdab4d0bacb2dc0f85d02c4b1e31f0bd
│       ├── tokenizer_config.json -> ../../../../../blobs/e339ed30e8a32f8131da033216f04a053ab80947
│       └── tokenizer.json -> ../../../../../blobs/b436540373e1ca87d0f1cc503fe0f78078079846
├── OCR
│   └── paddleocr_torch
│       ├── ch_PP-OCRv4_rec_server_doc_infer.pth -> ../../../../../blobs/f65e699f4ca792fbce0e92d1df4c9bbdefe3e21bbdb01c3075cc49470b9bc1cc
│       ├── ch_PP-OCRv5_det_infer.pth -> ../../../../../blobs/df848ed5060bac4d0f6e58572aea97d92e909a8a87cf292849237b0e84f6ffdb
│       └── ch_PP-OCRv5_rec_infer.pth -> ../../../../../blobs/d20ee8dac2ca63e2d1989b02ecc42595c71d61bf8dd8c8ddc5ad2ee68e7b5be2
├── OriCls
│   └── paddle_orientation_classification
│       └── PP-LCNet_x1_0_doc_ori.onnx -> ../../../../../blobs/70a8dc44e2de34696cd0c8873beb7c1470187f549d29c60b80d2783b6154975a
├── ReadingOrder
│   └── layout_reader
│       ├── config.json -> ../../../../../blobs/c8bb8a4189aa4e456c6cfe097bef982b68f2a617
│       └── model.safetensors -> ../../../../../blobs/9df7c046b212c1892a649cbf98f2a521bbb32741e8cbc06f10ffd4247b53c451
├── TabCls
│   └── paddle_table_cls
│       └── PP-LCNet_x1_0_table_cls.onnx -> ../../../../../blobs/c84bf1d79c1c74d534b5b12adb14dd12151c42f7ae3e4be4f1042b830f80b949
└── TabRec
    ├── SlanetPlus
    │   └── slanet-plus.onnx -> ../../../../../blobs/d57a942af6a2f57d6a4a0372573c696a2379bf5857c45e2ac69993f3b334514b
    └── UnetStructure
        └── unet.onnx -> ../../../../../blobs/0ea48d3a17e35ef5c2e498a5e799566073234d39b1079ca21d9f4fafe73c6d20

解析结果
{原文件名}.md
markdown 解析结果

{原文件名}_layout.pdf
可视化展示每一页的布局分析结果
每个检测框右上角的数字表示阅读顺序
使用不同背景色块区分不同类型的内容块

{原文件名}_spans.pdf
根据 span 类型使用不同颜色线框标注页面内容
用于质量检查和问题排查

ChatGPT 资源

免费chatgpt3.5

https://chat18.aichatos98.com/

低价购买gpt试用账号

https://xedu.me/

OpenAI API 代理

https://www.openai-proxy.com/
直接将官方接口域名 api.openai.com 替换为 https://api.openai-proxy.com 即可在国内网络环境下直接调用，支持SSE。

https://openai-sb.com/

Agent 智能体

Manus 动作执行AI智能体

https://manus.im/

OpenManus

https://github.com/FoundationAgents/OpenManus

Toolify 为任何大型语言模型赋予函数调用能力

https://github.com/funnycups/Toolify

Toolify 是一个中间件代理，旨在为那些本身不支持函数调用功能的大型语言模型，或未提供函数调用功能的 OpenAI 接口注入兼容 OpenAI 格式的函数调用能力。它作为您的应用程序和上游 LLM API 之间的中介，负责注入必要的提示词并从模型的响应中解析工具调用。

Browser Use 浏览器操作

https://github.com/browser-use/browser-use

LangGraph(LangChain出品) agent 框架

https://github.com/langchain-ai/langgraph

agent-service-toolkit 智能体工具包(内含LangGraph)

https://github.com/JoshuaC215/agent-service-toolkit
该项目能够帮助开发者用 Python 快速搭建和运行基于 LangGraph 框架的 AI 代理服务。它结合 FastAPI、Streamlit 和 Pydantic 等技术栈，提供了用户界面、自定义 Agent、流式传输等功能，并集成了内容审核（LlamaGuard）和用户反馈机制（LangSmith），极大地简化了 AI Agent 应用的开发和优化过程。

基于qwen的agent demo

https://github.com/owenliang/agent

Wren AI 文本转sql智能体

开源 Text-to-SQL 智能体
https://github.com/Canner/WrenAI?tab=readme-ov-file

OpenAI swarm agent 编排框架

https://github.com/openai/swarm

CrewAI Agent 智能体框架

https://docs.crewai.com/introduction

LLM Powered Autonomous Agents

LLM Powered Autonomous Agents
https://lilianweng.github.io/posts/2023-06-23-agent/

剖析BabyAGI：原生多智能体案例一探究竟

https://blog.csdn.net/Attitude93/article/details/136415737

coze/扣子-智能体编排

bot编排，app商店
https://www.coze.cn/home

SQLBot text2sql 智能问数

https://github.com/dataease/SQLBot

8n8 工作流

https://n8n.io/

n8n-io / n8n
https://github.com/n8n-io/n8n

n8n 是一款基于节点（Nodes）的开源工作流自动化平台，通过可视化拖拽界面连接不同应用和服务，构建复杂的自动化流程。

节点（Node）：代表一个独立操作单元（如触发事件、API请求、逻辑判断）。每个节点接收输入数据（JSON格式），处理后传递至下游节点

工作流（Workflow）：由多个节点连接成的有向图，支持分支、循环和错误处理。例如：

触发器节点，如定时任务、Webhook，启动流程
逻辑节点，如IF条件、循环，控制执行路径
操作节点，如HTTP请求、数据库查询，执行具体任务

数据流机制：数据以『数据项』 Items 形式在节点间流动，每个 Item 为 JSON 对象，支持动态引用。

LLM 相关资源

langchain-java

https://github.com/HamaWhiteGG/langchain-java

Poe 大模型聚合

https://poe.com/

LangGPT prompt 学习

https://aq92z6vors3.feishu.cn/wiki/RXdbwRyASiShtDky381ciwFEnpe

Express+Vue3实现gpt页面

https://github.com/Chanzhaoyu/chatgpt-web

morphic-问答式AI搜索

https://www.morphic.sh/
https://github.com/miurla/morphic

kimi-长文档理解

kimi 超长文档、链接内容总结
https://kimi.moonshot.cn/

papers.cool 论文阅读工具

https://papers.cool/

RAG 检索增强

RAG（Retrieval Augmented Generation，检索增强生成）是一个将大规模语言模型(LLM)与来自外部知识源的检索相结合的框架。

为什么需要 RAG？
LLM 的训练集是固定的，知识是静态、封闭、有限的，在具体细分行业使用 LLM 时，需要结合外部检索工程框架弥补 LLM 知识不足的问题。

RAG 基本流程：
1、知识索引。
事先将文本数据进行处理，通过向量化技术（embedding）将文本映射到向量空间并存储到向量数据库中，或者利用 Elasticsearch 全文索引文档，构建出可检索的知识片段。
涉及文档处理、文档分割、向量化、向量数据库。

2、知识检索。
输入问题，在知识库中进行检索（向量相似度匹配、全文检索），找到与问题最相关的一批文档。

3、问答。
把问题+检索得到的与问题最相关的文档一起输入到 LLM，让 LLM 根据相关文档回答问题，甚至返回答案所引用的文档，这里需要仔细的调整 prompt

Applying OpenAI’s RAG Strategies
https://blog.langchain.dev/applying-openai-rag/

langchain 文档分割demo

https://langchain-text-splitter.streamlit.app/

Langchain 提供多种文档分割方式，区别在怎么确定块与块之间的边界、块由哪些字符/token组成、以及如何测量块大小

RecursiveCharacterTextSplitter(): 按字符串分割文本，递归地尝试按不同的分隔符进行分割文本。
CharacterTextSplitter(): 按字符来分割文本。
MarkdownHeaderTextSplitter(): 基于指定的标题来分割markdown 文件。
TokenTextSplitter(): 按token来分割文本。
SentenceTransformersTokenTextSplitter(): 按token来分割文本。
Language(): 用于 CPP、Python、Ruby、Markdown 等。
NLTKTextSplitter(): 使用 NLTK（自然语言工具包）按句子分割文本。
SpacyTextSplitter(): 使用 Spacy按句子的切割文本。

全文检索/语义检索/混合检索

RAG三大检索策略深度解析：稀疏检索、密集检索和混合检索
https://mp.weixin.qq.com/s/TO0zzPEf1sBD75IqutosSw

Dify 混合检索API

https://docs.dify.ai/en/guides/knowledge-base/knowledge-and-documents-maintenance/maintain-dataset-via-api#retrieve-chunks-from-a-knowledge-base

curl --location --request POST 'https://api.dify.ai/v1/datasets/{dataset_id}/retrieve' \
--header 'Authorization: Bearer {api_key}'\
--header 'Content-Type: application/json'\
--data-raw '{
    "query": "test",
    "retrieval_model": {
        "search_method": "keyword_search",
        "reranking_enable": false,
        "reranking_mode": null,
        "reranking_model": {
            "reranking_provider_name": "",
            "reranking_model_name": ""
        },
        "weights": null,
        "top_k": 1,
        "score_threshold_enabled": false,
        "score_threshold": null
    }
}'

UltraRAG

https://github.com/OpenBMB/UltraRAG

UltraRAG（特别是其 2.0 版本）是由清华大学 THUNLP 实验室、东北大学 NEUIR 实验室、OpenBMB 与 AI9stars 联合开发的一个面向科研的低代码 RAG（检索增强生成）框架，旨在显著降低构建复杂 RAG 系统的技术门槛和工程成本。

特性：

用户只需编写 YAML 配置文件，即可声明式地定义包含串行、循环、条件分支等复杂逻辑的 RAG 流程。
统一了文本、图像、表格等内容的检索、生成与评估，构建真正的多模态 RAG 全链路。
将检索器、重排器、生成器、评估器等每个组件都封装为独立的 MCP Server
支持PDF、Markdown、HTML、TXT等多种格式的文档解析与分块。
内置了标准化评测流程和指标管理，开箱即用地支持大量主流 RAG 科研 Benchmark（如NQ、HotpotQA、MMLU等）

知识图谱

HippoRAG2

https://github.com/OSU-NLP-Group/HippoRAG/tree/main
HippoRAG 2 是由俄亥俄州立大学团队于2025年推出的检索增强生成（RAG）框架，旨在通过模拟人类长期记忆的神经机制，突破传统RAG在多跳推理、动态知识整合和上下文关联性方面的局限性。其核心创新在于结合知识图谱（KG）与个性化PageRank（PPR）算法，实现更接近人类记忆的智能问答系统。

一、离线索引：构建开放知识图谱
三元组提取：使用LLM从文本中抽取（主语-关系-宾语）三元组，例如从“托马斯研究阿尔茨海默病”提取 (Thomas, researches, Alzheimer’s)。
同义词消歧：基于嵌入模型（如NV-Embed-v2）检测短语相似性，添加同义词边（如“AI”与“人工智能”关联）。
密集-稀疏集成：

短语节点：稀疏编码表示核心概念（如“斯坦福大学”）。
段落节点：密集编码保留上下文细节（如教授履历）。

二、在线检索：上下文感知的关联推理
查询链接：通过嵌入模型匹配查询与KG中的三元组和段落，定位种子节点（如将“阿尔茨海默病研究”链接到相关节点）。
识别记忆过滤：LLM过滤无关三元组，例如剔除“胶水粘奶酪”等错误信息。
个性化 PageRank 算法：

随机游走：基于种子节点权重（如斯坦福大学、阿尔茨海默病）计算节点重要性。
公式简化：PR(v) = (1-d) * seed(v) + d * Σ(PR(u)/out_degree(u))，其中阻尼因子d=0.5。

段落排序：根据PageRank得分返回最相关段落，用于最终问答生成。

LightRAG

https://github.com/HKUDS/LightRAG
LightRAG 是一个高效、轻量级的检索增强生成（Retrieval-Augmented Generation, RAG）框架，旨在简化复杂文档的检索与生成任务。其核心特点是快速构建知识图谱与多模式检索能力，支持多种文件类型（PDF、DOC、PPT、CSV等）和灵活的模型集成。

多模式检索:

本地模式 (Local): 基于上下文依赖的实体检索。
全局模式 (Global): 利用全局知识图谱关系检索。
混合模式 (Hybrid/Mix): 结合知识图谱与向量检索，提供更全面的答案。
Naive模式: 基础检索，无复杂处理。

GraphRAG

https://github.com/microsoft/graphrag
GraphRAG 是微软开源的一个基于知识图谱的检索增强生成（RAG）系统，旨在通过结构化数据提升大语言模型（LLM）对私有数据的处理能力。

知识图谱增强的RAG
与传统RAG（基于向量搜索）不同，GraphRAG 通过从非结构化文本中提取结构化知识图谱（Knowledge Graph），帮助LLM更好地理解数据间的深层关联（如实体、关系、事件）。
知识图谱作为“记忆结构”，可显著提升LLM在复杂查询（如跨文档推理、多跳问答）中的表现。

NER 命名实体识别

命名实体识别（Named Entity Recognition, NER）是自然语言处理（NLP）的核心任务之一，旨在从非结构化文本中定位并分类具有特定语义的实体（如人名、地名、组织机构名、时间、日期等）。

包括：

实体抽取：从文本中提取人名、地名、组织名等关键实体，作为知识图谱的节点。
实体链接：将识别出的实体与知识库中的现有实体匹配（如“Apple”需区分科技公司或水果）。
关系抽取基础：为后续实体间关系抽取提供结构化数据（如“马斯克-创立-SpaceX”）。

实体抽取与标准化
示例：从“李华在2024年访问了北京”中识别“李华”（人名）、“北京”（地名）、“2024年”（时间）。
作用：构建知识图谱的实体节点，支持后续关系抽取。

实体链接与消歧
挑战：同一实体可能有多种含义（如“Apple”指公司或水果）。
解决方案：结合上下文（如“购买iPhone”中“Apple”指向科技公司）。

关系抽取
流程：NER识别实体后，通过关系抽取模型（如PCNN）提取实体间关系。
示例：从“马斯克创立了SpaceX”中抽取“创立”关系。

SPO 主谓宾三元组

SPO(Subject-Predicate-Object) 三元组

SPO 基于句法结构的三元组，将句子的主谓宾映射为（主语，谓语，宾语）。例如：“刘翔出生于上海” →（刘翔，出生地，上海）
S（Subject）：动作或状态的主体，如实体或事件。
P（Predicate）：连接主宾的关系或动作。
O（Object）：动作的承受者或状态对象

应用：信息抽取任务中，SPO结构便于从文本中提取结构化知识

词义消岐 WSD

词义消岐(Word Sense Disambiguation, WSD)，是确定多义词在特定上下文中正确含义的任务。
由于自然语言中普遍存在一词多义现象（如“苹果”可指水果或科技公司），WSD 对提升机器理解文本的准确性至关重要，尤其在翻译、问答系统和信息检索中。

“火箭”
句子1：“火箭队赢得比赛。” -> 指NBA球队
句子2：“火箭发射成功。” -> 指燃气推进装置

Neo4j 图数据库

https://neo4j.com/
https://github.com/neo4j/neo4j

Neo4j 是一款高性能的 NoSQL 图数据库，专注于处理高度互联的复杂关系数据。其核心特点是通过图结构（节点、关系、属性）存储数据，而非传统关系型数据库的表格形式。

数据模型
属性图模型：数据由节点（Node）、关系（Relationship）和属性（Key-Value）构成。例如，社交网络中用户为节点，关注关系为边，用户年龄为属性。
存储方式：数据存储在图网络中，而非表格，支持高效的多跳关系查询（如查找朋友的朋友）

查询语言
Cypher：Neo4j 的声明式查询语言，语法类似 SQL。例如，MATCH (a:Person)-[:FRIEND]->(b) RETURN a.name, b.name 可查询用户的朋友列表

HugeGraph 图数据库

https://hugegraph.apache.org/
Apache HugeGraph 是一款高性能、分布式的开源图数据库系统，专注于处理大规模复杂关系数据的存储与分析。

特点：
百亿级数据支持：HugeGraph 支持快速导入百亿级别的顶点和边，提供毫秒级的 OLTP（联机事务处理）关联查询能力。
分布式架构：通过自控分布式存储引擎 HStore（基于 Raft + RocksDB）实现数据分片、副本平衡与自动容灾，支持横向扩展和高可用性。
计算优化：内置大规模并行图计算框架，支持多轮迭代算法（如 PageRank、最短路径），并优化超级点处理，避免数据倾斜问题。

标准化与兼容性
兼容 Gremlin：完全支持 Apache TinkerPop3 框架，用户可直接使用 Gremlin 语言进行复杂图遍历与查询。
多后端存储：支持 RocksDB、Cassandra、HBase 等多种存储引擎，并可插件化扩展。

NebulaGraph 图数据库

https://www.nebula-graph.com.cn/
https://github.com/vesoft-inc/nebula

Nebula Graph 是一个开源的分布式图数据库，专为处理超大规模图数据而设计。它由中国的创业公司 Vesoft Inc.（原隶属于中国移动）于 2018 年启动开发，并于 2019 年正式开源。Nebula Graph 的名字来源于“星云”（Nebula），寓意其能够像宇宙星云一样连接和存储海量节点与关系。

核心概念
图空间 (Space)：这是数据隔离的单位，类似于传统关系型数据库中的 “database”。不同的业务数据可以存放在不同的图空间中，实现权限和管理的隔离
点 (Vertex)：代表图中的实体或对象，比如一个人、一家公司。每个点由一个在图空间内唯一的点标识符 (VID) 来标识
边 (Edge)：代表点之间的关系或行为，比如”投资”、”关注”。边是有方向的，并且由 <起点VID, 边类型, 边排序值(Rank), 终点VID> 四元组唯一确定
标签 (Tag)：定义点的类型，类似于定义一张”点表”的结构。例如，可以为”人”这个实体定义一个包含name（姓名）和age（年龄）属性的 Tag
边类型 (Edge Type)：定义边的类型，类似于定义一张”边表”的结构。例如，可以为”投资”关系定义一个包含amount（金额）和date（日期）属性的 Edge Type
属性 (Property)：附加在点和边上的键值对信息，用于描述点或边的特征

Text2Cypher 文本转Cypher语法

https://neo4j.com/labs/neodash/2.4/user-guide/extensions/natural-language-queries/

Text2Cypher 是一种将自然语言转换为图数据库查询语言（Cypher）的技术，旨在通过大语言模型（LLM）降低用户与图数据库交互的门槛。
Text2Cypher 的核心是通过 LLM 理解用户自然语言中的查询意图，结合图数据库的 Schema（如节点、关系、属性），生成符合 Cypher 语法的查询语句。
例如，用户提问“雨果·维文参演了哪些电影？”，LLM 会将其转换为

MATCH (p:Person {name: 'Hugo Weaving'})-[:ACTED_IN]->(m:Movie) RETURN m.title

Mermaid 文字转图表

https://mermaid.nodejs.cn/intro/

Mermaid 允许你使用文本和代码创建图表和可视化。
Mermaid 是一个基于 JavaScript 的图表绘制工具，可渲染 Markdown 启发的文本定义以动态创建和修改图表。
Mermaid 是一种基于文本的轻量级图表生成工具，通过类似 Markdown 的简洁语法定义流程图、时序图、甘特图等复杂图形。它由 JavaScript 驱动，可直接嵌入文档并自动渲染为矢量图表，是技术文档编写、项目管理和数据可视化领域的高效工具

token数计算

你提问耗费了 100 token，GPT 根据你的输入，生成文本（也就是回答）了 200 token，那么一共消费的 token 数就是 300 。

通常，4 个英文字符占一个token，而1个汉字大致是1个token

gpt 会忽略空格，用 https://charactercalculator.com/zh-cn/ 看忽略空格的字符数

OpenAI tokenizer 工具计算token数

在 openAI 网站上有工具
https://platform.openai.com/tokenizer

OpenCompass 司南大模型评测

https://opencompass.org.cn/home

困惑度 PPL(perplexity)

将问题与候选答案组合在一起，计算模型在所有组合上的困惑度（perplexity），并选择困惑度最小的答案作为模型的最终输出。
例如，若模型在问题? 答案1 上的困惑度为 0.1，在问题? 答案2 上的困惑度为 0.2，最终我们会选择答案1 作为模型的输出。

infer_cfg 推理配置

infer_cfg 配置使用了 OpenICL 的思想，使用 retriever 从数据集中查询出一些 上下文样例in-context example，拼入 prompt 模板中。

infer_cfg 配置示例：

infer_cfg=dict(
    ice_template=dict(  # 用于构造 In Context Example (ice) 的模板
        type=PromptTemplate,
        template='{question}\n{answer}'
    ),
    prompt_template=dict(  # 用于构造主干 prompt 的模板
        type=PromptTemplate,
        template='Solve the following questions.\n</E>{question}\n{answer}',
        ice_token="</E>"
    ),
    retriever=dict(type=FixKRetriever, fix_id_list=[0, 1]),  # 定义 in context example 的获取方式
    inferencer=dict(type=GenInferencer),  # 使用何种方式推理得到 prediction
)

retriever 上下文样例检索方法

retriever 配置上下文样例的获取方式

ZeroRetriever(zero-shot) 零样本

retriever 是 ZeroRetriever 就是 zero-shot 零样本，不需要查询 in-context example

few-shot 少量样本

其他 retriever 是 few-shot，需要定义 ice_template 字段，设置 上下文样例 In Context Example(ICE) 的模板

inferencer 推理类型

OpenCompass 中主要支持了两种 Infernecer：GenInferencer 和 PPLInferencer

PPLInferencer 判别式推理

PPLInferencer 对应判别式推理。在推理时，模型被要求计算多个输入字符串各自的混淆度 (PerPLexity / ppl)，并将其中 ppl 最小的项作为模型的推理结果。

GenInferencer 生成式推理

GenInferencer 对应生成式的推理。在推理时，模型被要求以输入的提示词为基准，继续往下续写。

OpenICL

Shark-NLP / OpenICL
https://github.com/Shark-NLP/OpenICL

OpenICL 是一个用于 上下文学习(In-context learning) 的工具包，同时也是一个 LLM 评估开源工具包，OpenCompass 中的评估就使用了 OpenICL

OpenICL 流程

OpenICL 流程：通过用户指定的检索方法（例如TopK或VoteK）从索引集中获取适当的上下文示例，插入到 prompt 模板中，一起输入到大模型。

如何快速地设计并评估fewshot示例的效果：OpenICL上下文示例学习框架推荐及实现源码
https://aibard123.com/digest/2023/1120/如何快速地设计并评估fewshot示例的效果OpenICL上下文示例学习框架推荐及实现源码/

AGIEval 中文测试集

https://opendatalab.com/OpenDataLab/AGIEval/tree/main/raw

JTokkit 用于大模型的Java分词编码库

https://github.com/knuddelsgmbh/jtokkit

计算 token 数
encoding.countTokens(“This is a sample sentence.”);

编码：
IntArrayList encoded = encoding.encode(“This is a sample sentence.”);

chat/completions ChatGPT聊天补全API

https://platform.openai.com/docs/api-reference/chat/create

基本上使用 https://api.openai.com/v1/chat/completions 这个核心 API 就行。

认证

sk 放 header 中即可

messages 角色 role

user 用户问的问题或指令放 messages 中的 user role
assistant 多轮对话时，gpt返回的内容放 assistant 中
system 角色扮演的 promt 放 system 中

多轮对话

传入 messages 列表，将之前 gpt 的返回放到 assistant role 中

流式返回

stream 传 true，会开启 Server-Send Events(SSE)，服务端主动将回答内容流式推送给客户端。

top_p

温度参数 temperature

默认值 1
值越大（如0.8或0.9），回答越随机越有创造性，适合：写故事、创意写作等
当温度值接近0时如0.2或0.3），模型生成的文本将更加确定和一致，适合：回答问题、提供事实等

示例：

{
    "model": "gpt-3.5-turbo",
    "temperature": 0.5,
    "stream": true,
    "messages": [
        {
            "role": "user",
            "content": "如何使用Postman来测试ChatGPT的Stream API"
        }
    ]
}

当前位置 : 首页 » 文章分类 : » 大模型相关资源

学习入门

大语言模型综述

LLM 架构比较

MiniMind 从零学习训练大模型

self-llm

Happy-LLM

从零实现 Llama3 模型

从零开始写一个gpt

llm.c 纯c实现训练gpt-2

LLM 可视化

MetaSearch 深度迭代检索增强系统

AI搜索/网页读取

JinaReader 网页读取

秘塔AI搜索/网页读取

Firecrawl

Crawl4AI

ScrapeGraphAI

WaterCrawl

Tavily

LLM Scraper

GPT Crawler

Crawlee

CUA 浏览器/电脑使用

Browserbase/Stagehand

Gemini Browserbase

模型/数据集

Hugging Face

ModelScope 魔搭社区

MTEB