Michael Blog

大语言模型各类版本详解：Base、Instruct、MoE、量化、Thinking 等到底是什么意思？

发表于2025-11-26|AI

一、为什么要搞懂大模型的各种「版本」？近年来，各种大模型名字后面越来越“花”： Base / Instruct / Chat MoE（Mixture of Experts） AWQ / GPTQ / INT4 / FP8 量化 Thinking / DeepThink / Step / Reasoning 如果不了解这些后缀的含义，我们就很难：正确选择模型：是用 Base 还是 Instruct？是要 MoE 还是稠密模型？合理评估效果：为什么同一家模型，Instruct 版本比 Base 用起来舒服很多？看懂论文与技术文档：里面充满了 dense、MoE、SFT、RLHF、quantization 等术语。这篇文章的目标是：用通俗语言 + 对比表格，解释常见大模型版本名背后的含义、原理与适用场景帮助你在选型、部署与使用大模型时，做到：心中有数，不再迷茫二、从「Base 模型」到「Instruct 模型」2.1 Base 模型：会“说话”，但不一定听得懂你**Base 模型...

使用vLLM部署Qwen3-Next-80B-A3B-Instruct大模型完整指南

发表于2025-11-24|AI

在大模型时代，如何高效部署和运维一个80B级别的大语言模型服务是许多AI工程师面临的挑战。本文将详细介绍使用vLLM部署Qwen3-Next-80B-A3B-Instruct模型的完整流程，包括模型查找、参数配置、显存估算、下载部署、监控管理、性能压测以及推理追踪等关键环节。通过本文，您将能够快速搭建一个生产级别的大模型推理服务。目标读者本文适合以下读者： AI/ML工程师，需要部署大规模语言模型服务 DevOps工程师，负责管理和运维大模型推理平台技术架构师，评估大模型部署方案研究人员，需要高性能推理环境一、模型查找与选择1.1 Qwen3-Next-80B-A3B-Instruct模型介绍Qwen3-Next-80B-A3B-Instruct是阿里云通义千问团队推出的最新一代大语言模型，采用先进的MoE（Mixture of Experts）架构，具有以下特点：模型架构：MoE混合专家模型，总参数80B，激活参数仅3B 性能优势：以3B的计算成本获得接近80B Dense模型的性能上下文长度：支持最长256K tokens的上下文（推理时建议8K-...

生产级大语言模型平台系统设计：多期落地方案与实践

发表于2025-11-18|AI

背景与目标随着大语言模型在企业内的应用场景不断扩展，单一模型服务或简单的 API + 网关架构已经难以满足生产环境下的多租户管理、资源隔离、安全合规、可观测性以及快速迭代等要求。企业需要一套生产级别的大语言模型平台系统，以平台化的方式统一承载模型推理、Agent 编排、MCP 工具生态及 RAG 检索能力。本文面向有一定 DevOps/平台工程基础的读者，设计一套可生产落地的大语言模型平台，从整体架构到关键模块拆解，涵盖：模型部署与运行时管理多集群 / 多云资源管理与调度监控、日志、链路追踪与容量管理安全与访问控制 RAG 平台 Agent 平台 MCP（Model Context Protocol）生态集成平台运维与发布管理并按照优先级划分为多期落地路线，便于企业按阶段实施。本文更偏向平台架构设计与关键实现要点，不绑定某个具体云厂商，可结合 Kubernetes、Service Mesh、向量数据库等基础设施实施。多期落地规划概览为了降低一次性建设的复杂度，建议将大模型平台拆分为多期，逐步演进：一期（核心推理与基础运维能力，必...

Python包开发与发布：使用 build 与 twine（含 project.scripts 示例）

发表于2025-11-13|DevOps

本文面向有一定 Python 基础、希望将代码规范化为可安装包并发布到 PyPI 的工程师。你将学会：如何创建标准的 Python 包工程骨架（src 布局）在 pyproject.toml 中使用 PEP 621 声明元数据与 project.scripts 生成命令行脚本使用 build 本地构建分发产物（sdist/wheel）使用 twine 校验并上传到 TestPyPI 与 PyPI 常见问题与排错要点参考标准：PEP 517/518（构建系统），PEP 621（项目元数据）。适用环境 Python ≥ 3.8（推荐 3.10+） macOS/Linux/Windows 包管理：pip 或 pipx 一、项目骨架（src 布局）推荐使用「src 布局」以避免导入歧义，目录结构如下： 1234567891011mycli/├─ pyproject.toml├─ README.md├─ LICENSE├─ src/│ └─ mycli/│ ├─ __init__.py│ ├─ __main__....

LiteLLM Proxy 使用指南：Docker 部署、vLLM 代理

发表于2025-09-30|AI

背景与目标LiteLLM Proxy 是一个 OpenAI API 兼容的模型网关，支持将来自 OpenAI、Azure OpenAI、Bedrock、Vertex AI 以及本地/自建的 OpenAI 兼容推理服务（如 vLLM）统一到一套接口之下，并提供虚拟 API Key、用量与预算、速率限制、缓存、日志/指标、路由、负载均衡与回退等能力。本文将演示：如何用 Docker 快速部署 LiteLLM Proxy（含最小可用与带数据库的完整模式）如何把 vLLM 暴露的 OpenAI 兼容接口接入到 LiteLLM Proxy 进行统一代理如何生成虚拟 Key、设置每分钟请求数（RPM）限速如何查询模型列表等常用“免费”功能参考与更多细节请见官方文档： LiteLLM Proxy Docker 快速上手 vLLM Provider 文档你将学到什么用 Docker 启动 LiteLLM Proxy，并验证 /chat/completions 将本地 vLLM（OpenAI 兼容接口）纳入代理，统一用 OpenAI 协议调用配置同名模型...

LightRAG：轻量级检索增强生成系统详解

发表于2025-08-13|AI

随着大语言模型（LLM）的快速发展，如何让AI系统能够访问和处理大量外部知识成为了一个关键挑战。检索增强生成（Retrieval-Augmented Generation，RAG）技术应运而生，而LightRAG作为一个轻量级且高效的RAG系统，通过结合知识图谱和向量检索技术，为企业级知识管理和智能问答提供了优秀的解决方案。 LightRAG 简介LightRAG是一个现代化的检索增强生成系统，专注于提供高质量的问答和知识管理功能。该系统最大的特点是将传统的向量检索与知识图谱技术相结合，实现了更精准和上下文相关的信息检索。核心特性轻量级设计：优化的架构设计，降低资源消耗多模态支持：同时支持向量检索和图谱检索多存储后端：兼容Neo4j、PostgreSQL、Faiss等多种存储系统多模型支持：支持OpenAI、Hugging Face、Ollama等主流LLM 生产就绪：提供完整的API接口和Web UI界面高并发处理：支持并发索引和查询操作系统架构设计LightRAG采用分层模块化架构，确保了系统的可扩展性和维护性。整体架构LightRAG的架构分为索引（Ind...

从零构建RAG文档问答系统：技术栈与实现方案详解

发表于2025-08-11|AI

从零构建RAG文档问答系统：技术栈与实现方案详解引言在人工智能快速发展的今天，如何让AI模型基于特定文档内容进行准确回答，成为了一个重要的技术挑战。传统的问答系统往往存在”幻觉”问题，即模型会生成看似合理但实际不准确的信息。为了解决这个问题，我们构建了一个基于RAG（Retrieval-Augmented Generation）技术的文档问答系统。本文将详细介绍这个项目的技术栈选择、架构设计、实现方案以及开发过程中的关键决策。项目概述项目源代码: https://github.com/xhuaustc/rag-qa-system 我们的RAG文档问答系统具有以下核心特性： 🔍 多格式文档支持: PDF、DOCX、Markdown、TXT等 🤖 多LLM后端: Ollama、OpenAI、Azure OpenAI 📝 智能文档分块: 支持中英文混合文本的智能分块 🔗 向量检索: 基于ChromaDB的高效向量检索 💬 智能问答: 基于文档内容的智能问答 ⚙️ 灵活配置: 支持环境变量和代码配置 🛠️ 模块化设计: 清晰的模块分离和扩展性技术栈选择核心框架...

LangChain框架入门与实践：组件详解、使用场景与示例

发表于2025-08-09|AI

背景与目标读者LangChain 是一个面向大型语言模型（Large Language Models, LLM）应用开发的开源框架，由 Harrison Chase 于 2022 年发布，并在 2023 年成立公司后快速发展。它通过统一的抽象与模块化组件，帮助开发者高效构建复杂的 AI 应用，如聊天机器人、文档问答（RAG）、智能代理（Agent）与自动摘要等。本文面向有一定 Python 基础、希望系统了解并快速上手 LangChain 的工程师与技术爱好者，覆盖核心组件、常见应用场景与可运行示例代码。 LangChain 是什么，为什么需要它？统一接口：屏蔽不同模型与服务的差异（如 OpenAI、Hugging Face、本地模型等），提供一致的调用方式。组件化设计：围绕模型、提示（Prompt）、链（Chain）、代理（Agent）、记忆（Memory）、索引（Indexes/Retriever）等模块化组合，便于扩展与维护。工程化能力：提供可观测（Callbacks）、持久化（Checkpointers/Message History）、工具...

vLLM高性能大模型推理引擎使用指南

发表于2025-08-05|AI

在当今AI快速发展的时代，大模型推理性能直接影响着应用的用户体验和成本效益。vLLM作为一个高性能的大模型推理引擎，为开发者提供了快速、高效的模型服务解决方案。本文将详细介绍如何使用vLLM进行离线推理和在线服务部署，特别是如何利用uv工具进行快速环境管理，以及如何部署兼容OpenAI API的模型服务。什么是vLLMvLLM（Very Large Language Model）是由UC Berkeley开发的高性能大语言模型推理和服务引擎。它具有以下特点：高吞吐量：通过PagedAttention等技术优化，显著提升推理速度内存效率：动态内存管理，减少显存占用易于使用：提供简洁的Python API和OpenAI兼容接口灵活部署：支持批量推理和在线服务两种模式环境准备与安装系统要求操作系统：Linux Python版本：3.9 - 3.12 硬件：NVIDIA GPU（推荐）使用uv工具快速安装uv是一个超快的Python环境管理器，可以显著加速环境创建和包安装过程。 1. 安装uv工具12345# 在Linux/macOS上安装uvcurl -LsSf ...

Cursor创建一个python项目的所有交互

发表于2025-07-27|AI

本文内容主要参考自《用cursor玩转AI辅助编程》，将详细记录如何借助 Cursor AI 高效开发一个基于 FastAPI 和 Vue.js 的销售数据分析系统。适合希望了解 AI 辅助编程实践的 Python 全栈开发者。文章涵盖了从项目初始化、依赖配置、数据库设计、后端与前端开发、数据处理、API 实现、测试到前后端联调的完整流程。通过真实的对话与操作示例，帮助读者掌握在实际开发场景下如何高效利用 Cursor 进行协作，显著提升开发效率与代码质量。后端开发需求分析 chat 1234我需要开发一个销售数据分析系统，主要功能包括数据处理、统计分析和API。请推荐合适的Python框架和技术栈，并帮助我搭建基础项目结构。系统需要处理CSV格式的销售数据，进行数据清洗和分析，最后通过Web API框架提供查询API。请帮我细化开发步骤，以便后续和你沟通时，能够一步一步实现。 chat 12345感谢你的建议！不过我想做一些调整： 1. 我希望使用MySQL而不是PostgreSQL，因为我在本地电脑已经安装了MySQL 2. 暂时不需要Docker，我们先在本地...