Posts on Code Now

【模型推理】浅谈CUDA Graph(WIP)

Mon, 20 Apr 2026 04:27:43 +0000

CUDA Graph 算是在推理优化里被提到最多的特性之一了。原理倒是不复杂：把原本一次次 launch 的 kernel 打包成一张静态图，一次性扔给 GPU，省掉中间的调度开销。

但这个"打包"具体怎么做？PyTorch 里怎么用？以及最重要的是——在 H200 上到底能快多少？

这篇文章就是把这几个问题摸清楚的过程记录。

1. LLM 推理在忙什么

Graph 能减少 kernel launch 的开销，但为什么 LLM 推理特别需要这个？先简单说下背景。

老生常谈的问题，LLM 推理分两个阶段：

Prefill

输入是用户的一整段 prompt
一次性做完整的 self-attention 计算，然后讲产生的KVCache写入显存或者其他存储设备，从而在Decode阶段使用。
特点是计算密集，kernel消耗的时间比较多，GPU 利用率相对高，同时对内存IO要要求比较低。总之就compute-bound，算力是决定他的速度的关键。

Decode

自回归过程，每次只生成一个 token
要用到之前计算的 KV Cache，只做必要的更新，对于单个请求推理的时候我们输入model的Tensor维度为[1, D], 其中D是Embedding的维度。
特点是memory-bound, 单个请求计算量少，但是需要load KVCache巨大，而且推理的时间越长，KVCache load的压力就越大。

对于这个推理过程，我们可以认为CPU step2step的将模型每一层计算所需要的kernel相关数据和元数据准备好，调用launch通知GPU执行，然后异步的准备下一次计算所需要的信息的过程。

此时因为不同Prefill和Decode不同特点，CPU与GPU直接的协作和等待有不同的表现

Prefill 由于Kernel计算时间比较长，因此CPU侧的开销其实基本可以被GPU的运算Overlap掉，因此关注点核心应该是GPU Kernel如何跑更快。

Decode阶段，其实就是两个地方了，首先Kernel计算量比较小，因此开销时间很少，这种情况就出现了GPU等CPU等情况，这也是就是为什么我们常说Decode阶段需要开CUDA Graph的，原因，CUDA Graph的目标就是消除GPU等CPU的问题，让GPU计算更高效。

如今其实也有主流的推理框架也支持Prefill阶段的CUDA Graph，这个主要是因为在推理过程中模型有大量的小kernel，比如说Norm这类的Kernel，这种其实也类似于Decode阶段的样子，GPU也需要等待CPU，因此CUDA Graph也是可以计算的，至于细节后面我会再写一篇专门介绍Prefill Piecewise CUDA Graph的一些细节。

2. Pytorch在推理的时候CPU纠结在做什么？

因为像Pytorch这种框架一般对于一个算子支持很多Kernel的实现，因此为了支持这么多Kernel的实现就回有大量的dispatch的代码用来运行时自动路由到不同的kernel上，同时也会有很多准备工作，所有工作完成之后就调用cudaLaunchKernel交给CUDA的runtime层做一些准备工作并发送给GPU。在GPU运行的时候其实也会有一些操作，比如说GPU侧做Kernel环境的准备，在执行后也会有一些清理状态的后处理。总结来说就如图，一个Kernel从Pytorch发起执行到做完运行有这几个步骤：

CPU:
1. Pytorch C++ Dispatch
2. Kernel Launcher Prepare
3. cudaLaunchKernel
GPU:
1. Command Processor
2. Kernel Execute
3. Post-Process

2.1. Pytorch Dispatch & Kernel Prepare

Pytorch Dispatch: 这个其实是所有支持多种Kernel+使用Python实现执行前端框架的通病。

如何让hugo支持infographic

Tue, 06 Jan 2026 03:33:16 +0000

前言

infographic 是蚂蚁Antv的新组建，其目标是为AI提供更易用的可视化工具，定位类似于mermaid。其提供了开发者/AI易用的DSL，通过快捷的编写DSL就可以很快的快速可视化，各种图表例如折线图/饼图之类的，同时也可以可视化一些类似于PPT需要使用到的grid图/swot图之类的工具，非常的易用。因此我希望可以引入我的hugo博客，并且可以通过markdown code block快速的通过infographic 可视化我的想法。

怎么做?

Hugo提供了embedded code block render hook. 可以通过模版对特定的language的 code block进行渲染，Hugo中的Mermaid等图都可以使用这种方法。

step1: 增加js import

在全局header中增加对infographic的包的引用，可以在 layouts/partials/foot_custom.html 增加对AntV Infographic的引用

<script src="https://unpkg.com/@antv/infographic@latest/dist/infographic.min.js"></script>

step2: 增加自定义渲染block的hook

增加layouts/_default/_markup/render-codeblock-infographic.html
通过模版和js脚本对整体html进行渲染和注入

<div id="infographic-{{ .Ordinal }}" class="infographic-container" style="min-height: 500px; width: 100%;"></div>
<script>
(function() {
  const container = document.getElementById('infographic-{{ .Ordinal }}');
  const syntax = `{{ .Inner | safeJS }}`;
  
  function renderInfographic() {
    if (window.AntVInfographic) {
      const { Infographic } = window.AntVInfographic;
      const infographic = new Infographic({
        container: container,
        width: '100%',
        height: '500px',
      });
      infographic.render(syntax);
    } else {
      // Retry if library not loaded yet
      setTimeout(renderInfographic, 100);
    }
  }
  
  if (document.readyState === 'complete') {
    renderInfographic();
  } else {
    window.addEventListener('load', renderInfographic);
  }
})();
</script>
{{ .Page.Store.Set "hasInfographic" true }}

效果

example1: 基础图

从零开始LLM生活-如何编写一个Agent

Tue, 27 May 2025 16:04:10 +0000

本文希望使用通俗的语言表述什么是LLM Agent 和使用python实现一个简单的Agent

1. Agent介绍

1.1 什么是Agent？

LLM Agent并没有一个明确的定义，但是有一个核心特点就是

An LLM serves as the main controller or “brain” that controls a flow of operations needed to complete a task or user request. —《Prompt Engineering Guide》

LLM Agent 是一个基于大型语言模型（LLM）的系统，它不仅仅被动地响应查询，更能自主地制定计划、利用工具/资源与外部环境交互，并根据观察结果调整行为，以达成特定目标。与简单的LLM调用相比，Agent更强调其自主性、规划能力和工具使用能力.

1.2 LLM Agent可以解决什么样的问题？

If that deterministic workflow fits all queries, by all means just code everything! This will give you a 100% reliable system with no risk of error introduced by letting unpredictable LLMs meddle in your workflow. For the sake of simplicity and robustness, it’s advised to regularize towards not using any agentic behaviour.

从零开始的 LLM Agent编程生活--MCP 篇

Mon, 21 Apr 2025 08:23:57 +0000

1. 什么是MCP(Model Context Protocol)

MCP（Model Context Protocol，模型上下文协议）是由Anthropic公司于2024年推出并开源的一种通信协议，旨在解决大型语言模型（LLM）与外部数据源及工具之间的连接问题。定义了 Model 与外部接口/数据/Prompt 通信之间的协议。工具/资源提供方只需要实现 MCP 协议就可以和实现 MCP 客户端的 LLM APP 链接，LLM APP在运行过程中自动根据协议中返回工具列表/Prompt/资源列表，通过JsonRpc 从 MCP 服务器中获取。

一个简单的例子：接入高德地图，让模型通过高德地图的 API 查询相关天气/路径/地图周围相关信息的能力。

没有 MCP：需要自己实现对高德 OpenAPI 的调用 Tools，自己写 Prompt 组织对 LLM 的请求。

有 MCP 后：直接使用 MCP Client 写上高德 MCP Service 的 Endpoint 和 Key，LLM 会在运行期间主动通过 MCP 查询高德相关资源，并使用高德已经组织好的 Prompt 反馈给 LLM。

2. MCP定义了什么：

MCP 定义的原语：

Tools：FunctionCall
Resouce：资源
Prompts：提供结构化模板
Sampling：允许服务器请求客户端调用 LLM

2.1 工具：

经常有人拿 FunctionCall 和 MCP 做对比，甚至发出既生FunctionCall 又生 MCP 的感叹，我个人认为 FunctionCall和 MCP 并不冲突，FunctionCall 其实是 MCP 的一个子集，MCP 也支持 FunctionCall，只不过 MCP 还支持 Resource/Prompt 等定义，并在协议层对其获取/调用/更新做了明确 Protocol 约束。

讲给老婆的数据系统设计-ACID事务

Sun, 09 Mar 2025 16:16:44 +0000

为什么会有事务

“在数据系统的残酷现实中，很多事情都可能出错：

数据库软件、硬件可能在任意时刻发生故障（包括写操作进行到一半时）。

应用程序可能在任意时刻崩溃（包括一系列操作的中间）。

网络中断可能会意外切断数据库与应用的连接，或数据库之间的连接。

多个客户端可能会同时写入数据库，覆盖彼此的更改。

客户端可能读取到无意义的数据，因为数据只更新了一部分。

客户之间的竞争条件可能导致令人惊讶的错误。” — 《数据密集型应用系统设计》

在并发编程中，我们常常会关注多线程/进程/协程对同一块内存进行修改时候的正确性，这个时候我们因为了原子变量和锁来实现临界区去解决这个问题。在实际生活和开发中更多是操作主体总是会通过一系列的操作来完成一件事，这个时候我们也希望能提供类似于原子变量的工作来讲我们一系列操作进行保护，从而防止出现多个主体操作的非预期情况。

想象一下，你在用手机银行给朋友转账。这个过程其实有两步：从你的账户扣钱，然后把钱加到朋友的账户上。那么问题来了：

如果只完成一半怎么办？【原子】

假设银行系统在扣完你的钱后突然断电了，没能把钱加到朋友账户上。这时候钱就凭空消失了！你的账户少了钱，但朋友并没有收到。

事务就是为了解决这个问题：它确保一组相关操作要么全部完成，要么一个都不做。就像是给这些操作绑了个保险绳，不让它们半途而废。

多人同时操作怎么办？【隔离】

想象你和家人共用一个银行账户，账户里有1000元。你在商场准备刷卡买800元的东西，同一时间，你爱人在超市也想用这个账户买500元的菜。

如果系统没有适当控制，可能会出现这种情况：系统先检查账户有1000元（够付800元），然后你老婆那边系统也检查有1000元（够付500元）。结果你们俩同时消费了1300元，超出了账户里的1000元！

事务能够解决这个问题，它会确保在一个人操作的时候，其他人要么看到操作前的状态，要么看到操作后的状态，不会看到中间状态，避免大家操作冲突。

数据会不会突然丢失？【持久】

假设你正在网上填写一个很长的表单，好不容易填完提交，系统提示"保存成功"，但第二天你登录发现信息不见了！原来是系统在显示成功后，还没来得及真正保存到硬盘上就崩溃了。

事务确保一旦系统告诉你"操作成功"，那么即使下一秒系统崩溃，你的数据也不会丢失。它就像是给你的重要资料上了一个保险锁。

总结来说事务模型就是为多种操作提供原子化/隔离性/持久性的一个编程模型。也就是事务的ACID模型。【A：Atomicity，C：Consistency，I：Isolation，D：Durability】

ACID事务特性：

原子性：

这个原子性其实是计算机中“原子”概念的衍生，计算机的原子性指一个操作或者数据没有中间状态，只有开始和结束，没有中间状态。而事务提到的原子其实是有中间状态，但是中间状态对于其他的操作主体是无法干预的，同时如果中止，则在事务中所有操作都会被回滚。DDIA书中更多的称为可中止性（abortability）：“能够在错误时中止事务，丢弃该事务进行的所有写入变更的能力”

一致性：

事务一致性是ACID特性中最为核心却也最容易被误解的概念。从形式化的角度看，一致性指的是事务执行前后，数据库必须从一个一致性状态转变为另一个一致性状态。所谓一致性状态，是指数据库中的数据满足所有预定义的完整性约束(integrity constraints)。

实体完整性(Entity Integrity): 通过主键约束实现，确保每个实体具有唯一标识
参照完整性(Referential Integrity): 通过外键约束实现，保证实体间引用关系的有效性
域完整性(Domain Integrity): 通过数据类型、CHECK约束等实现，确保属性值满足预定义规则
用户定义完整性(User-Defined Integrity): 通过触发器、存储过程等实现特定业务规则

一致性可被视为一个不变量(invariant)的保持过程，它确保数据库状态转换符合业务规则和领域逻辑。与原子性和隔离性不同，一致性的保证不仅依赖于数据库系统本身，还需要应用程序正确实现业务逻辑。同时原子性、隔离性和持久性是实现一致性的技术手段

隔离性：

隔离性指的是两个事务之间的操作和中间状态和变量互相看不见，即使一个用户做了一个写操作其他用户也看不到。

  sequenceDiagram
    participant User1 as User 1
    participant DB as Database
    participant User2 as User 2

    
    User1->>DB: get counter
    DB-->>User1: 42
    
    Note over User1: [42 + 1 = 43]
    
    User2->>DB: get counter
    DB-->>User2: 42
    
    Note over User2: [42 + 1 = 43]
    
    User1->>DB: set counter = 43
    DB-->>User1: ok
    
    User2->>DB: set counter = 43 
    DB-->>User2: ok

最简单的时间就是事务之间完全串行，这样的话就会完全保证事务之间完全是看不到中间状态，但是在实际情况情况下为了提高效率，一般会将隔离优化为4个等级：

树状数组（Binary Indexed）

Tue, 10 Mar 2020 17:30:00 +0000

首先很感谢B站up主鹤翔万里的视频, 推荐看 https://www.bilibili.com/video/av69667943?from=search&seid=10916758362943551299 本文为这个视频集合算法笔记写的总结

问题引入：给出了一个长度为n的数组，完成以下两种操作

输出区间[x, y]内每个数字的和
将第x个数加上k

最基础的算法：

维护一个sum数组，其sum[i]记录的为从0-i的和。其递推计算关系为sum[i] = sum[i-1] + nums[i]其中sum[0] = nums[0]。
计算区间和即可使用sum_xy = sum[y] - sum[x-1]。
将第x个数加上v, 因为要更新sum[x]...sum[n]所有值，因此其时间复杂度为$O(n)$
如果进行k次操作add则时间复杂度为$O(kn)$，k次求区间和的时间复杂度为$O(k)$

在更新频繁的很多场景下$O(kn)$的时间复杂度是不可接受的。

因此引入树状数组来解决此问题。

树状数组(Binary Indexed Tree)：单点修改$O(logn)$，区间查询$O(logn)$，因此在区间内多次修改查询的速度为$O(klogn)$

LowBit 运算

非负证数n在二进制表示下最低为1及其后面的0构成的数值。例如:

$$lowbit(20) = lowbit(10100) = (100) = 4$$

如何操作呢:

c++代码

int lowbit(unsigned int n) {
    /**
     *  10100  20
     *  01100  20的补码
     * &------
     *  00100->lowbit
    */
    unsigned int complement_n = ~n + 1; // 求补码，如果是int的话直接 -n即可
    return n & complement_n; 
}
// 或者

int lowbit(int n) {
    return n & (-n)
}

python代码