Nginx代理大模型LLM项目(SSE流式输出)

‌proxy_buffering 是 Nginx 反向代理中控制是否缓冲后端响应的开关‌,默认开启,开启时先攒够数据再发给客户端,关闭时边收边转适合流式场景

保持开启(proxy_buffering on)的场景‌:

  • 普通 REST API 接口(返回 JSON/XML 数据)。
  • 静态资源服务(HTML/CSS/JS 文件)。
  • 需要在网关层统一添加或修改响应头的情况。
  • 配合 proxy_cache 做缓存加速的场景。‌‌‌

需要关闭(proxy_buffering off)的场景‌:

  • SSE 服务器推送事件(text/event-stream)。
  • LLM 大模型逐 token 流式输出。
  • WebSocket 连接升级前的长连接。
  • 实时日志推送(如 Loki/Fluentd)。
  • 大文件分片下载(超过 10MB)。‌‌‌
# Nginx配置
location /api/stream {
  proxy_buffering off;
  proxy_cache off;
  proxy_request_buffering off;
  proxy_buffer_size 4k;
  proxy_read_timeout 300s;
}

此处评论已关闭