LLM Gateway 控制台

实时监控面板

5分钟 QPS

5分钟 TPM

5分钟错误率

总调用量

各模型调用分布

各 Provider 调用分布

各应用调用量统计

应用 ID	调用总数

各用户调用量统计

用户 ID	调用总数

应用+用户调用量统计

应用 ID	用户 ID	调用总数

调用日志

应用 ID

用户 ID

模型

Provider

状态

开始时间

结束时间

时间	应用 ID	用户 ID	模型	Provider	延迟(ms)	状态	操作

应用管理

应用列表

应用配置: -

API 密钥 (单应用单密钥)

密钥值	操作

额度配置 (Quota)

权限配置 (Permissions)

允许的模型 (从平台支持模型选择)

提示：可多选后点击“添加到允许列表”；也可在搜索框按 Enter 快速添加，或双击列表项添加。

已允许模型 (0)

允许所有模型

允许的特性 (逗号分隔)

请在左侧选择一个应用以查看和编辑配置

Provider 配置管理

管理端接口（需管理员登录/鉴权）： GET /api/admin/models/supported（获取所有支持的模型）、 POST /api/admin/providers/{provider}/keys/rotate（新增/轮换 Provider Key）。

选择 Provider

配置的 API Keys

Key ID	Key 值	状态	操作

添加时验证 Key 尝试查询余额

平台已支持模型（按已配置 Key 实时探测）

Provider	已配置 Key	有效 Key	无效 Key	模型数	模型列表

API Key 冷却名单

Provider	Key ID	API Key	状态	剩余时间	冷却次数	错误信息	触发时间

API Key 冷却日志

第 1 页

时间	Provider	Key ID	API Key	状态码	错误码	错误描述	冷却时长(s)	累计次数

网关对外接口文档

以下接口用于客户端调用，请在请求头中携带以下鉴权信息：

x-api-key - 必填，应用 API Key（如 sk_app_fe21cb7cb3b64f779e19ccbe335b9030）
Authorization - 可选，格式 Key <app_id>:<api_key>（用于传递用户 JWT Token）

1. 获取 API Key

登录管理后台 → 应用管理 → 创建应用 → 复制 API Key

2. 模型列表接口

GET /v1/models

作用：获取当前应用在网关可调用的模型列表（受应用模型授权与可用 Provider Key 影响）。

curl -X GET http://localhost:8000/v1/models \
  -H "x-api-key: sk-abc123"

{
  "object": "list",
  "data": [
    {"id": "gpt-4o-mini", "object": "model", "owned_by": "llm-balance"}
  ]
}

3. OpenAI 聊天补全接口

POST /v1/chat/completions

作用：兼容 OpenAI 格式的对话补全接口，支持多模型智能路由。

Python 示例：

import requests

BASE_URL = "http://localhost:8000"
APP_ID = "myapp"
API_KEY = "sk-abc123"

headers = {
    "x-api-key": API_KEY,
    "Content-Type": "application/json"
}

payload = {
    "model": "gpt-4o",
    "messages": [
        {"role": "user", "content": "用 Python 写一个冒泡排序"}
    ],
    "max_tokens": 500,
    "temperature": 0.7
}

response = requests.post(
    f"{BASE_URL}/v1/chat/completions",
    headers=headers,
    json=payload
)

if response.status_code == 200:
    result = response.json()
    print(result["choices"][0]["message"]["content"])
else:
    print(f"Error: {response.status_code} - {response.text}")

JSON 请求示例：

{
  "model": "gpt-4o",
  "user_id": "user_12345",
  "messages": [
    {"role": "user", "content": "你好"}
  ],
  "max_tokens": 1024,
  "temperature": 0.7,
  "routing": {
    "preferred_provider": "openai",
    "algorithm": "weighted_rr"
  }
}

参数说明：

model - 模型名称，不填则随机选择可用模型
user_id / user / userid - 用于用户维度的调用统计
routing.algorithm - 负载均衡算法：weighted_rr（加权轮询）、random（随机）、least_latency（最低延迟）

4. 流式聊天补全

在请求体中添加 "stream": true 即可启用流式输出。

Python 示例：

import requests

headers = {"x-api-key": "sk-abc123"}
payload = {
    "model": "gpt-4o",
    "messages": [{"role": "user", "content": "讲一个故事"}],
    "stream": True
}

response = requests.post(
    "http://localhost:8000/v1/chat/completions",
    headers=headers,
    json=payload,
    stream=True
)

for line in response.iter_lines():
    if line:
        print(line.decode('utf-8'))

5. OpenAI 向量模型接口

POST /v1/embeddings

作用：兼容 OpenAI 格式的文本向量化接口。

{
  "model_id": "text-embedding-3-small",
  "userid": "u_10001",
  "input": "需要向量化的文本内容"
}

6. Anthropic 消息接口

POST /anthropic/v1/messages

作用：兼容 Anthropic Claude 格式的对话接口。

{
  "model_id": "claude-3-5-sonnet",
  "userid": "u_10001",
  "messages": [
    {"role": "user", "content": "你好"}
  ],
  "max_tokens": 1024,
  "routing": {
    "algorithm": "latency_based"
  }
}

错误码说明

状态码	说明
200	请求成功
400	请求参数错误
401	API Key 无效
403	模型不在允许列表中
429	配额超限
500	服务器内部错误

Token 消耗统计