LLM Gateway 管理登录

请先登录后再访问监控与配置功能


      

实时监控面板

5分钟 QPS
0
5分钟 TPM
0
5分钟 错误率
0%
总调用量
0

各模型调用分布

各 Provider 调用分布

各应用调用量统计

应用 ID 调用总数

各用户调用量统计

用户 ID 调用总数

应用+用户调用量统计

应用 ID 用户 ID 调用总数

调用日志

共 0 条记录
时间 应用 ID 用户 ID 模型 Provider 延迟(ms) 状态 操作

应用管理

应用列表

请在左侧选择一个应用以查看和编辑配置

Provider 配置管理

管理端接口(需管理员登录/鉴权): GET /api/admin/models/supported(获取所有支持的模型)、 POST /api/admin/providers/{provider}/keys/rotate(新增/轮换 Provider Key)。

配置的 API Keys

Key ID Key 值 状态 操作

            

平台已支持模型(按已配置 Key 实时探测)

Provider 已配置 Key 有效 Key 无效 Key 模型数 模型列表

API Key 冷却名单

Provider Key ID API Key 状态 剩余时间 冷却次数 错误信息 触发时间

API Key 冷却日志

第 1 页
时间 Provider Key ID API Key 状态码 错误码 错误描述 冷却时长(s) 累计次数

网关对外接口文档

以下接口用于客户端调用,请在请求头中携带以下鉴权信息:

  • x-api-key - 必填,应用 API Key(如 sk_app_fe21cb7cb3b64f779e19ccbe335b9030
  • Authorization - 可选,格式 Key <app_id>:<api_key>(用于传递用户 JWT Token)

1. 获取 API Key

登录管理后台 → 应用管理 → 创建应用 → 复制 API Key

2. 模型列表接口

GET /v1/models

作用:获取当前应用在网关可调用的模型列表(受应用模型授权与可用 Provider Key 影响)。

curl -X GET http://localhost:8000/v1/models \
  -H "x-api-key: sk-abc123"
{
  "object": "list",
  "data": [
    {"id": "gpt-4o-mini", "object": "model", "owned_by": "llm-balance"}
  ]
}

3. OpenAI 聊天补全接口

POST /v1/chat/completions

作用:兼容 OpenAI 格式的对话补全接口,支持多模型智能路由。

Python 示例:

import requests

BASE_URL = "http://localhost:8000"
APP_ID = "myapp"
API_KEY = "sk-abc123"

headers = {
    "x-api-key": API_KEY,
    "Content-Type": "application/json"
}

payload = {
    "model": "gpt-4o",
    "messages": [
        {"role": "user", "content": "用 Python 写一个冒泡排序"}
    ],
    "max_tokens": 500,
    "temperature": 0.7
}

response = requests.post(
    f"{BASE_URL}/v1/chat/completions",
    headers=headers,
    json=payload
)

if response.status_code == 200:
    result = response.json()
    print(result["choices"][0]["message"]["content"])
else:
    print(f"Error: {response.status_code} - {response.text}")

JSON 请求示例:

{
  "model": "gpt-4o",
  "user_id": "user_12345",
  "messages": [
    {"role": "user", "content": "你好"}
  ],
  "max_tokens": 1024,
  "temperature": 0.7,
  "routing": {
    "preferred_provider": "openai",
    "algorithm": "weighted_rr"
  }
}

参数说明:

  • model - 模型名称,不填则随机选择可用模型
  • user_id / user / userid - 用于用户维度的调用统计
  • routing.algorithm - 负载均衡算法:weighted_rr(加权轮询)、random(随机)、least_latency(最低延迟)

4. 流式聊天补全

在请求体中添加 "stream": true 即可启用流式输出。

Python 示例:

import requests

headers = {"x-api-key": "sk-abc123"}
payload = {
    "model": "gpt-4o",
    "messages": [{"role": "user", "content": "讲一个故事"}],
    "stream": True
}

response = requests.post(
    "http://localhost:8000/v1/chat/completions",
    headers=headers,
    json=payload,
    stream=True
)

for line in response.iter_lines():
    if line:
        print(line.decode('utf-8'))

5. OpenAI 向量模型接口

POST /v1/embeddings

作用:兼容 OpenAI 格式的文本向量化接口。

{
  "model_id": "text-embedding-3-small",
  "userid": "u_10001",
  "input": "需要向量化的文本内容"
}

6. Anthropic 消息接口

POST /anthropic/v1/messages

作用:兼容 Anthropic Claude 格式的对话接口。

{
  "model_id": "claude-3-5-sonnet",
  "userid": "u_10001",
  "messages": [
    {"role": "user", "content": "你好"}
  ],
  "max_tokens": 1024,
  "routing": {
    "algorithm": "latency_based"
  }
}

错误码说明

状态码 说明
200 请求成功
400 请求参数错误
401 API Key 无效
403 模型不在允许列表中
429 配额超限
500 服务器内部错误

Token 消耗统计

总请求数
0
总 Prompt Tokens
0
总 Completion Tokens
0
总 Tokens
0

按模型统计 Token 消耗

按 Provider 统计 Token 消耗

各模型 Token 消耗明细

模型 请求数 Prompt Tokens Completion Tokens Total Tokens

各 Provider Token 消耗明细

Provider 请求数 Prompt Tokens Completion Tokens Total Tokens

各用户 Token 消耗明细

用户 ID 请求数 Prompt Tokens Completion Tokens Total Tokens