SafetyGuard X — Adversarial AI Safety System

Navigation

📊Dashboard

📋Scenarios

📈Analytics

🕐History

⚙️Settings

—

Safety

Flagged

Turns

—

Accuracy

Episode Setup

Scenario 0

Session

ID—

StatusIDLE

ModeLOCAL

Active Policies

Core Safety v3.2DEFAULT

Harmful Content FilterACTIVE

Jailbreak GuardACTIVE

🎬 Live Scenario EASY — Core Safety Protocols v3.0 →

Session: —

🤖 AUTO MODE — AI agent will automatically process each query and show its reasoning

⌨️ Query Input BENIGN

Real-time Safety Check

TURN 0/0

Reset an episode to begin evaluation...

Correctness Score

0.00%

decision accuracy

Safety Score

0 SAFE

policy alignment

Policy Compliance

0/0

rules satisfied

Select a scenario to load it:

📊 Performance Intelligence

FILTER BY TASK:

Training Progress — Safetyforge Arena

Safety Score Trend

Safety Signature (Radar)

Decision Profile

Risk Exposure Matrix

Lifetime Score

—

Ep: —

Metric Breakdown

No completed episodes yet.
Complete an episode to see history here.

Environment

API Base URLlocalhost:7860

Auto-step delay

Max retries

Display

Show typing effect

Show thinking trace

Particle effects

Grader Weights

Correctness0.35

Policy Align0.25

Reasoning0.15

Escalation0.10

Efficiency0.10

Consistency0.05

About

Versionv2.4.0

OpenEnv Spec1.0

Tasks4 (easy→expert)

Backendchecking...

🧠 AI Reasoning Engine

LIVE

📊 Safety Index

—

INDEX

Risk Distribution

SAFE

Awaiting input

🔍 Policy Trigger Analysis

⏳Reset to load...

📈 Threat Evolution

No turns yet.

⚖️ Decision Breakdown

PENDING

Confidence: —

Awaiting submission

⚡ Model Thinking Trace

Analyze query intent

—

Match active policies

—

Evaluate risk level

—

Check escalation pattern

—

Final decision output

—

🕐 Turn History

No history yet.