Test Agents

Eval Observatory · US-13 RSA Pipeline

DATA

FIELD

SYNTH

FINDINGS

STANDBY

AGENT IDLE

EVAL OUTPUT STREAM

Awaiting eval initialization...

EVAL PARAMETERS

Temperature0.3

PreciseCreative

Max Tokens / Response2048

ConciseVerbose

Response Timeout30s

FastThorough

Judge Score Threshold0.75

LenientStrict

RUN STATUS

MODEL

claude-sonnet-4-6

EVAL TYPE

RSA Pipeline

STUDY

deldot-us13

SCORER

LLM-as-Judge