#!/usr/bin/env python3 """Generate a standalone HTML review page for eval outputs.""" from __future__ import annotations import argparse import base64 import html import json from pathlib import Path TEXT_EXTENSIONS = { ".txt", ".md", ".json", ".csv", ".py", ".js", ".ts", ".tsx", ".jsx", ".yaml", ".yml", ".xml", ".html", ".css", ".sh", ".toml", } IMAGE_EXTENSIONS = {".png", ".jpg", ".jpeg", ".gif", ".svg", ".webp"} def load_json(path: Path) -> dict | None: if not path.exists(): return None try: return json.loads(path.read_text(encoding="utf-8")) except (OSError, json.JSONDecodeError): return None def discover_eval_dirs(root: Path) -> list[Path]: if (root / "eval_metadata.json").exists(): return [root] return sorted(path.parent for path in root.rglob("eval_metadata.json")) def embed_file(path: Path) -> dict: ext = path.suffix.lower() if ext in TEXT_EXTENSIONS: content = path.read_text(encoding="utf-8", errors="replace") return {"name": path.name, "kind": "text", "content": content} if ext in IMAGE_EXTENSIONS: raw = path.read_bytes() mime = "image/svg+xml" if ext == ".svg" else f"image/{ext.lstrip('.')}" return { "name": path.name, "kind": "image", "src": f"data:{mime};base64,{base64.b64encode(raw).decode('ascii')}", } raw = path.read_bytes() return { "name": path.name, "kind": "binary", "href": f"data:application/octet-stream;base64,{base64.b64encode(raw).decode('ascii')}", } def load_outputs(outputs_dir: Path) -> list[dict]: if not outputs_dir.exists(): return [] files = [] for path in sorted(outputs_dir.iterdir()): if path.is_file(): files.append(embed_file(path)) return files def collect_runs(eval_dir: Path) -> list[dict]: rows: list[dict] = [] metadata = load_json(eval_dir / "eval_metadata.json") or {} for config_dir in sorted(path for path in eval_dir.iterdir() if path.is_dir()): run_dirs = sorted(config_dir.glob("run-*")) if run_dirs: for run_dir in run_dirs: rows.append( { "config": config_dir.name, "run_label": run_dir.name, "grading": load_json(run_dir / "grading.json"), "outputs": load_outputs(run_dir / "outputs"), } ) elif (config_dir / "outputs").exists() or (config_dir / "grading.json").exists(): rows.append( { "config": config_dir.name, "run_label": "run-1", "grading": load_json(config_dir / "grading.json"), "outputs": load_outputs(config_dir / "outputs"), } ) return [ { "eval_name": metadata.get("eval_name", eval_dir.name), "eval_id": metadata.get("eval_id", eval_dir.name), "prompt": metadata.get("prompt", ""), "expected_output": metadata.get("expected_output", ""), "expectations": metadata.get("expectations", []), "runs": rows, } ] def render_output(file_info: dict) -> str: name = html.escape(file_info["name"]) if file_info["kind"] == "text": return f"

{name}

{html.escape(file_info['content'])}

" if file_info["kind"] == "image": return f"

{name}

$\"{name}\"$ " return f"

{name}

Download file

" def render_grading(grading: dict | None) -> str: if not grading: return "

No grading.json found.

" summary = grading.get("summary", {}) lines = [ "

", f"

Pass rate: {summary.get('pass_rate', 0):.2f}

", f"

Passed: {summary.get('passed', 0)} / {summary.get('total', 0)}

", ] expectations = grading.get("expectations", []) if expectations: lines.append("

" f"{status} {html.escape(str(item.get('text', '')))}" f"
{html.escape(str(item.get('evidence', '')))}" "

") lines.append("

") return "\n".join(lines) def render_html(title: str, evals: list[dict], benchmark: dict | None) -> str: benchmark_html = "" if benchmark: summary = benchmark.get("run_summary", {}) rows = [] for config, stats in summary.items(): if config == "delta": continue rows.append( "" f"{html.escape(config)}" f"{stats.get('pass_rate', {}).get('mean', 0):.2f}" f"{stats.get('time_seconds', {}).get('mean', 0):.1f}" f"{stats.get('tokens', {}).get('mean', 0):.0f}" "" ) benchmark_html = ( "

Benchmark Summary

" "" f"{''.join(rows)}

Config	Pass rate	Time (s)	Tokens

" ) sections = [] for eval_item in evals: run_blocks = [] for run in eval_item["runs"]: outputs_html = "".join(render_output(item) for item in run["outputs"]) or "

No output files.

" run_blocks.append( "

" f"

{html.escape(run['config'])} / {html.escape(run['run_label'])}

" f"{render_grading(run['grading'])}" f"{outputs_html}" "

" ) expectations_html = "".join(f"

{html.escape(str(item))}

" for item in eval_item["expectations"]) sections.append( "

" f"

{html.escape(str(eval_item['eval_name']))}

" f"

Prompt: {html.escape(str(eval_item['prompt']))}

" f"

Expected output: {html.escape(str(eval_item['expected_output']))}

" f"

{expectations_html}" f"

{''.join(run_blocks)}

" "

" ) return f""" {html.escape(title)}

{html.escape(title)}

{benchmark_html} {''.join(sections)} """ def main() -> int: parser = argparse.ArgumentParser(description="Generate a standalone HTML review page from eval outputs") parser.add_argument("root", help="Iteration directory or any directory containing eval_metadata.json files") parser.add_argument("--benchmark", help="Optional benchmark.json path") parser.add_argument("--output", help="Output HTML path (default: /review.html)") parser.add_argument("--title", default="", help="Custom page title") args = parser.parse_args() root = Path(args.root).resolve() eval_dirs = discover_eval_dirs(root) if not eval_dirs: raise SystemExit(f"No eval_metadata.json files found under {root}") evals: list[dict] = [] for eval_dir in eval_dirs: evals.extend(collect_runs(eval_dir)) benchmark_path = Path(args.benchmark).resolve() if args.benchmark else (root / "benchmark.json") benchmark = load_json(benchmark_path) if benchmark_path.exists() else None output_path = Path(args.output).resolve() if args.output else (root / "review.html") title = args.title or f"Eval Review: {root.name}" output_path.write_text(render_html(title, evals, benchmark), encoding="utf-8") print(f"Generated: {output_path}") return 0 if __name__ == "__main__": raise SystemExit(main())