{
  "episode_id": "rider-delivery-01_w3SZVPiNxDU_0_60",
  "task_id": 9001,
  "task_name": "outdoor_food_delivery_ego_pov",
  "task_text_en": "First-person outdoor food-delivery ride: restaurant pickup, mount scooter, navigate urban streets, yield to pedestrians and a leashed dog.",
  "task_text_zh": "第一视角户外送外卖：在餐厅取餐、跨上电动车、穿行城市街道、向行人与牵绳犬让行。",
  "init_text_en": "Rider is inside a dim restaurant interior approaching the counter for pickup; a sunny New York street is visible through the window.",
  "init_text_zh": "骑手身处昏暗的餐厅内部，正走向柜台取餐；窗外是阳光明媚的纽约街道。",
  "robot": "Human Delivery Rider (Ego-POV Camera)",
  "robot_kinematics": "human + e-scooter · chest/helmet-mounted camera",
  "robot_sn": "rider-cam-001",
  "scene": "Outdoor",
  "sub_scene": "urban_delivery_harlem_nyc",
  "data_gen_mode": "real_machine",
  "fps": 30,
  "duration_seconds": 60,
  "frame_count_video": 1800,
  "frame_count_annotated": 36,
  "annotation_sampling": "0.5fps base + 6 event keyframes",
  "videos": {
    "ego": {
      "src": "ego.mp4",
      "label": "EGO POV · CHEST CAM",
      "resolution": "568×320",
      "role": "primary"
    }
  },
  "annotation_layers": [
    "L1: 2D detection + tracking · 23 track IDs, 114 bbox total",
    "L3: ego action + state (mode · speed · brake · gaze)",
    "L5: bilingual captions (7 clip-level · 12 event-level · 36 keyframe-level)"
  ],
  "available_streams": [
    "RGB × 1 (ego POV, 30 fps)",
    "L1 detection: 23 track IDs across 36 frames",
    "L3 ego state: mode / speed_bucket / brake_intensity / gaze",
    "L4 risk events: 1× T2, 2× T3 flagged",
    "L5 bilingual captions: 55 total entries (clip + event + keyframe)"
  ],
  "spans_source": "L5 keyframe + event captions, grouped by clip"
}