Handle stale connections in fetch_base_experiment() #1178

dpdiliberto · 2025-12-16T23:48:29Z

Problem

Long eval jobs (500+ docs) on Azure VMs freeze for ~15 minutes after reaching 100% completion. The failure occurs when summarize() calls fetch_base_experiment(), which uses app_conn() (Vercel IP) that sits idle during the eval run.

Azure NAT gateways have a 4-minute idle timeout that silently closes stale connections. When fetch_base_experiment() tries to use the stale connection, it fails with ConnectionError.

Solution

Added retry logic with connection reset to fetch_base_experiment():

3 retry attempts with exponential backoff
Explicit timeouts (5s connect, 10s read)
Connection reset (conn._reset()) on retry to create fresh HTTP session
Returns None after max retries instead of raising

Changes

logger.py: Added retry logic to fetch_base_experiment()
test_stale_connection.py: Integration test using real HTTP server to simulate NAT timeout

Testing

cd sdk/py
PYTHONPATH=src python3 -m unittest braintrust.test_stale_connection -v

Test uses a real HTTP server that simulates NAT gateway timeout behavior (0.5s timeout simulates 4-minute Azure NAT timeout).

dpdiliberto added 2 commits December 16, 2025 15:24

Fix stale connection timeout in fetch_base_experiment() with retry logic

b97ee36

Fix test_stale_connection.py errors

6a372ae

dpdiliberto marked this pull request as draft December 17, 2025 00:09

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Handle stale connections in fetch_base_experiment() #1178

Handle stale connections in fetch_base_experiment() #1178

Uh oh!

dpdiliberto commented Dec 16, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Handle stale connections in fetch_base_experiment() #1178

Are you sure you want to change the base?

Handle stale connections in fetch_base_experiment() #1178

Uh oh!

Conversation

dpdiliberto commented Dec 16, 2025

Problem

Solution

Changes

Testing

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants