Leaderboard

Full rankings across all datasets and models.

Survey Parity Score (SPS) measures how closely AI-generated survey responses match real human opinion distributions. 1.0 = perfect match.

Default view hides configs with <3 runs on <2 datasets. Toggle “All variants” to see every run.

Leaderboard

Select a column header to sort. Activate a row (Enter) to open its configuration, or use the chevron button to expand details inline.

SynthPanel (GPT-4o-mini) conditioned ✓ verified SynthPanel (GPT-4o-mini)

globalopinionqa

product

0.786

—

0.689

0.694

0.976

100

—

[0.646, 0.730]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Health & Science	0.859	0.791	0.927	1.000	2
General Attitudes	0.738	0.733	0.742	1.000	11
Politics & Governance	0.698	0.691	0.705	0.968	22
International Relations & Security	0.697	0.693	0.700	0.974	50
Technology & Digital Life	0.664	0.759	0.570	0.968	3
Economy & Work	0.621	0.682	0.560	0.967	5
Trust & Wellbeing	0.575	0.537	0.614	0.980	7

Gemini 2.5 Flash ⚠ flagged Gemini 2.5 Flash

globalopinionqa

raw

0.770

—

0.687

0.645

0.980

100

—

[0.614, 0.708]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Technology & Digital Life	0.867	0.830	0.903	0.968	3
Health & Science	0.859	0.791	0.927	1.000	2
Economy & Work	0.826	0.813	0.839	0.967	5
General Attitudes	0.751	0.793	0.709	1.000	11
International Relations & Security	0.668	0.697	0.640	0.980	50
Politics & Governance	0.641	0.670	0.613	0.972	22
Trust & Wellbeing	0.334	0.320	0.347	0.980	7

Llama 3.3 70B ✓ verified Llama 3.3 70B

globalopinionqa

raw

0.762

—

0.635

0.672

0.980

100

—

[0.607, 0.695]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Health & Science	0.859	0.791	0.927	1.000	2
Technology & Digital Life	0.853	0.803	0.903	0.968	3
Politics & Governance	0.698	0.643	0.754	0.972	22
General Attitudes	0.644	0.666	0.623	1.000	11
International Relations & Security	0.640	0.636	0.644	0.980	50
Economy & Work	0.626	0.661	0.592	0.967	5
Trust & Wellbeing	0.497	0.422	0.572	0.980	7

SynthPanel (Gemini Flash Lite) conditioned ⚠ flagged SynthPanel (Gemini Flash Lite)

globalopinionqa

product

0.762

—

0.687

0.624

0.974

100

—

[0.605, 0.701]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Technology & Digital Life	0.901	0.849	0.952	0.968	3
General Attitudes	0.682	0.744	0.621	1.000	11
Politics & Governance	0.677	0.725	0.630	0.946	22
International Relations & Security	0.672	0.690	0.655	0.979	50
Health & Science	0.654	0.881	0.427	1.000	2
Economy & Work	0.539	0.606	0.472	0.967	5
Trust & Wellbeing	0.403	0.392	0.414	0.980	7

GPT-4o-mini ✓ verified GPT-4o-mini

globalopinionqa

raw

0.749

—

0.633

0.648

0.966

100

—

[0.591, 0.683]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Health & Science	0.859	0.791	0.927	1.000	2
Technology & Digital Life	0.793	0.725	0.860	0.968	3
General Attitudes	0.670	0.696	0.644	0.952	11
International Relations & Security	0.656	0.655	0.657	0.964	50
Politics & Governance	0.630	0.606	0.653	0.972	22
Economy & Work	0.620	0.667	0.573	0.967	5
Trust & Wellbeing	0.407	0.356	0.458	0.980	7

SynthPanel Ensemble (3-model) ensemble ⚠ flagged SynthPanel Ensemble (3-model)

globalopinionqa

product

0.747

—

0.807

0.687

0.000

—

[0.705, 0.789]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Health & Science	0.909	0.891	0.927	1.000	2
Politics & Governance	0.804	0.868	0.740	0.904	22
General Attitudes	0.796	0.842	0.749	0.964	11
Technology & Digital Life	0.743	0.893	0.594	0.968	3
International Relations & Security	0.743	0.801	0.685	0.955	50
Economy & Work	0.689	0.786	0.593	0.909	5
Trust & Wellbeing	0.520	0.561	0.480	0.982	7

Claude Sonnet 4.6 ✓ verified Claude Sonnet 4.6

globalopinionqa

raw

0.738

—

0.593

0.642

0.980

100

$0.65

$0.0004

128.5

—

[0.562, 0.667]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Health & Science	0.887	0.775	1.000	1.000	1
General Attitudes	0.864	0.785	0.943	1.000	4
Economy & Work	0.703	0.770	0.636	0.949	3
International Relations & Security	0.643	0.619	0.668	0.987	60
Trust & Wellbeing	0.616	0.489	0.743	1.000	2
Politics & Governance	0.514	0.498	0.530	0.963	30

Claude Haiku 4.5 ⚠ flagged Claude Haiku 4.5

globalopinionqa

raw

0.726

—

0.601

0.598

0.980

100

—

[0.540, 0.650]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Health & Science	0.859	0.791	0.927	1.000	2
Technology & Digital Life	0.829	0.758	0.899	0.968	3
General Attitudes	0.705	0.708	0.702	1.000	11
International Relations & Security	0.618	0.635	0.601	0.980	50
Politics & Governance	0.559	0.554	0.564	0.972	22
Economy & Work	0.518	0.560	0.476	0.967	5
Trust & Wellbeing	0.312	0.243	0.381	0.980	7

SynthPanel (Haiku 4.5) conditioned ✓ verified SynthPanel (Haiku 4.5)

globalopinionqa

product

0.725

—

0.666

0.628

0.881

100

—

[0.594, 0.692]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Health & Science	0.859	0.791	0.927	1.000	2
Economy & Work	0.698	0.736	0.659	0.794	5
International Relations & Security	0.679	0.700	0.659	0.908	50
Technology & Digital Life	0.679	0.759	0.599	0.968	3
General Attitudes	0.656	0.711	0.602	0.891	11
Politics & Governance	0.641	0.654	0.629	0.778	22
Trust & Wellbeing	0.306	0.261	0.351	0.984	7

Random Baseline baseline ⚠ flagged Random Baseline

globalopinionqa

baseline

0.710

—

0.747

0.399

0.983

—

[0.481, 0.680]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
International Relations & Security	0.615	0.761	0.470	0.989	6
Politics & Governance	0.611	0.776	0.446	0.965	2
General Attitudes	0.435	0.870	0.000	1.000	1
Trust & Wellbeing	0.379	0.482	0.276	0.970	1

Majority Baseline baseline ✓ verified Majority Baseline

globalopinionqa

baseline

0.690

—

0.534

0.555

0.980

100

—

[0.493, 0.592]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Health & Science	0.859	0.791	0.927	1.000	2
Technology & Digital Life	0.591	0.655	0.527	0.968	3
International Relations & Security	0.585	0.576	0.595	0.980	50
General Attitudes	0.570	0.628	0.511	1.000	11
Politics & Governance	0.540	0.514	0.566	0.972	22
Economy & Work	0.327	0.345	0.309	0.967	5
Trust & Wellbeing	0.273	0.166	0.379	0.980	7

SynthPanel Ensemble (3-model) ensemble ✓ verified SynthPanel Ensemble (3-model)

opinionsqa

product

0.835

—

0.833

0.837

0.000

—

[0.827, 0.843]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Social Values & Religion	0.866	0.860	0.872	0.981	37
Media & Information	0.853	0.856	0.850	0.975	63
Health & Science	0.852	0.844	0.859	0.975	47
General Attitudes	0.845	0.840	0.849	0.940	190
Trust & Wellbeing	0.841	0.854	0.829	0.978	25
Economy & Work	0.832	0.829	0.835	0.955	68
International Relations & Security	0.820	0.818	0.823	0.973	149
Technology & Digital Life	0.812	0.821	0.803	0.940	26
Politics & Governance	0.810	0.800	0.820	0.960	40
Identity & Demographics	0.809	0.822	0.797	0.956	39

Gemini 2.5 Flash ✓ verified Gemini 2.5 Flash

opinionsqa

raw

0.829

—

0.738

0.761

0.990

684

—

[0.736, 0.760]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Health & Science	0.810	0.772	0.848	0.987	47
Media & Information	0.780	0.762	0.799	0.993	63
Social Values & Religion	0.758	0.750	0.765	0.990	37
Economy & Work	0.755	0.756	0.754	0.991	68
Trust & Wellbeing	0.754	0.751	0.756	0.995	25
Identity & Demographics	0.748	0.755	0.741	0.985	39
Technology & Digital Life	0.742	0.713	0.771	0.993	26
General Attitudes	0.741	0.741	0.741	0.989	190
International Relations & Security	0.731	0.698	0.765	0.988	149
Politics & Governance	0.720	0.742	0.697	0.989	40

SynthPanel (Sonnet 4) conditioned ✓ verified SynthPanel (Sonnet 4)

opinionsqa

product

0.829

—

0.726

0.793

0.968

684

—

[0.749, 0.770]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Technology & Digital Life	0.827	0.793	0.861	0.913	26
Media & Information	0.780	0.765	0.795	0.893	63
Social Values & Religion	0.777	0.744	0.809	0.990	37
Health & Science	0.773	0.745	0.801	0.987	47
General Attitudes	0.772	0.742	0.802	0.963	190
Trust & Wellbeing	0.760	0.723	0.797	0.994	25
Economy & Work	0.746	0.710	0.783	0.989	68
Politics & Governance	0.736	0.693	0.779	0.962	40
International Relations & Security	0.735	0.694	0.777	0.986	149
Identity & Demographics	0.732	0.696	0.768	0.984	39

SynthPanel (Haiku 4.5) conditioned ✓ verified SynthPanel (Haiku 4.5)

opinionsqa

product

0.829

—

0.736

0.795

0.956

684

—

[0.755, 0.777]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Social Values & Religion	0.808	0.787	0.829	0.990	37
Politics & Governance	0.797	0.771	0.823	0.988	40
Health & Science	0.791	0.768	0.814	0.987	47
Technology & Digital Life	0.788	0.761	0.815	0.987	26
Media & Information	0.786	0.770	0.801	0.937	63
Identity & Demographics	0.782	0.754	0.810	0.985	39
General Attitudes	0.766	0.736	0.795	0.894	190
Economy & Work	0.760	0.726	0.794	0.993	68
International Relations & Security	0.735	0.699	0.770	0.978	149
Trust & Wellbeing	0.702	0.647	0.756	0.995	25

SynthPanel (GPT-4o-mini) conditioned ✓ verified SynthPanel (GPT-4o-mini)

opinionsqa

product

0.823

—

0.708

0.778

0.982

684

—

[0.732, 0.753]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Media & Information	0.791	0.760	0.821	0.993	63
Health & Science	0.786	0.747	0.826	0.987	47
Social Values & Religion	0.774	0.737	0.812	0.990	37
Trust & Wellbeing	0.759	0.716	0.801	0.985	25
Economy & Work	0.752	0.724	0.781	0.991	68
Politics & Governance	0.744	0.694	0.794	0.989	40
General Attitudes	0.741	0.717	0.766	0.966	190
International Relations & Security	0.723	0.683	0.763	0.984	149
Technology & Digital Life	0.684	0.633	0.734	0.993	26
Identity & Demographics	0.679	0.630	0.729	0.985	39

Llama 3.3 70B ✓ verified Llama 3.3 70B

opinionsqa

raw

0.819

—

0.693

0.774

0.990

684

—

[0.723, 0.743]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Health & Science	0.794	0.753	0.835	0.987	47
Trust & Wellbeing	0.752	0.700	0.803	0.995	25
Media & Information	0.742	0.710	0.775	0.993	63
Economy & Work	0.740	0.705	0.775	0.991	68
Identity & Demographics	0.734	0.659	0.809	0.985	39
Social Values & Religion	0.731	0.686	0.777	0.990	37
General Attitudes	0.726	0.705	0.747	0.989	190
Politics & Governance	0.724	0.661	0.787	0.989	40
International Relations & Security	0.722	0.667	0.777	0.988	149
Technology & Digital Life	0.712	0.681	0.743	0.993	26

SynthPanel (Gemini Flash Lite) conditioned ✓ verified SynthPanel (Gemini Flash Lite)

opinionsqa

product

0.816

—

0.749

0.766

0.933

684

—

[0.745, 0.767]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Health & Science	0.797	0.788	0.806	0.945	47
Media & Information	0.777	0.766	0.789	0.989	63
General Attitudes	0.774	0.773	0.775	0.947	190
Social Values & Religion	0.774	0.764	0.784	0.959	37
International Relations & Security	0.760	0.745	0.776	0.950	149
Economy & Work	0.751	0.742	0.759	0.869	68
Trust & Wellbeing	0.745	0.761	0.730	0.953	25
Technology & Digital Life	0.730	0.697	0.764	0.835	26
Identity & Demographics	0.684	0.701	0.668	0.880	39
Politics & Governance	0.680	0.648	0.713	0.892	40

Claude Haiku 4.5 ✓ verified Claude Haiku 4.5

opinionsqa

raw

0.815

—

0.690

0.767

0.990

684

—

[0.716, 0.739]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Health & Science	0.781	0.741	0.821	0.987	47
Media & Information	0.765	0.739	0.791	0.993	63
Economy & Work	0.734	0.700	0.768	0.991	68
Trust & Wellbeing	0.733	0.689	0.777	0.995	25
Social Values & Religion	0.731	0.682	0.781	0.990	37
International Relations & Security	0.726	0.677	0.775	0.988	149
General Attitudes	0.724	0.690	0.759	0.989	190
Technology & Digital Life	0.721	0.674	0.769	0.993	26
Identity & Demographics	0.684	0.648	0.720	0.985	39
Politics & Governance	0.668	0.640	0.696	0.989	40

GPT-4o ✓ verified GPT-4o

opinionsqa

raw

0.813

—

0.726

0.720

0.993

200

—

[0.698, 0.746]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Health & Science	0.828	0.818	0.839	0.995	19
Politics & Governance	0.824	0.781	0.868	0.983	3
Technology & Digital Life	0.792	0.775	0.809	0.996	5
Economy & Work	0.739	0.724	0.754	0.994	27
General Attitudes	0.717	0.737	0.698	0.991	79
Media & Information	0.701	0.789	0.613	0.996	2
Social Values & Religion	0.691	0.716	0.666	0.992	18
International Relations & Security	0.685	0.680	0.689	0.994	38
Identity & Demographics	0.672	0.557	0.787	0.985	5
Trust & Wellbeing	0.670	0.668	0.671	0.998	4

GPT-4o-mini ✓ verified GPT-4o-mini

opinionsqa

raw

0.813

—

0.686

0.762

0.990

684

—

[0.712, 0.735]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Health & Science	0.777	0.731	0.823	0.987	47
Media & Information	0.760	0.728	0.792	0.993	63
Trust & Wellbeing	0.752	0.726	0.779	0.995	25
Politics & Governance	0.751	0.694	0.809	0.989	40
Economy & Work	0.738	0.701	0.775	0.991	68
Social Values & Religion	0.713	0.662	0.763	0.990	37
Identity & Demographics	0.712	0.669	0.754	0.985	39
General Attitudes	0.708	0.685	0.731	0.989	190
Technology & Digital Life	0.705	0.659	0.752	0.993	26
International Relations & Security	0.703	0.655	0.751	0.988	149

Claude Sonnet 4 ✓ verified Claude Sonnet 4

opinionsqa

raw

0.782

—

0.648

0.710

0.990

684

—

[0.663, 0.694]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Media & Information	0.778	0.760	0.795	0.993	63
Technology & Digital Life	0.729	0.694	0.764	0.993	26
Health & Science	0.712	0.688	0.735	0.987	47
General Attitudes	0.690	0.664	0.716	0.989	190
International Relations & Security	0.689	0.645	0.733	0.988	149
Trust & Wellbeing	0.649	0.626	0.672	0.995	25
Identity & Demographics	0.642	0.620	0.663	0.985	39
Politics & Governance	0.627	0.580	0.673	0.989	40
Economy & Work	0.617	0.589	0.644	0.991	68
Social Values & Religion	0.569	0.536	0.602	0.990	37

Random Baseline baseline ✓ verified Random Baseline

opinionsqa

baseline

0.763

—

0.806

0.493

0.990

684

—

[0.638, 0.661]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Media & Information	0.672	0.800	0.544	0.993	63
Health & Science	0.668	0.804	0.532	0.987	47
Technology & Digital Life	0.660	0.785	0.535	0.993	26
International Relations & Security	0.660	0.817	0.503	0.988	149
Politics & Governance	0.659	0.814	0.503	0.989	40
Social Values & Religion	0.650	0.795	0.505	0.990	37
Economy & Work	0.646	0.796	0.496	0.991	68
General Attitudes	0.635	0.810	0.460	0.989	190
Trust & Wellbeing	0.628	0.779	0.476	0.995	25
Identity & Demographics	0.626	0.807	0.445	0.985	39

Majority Baseline baseline ✓ verified Majority Baseline

opinionsqa

baseline

0.705

—

0.508

0.616

0.990

684

—

[0.546, 0.577]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Health & Science	0.652	0.608	0.695	0.987	47
Media & Information	0.628	0.582	0.674	0.993	63
Identity & Demographics	0.582	0.527	0.638	0.985	39
General Attitudes	0.578	0.531	0.626	0.989	190
Social Values & Religion	0.547	0.484	0.610	0.990	37
Economy & Work	0.541	0.492	0.590	0.991	68
Politics & Governance	0.539	0.463	0.615	0.989	40
International Relations & Security	0.522	0.465	0.578	0.988	149
Trust & Wellbeing	0.521	0.459	0.583	0.995	25
Technology & Digital Life	0.472	0.393	0.551	0.993	26

Gemini Flash Lite ✓ verified Gemini Flash Lite

opinionsqa

raw

0.000

—

0.000

100

—

[0.000, 0.000]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Social Values & Religion	0.799	0.794	0.804	—	15
Health & Science	0.768	0.763	0.774	—	1
Economy & Work	0.765	0.750	0.781	—	20
Technology & Digital Life	0.764	0.736	0.792	—	4
Politics & Governance	0.763	0.728	0.799	—	1
General Attitudes	0.736	0.739	0.733	—	38
Media & Information	0.701	0.744	0.658	—	2
International Relations & Security	0.660	0.661	0.659	—	19

SynthPanel Ensemble (3-model) ensemble ✓ verified SynthPanel Ensemble (3-model)

subpop

product

0.833

—

0.871

0.795

0.000

—

[0.817, 0.848]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Identity & Demographics	0.911	0.915	0.908	0.995	1
Trust & Wellbeing	0.872	0.911	0.833	0.988	2
Social Values & Religion	0.868	0.903	0.832	0.987	36
International Relations & Security	0.857	0.868	0.846	0.990	33
General Attitudes	0.845	0.889	0.801	0.913	37
Health & Science	0.831	0.913	0.749	0.994	5
Economy & Work	0.830	0.887	0.774	0.991	17
Politics & Governance	0.807	0.816	0.799	0.953	22
Technology & Digital Life	0.790	0.846	0.734	0.993	47

SynthPanel (Gemini Flash Lite) conditioned ✓ verified SynthPanel (Gemini Flash Lite)

subpop

product

0.821

—

0.707

0.780

0.976

200

—

[0.724, 0.763]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Trust & Wellbeing	0.925	0.896	0.954	0.988	2
Identity & Demographics	0.846	0.838	0.854	0.995	1
Health & Science	0.828	0.860	0.796	0.994	5
General Attitudes	0.782	0.754	0.811	0.913	37
Economy & Work	0.751	0.714	0.788	0.991	17
Social Values & Religion	0.750	0.697	0.802	0.987	36
International Relations & Security	0.741	0.690	0.792	0.991	33
Technology & Digital Life	0.709	0.681	0.737	0.993	47
Politics & Governance	0.701	0.662	0.740	0.983	22

SynthPanel (Haiku 4.5) conditioned ✓ verified SynthPanel (Haiku 4.5)

subpop

product

0.809

—

0.712

0.757

0.958

200

—

[0.715, 0.755]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Health & Science	0.771	0.847	0.695	0.994	5
General Attitudes	0.768	0.761	0.775	0.868	37
International Relations & Security	0.765	0.740	0.789	0.991	33
Technology & Digital Life	0.729	0.701	0.756	0.992	47
Trust & Wellbeing	0.726	0.665	0.787	0.988	2
Social Values & Religion	0.726	0.699	0.753	0.984	36
Economy & Work	0.707	0.704	0.709	0.991	17
Politics & Governance	0.683	0.624	0.743	0.904	22
Identity & Demographics	0.534	0.477	0.591	0.995	1

Llama 3.3 70B ✓ verified Llama 3.3 70B

subpop

raw

0.796

—

0.655

0.756

0.976

200

—

[0.683, 0.726]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Trust & Wellbeing	0.875	0.795	0.954	0.988	2
Health & Science	0.807	0.813	0.800	0.994	5
Economy & Work	0.717	0.658	0.776	0.991	17
Social Values & Religion	0.715	0.648	0.783	0.987	36
International Relations & Security	0.711	0.662	0.761	0.991	33
General Attitudes	0.704	0.667	0.741	0.913	37
Politics & Governance	0.704	0.644	0.763	0.983	22
Technology & Digital Life	0.675	0.631	0.720	0.993	47
Identity & Demographics	0.631	0.487	0.774	0.995	1

SynthPanel (GPT-4o-mini) conditioned ✓ verified SynthPanel (GPT-4o-mini)

subpop

product

0.787

—

0.652

0.733

0.976

200

—

[0.671, 0.713]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Trust & Wellbeing	0.812	0.792	0.833	0.988	2
International Relations & Security	0.732	0.683	0.782	0.991	33
Social Values & Religion	0.725	0.680	0.770	0.987	36
Politics & Governance	0.717	0.653	0.781	0.983	22
General Attitudes	0.712	0.688	0.736	0.913	37
Health & Science	0.688	0.701	0.674	0.994	5
Economy & Work	0.654	0.601	0.707	0.991	17
Technology & Digital Life	0.625	0.591	0.660	0.993	47
Identity & Demographics	0.506	0.394	0.618	0.995	1

Gemini 2.5 Flash ✓ verified Gemini 2.5 Flash

subpop

raw

0.783

—

0.669

0.698

0.980

100

—

[0.643, 0.718]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Identity & Demographics	0.846	0.838	0.854	0.995	1
Politics & Governance	0.834	0.785	0.883	0.981	4
Health & Science	0.798	0.784	0.813	0.994	5
Economy & Work	0.771	0.766	0.777	0.991	9
General Attitudes	0.745	0.784	0.705	0.938	18
Technology & Digital Life	0.698	0.675	0.722	0.994	25
International Relations & Security	0.634	0.595	0.672	0.989	10
Social Values & Religion	0.574	0.543	0.605	0.985	28

GPT-4o-mini ⚠ flagged GPT-4o-mini

subpop

raw

0.770

—

0.628

0.702

0.980

100

—

[0.628, 0.697]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Politics & Governance	0.751	0.728	0.775	0.981	4
Health & Science	0.751	0.783	0.719	0.994	5
International Relations & Security	0.740	0.699	0.780	0.989	10
Social Values & Religion	0.671	0.606	0.737	0.985	28
General Attitudes	0.650	0.637	0.664	0.938	18
Economy & Work	0.638	0.611	0.665	0.991	9
Technology & Digital Life	0.625	0.588	0.662	0.994	25
Identity & Demographics	0.506	0.394	0.618	0.995	1

Claude Haiku 4.5 ✓ verified Claude Haiku 4.5

subpop

raw

0.768

—

0.616

0.713

0.976

200

—

[0.638, 0.690]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Identity & Demographics	0.831	0.887	0.774	0.995	1
Health & Science	0.817	0.809	0.824	0.994	5
Technology & Digital Life	0.686	0.637	0.734	0.993	47
General Attitudes	0.662	0.626	0.699	0.913	37
Trust & Wellbeing	0.662	0.620	0.704	0.988	2
Politics & Governance	0.661	0.594	0.729	0.983	22
Economy & Work	0.655	0.603	0.707	0.991	17
International Relations & Security	0.652	0.593	0.712	0.991	33
Social Values & Religion	0.633	0.586	0.680	0.987	36

Random Baseline baseline ✓ verified Random Baseline

subpop

baseline

0.757

—

0.816

0.481

0.976

200

—

[0.627, 0.669]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Identity & Demographics	0.826	0.798	0.854	0.995	1
Trust & Wellbeing	0.693	0.886	0.500	0.988	2
Economy & Work	0.689	0.852	0.526	0.991	17
Health & Science	0.672	0.807	0.537	0.994	5
Technology & Digital Life	0.654	0.814	0.494	0.993	47
General Attitudes	0.644	0.803	0.485	0.913	37
Social Values & Religion	0.640	0.828	0.452	0.987	36
International Relations & Security	0.639	0.798	0.481	0.991	33
Politics & Governance	0.623	0.821	0.426	0.983	22

Majority Baseline baseline ✓ verified Majority Baseline

subpop

baseline

0.673

—

0.467

0.576

0.976

200

—

[0.494, 0.547]

Topic Scores

Topic	SPS	p_dist	p_rank	p_refuse	N
Trust & Wellbeing	0.718	0.731	0.704	0.988	2
Health & Science	0.670	0.571	0.770	0.994	5
General Attitudes	0.554	0.518	0.590	0.913	37
International Relations & Security	0.547	0.489	0.605	0.991	33
Politics & Governance	0.531	0.452	0.609	0.983	22
Economy & Work	0.520	0.464	0.576	0.991	17
Social Values & Religion	0.501	0.448	0.553	0.987	36
Technology & Digital Life	0.470	0.416	0.525	0.993	47
Identity & Demographics	0.295	0.208	0.382	0.995	1

Sub-Metric Radar

Top 3 models compared on SPS sub-metrics: distribution accuracy (p_dist), rank correlation (p_rank), and refusal match (p_refuse).

Demographic Parity Heatmap

Models × demographic groups, colored by p_dist (distribution similarity — higher = closer match to the conditioned subpopulation). Use the selector to drill into a specific attribute.

Attribute:

Coverage flag derived from n_questions: high (≥100) medium (50–99) low (<50)

SPS by Model

Survey Parity Score per model with 95% confidence intervals. Higher is better.

Per-Metric Breakdown

SPS and component metrics side-by-side per model. All metrics: higher is better.

SPS: Survey Parity Score (higher is better) p_dist: Distribution similarity (higher is better) p_rank: Rank preservation (higher is better) p_refuse: Non-refusal rate (higher is better)

Confidence Intervals

95% confidence interval for each model's SPS. Center dot = point estimate, whiskers = CI bounds.