...

An alternative way to check overfitting, and choosing correctly a threshold for selecting signal events, is plotting signal and background ANN predictions for the training and test datasets. If the distributions are quite similar it means that the algorithm learned how to generalize!
For measuring quantitatively the overfitting one can perform a Kolmogorov-Smirnov test that we will not implement here.

# Let's get signal and background events for both test and training dataset!

df_sig  = df['sig'].filter(NN_VARS)
df_bkg  = df['bkg'].filter(NN_VARS)

X_sig  = np.asarray( df_sig.values ).astype(np.float32)
X_bkg  = np.asarray( df_bkg.values ).astype(np.float32)

df_test = df_all.iloc[0:test_size+1]
df_train = df_all.iloc[test_size+1:size]

df_test_sig = df_test[(df_test['isSignal']>=1)].filter(NN_VARS)
df_test_bkg = df_test[(df_test['isSignal']<1)].filter(NN_VARS)

df_train_sig = df_train[(df_train['isSignal']>=1)].filter(NN_VARS)
df_train_bkg = df_train[(df_train['isSignal']<1)].filter(NN_VARS)

X_test_sig  = np.asarray( df_test_sig.values ).astype(np.float32)
X_test_bkg  = np.asarray( df_test_bkg.values ).astype(np.float32)
X_train_sig  = np.asarray( df_train_sig.values ).astype(np.float32)
X_train_bkg  = np.asarray( df_train_bkg.values ).astype(np.float32)

print('Test dataset shape:')
print(df_test.shape)
print('Test dataset signal shape:')
print(df_test_sig.shape)
print('Test dataset background shape:')
print(df_test_bkg.shape)
print('Training dataset shape' )
print(df_train.shape)
print('Training signal dataset shape' )
print(df_train_sig.shape)
print('Training background dataset shape' )
print(df_train_bkg.shape)

Y_test_sig = model.predict(X_test_sig) #flag predicted on all signal events
Y_test_bkg = model.predict(X_test_bkg) #flag predicted on all background events
Y_train_sig = model.predict(X_train_sig)
Y_train_bkg = model.predict(X_train_bkg)

Test dataset shape:
(22997, 27)
Test dataset signal shape:
(2870, 5)
Test dataset background shape:
(20127, 5)
Training dataset shape
(91987, 27)
Training signal dataset shape
(11390, 5)
Training background dataset shape
(80597, 5)

df_test.head()

f_run	f_event	f_weight	f_massjj	f_deltajj	f_mass4l	f_Z1mass	f_Z2mass	f_lept1_pt	f_lept1_eta	f_lept1_phi	f_lept2_pt	f_lept2_eta	f_lept2_phi	f_lept3_pt	f_lept3_eta	f_lept3_phi	f_lept4_pt	f_lept4_eta	f_lept4_phi	f_jet1_pt	f_jet1_eta	f_jet1_phi	f_jet2_pt	f_jet2_eta	f_jet2_phi	isSignal
9101	1	80913	0.000075	499.415680	3.541091	123.750252	69.386528	22.196232	47.066288	-1.938778	-0.157178	24.794939	-1.477099	2.680755	21.430199	-1.085863	-0.474563	16.923937	0.011259	-0.304338	83.238281	-2.022697	1.945629	84.314346	1.518393	-2.281762	1.0
61307	1	1799470	0.000004	1034.700684	5.445127	123.126251	87.025040	30.899391	54.302334	1.254665	0.491101	34.218605	1.576207	-2.819679	24.933231	1.195293	2.530720	11.106866	0.836214	0.240992	88.764404	-1.835088	-2.809269	52.351109	3.610039	-2.063801	0.0
434065	1	48636330	0.000015	131.100220	1.032331	224.591537	90.623093	115.573257	64.985748	1.022329	0.020787	49.217106	-0.768105	0.152171	43.280205	0.537557	-0.211530	41.790005	-0.187201	2.840212	114.500084	0.614150	3.130475	32.397049	1.646480	-0.925176	0.0
755935	1	54379498	0.000004	83.658073	1.574079	201.779816	95.846970	85.438805	72.073616	0.108228	-2.730205	54.219593	0.489068	-1.299269	24.958881	-1.389947	-2.604218	13.022590	1.919428	1.664050	46.515545	1.133949	0.139815	44.397335	-0.440129	0.533251	0.0
504179	1	98493569	0.000001	652.359863	3.799881	335.023987	90.216057	92.984535	126.748039	1.168150	-0.711313	87.271675	-0.707292

df_all.head()

f_run	f_event	f_weight	f_massjj	f_deltajj	f_mass4l	f_Z1mass	f_Z2mass	f_lept1_pt	f_lept1_eta	f_lept1_phi	f_lept2_pt	f_lept2_eta	f_lept2_phi	f_lept3_pt	f_lept3_eta	f_lept3_phi	f_lept4_pt	f_lept4_eta	f_lept4_phi	f_jet1_pt	f_jet1_eta	f_jet1_phi	f_jet2_pt	f_jet2_eta	f_jet2_phi	isSignal
9101	1	80913	0.000075	499.415680	3.541091	123.750252	69.386528	22.196232	47.066288	-1.938778	-0.157178	24.794939	-1.477099	2.680755	21.430199	-1.085863	-0.474563	16.923937	0.011259	-0.304338	83.238281	-2.022697	1.945629	84.314346	1.518393	-2.281762	1.0
61307	1	1799470	0.000004	1034.700684	5.445127	123.126251	87.025040	30.899391	54.302334	1.254665	0.491101	34.218605	1.576207	-2.819679	24.933231	1.195293	2.530720	11.106866	0.836214	0.240992	88.764404	-1.835088	-2.809269	52.351109	3.610039	-2.063801	0.0
434065	1	48636330	0.000015	131.100220	1.032331	224.591537	90.623093	115.573257	64.985748	1.022329	0.020787	49.217106	-0.768105	0.152171	43.280205	0.537557	-0.211530	41.790005	-0.187201	2.840212	114.500084	0.614150	3.130475	32.397049	1.646480	-0.925176	0.0
755935	1	54379498	0.000004	83.658073	1.574079	201.779816	95.846970	85.438805	72.073616	0.108228	-2.730205	54.219593	0.489068	-1.299269	24.958881	-1.389947	-2.604218	13.022590	1.919428	1.664050	46.515545	1.133949	0.139815	44.397335	-0.440129	0.533251	0.0
504179	1	98493569	0.000001	652.359863	3.799881	335.023987	90.216057	92.984535	126.748039	1.168150	-0.711313	87.271675	-0.707292	1.167732	41.464527	-0.289785	-0.509481	14.898630	-0.470465	0.317107	99.428864	-3.475805	2.928077	99.210449	0.324076	-3.102045	0.0

# Normalized Distribution of the ANN score for the whole dataset
# ax = plt.subplot(4, 2, 4)
X = np.linspace(0.0, 1.0, 100) #100 numbers between 0 and 1
plt.rcParams['figure.figsize'] = (10,5)
hist_test_sig = plt.hist(Y_test_sig, bins=X, label='test_sig',histtype='step',log=True,density=1)
hist_test_bkg = plt.hist(Y_test_bkg, bins=X, label='test_bkg',histtype='step',log=True,density=1)
hist_train_sig = plt.hist(Y_train_sig, bins=X, label='train_sig',histtype='step',log=True,density=1)
hist_train_bkg = plt.hist(Y_train_bkg, bins=X, label='train_bkg',histtype='step',log=True,density=1)
plt.xlabel('ANN score')
plt.ylabel('Frequency')
plt.legend( loc='upper right',prop={'size': 8} )
plt.title('ANN score normalized distribution on the whole dataset',fontsize=12,fontweight='bold', color='r')
plt.show()

Space shortcuts

Page tree

Versions Compared

Old Version 52

New Version 53

Key

References

Attachments