accumulate_grad_batches:	1	min_epochs:	1
activation:	relu	model_depth:	50
alpha:	1	num_layers_CS:	2
batch_size:	16	num_layers_shared:	2
beta:	0.5	num_nodes:	1
check_val_every_n_epoch:	1	num_processes:	1
dropout:	0.5	num_sanity_val_steps:	2
gpus:	1	num_workers:	0
gradient_clip_val:	0	out_dim:	128
hidden_dim_CS:	128	overfit_batches:	0
hidden_dim_shared:	128	precision:	32
limit_test_batches:	1	process_position:	0
limit_train_batches:	1	progress_bar_refresh_rate:	0
limit_val_batches:	1	row_log_interval:	50
log_save_interval:	100	track_grad_norm:	−1
lr:	0.0003	val_check_interval:	1
max_epochs:	100	weight_decay:	1.00E−05