csv.sim_fit_pred¶

Csv Example Simulating, Fitting and Predicting¶

Global Variables¶

Global variables besides sim_file and fit_file. Variables that do not appear in a heading are temporaries.

integrand_list¶

Generate data and predict for the following integrands:

integrand_list = [ 'Sincidence', 'remission', 'mtexcess', 'prevalence' ]

age_grid, time_grid¶

Use this age-time grid for values the covariate grid and the parent rage grid.

age_grid   = [0.0, 20.0, 50.0, 80.0, 100.0]
time_grid  = [1980.0, 2000.0, 2020.0]

node_dict¶

Keys are nodes and values are corresponding parent node:

node_dict = {
   'n0' : ''   ,
   'n1' : 'n0' ,
   'n2' : 'n0' ,
}

no_effect_rate_truth¶

The true values (values used during simulation) for iota, rho, and chi are constant w.r.t age and time:

no_effect_rate_truth = {
   'iota' : 0.02  ,
   'rho'  : 20.0  ,
   'chi'  : 0.001  ,
}

omega_truth¶

omega_truth      = 0.01

std_random_effects_truth¶

This is the true standard deviation of the random effects

std_random_effects_truth = 0.2

sim_file¶

Input CSV files that are placed in the simulate directory:

sim_file = dict()

option_sim.csv¶

sim_file['option_sim.csv'] = \
'''name,value
float_precision,4
random_depend_sex,false
'''
for rate_name in no_effect_rate_truth :
   row = f'std_random_effects_{rate_name},{std_random_effects_truth}\n'
   sim_file['option_sim.csv'] += row

node.csv¶

sim_file['node.csv'] = \
'node_name,parent_name\n'
for node_name in node_dict :
   parent_name = node_dict[node_name]
   sim_file['node.csv'] += f'{node_name},{parent_name}\n'

covariate.csv¶

sim_file['covariate.csv'] = 'node_name,sex,age,time,omega\n'
for node_name in [ 'n0', 'n1', 'n2' ] :
   for sex in [ 'female', 'male' ] :
      for age in age_grid :
         for time in time_grid :
            row   = f'{node_name},{sex},{age},{time},{omega_truth}\n'
            sim_file['covariate.csv'] += row

multiplier_sim.csv¶

There are no covariate multipliers in this example.

sim_file['multiplier_sim.csv'] = \
   'multiplier_id,rate_name,covariate_or_sex,multiplier_true\n'

simulate.csv¶

header  = 'simulate_id,integrand_name,node_name,sex,age_lower,age_upper,'
header += 'time_lower,time_upper,meas_std_cv,meas_std_min\n'
meas_std_cv     = 0.01
simulate_id     = 0
sim_file['simulate.csv'] = header
for integrand_name in integrand_list :
   std_min = 0.0
   if integrand_name == 'prevalence' :
      std_min = 1e-6
   for node_name in node_dict :
      for sex in [ 'female', 'male' ] :
         for age in age_grid :
            for time in time_grid :
               row  = f'{simulate_id},{integrand_name},{node_name},{sex},'
               row += f'{age},{age},{time},{time},'
               row += f'{meas_std_cv},{std_min}\n'
               sim_file['simulate.csv'] += row
               simulate_id += 1

no_effect_rate.csv¶

The rates are constant, w.r.t age and time, during the simulation.

sim_file['no_effect_rate.csv'] = 'rate_name,age,time,rate_truth\n'
for rate_name in no_effect_rate_truth :
   rate_truth = no_effect_rate_truth[rate_name]
   sim_file['no_effect_rate.csv'] += f'{rate_name},0,0,{rate_truth}\n'

fit_file¶

Input CSV files that are placed in the fit directory:

fit_file = dict()

Copies of Simulation Files¶

fit_file['node.csv']      = sim_file['node.csv']
fit_file['covariate.csv'] = sim_file['covariate.csv']

option_fit.csv¶

fit_file['option_fit.csv']  =  \
'''name,value
refit_split,false
ode_step_size,5.0
quasi_fixed,false
max_num_iter_fixed,50
tolerance_fixed,1e-8
ode_method,iota_pos_rho_pos
'''

option_predict.csv¶

A predict is run using the same directory as the corresponding fit. All of its input files are also inputs for the fit except for the option_predict.csv file.

fit_file['option_predict.csv']  =  \
'''name,value
db2csv,true
plot,true
float_precision,5
'''

fit_goal.csv¶

An empty fit_goal.csv corresponds to fitting all nodes at or below the root node .

fit_file['fit_goal.csv'] = \
'''node_name
'''

prior.csv¶

delta_prior_std        = 0.1
std_random_effects_fit = 10.0 * std_random_effects_truth
fit_file['prior.csv']  = \
   'name,density,mean,std,eta,lower,upper\n' + \
   f'delta_prior,log_gaussian,0.0,{delta_prior_std},1e-10,,\n' + \
   f'random_prior,gaussian,0.0,{std_random_effects_fit},,,,\n'
for rate_name in no_effect_rate_truth :
   rate_truth = no_effect_rate_truth[rate_name]
   lower      = rate_truth / 100.0
   upper      = rate_truth * 100.0
   fit_file['prior.csv'] += \
      f'prior_{rate_name},uniform,{rate_truth},,,{lower},{upper}\n'

parent_rate.csv¶

The rates are constant during simulation, but not during fitting.

fit_file['parent_rate.csv'] = \
   'rate_name,age,time,value_prior,dage_prior,dtime_prior,const_value\n'
for age in age_grid :
   for time in time_grid :
      for rate_name in no_effect_rate_truth :
         row  = f'{rate_name},{age},{time},prior_{rate_name},'
         row += 'delta_prior,delta_prior,\n'
         fit_file['parent_rate.csv'] += row

child_rate.csv¶

fit_file['child_rate.csv'] = 'rate_name,value_prior\n'
for rate_name in no_effect_rate_truth :
   fit_file['child_rate.csv'] += f'{rate_name},random_prior\n'

mulcov.csv¶

fit_file['mulcov.csv'] = 'covariate,type,effected,value_prior,const_value\n'

predict_integrand.csv¶

fit_file['predict_integrand.csv'] = 'integrand_name\n'
for integrand_name in integrand_list :
   fit_file['predict_integrand.csv'] += f'{integrand_name}\n'

Rest of Source Code¶

def sim(sim_dir ) :
   #
   # write input csv files
   for name in sim_file :
      file_name = f'{sim_dir}/{name}'
      file_ptr  = open(file_name, 'w')
      file_ptr.write( sim_file[name] )
      file_ptr.close()
   #
   # csv.simulate
   at_cascade.csv.simulate(sim_dir)
   #
   # data_join.csv
   at_cascade.csv.join_file(
      left_file   = f'{sim_dir}/simulate.csv' ,
      right_file  = f'{sim_dir}/data_sim.csv' ,
      result_file = f'{sim_dir}/data_join.csv'     ,
   )
# ---------------------------------------------------------------------------
def fit(sim_dir, fit_dir) :
   #
   # csv files in fit_file
   for name in fit_file :
      file_name = f'{fit_dir}/{name}'
      file_ptr  = open(file_name, 'w')
      file_ptr.write( fit_file[name] )
      file_ptr.close()
   #
   # fit_goal_set
   fit_goal_table = at_cascade.csv.read_table(
      file_name = f'{fit_dir}/fit_goal.csv'
   )
   fit_goal_set = set()
   for row in fit_goal_table :
      node_name = row['node_name']
      for sex in [ 'female', 'male' ] :
         fit_goal_set.add( (node_name, sex) )
   #
   # data_join_table
   # This is a join of simulate.csv and dats_sim.csv
   data_join_table = at_cascade.csv.read_table(
      file_name = f'{sim_dir}/data_join.csv'
   )
   #
   # copy_row
   # columns that are just copied from data_join_table to data_in_table
   copy_column  = [ 'integrand_name', 'node_name', 'sex' ]
   copy_column += [ 'age_lower', 'age_upper', 'time_lower', 'time_upper' ]
   copy_column += [ 'meas_std']
   #
   # data_in_table
   data_in_table = list()
   for row_join in data_join_table :
      #
      # row_in
      row_in            = dict()
      row_in['data_id'] = row_join['simulate_id']
      for key in copy_column :
         row_in[key] = row_join[key]
      row_in['meas_value']    = row_join['meas_value']
      row_in['hold_out']      = 0
      row_in['density_name']  = 'gaussian'
      data_in_table.append( row_in )
   #
   # data_in.csv
   at_cascade.csv.write_table(
      file_name = f'{fit_dir}/data_in.csv' ,
      table     = data_in_table            ,
   )
   #
   # fit
   at_cascade.csv.fit(fit_dir)
# ---------------------------------------------------------------------------
def check_predict(fit_dir) :
   #
   # predict_table
   predict_table = dict()
   for prefix in [ 'fit', 'tru', 'sam' ] :
      file_name = f'{fit_dir}/{prefix}_predict.csv'
      file_obj  = open(file_name, 'r')
      predict_table[prefix] = at_cascade.csv.read_table(file_name)
      file_obj.close()
   #
   # predict_table
   key = lambda row : int( row['avgint_id'] )
   for prefix in [ 'fit', 'tru', 'sam' ] :
      predict_table[prefix] = sorted(predict_table[prefix], key=key)
   #
   # max_tru, max_fit_diff, max_sam_diff
   max_tru      = dict()
   max_fit_diff = dict()
   max_sam_diff = dict()
   for integrand_name in integrand_list :
      max_tru[integrand_name]      = 0.0
      max_fit_diff[integrand_name] = 0.0
      max_sam_diff[integrand_name] = 0.0
   #
   # max_tru, max_fit_diff
   for i in range( len(predict_table['tru'] ) ) :
      tru_row        = predict_table['tru'][i]
      fit_row        = predict_table['fit'][i]
      tru_value      = float( tru_row['avg_integrand'] )
      fit_value      = float( fit_row['avg_integrand'] )
      integrand_name = tru_row['integrand_name']
      #
      assert int(tru_row['avgint_id']) == int(fit_row['avgint_id'])
      assert tru_row['integrand_name'] == fit_row['integrand_name']
      #
      tru                      = max_tru[integrand_name]
      max_tru[integrand_name]  = max(tru, abs( tru_value ) )
      #
      max_diff  = max_fit_diff[integrand_name]
      max_diff  = max(max_diff, abs( fit_value - tru_value ) )
      max_fit_diff[integrand_name] = max_diff
   #
   # check max_fit_diff
   for integrand_name in integrand_list :
      assert max_fit_diff[integrand_name] / max_tru[integrand_name] < 0.1
   #
   # max_sam_diff
   n_tru = len(predict_table['tru'])
   n_sam = len(predict_table['sam'])
   assert n_sam % n_tru == 0
   n_sample = int( n_sam / n_tru )
   for i in range(n_tru) :
      tru_row        = predict_table['tru'][i]
      tru_value      = float( tru_row['avg_integrand'] )
      integrand_name = tru_row['integrand_name']
      for j in range(n_sample) :
         sam_row    = predict_table['sam'][i * n_sample + j]
         sam_value  = float( sam_row['avg_integrand'] )
         #
         assert int(tru_row['avgint_id']) == int(sam_row['avgint_id'])
         assert tru_row['integrand_name'] == sam_row['integrand_name']
         #
         max_diff  = max_sam_diff[integrand_name]
         max_diff  = max(max_diff, abs( sam_value - tru_value ) )
         max_sam_diff[integrand_name] = max_diff
   #
   # check max_sam_diff
   for integrand_name in integrand_list :
      assert max_fit_diff[integrand_name] / max_tru[integrand_name] < 0.1
# ---------------------------------------------------------------------------
if __name__ == '__main__' :
   #
   # sim_dir
   sim_dir = 'build/example/csv/sim'
   at_cascade.empty_directory(sim_dir)
   #
   # sim
   sim(sim_dir)
   #
   # fit_dir
   fit_dir = 'build/example/csv/fit'
   at_cascade.empty_directory(fit_dir)
   #
   # fit
   fit(sim_dir, fit_dir)
   #
   # predict
   at_cascade.csv.predict(fit_dir, sim_dir)
   #
   # check_predict
   check_predict(fit_dir)
   #
   print('sim_fit_pred.py: OK')