first commit

2024-03-15 14:38:51 +00:00
commit bc2ed1304f
321 changed files with 44802 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@@ -0,0 +1,9 @@
+__pycache__
+checkpoints/
+*.pt
+data/
+exp/
+vis/
+results/
+.empty/
+.prev/
--- a/MobileNetV3/all_path.py
+++ b/MobileNetV3/all_path.py
@@ -0,0 +1,9 @@
+RAW_DATA_PATH="./data/ofa/raw_data"
+PROCESSED_DATA_PATH = "./data/ofa/data_transfer_nag"
+SCORE_MODEL_DATA_PATH="./data/ofa/data_score_model/ofa_database_500000.pt"
+SCORE_MODEL_DATA_IDX_PATH="./data/ofa/data_score_model/ridx-500000.pt"
+
+NOISE_META_PREDICTOR_CKPT_PATH = "./checkpoints/ofa/noise_aware_meta_surrogate/model_best.pth.tar"
+SCORE_MODEL_CKPT_PATH="./checkpoints/ofa/score_model/model_best.pth.tar"
+UNNOISE_META_PREDICTOR_CKPT_PATH="./checkpoints/ofa/unnoised_meta_surrogate_from_metad2a"
+CONFIG_PATH='./configs/transfer_nag_ofa.pt'
--- a/MobileNetV3/analysis/arch_functions.py
+++ b/MobileNetV3/analysis/arch_functions.py
@@ -0,0 +1,475 @@
+import numpy as np
+import torch
+import wandb
+import igraph
+from torch.nn.functional import one_hot
+
+
+KS_LIST = [3, 5, 7] 
+EXPAND_LIST = [3, 4, 6]
+DEPTH_LIST = [2, 3, 4] 
+NUM_STAGE = 5
+MAX_LAYER_PER_STAGE = 4
+MAX_N_BLOCK= NUM_STAGE * MAX_LAYER_PER_STAGE # 20
+OPS = {
+    '3-3': 0, '3-4': 1, '3-6': 2,
+    '5-3': 3, '5-4': 4, '5-6': 5,
+    '7-3': 6, '7-4': 7, '7-6': 8,
+    }
+
+OPS2STR = {
+    0: '3-3', 1: '3-4', 2: '3-6',
+    3: '5-3', 4: '5-4', 5: '5-6',
+    6: '7-3', 7: '7-4', 8: '7-6',
+    }
+NUM_OPS = len(OPS)
+LONGEST_PATH_LENGTH = 20
+
+
+class BasicArchMetricsOFA(object):
+    def __init__(self, train_ds=None, train_arch_str_list=None, except_inout=False, data_root=None):
+        if data_root is not None:
+            self.ofa = torch.load(data_root)
+            self.train_arch_list = self.ofa['x']
+        else:
+            self.ofa = None
+            self.train_arch_list = None
+        # self.ofa = torch.load(data_root)
+        self.ops_decoder = OPS
+        self.except_inout = except_inout
+        
+    def get_string_from_onehot_x(self, x):
+        # node_types = torch.nonzero(torch.tensor(x).long(), as_tuple=True)[1]
+        x = torch.tensor(x)
+        ds = torch.sum(x.view(NUM_STAGE, -1), dim=1)
+        string = ''
+        for i, _ in enumerate(x):
+            if sum(_) == 0:
+                string += '0-0-0_'
+            else:
+                string += f'{int(ds[int(i/MAX_LAYER_PER_STAGE)])}-' + OPS2STR[torch.nonzero(torch.tensor(_)).item()] + '_'
+        return string[:-1]
+
+
+    def compute_validity(self, generated, adj=None, mask=None):
+        """ generated: list of couples (positions, node_types)"""       
+        valid = []
+        error_types = []
+        valid_str = []
+        for x in generated:
+            is_valid, error_type = is_valid_OFA_x(x)
+            if is_valid:
+                valid.append(torch.tensor(x).long())
+                valid_str.append(self.get_string_from_onehot_x(x))
+            else:
+                error_types.append(error_type)
+
+        return valid, len(valid) / len(generated), valid_str, None, error_types
+
+    def compute_uniqueness(self, valid_arch):
+        unique = []
+        for x in valid_arch:
+            if not any([torch.equal(x, tr_m) for tr_m in unique]):
+                unique.append(x)
+        return unique, len(unique) / len(valid_arch)
+
+    def compute_novelty(self, unique):
+        num_novel = 0
+        novel = []
+        if self.train_arch_list is None:
+            print("Dataset arch_str is None, novelty computation skipped")
+            return 1, 1
+        for arch in unique:
+            if not any([torch.equal(arch, tr_m) for tr_m in self.train_arch_list]):
+            # if arch not in self.train_arch_list[1:]:
+                novel.append(arch)
+                num_novel += 1
+        return novel, num_novel / len(unique)
+
+    def evaluate(self, generated, adj, mask, check_dataname='cifar10'):
+        """ generated: list of pairs """
+        valid_arch, validity, _, _, error_types = self.compute_validity(generated, adj, mask)
+        
+        print(f"Validity over {len(generated)} archs: {validity * 100 :.2f}%")
+        error_1 = torch.sum(torch.tensor(error_types) == 1) / len(generated)
+        error_2 = torch.sum(torch.tensor(error_types) == 2) / len(generated)
+        error_3 = torch.sum(torch.tensor(error_types) == 3) / len(generated)
+        print(f"Unvalid-Multi_Node_Type over {len(generated)} archs: {error_1 * 100 :.2f}%")
+        print(f"INVALID_1OR2 over {len(generated)} archs: {error_2 * 100 :.2f}%")
+        print(f"INVALID_3AND4 over {len(generated)} archs: {error_3 * 100 :.2f}%")
+        # print(f"Number of connected components of {len(generated)} molecules: min:{nc_min:.2f} mean:{nc_mu:.2f} max:{nc_max:.2f}")
+
+        if validity > 0:
+            unique, uniqueness = self.compute_uniqueness(valid_arch)
+            print(f"Uniqueness over {len(valid_arch)} valid archs: {uniqueness * 100 :.2f}%")
+
+            if self.train_arch_list is not None:
+                _, novelty = self.compute_novelty(unique)
+                print(f"Novelty over {len(unique)} unique valid archs: {novelty * 100 :.2f}%")
+            else:
+                novelty = -1.0
+            
+        else:
+            novelty = -1.0
+            uniqueness = 0.0
+            unique = []
+            
+        test_acc_list, flops_list, params_list, latency_list = [0], [0], [0], [0]
+        all_arch_str = None
+        return ([validity, uniqueness, novelty, error_1, error_2, error_3], 
+                unique,
+                dict(test_acc_list=test_acc_list, flops_list=flops_list, params_list=params_list, latency_list=latency_list), 
+                all_arch_str)
+
+
+class BasicArchMetricsMetaOFA(object):
+    def __init__(self, train_ds=None, train_arch_str_list=None, except_inout=False, data_root=None):
+        if data_root is not None:
+            self.ofa = torch.load(data_root)
+            self.train_arch_list = self.ofa['x']
+        else:
+            self.ofa = None
+            self.train_arch_list = None
+        self.ops_decoder = OPS
+
+    def get_string_from_onehot_x(self, x):
+        x = torch.tensor(x)
+        ds = torch.sum(x.view(NUM_STAGE, -1), dim=1)
+        string = ''
+        for i, _ in enumerate(x):
+            if sum(_) == 0:
+                string += '0-0-0_'
+            else:
+                string += f'{int(ds[int(i/MAX_LAYER_PER_STAGE)])}-' + OPS2STR[torch.nonzero(torch.tensor(_)).item()] + '_'
+        return string[:-1]
+
+    def compute_validity(self, generated, adj=None, mask=None):
+        """ generated: list of couples (positions, node_types)"""
+        valid = []
+        valid_arch_str = []
+        all_arch_str = []
+        error_types = []
+        for x in generated:
+            is_valid, error_type = is_valid_OFA_x(x)
+            if is_valid:
+                valid.append(torch.tensor(x).long())
+                arch_str = self.get_string_from_onehot_x(x)
+                valid_arch_str.append(arch_str)
+            else:
+                arch_str = None
+                error_types.append(error_type)
+            all_arch_str.append(arch_str)
+        validity = 0 if len(generated) == 0 else (len(valid)/len(generated))
+        return valid, validity, valid_arch_str, all_arch_str, error_types
+
+    def compute_uniqueness(self, valid_arch):
+        unique = []
+        for x in valid_arch:
+            if not any([torch.equal(x, tr_m) for tr_m in unique]):
+                unique.append(x)
+        return unique, len(unique) / len(valid_arch)
+
+    def compute_novelty(self, unique):
+        num_novel = 0
+        novel = []
+        if self.train_arch_list is None:
+            print("Dataset arch_str is None, novelty computation skipped")
+            return 1, 1
+        for arch in unique:
+            if not any([torch.equal(arch, tr_m) for tr_m in self.train_arch_list]):
+                novel.append(arch)
+                num_novel += 1
+        return novel, num_novel / len(unique)
+
+    def evaluate(self, generated, adj, mask, check_dataname='imagenet1k'):
+        """ generated: list of pairs """
+        valid_arch, validity, _, _, error_types = self.compute_validity(generated, adj, mask)
+        
+        print(f"Validity over {len(generated)} archs: {validity * 100 :.2f}%")
+        error_1 = torch.sum(torch.tensor(error_types) == 1) / len(generated)
+        error_2 = torch.sum(torch.tensor(error_types) == 2) / len(generated)
+        error_3 = torch.sum(torch.tensor(error_types) == 3) / len(generated)
+        print(f"Unvalid-Multi_Node_Type over {len(generated)} archs: {error_1 * 100 :.2f}%")
+        print(f"INVALID_1OR2 over {len(generated)} archs: {error_2 * 100 :.2f}%")
+        print(f"INVALID_3AND4 over {len(generated)} archs: {error_3 * 100 :.2f}%")
+
+        if validity > 0:
+            unique, uniqueness = self.compute_uniqueness(valid_arch)
+            print(f"Uniqueness over {len(valid_arch)} valid archs: {uniqueness * 100 :.2f}%")
+
+            if self.train_arch_list is not None:
+                _, novelty = self.compute_novelty(unique)
+                print(f"Novelty over {len(unique)} unique valid archs: {novelty * 100 :.2f}%")
+            else:
+                novelty = -1.0
+            
+        else:
+            novelty = -1.0
+            uniqueness = 0.0
+            unique = []
+            
+        test_acc_list, flops_list, params_list, latency_list = [0], [0], [0], [0]
+        all_arch_str = None
+        return ([validity, uniqueness, novelty, error_1, error_2, error_3], 
+                unique,
+                dict(test_acc_list=test_acc_list, flops_list=flops_list, params_list=params_list, latency_list=latency_list), 
+                all_arch_str)
+
+
+def get_arch_acc_info(nasbench201, arch, dataname='cifar10'):
+    arch_index = nasbench201['str'].index(arch)
+    test_acc = nasbench201['test-acc'][dataname][arch_index]
+    flops = nasbench201['flops'][dataname][arch_index]
+    params = nasbench201['params'][dataname][arch_index]
+    latency = nasbench201['latency'][dataname][arch_index]
+    return test_acc, flops, params, latency
+
+
+def get_arch_acc_info_meta(nasbench201, arch, dataname='cifar10'):
+    arch_index = nasbench201['str'].index(arch)
+    flops = nasbench201['flops'][dataname][arch_index]
+    params = nasbench201['params'][dataname][arch_index]
+    latency = nasbench201['latency'][dataname][arch_index]
+    if 'cifar' in dataname:
+        test_acc = nasbench201['test-acc'][dataname][arch_index]
+    else:
+        # TODO
+        test_acc = None
+    return arch_index, test_acc, flops, params, latency
+
+
+def is_valid_DAG(g, START_TYPE=0, END_TYPE=1):
+    res = g.is_dag()
+    n_start, n_end = 0, 0
+    for v in g.vs:
+        if v['type'] == START_TYPE:
+            n_start += 1
+        elif v['type'] == END_TYPE:
+            n_end += 1
+        if v.indegree() == 0 and v['type'] != START_TYPE:
+            return False
+        if v.outdegree() == 0 and v['type'] != END_TYPE:
+            return False
+    return res and n_start == 1 and n_end == 1
+
+def check_single_node_type(x):
+    for x_elem in x:
+        if int(np.sum(x_elem)) != 1:
+            return False
+    return True
+
+
+def check_start_end_nodes(x, START_TYPE, END_TYPE):
+    if x[0][START_TYPE] != 1:
+        return False
+    if x[-1][END_TYPE] != 1:
+        return False
+    return True
+
+def check_interm_node_types(x, START_TYPE, END_TYPE):
+    for x_elem in x[1:-1]:
+        if x_elem[START_TYPE] == 1:
+            return False
+        if x_elem[END_TYPE] == 1:
+            return False
+    return True
+
+
+def construct_igraph(node_type, edge_type, ops_decoder, except_inout=True):
+    assert node_type.shape[0] == edge_type.shape[0]
+    
+    START_TYPE = ops_decoder.index('input')
+    END_TYPE = ops_decoder.index('output')
+    
+    g = igraph.Graph(directed=True)
+    for i, node in enumerate(node_type):
+        new_type = node.item()
+        g.add_vertex(type=new_type)
+        if new_type == END_TYPE:
+            end_vertices = set([v.index for v in g.vs.select(_outdegree_eq=0) if v.index != g.vcount()-1])
+            for v in end_vertices:
+                g.add_edge(v, i)
+        elif i > 0:
+            for ek in range(i):
+                ek_score = edge_type[ek][i].item()
+                if ek_score >= 0.5:
+                    g.add_edge(ek, i)
+    
+    return g
+
+
+def compute_arch_metrics(arch_list, adj, mask, train_arch_str_list, 
+                         train_ds, timestep=None, name=None, except_inout=False, data_root=None):
+    """ arch_list: (dict) """
+    metrics = BasicArchMetricsOFA(data_root=data_root)
+    arch_metrics = metrics.evaluate(arch_list, adj, mask, check_dataname='cifar10')
+    all_arch_str = arch_metrics[-1]
+    
+    if wandb.run:
+        arch_prop = arch_metrics[2]
+        test_acc_list = arch_prop['test_acc_list']
+        flops_list = arch_prop['flops_list']
+        params_list = arch_prop['params_list']
+        latency_list = arch_prop['latency_list']
+        if arch_metrics[0][1] > 0.: # uniquness > 0.
+            dic = {
+                'Validity': arch_metrics[0][0], 'Uniqueness': arch_metrics[0][1], 'Novelty': arch_metrics[0][2],
+                'test_acc_max': np.max(test_acc_list), 'test_acc_min': np.min(test_acc_list), 'test_acc_mean': np.mean(test_acc_list), 'test_acc_std': np.std(test_acc_list),
+                'flops_max': np.max(flops_list), 'flops_min': np.min(flops_list), 'flops_mean': np.mean(flops_list), 'flops_std': np.std(flops_list),
+                'params_max': np.max(params_list), 'params_min': np.min(params_list), 'params_mean': np.mean(params_list), 'params_std': np.std(params_list),
+                'latency_max': np.max(latency_list), 'latency_min': np.min(latency_list), 'latency_mean': np.mean(latency_list), 'latency_std': np.std(latency_list),
+                }
+        else:
+            dic = {
+                'Validity': arch_metrics[0][0], 'Uniqueness': arch_metrics[0][1], 'Novelty': arch_metrics[0][2],
+                'test_acc_max': -1, 'test_acc_min': -1, 'test_acc_mean': -1, 'test_acc_std': 0,
+                'flops_max': -1, 'flops_min': -1, 'flops_mean': -1, 'flops_std': 0,
+                'params_max': -1, 'params_min': -1, 'params_mean': -1, 'params_std': 0,
+                'latency_max': -1, 'latency_min': -1, 'latency_mean': -1, 'latency_std': 0,
+                }
+        if timestep is not None:
+            dic.update({'step': timestep})
+
+        wandb.log(dic)
+
+    return arch_metrics, all_arch_str
+
+def compute_arch_metrics_meta(
+        arch_list, adj, mask, train_arch_str_list, train_ds, 
+        timestep=None, check_dataname='cifar10', name=None):
+    """ arch_list: (dict) """
+
+    metrics = BasicArchMetricsMetaOFA(train_ds, train_arch_str_list)
+    arch_metrics = metrics.evaluate(arch_list, adj, mask, check_dataname=check_dataname)
+    if wandb.run:
+        arch_prop = arch_metrics[2]
+        if name != 'ofa':
+            arch_idx_list = arch_prop['arch_idx_list']
+        test_acc_list = arch_prop['test_acc_list']
+        flops_list = arch_prop['flops_list']
+        params_list = arch_prop['params_list']
+        latency_list = arch_prop['latency_list']
+        if arch_metrics[0][1] > 0.: # uniquness > 0.
+            dic = {
+                'Validity': arch_metrics[0][0], 'Uniqueness': arch_metrics[0][1], 'Novelty': arch_metrics[0][2],
+                'test_acc_max': np.max(test_acc_list), 'test_acc_min': np.min(test_acc_list), 'test_acc_mean': np.mean(test_acc_list), 'test_acc_std': np.std(test_acc_list),
+                'flops_max': np.max(flops_list), 'flops_min': np.min(flops_list), 'flops_mean': np.mean(flops_list), 'flops_std': np.std(flops_list),
+                'params_max': np.max(params_list), 'params_min': np.min(params_list), 'params_mean': np.mean(params_list), 'params_std': np.std(params_list),
+                'latency_max': np.max(latency_list), 'latency_min': np.min(latency_list), 'latency_mean': np.mean(latency_list), 'latency_std': np.std(latency_list),
+                }
+        else:
+            dic = {
+                'Validity': arch_metrics[0][0], 'Uniqueness': arch_metrics[0][1], 'Novelty': arch_metrics[0][2],
+                'test_acc_max': -1, 'test_acc_min': -1, 'test_acc_mean': -1, 'test_acc_std': 0,
+                'flops_max': -1, 'flops_min': -1, 'flops_mean': -1, 'flops_std': 0,
+                'params_max': -1, 'params_min': -1, 'params_mean': -1, 'params_std': 0,
+                'latency_max': -1, 'latency_min': -1, 'latency_mean': -1, 'latency_std': 0,
+                }
+        if timestep is not None:
+            dic.update({'step': timestep})
+
+    return arch_metrics
+
+
+def check_multiple_nodes(x):
+    assert len(x.shape) == 2
+    for x_elem in x:
+        x_elem = np.array(x_elem)
+        if int(np.sum(x_elem)) > 1:
+            return False
+    return True
+
+def check_inout_node(x, START_TYPE=0, END_TYPE=1):
+    assert len(x.shape) == 2
+    return x[0][START_TYPE] == 1 and x[-1][END_TYPE] == 1
+
+def check_none_in_1_and_2_layers(x, NONE_TYPE=None):
+    assert len(x.shape) == 2
+    first_and_second_layers = [0, 1, 4, 5, 8, 9, 12, 13, 16, 17]
+    for layer in first_and_second_layers:
+        if int(np.sum(x[layer])) == 0:
+            return False
+    return True
+
+def check_none_in_3_and_4_layers(x, NONE_TYPE=None):
+    assert len(x.shape) == 2
+    third_layers = [2, 6, 10, 14, 18]
+    
+    for layer in third_layers:
+        if int(np.sum(x[layer])) == 0:
+            if int(np.sum(x[layer+1])) != 0:
+                return False
+    return True
+
+
+def check_interm_inout_node(x, START_TYPE, END_TYPE):
+    for x_elem in x[1:-1]:
+        if x_elem[START_TYPE] == 1: 
+            return False 
+        if x_elem[END_TYPE] == 1: 
+            return False
+
+
+def is_valid_OFA_x(x):
+    ERORR = {
+        'MULIPLE_NODES': 1,
+        'INVALID_1OR2_LAYERS': 2,
+        'INVALID_3AND4_LAYERS': 3,
+        'NO_ERROR': -1
+    }
+    if not check_multiple_nodes(x):
+        return False, ERORR['MULIPLE_NODES']
+
+    if not check_none_in_1_and_2_layers(x):
+        return False, ERORR['INVALID_1OR2_LAYERS']
+
+    if not check_none_in_3_and_4_layers(x):
+        return False, ERORR['INVALID_3AND4_LAYERS']
+
+    return True, ERORR['NO_ERROR']
+
+
+def get_x_adj_from_opsdict_ofa(ops):
+    node_types = torch.zeros(NUM_STAGE * MAX_LAYER_PER_STAGE).long() # w/o in / out
+    num_vertices = len(OPS.values())
+    num_nodes = NUM_STAGE * MAX_LAYER_PER_STAGE
+    d_matrix = []
+
+    for i in range(NUM_STAGE):
+        ds = ops['d'][i]
+        for j in range(ds):
+            d_matrix.append(ds)
+
+        for j in range(MAX_LAYER_PER_STAGE - ds):
+            d_matrix.append('none')
+
+    for i, (ks, e, d) in enumerate(zip(
+            ops['ks'], ops['e'], d_matrix)):
+        if d == 'none':
+            pass
+        else:
+            node_types[i] = OPS[f'{ks}-{e}']
+
+    x = one_hot(node_types, num_vertices).float()
+
+    def get_adj():
+        adj = torch.zeros(num_nodes, num_nodes)
+        for i in range(num_nodes-1):
+            adj[i, i+1] = 1
+        adj = np.array(adj)
+        return adj
+    
+    adj = get_adj()
+    return x, adj
+
+
+def get_string_from_onehot_x(x):
+    x = torch.tensor(x)
+    ds = torch.sum(x.view(NUM_STAGE, -1), dim=1)
+    string = ''
+    for i, _ in enumerate(x):
+        if sum(_) == 0:
+            string += '0-0-0_'
+        else:
+            string += f'{int(ds[int(i/MAX_LAYER_PER_STAGE)])}-' + OPS2STR[torch.nonzero(torch.tensor(_)).item()] + '_'
+    return string[:-1]
--- a/MobileNetV3/analysis/arch_metrics.py
+++ b/MobileNetV3/analysis/arch_metrics.py
@@ -0,0 +1,114 @@
+from analysis.arch_functions import compute_arch_metrics, compute_arch_metrics_meta
+from torch import Tensor
+import wandb
+import torch.nn as nn
+
+
+class SamplingArchMetrics(nn.Module):
+    def __init__(self, config, train_ds, exp_name):
+        super().__init__()
+        
+        self.exp_name = exp_name
+        self.train_ds = train_ds
+        if config.data.name == 'ofa':
+            self.train_arch_str_list = train_ds.x_list_
+        else:
+            self.train_arch_str_list = train_ds.arch_str_list_
+        self.name = config.data.name
+        self.except_inout = config.data.except_inout
+        self.data_root = config.data.root
+
+
+    def forward(self, arch_list: list, adj, mask, this_sample_dir, test=False, timestep=None):
+        """_summary_
+        :params arch_list: list of archs
+        :params adj: [batch_size, num_nodes, num_nodes]
+        :params mask: [batch_size, num_nodes, num_nodes]
+        """
+        arch_metrics, all_arch_str = compute_arch_metrics(
+            arch_list, adj, mask, self.train_arch_str_list, self.train_ds, timestep=timestep,
+            name=self.name, except_inout=self.except_inout, data_root=self.data_root)
+        # arch_metrics 
+        # ([validity, uniqueness, novelty], 
+            # unique,
+            # dict(test_acc_list=test_acc_list, flops_list=flops_list, params_list=params_list, latency_list=latency_list), 
+            # all_arch_str)
+
+        if test and self.name != 'ofa':
+            with open(r'final_.txt', 'w') as fp:
+                for arch_str in all_arch_str:
+                    # write each item on a new line
+                    fp.write("%s\n" % arch_str)
+                print('All archs saved')
+
+        if self.name != 'ofa':
+            valid_unique_arch = arch_metrics[1]
+            valid_unique_arch_prop_dict = arch_metrics[2] # test_acc, flops, params, latency
+            # textfile = open(f'{this_sample_dir}/archs/{name}/valid_unique_arch_step-{current_step}.txt', "w")
+            textfile = open(f'{this_sample_dir}/valid_unique_archs.txt', "w")
+            for i in range(len(valid_unique_arch)):
+                textfile.write(f"Arch: {valid_unique_arch[i]} \n")
+                textfile.write(f"Test Acc: {valid_unique_arch_prop_dict['test_acc_list'][i]} \n")
+                textfile.write(f"FLOPs: {valid_unique_arch_prop_dict['flops_list'][i]} \n ")
+                textfile.write(f"#Params: {valid_unique_arch_prop_dict['params_list'][i]} \n")
+                textfile.write(f"Latency: {valid_unique_arch_prop_dict['latency_list'][i]} \n \n")
+            textfile.writelines(valid_unique_arch)
+            textfile.close()
+            
+        # res_dic = {
+        #         'Validity': arch_metrics[0][0], 'Uniqueness': arch_metrics[0][1], 'Novelty': arch_metrics[0][2],
+        #         'test_acc_max': -1, 'test_acc_min':-1, 'test_acc_mean': -1, 'test_acc_std': 0,
+        #         'flops_max': -1, 'flops_min':-1, 'flops_mean': -1, 'flops_std': 0,
+        #         'params_max': -1, 'params_min':-1, 'params_mean': -1, 'params_std': 0,
+        #         'latency_max': -1, 'latency_min':-1, 'latency_mean': -1, 'latency_std': 0,
+        #         }
+
+        return arch_metrics
+
+class SamplingArchMetricsMeta(nn.Module):
+    def __init__(self, config, train_ds, exp_name, train_index=None, nasbench=None):
+        super().__init__()
+        
+        self.exp_name = exp_name
+        self.train_ds = train_ds
+        self.search_space = config.data.name 
+        if self.search_space == 'ofa':
+            self.train_arch_str_list = None
+        else:
+            self.train_arch_str_list = [train_ds.arch_str_list[i] for i in train_ds.idx_lst['train']]
+
+    def forward(self, arch_list: list, adj, mask, this_sample_dir, test=False, 
+                timestep=None, check_dataname='cifar10'):
+        """_summary_
+        :params arch_list: list of archs
+        :params adj: [batch_size, num_nodes, num_nodes]
+        :params mask: [batch_size, num_nodes, num_nodes]
+        """
+        arch_metrics = compute_arch_metrics_meta(arch_list, adj, mask, self.train_arch_str_list, 
+                                            self.train_ds, timestep=timestep, check_dataname=check_dataname,
+                                            name=self.search_space)
+        all_arch_str = arch_metrics[-1]
+
+        if test:
+            with open(r'final_.txt', 'w') as fp:
+                for arch_str in all_arch_str:
+                    # write each item on a new line
+                    fp.write("%s\n" % arch_str)
+                print('All archs saved')
+
+        valid_unique_arch = arch_metrics[1] # arch_str
+        valid_unique_arch_prop_dict = arch_metrics[2] # test_acc, flops, params, latency
+        # textfile = open(f'{this_sample_dir}/archs/{name}/valid_unique_arch_step-{current_step}.txt', "w")
+        if self.search_space != 'ofa':
+            textfile = open(f'{this_sample_dir}/valid_unique_archs.txt', "w")
+            for i in range(len(valid_unique_arch)):
+                textfile.write(f"Arch: {valid_unique_arch[i]} \n")
+                textfile.write(f"Arch Index: {valid_unique_arch_prop_dict['arch_idx_list'][i]} \n")
+                textfile.write(f"Test Acc: {valid_unique_arch_prop_dict['test_acc_list'][i]} \n")
+                textfile.write(f"FLOPs: {valid_unique_arch_prop_dict['flops_list'][i]} \n ")
+                textfile.write(f"#Params: {valid_unique_arch_prop_dict['params_list'][i]} \n")
+                textfile.write(f"Latency: {valid_unique_arch_prop_dict['latency_list'][i]} \n \n")
+            textfile.writelines(valid_unique_arch)
+            textfile.close()
+        
+        return arch_metrics
--- a/MobileNetV3/analysis/visualization.py
+++ b/MobileNetV3/analysis/visualization.py
@@ -0,0 +1,547 @@
+import os
+import torch
+import imageio
+import networkx as nx
+import numpy as np
+# import rdkit.Chem
+import wandb
+import matplotlib.pyplot as plt
+# import igraph
+# import pygraphviz as pgv
+import datasets_nas
+from configs.ckpt import DATAROOT_NB201
+
+
+class ArchVisualization:
+    def __init__(self, config, remove_none=False, exp_name=None):
+        self.config = config
+        self.remove_none = remove_none
+        self.exp_name = exp_name
+        self.num_graphs_to_visualize = config.log.num_graphs_to_visualize
+        self.nasbench201 = torch.load(DATAROOT_NB201)
+        
+        self.labels = {
+            0: 'input',
+            1: 'output',
+            2: 'conv3',
+            3: 'sep3',
+            4: 'conv5',
+            5: 'sep5',
+            6: 'avg3',
+            7: 'max3',
+        }
+        
+        self.colors = ['skyblue', 'pink', 'yellow', 'orange', 'greenyellow', 'green', 'azure', 'beige']
+        
+
+    def to_networkx_directed(self, node_list, adjacency_matrix):
+        """
+        Convert graphs to neural architectures 
+        node_list: the nodes of a batch of nodes (bs x n)
+        adjacency_matrix: the adjacency_matrix of the molecule (bs x n x n)
+        """
+        
+        
+        graph = nx.DiGraph()
+        # add nodes to the graph
+        for i in range(len(node_list)):
+            if node_list[i] == -1:
+                continue
+            graph.add_node(i, number=i, symbol=node_list[i], color_val=node_list[i])
+
+        rows, cols = np.where(torch.triu(torch.tensor(adjacency_matrix), diagonal=1).numpy() >= 1)
+        edges = zip(rows.tolist(), cols.tolist())
+        for edge in edges:
+            edge_type = adjacency_matrix[edge[0]][edge[1]]
+            graph.add_edge(edge[0], edge[1], color=float(edge_type), weight=3 * edge_type)
+        
+        return graph
+
+    def visualize_non_molecule(self, graph, pos, path, iterations=100, node_size=1200, largest_component=False):
+        if largest_component:
+            CGs = [graph.subgraph(c) for c in nx.connected_components(graph)]
+            CGs = sorted(CGs, key=lambda x: x.number_of_nodes(), reverse=True)
+            graph = CGs[0]
+
+        # Plot the graph structure with colors
+        if pos is None:
+            pos = nx.nx_pydot.graphviz_layout(graph, prog="dot")
+            # pos = nx.multipartite_layout(graph, subset_key='number')
+            # pos = nx.spring_layout(graph, iterations=iterations)
+
+        # Set node colors based on the operations
+
+        plt.figure()
+        nx.draw(graph, pos=pos, labels=self.labels, arrows=True, node_shape="s", 
+                node_size=node_size, node_color=self.colors, edge_color='grey', with_labels=True)
+        # nx.draw(graph, pos, font_size=5, node_size=node_size, with_labels=False, node_color=U[:, 1],
+        #         cmap=plt.cm.coolwarm, vmin=vmin, vmax=vmax, edge_color='grey')
+        # import pdb; pdb.set_trace()
+        # plt.tight_layout()
+        
+        plt.savefig(path)
+        plt.close("all")
+
+    def visualize(self, path: str, graphs: list, log='graph', adj=None):
+        # define path to save figures
+        os.makedirs(path, exist_ok=True)
+
+        # visualize the final molecules
+        for i in range(self.num_graphs_to_visualize):
+            file_path = os.path.join(path, 'graph_{}.png'.format(i))
+            graph = self.to_networkx_directed(graphs[i], adj[0].detach().cpu().numpy())
+            self.visualize_non_molecule(graph, pos=None, path=file_path)
+            im = plt.imread(file_path)
+            if wandb.run and log is not None:
+                wandb.log({log: [wandb.Image(im, caption=file_path)]})
+
+    def visualize_chain(self, path, sample_list, adjacency_matrix,
+                        r_valid_chain, r_uniqueness_chain, r_novel_chain):
+        import pdb; pdb.set_trace()
+        # convert graphs to networkx
+        graphs = [self.to_networkx_directed(sample_list[i], adjacency_matrix[i]) for i in range(sample_list.shape[0])]
+        # find the coordinates of atoms in the final molecule
+        final_graph = graphs[-1]
+        final_pos = nx.nx_pydot.graphviz_layout(final_graph, prog="dot")
+        # final_pos = None
+
+        # draw gif
+        save_paths = []
+        num_frams = sample_list
+
+        for frame in range(num_frams):
+            file_name = os.path.join(path, 'frame_{}.png'.format(frame))
+            self.visualize_non_molecule(graphs[frame], pos=final_pos, path=file_name)
+            save_paths.append(file_name)
+
+        imgs = [imageio.imread(fn) for fn in save_paths]
+        gif_path = os.path.join(os.path.dirname(path), '{}.gif'.format(path.split('/')[-1]))
+        print(f'==> Save gif at {gif_path}')
+        imgs.extend([imgs[-1]] * 10)
+        imageio.mimsave(gif_path, imgs, subrectangles=True, fps=5)
+        if wandb.run:
+            wandb.log({'chain': [wandb.Video(gif_path, caption=gif_path, format="gif")]})
+    
+    
+    def visualize_chain_vun(self, path, r_valid_chain, r_unique_chain, r_novel_chain, sde, sampling_eps, number_chain_steps=None):
+        
+        os.makedirs(path, exist_ok=True)
+        # timesteps = torch.linspace(sampling_eps, sde.T, sde.N)
+        timesteps = torch.linspace(sde.T, sampling_eps, sde.N)
+        
+        if number_chain_steps is not None:
+            timesteps_ = []
+            n = int(sde.N / number_chain_steps)
+            for i, t in enumerate(timesteps):
+                if i % n == n - 1:
+                    timesteps_.append(t.item())
+            # timesteps_ = [t for i, t in enumerate(timesteps) if i % n == n-1]
+            assert len(timesteps_) == number_chain_steps
+            timesteps_ = timesteps_[::-1]
+        
+        else:
+            timesteps_ = list(timesteps.numpy())[::-1]
+        
+        # validity
+        plt.clf()
+        fig, ax = plt.subplots()
+        ax.plot(timesteps_, r_valid_chain, color='red')
+        ax.set_title(f'Validity')
+        ax.set_xlabel('time')
+        ax.set_ylabel('Validity')
+        plt.show()
+        file_path = os.path.join(path, 'validity.png')
+        plt.savefig(file_path)
+        plt.close("all")
+        print(f'==> Save scatter plot at {file_path}')
+        im = plt.imread(file_path)
+        if wandb.run:
+            wandb.log({'r_valid_chains': [wandb.Image(im, caption=file_path)]})
+            
+        # Uniqueness
+        plt.clf()
+        fig, ax = plt.subplots()
+        ax.plot(timesteps_, r_unique_chain, color='green')
+        ax.set_title(f'Uniqueness')
+        ax.set_xlabel('time')
+        ax.set_ylabel('Uniqueness')
+        plt.show()
+        file_path = os.path.join(path, 'uniquness.png')
+        plt.savefig(file_path)
+        plt.close("all")
+        print(f'==> Save scatter plot at {file_path}')
+        im = plt.imread(file_path)
+        if wandb.run:
+            wandb.log({'r_uniqueness_chains': [wandb.Image(im, caption=file_path)]})
+        
+        # Novelty
+        plt.clf()
+        fig, ax = plt.subplots()
+        ax.plot(timesteps_, r_novel_chain, color='blue')
+        ax.set_title(f'Novelty')
+        ax.set_xlabel('time')
+        ax.set_ylabel('Novelty')
+        file_path = os.path.join(path, 'novelty.png')
+        plt.savefig(file_path)
+        plt.close("all")
+        print(f'==> Save scatter plot at {file_path}')
+        im = plt.imread(file_path)
+        if wandb.run:
+            wandb.log({'r_novelty_chains': [wandb.Image(im, caption=file_path)]})
+    
+    
+    def visualize_grad_norm(self, path, score_grad_norm_p, classifier_grad_norm_p, 
+                            score_grad_norm_c, classifier_grad_norm_c, sde, sampling_eps, 
+                            number_chain_steps=None):
+        
+        os.makedirs(path, exist_ok=True)
+        # timesteps = torch.linspace(sampling_eps, sde.T, sde.N)
+        timesteps = torch.linspace(sde.T, sampling_eps, sde.N)
+        timesteps_ = list(timesteps.numpy())[::-1]
+        
+        if len(score_grad_norm_c) == 0:
+            score_grad_norm_c = [-1] * len(score_grad_norm_p)
+        if len(classifier_grad_norm_c) == 0:
+            classifier_grad_norm_c = [-1] * len(classifier_grad_norm_p)
+        
+        plt.clf()
+        fig, ax1 = plt.subplots()
+        
+        color_1 = 'red'
+        ax1.set_title(f'grad_norm (predictor)')
+        ax1.set_xlabel('time')
+        ax1.set_ylabel('score_grad_norm (predictor)', color=color_1)
+        ax1.plot(timesteps_, score_grad_norm_p, color=color_1)
+        ax1.tick_params(axis='y', labelcolor=color_1)
+        
+        ax2 = ax1.twinx()
+        color_2 = 'blue'
+        ax2.set_ylabel('classifier_grad_norm (predictor)', color=color_2)
+        ax2.plot(timesteps_, classifier_grad_norm_p, color=color_2)
+        ax2.tick_params(axis='y', labelcolor=color_2)
+        fig.tight_layout()
+        plt.show()
+        
+        file_path = os.path.join(path, 'grad_norm_p.png')
+        plt.savefig(file_path)
+        plt.close("all")
+        print(f'==> Save scatter plot at {file_path}')
+        im = plt.imread(file_path)
+        if wandb.run:
+            wandb.log({'grad_norm_p': [wandb.Image(im, caption=file_path)]})
+        
+        
+        plt.clf()
+        fig, ax1 = plt.subplots()
+        
+        color_1 = 'green'
+        ax1.set_title(f'grad_norm (corrector)')
+        ax1.set_xlabel('time')
+        ax1.set_ylabel('score_grad_norm (corrector)', color=color_1)
+        ax1.plot(timesteps_, score_grad_norm_c, color=color_1)
+        ax1.tick_params(axis='y', labelcolor=color_1)
+        
+        ax2 = ax1.twinx()
+        color_2 = 'yellow'
+        ax2.set_ylabel('classifier_grad_norm (corrector)', color=color_2)
+        ax2.plot(timesteps_, classifier_grad_norm_c, color=color_2)
+        ax2.tick_params(axis='y', labelcolor=color_2)
+        fig.tight_layout()
+        plt.show()
+        
+        file_path = os.path.join(path, 'grad_norm_c.png')
+        plt.savefig(file_path)
+        plt.close("all")
+        print(f'==> Save scatter plot at {file_path}')
+        im = plt.imread(file_path)
+        if wandb.run:
+            wandb.log({'grad_norm_c': [wandb.Image(im, caption=file_path)]})
+    
+    
+    def visualize_scatter(self, path, 
+                          score_config, classifier_config, 
+                          sampled_arch_metric, plot_textstr=True,
+                          x_axis='latency', y_axis='test-acc', x_label='Latency (ms)', y_label='Accuracy (%)',
+                          log='scatter', check_dataname='cifar10-valid',
+                          selected_arch_idx_list_topN=None, selected_arch_idx_list=None,
+                          train_idx_list=None, return_file_path=False):
+        
+        os.makedirs(path, exist_ok=True)
+        
+        tg_dataset = classifier_config.data.tg_dataset
+        
+        train_ds_s, eval_ds_s, test_ds_s = datasets_nas.get_dataset(score_config)
+        if selected_arch_idx_list is None:
+            train_ds_c, eval_ds_c, test_ds_c = datasets_nas.get_dataset(classifier_config)
+        else:
+            train_ds_c, eval_ds_c, test_ds_c = datasets_nas.get_dataset_iter(classifier_config)
+        
+        plt.clf()
+        fig, ax = plt.subplots()
+        
+        # entire architectures
+        entire_ds_x = train_ds_s.get_unnoramlized_entire_data(x_axis, tg_dataset)
+        entire_ds_y = train_ds_s.get_unnoramlized_entire_data(y_axis, tg_dataset)
+        ax.scatter(entire_ds_x, entire_ds_y, color = 'lightgray', alpha = 0.5, label='Entire', marker=',')
+        
+        # architectures trained by the score_model
+        # train_ds_s_x = train_ds_s.get_unnoramlized_data(x_axis, tg_dataset)
+        # train_ds_s_y = train_ds_s.get_unnoramlized_data(y_axis, tg_dataset)
+        # ax.scatter(train_ds_s_x, train_ds_s_y, color = 'gray', alpha = 0.8, label='Trained by Score Model')
+        
+        # architectures trained by the classifier
+        train_ds_c_x = train_ds_c.get_unnoramlized_data(x_axis, tg_dataset)
+        train_ds_c_y = train_ds_c.get_unnoramlized_data(y_axis, tg_dataset)
+        ax.scatter(train_ds_c_x, train_ds_c_y, color = 'black', alpha = 0.8, label='Trained by Predictor Model')
+        
+        # oracle
+        oracle_idx = torch.argmax(torch.tensor(entire_ds_y)).item()
+        # oracle_idx = torch.argmax(torch.tensor(train_ds_s.get_unnoramlized_entire_data('val-acc', tg_dataset))).item()
+        oracle_item_x = entire_ds_x[oracle_idx]
+        oracle_item_y = entire_ds_y[oracle_idx]
+        ax.scatter(oracle_item_x, oracle_item_y, color = 'red', alpha = 1.0, label='Oracle', marker='*', s=150)
+        
+        # architectures sampled by the score_model & classifier
+        AXIS_TO_PROP = {
+            'val-acc': 'val_acc_list',
+            'test-acc': 'test_acc_list',
+            'latency': 'latency_list',
+            'flops': 'flops_list',
+            'params': 'params_list',
+        }
+        sampled_ds_c_x = sampled_arch_metric[2][AXIS_TO_PROP[x_axis]]
+        sampled_ds_c_y = sampled_arch_metric[2][AXIS_TO_PROP[y_axis]]
+        ax.scatter(sampled_ds_c_x, sampled_ds_c_y, color = 'limegreen', alpha = 0.8, label='Sampled',  marker='x')
+        
+        ax.set_title(f'{tg_dataset.upper()} Dataset')
+        ax.set_xlabel(x_label)
+        ax.set_ylabel(y_label)
+        
+
+        if selected_arch_idx_list_topN is not None:
+            selected_arch_topN_info_dict = get_arch_acc_info_dict(
+                self.nasbench201, dataname=check_dataname, arch_index_list=selected_arch_idx_list_topN)
+            selected_topN_ds_x = selected_arch_topN_info_dict[AXIS_TO_PROP[x_axis]]
+            selected_topN_ds_y = selected_arch_topN_info_dict[AXIS_TO_PROP[y_axis]]
+            ax.scatter(selected_topN_ds_x, selected_topN_ds_y, color = 'pink', alpha = 0.8, label='Selected_topN',  marker='x')
+        
+        # architectures selected by the prdictor
+        selected_ds_x, selected_ds_y = None, None
+        if selected_arch_idx_list is not None:
+            selected_arch_info_dict = get_arch_acc_info_dict(
+                self.nasbench201, dataname=check_dataname, arch_index_list=selected_arch_idx_list)
+            selected_ds_x = selected_arch_info_dict[AXIS_TO_PROP[x_axis]]
+            selected_ds_y = selected_arch_info_dict[AXIS_TO_PROP[y_axis]]
+            ax.scatter(selected_ds_x, selected_ds_y, color = 'blue', alpha = 0.8, label='Selected',  marker='x')
+        
+        if plot_textstr:
+            textstr = self.get_textstr(sampled_arch_metric=sampled_arch_metric, 
+                                       sampled_ds_c_x=sampled_ds_c_x, sampled_ds_c_y=sampled_ds_c_y, 
+                                       x_axis=x_axis, y_axis=y_axis, 
+                                       classifier_config=classifier_config, 
+                                       selected_ds_x=selected_ds_x, selected_ds_y=selected_ds_y, 
+                                       selected_topN_ds_x=selected_topN_ds_x, selected_topN_ds_y=selected_topN_ds_y,
+                                       oracle_idx=oracle_idx, train_idx_list=train_idx_list
+                                       )
+            
+            props = dict(boxstyle='round', facecolor='wheat', alpha=0.5)
+            ax.text(0.6, 0.4, textstr, transform=ax.transAxes, verticalalignment='bottom', bbox=props, fontsize='x-small')
+            # ax.text(textstr, transform=ax.transAxes, verticalalignment='bottom', bbox=props)
+            ax.legend(loc="lower right")
+        
+        plt.subplots_adjust(left=0, bottom=0, right=1, top=1)
+        plt.show()
+        plt.tight_layout()
+        
+        file_path = os.path.join(path, 'scatter.png')
+        plt.savefig(file_path)
+        plt.close("all")
+        print(f'==> Save scatter plot at {path}')
+        
+        if return_file_path:
+            return file_path
+        
+        im = plt.imread(file_path)
+        if wandb.run and log is not None:
+            wandb.log({log: [wandb.Image(im, caption=file_path)]})
+        
+        # if return_selected_arch_info_dict:
+        #     return selected_arch_info_dict, selected_arch_topN_info_dict
+    
+    def visualize_scatter_chain(self, path, score_config, classifier_config, sampled_arch_metric_chain, plot_textstr=True,
+                          x_axis='latency', y_axis='test-acc', x_label='Latency (ms)', y_label='Accuracy (%)',
+                          log='scatter_chain'):
+        
+        # draw gif
+        os.makedirs(path, exist_ok=True)
+        save_paths = []
+        num_frames = len(sampled_arch_metric_chain)
+        
+        tg_dataset = classifier_config.data.tg_dataset
+        
+        train_ds_s, eval_ds_s, test_ds_s = datasets_nas.get_dataset(score_config)
+        train_ds_c, eval_ds_c, test_ds_c = datasets_nas.get_dataset(classifier_config)
+        
+        # entire architectures
+        entire_ds_x = train_ds_s.get_unnoramlized_entire_data(x_axis, tg_dataset)
+        entire_ds_y = train_ds_s.get_unnoramlized_entire_data(y_axis, tg_dataset)
+        
+        # architectures trained by the score_model
+        train_ds_s_x = train_ds_s.get_unnoramlized_data(x_axis, tg_dataset)
+        train_ds_s_y = train_ds_s.get_unnoramlized_data(y_axis, tg_dataset)
+        
+        # architectures trained by the classifier
+        train_ds_c_x = train_ds_c.get_unnoramlized_data(x_axis, tg_dataset)
+        train_ds_c_y = train_ds_c.get_unnoramlized_data(y_axis, tg_dataset)
+        
+        # oracle
+        # oracle_idx = torch.argmax(torch.tensor(entire_ds_y)).item()
+        oracle_idx = torch.argmax(torch.tensor(train_ds_s.get_unnoramlized_entire_data('val-acc', tg_dataset))).item()
+        oracle_item_x = entire_ds_x[oracle_idx]
+        oracle_item_y = entire_ds_y[oracle_idx]
+    
+        for frame in range(num_frames):
+            sampled_arch_metric = sampled_arch_metric_chain[frame]
+            
+            plt.clf()
+            fig, ax = plt.subplots()
+            
+            # entire architectures
+            ax.scatter(entire_ds_x, entire_ds_y, color = 'lightgray', alpha = 0.5, label='Entire', marker=',')
+            # architectures trained by the score_model
+            ax.scatter(train_ds_s_x, train_ds_s_y, color = 'gray', alpha = 0.8, label='Trained by Score Model')
+            # architectures trained by the classifier
+            ax.scatter(train_ds_c_x, train_ds_c_y, color = 'black', alpha = 0.8, label='Trained by Predictor Model')
+            # oracle
+            ax.scatter(oracle_item_x, oracle_item_y, color = 'red', alpha = 1.0, label='Oracle', marker='*', s=150)
+            # architectures sampled by the score_model & classifier
+            AXIS_TO_PROP = {
+                'test-acc': 'test_acc_list',
+                'latency': 'latency_list',
+                'flops': 'flops_list',
+                'params': 'params_list',
+            }
+            sampled_ds_c_x = sampled_arch_metric[2][AXIS_TO_PROP[x_axis]]
+            sampled_ds_c_y = sampled_arch_metric[2][AXIS_TO_PROP[y_axis]]
+            ax.scatter(sampled_ds_c_x, sampled_ds_c_y, color = 'limegreen', alpha = 0.8, label='Sampled',  marker='x')
+            
+            ax.set_title(f'{tg_dataset.upper()} Dataset')
+            ax.set_xlabel(x_label)
+            ax.set_ylabel(y_label)
+            
+            if plot_textstr:
+                textstr = self.get_textstr(sampled_arch_metric, sampled_ds_c_x, sampled_ds_c_y, 
+                                           x_axis, y_axis, classifier_config)
+                props = dict(boxstyle='round', facecolor='wheat', alpha=0.5)
+                ax.text(0.6, 0.3, textstr, transform=ax.transAxes, verticalalignment='bottom', bbox=props)
+                # ax.text(textstr, transform=ax.transAxes, verticalalignment='bottom', bbox=props)
+                ax.legend(loc="lower right")
+            
+            plt.subplots_adjust(left=0, bottom=0, right=1, top=1)
+            plt.show()
+            # plt.tight_layout()
+            
+            file_path = os.path.join(path, f'frame_{frame}.png')
+            plt.savefig(file_path)
+            plt.close("all")
+            print(f'==> Save scatter plot at {file_path}')
+            save_paths.append(file_path)
+            
+            im = plt.imread(file_path)
+            if wandb.run and log is not None:
+                wandb.log({log: [wandb.Image(im, caption=file_path)]})
+        
+        # draw gif
+        imgs = [imageio.imread(fn) for fn in save_paths[::-1]]
+        # gif_path = os.path.join(os.path.dirname(path), '{}.gif'.format(path.split('/')[-1]))
+        gif_path = os.path.join(path, f'scatter.gif')
+        print(f'==> Save gif at {gif_path}')
+        imgs.extend([imgs[-1]] * 10)
+        # imgs.extend([imgs[0]] * 10)
+        imageio.mimsave(gif_path, imgs, subrectangles=True, fps=5)
+        if wandb.run:
+            wandb.log({'chain_gif': [wandb.Video(gif_path, caption=gif_path, format="gif")]})
+    
+    def get_textstr(self, 
+                    sampled_arch_metric, 
+                    sampled_ds_c_x, sampled_ds_c_y, 
+                    x_axis='latency', y_axis='test-acc', 
+                    classifier_config=None,
+                    selected_ds_x=None, selected_ds_y=None,
+                    selected_topN_ds_x=None, selected_topN_ds_y=None,
+                    oracle_idx=None, train_idx_list=None):
+        mean_v_x = round(np.mean(np.array(sampled_ds_c_x)), 4)
+        std_v_x = round(np.std(np.array(sampled_ds_c_x)), 4)
+        max_v_x = round(np.max(np.array(sampled_ds_c_x)), 4)
+        min_v_x = round(np.min(np.array(sampled_ds_c_x)), 4)
+        
+        mean_v_y = round(np.mean(np.array(sampled_ds_c_y)), 4)
+        std_v_y = round(np.std(np.array(sampled_ds_c_y)), 4)
+        max_v_y = round(np.max(np.array(sampled_ds_c_y)), 4)
+        min_v_y = round(np.min(np.array(sampled_ds_c_y)), 4)
+
+        if selected_ds_x is not None:
+            mean_v_x_s = round(np.mean(np.array(selected_ds_x)), 4)
+            std_v_x_s = round(np.std(np.array(selected_ds_x)), 4)
+            max_v_x_s = round(np.max(np.array(selected_ds_x)), 4)
+            min_v_x_s = round(np.min(np.array(selected_ds_x)), 4)
+        
+        if selected_ds_y is not None:
+            mean_v_y_s = round(np.mean(np.array(selected_ds_y)), 4)
+            std_v_y_s = round(np.std(np.array(selected_ds_y)), 4)
+            max_v_y_s = round(np.max(np.array(selected_ds_y)), 4)
+            min_v_y_s = round(np.min(np.array(selected_ds_y)), 4)
+        
+        textstr = ''
+        r_valid, r_unique, r_novel = round(sampled_arch_metric[0][0], 4), round(sampled_arch_metric[0][1], 4),  round(sampled_arch_metric[0][2], 4)
+        textstr += f'V-{r_valid} | U-{r_unique} | N-{r_novel} \n'
+        textstr += f'Predictor (Noise-aware-{str(classifier_config.training.noised)[0]}, k={self.config.sampling.classifier_scale}) \n'
+        textstr += f'=> Sampled {x_axis} \n'
+        textstr += f'Mean-{mean_v_x} | Std-{std_v_x} \n'
+        textstr += f'Max-{max_v_x} | Min-{min_v_x} \n'
+        textstr += f'=> Sampled {y_axis} \n'
+        textstr += f'Mean-{mean_v_y} | Std-{std_v_y} \n'
+        textstr += f'Max-{max_v_y} | Min-{min_v_y} \n'
+        if selected_ds_x is not None:
+            textstr += f'==> Selected {x_axis} \n'
+            textstr += f'Mean-{mean_v_x_s} | Std-{std_v_x_s} \n'
+            textstr += f'Max-{max_v_x_s} | Min-{min_v_x_s} \n'
+        if selected_ds_y is not None:
+            textstr += f'==> Selected {y_axis} \n'
+            textstr += f'Mean-{mean_v_y_s} | Std-{std_v_y_s} \n'
+            textstr += f'Max-{max_v_y_s} | Min-{min_v_y_s} \n'
+        if selected_topN_ds_y is not None:
+            textstr += f'==> Predicted TopN (10) -{str(round(max(selected_topN_ds_y[:10]), 4))} \n'
+        
+        if train_idx_list is not None and oracle_idx in train_idx_list:
+            textstr += f'==> Hit Oracle ({oracle_idx}) !'
+        
+        return textstr
+
+
+def get_arch_acc_info_dict(nasbench201, dataname='cifar10-valid', arch_index_list=None):
+    val_acc_list = []
+    test_acc_list = []
+    flops_list = []
+    params_list = []
+    latency_list = []
+    
+    for arch_index in arch_index_list:
+        val_acc = nasbench201['val-acc'][dataname][arch_index]
+        val_acc_list.append(val_acc)
+        test_acc = nasbench201['test-acc'][dataname][arch_index]
+        test_acc_list.append(test_acc)
+        flops = nasbench201['flops'][dataname][arch_index]
+        flops_list.append(flops)
+        params = nasbench201['params'][dataname][arch_index]
+        params_list.append(params)
+        latency = nasbench201['latency'][dataname][arch_index]
+        latency_list.append(latency)
+    
+    return {
+        'val_acc_list': val_acc_list,
+        'test_acc_list': test_acc_list,
+        'flops_list': flops_list,
+        'params_list': params_list,
+        'latency_list': latency_list
+    }
--- a/MobileNetV3/configs/tr_meta_surrogate_ofa.py
+++ b/MobileNetV3/configs/tr_meta_surrogate_ofa.py
@@ -0,0 +1,167 @@
+import ml_collections
+import torch
+from all_path import SCORE_MODEL_CKPT_PATH, SCORE_MODEL_DATA_PATH
+
+
+def get_config():
+    config = ml_collections.ConfigDict()
+    
+    config.search_space = None
+    
+    # genel
+    config.resume = False
+    config.folder_name = 'DiffusionNAG'
+    config.task = 'tr_meta_predictor'
+    config.exp_name = None
+    config.model_type = 'meta_predictor'
+    config.scorenet_ckpt_path = SCORE_MODEL_CKPT_PATH
+    config.is_meta = True
+
+    # training
+    config.training = training = ml_collections.ConfigDict()
+    training.sde = 'vesde'
+    training.continuous = True
+    training.reduce_mean = True
+    training.noised = True
+
+    training.batch_size = 128
+    training.eval_batch_size = 512
+    training.n_iters = 20000 
+    training.snapshot_freq = 500
+    training.log_freq = 500
+    training.eval_freq = 500
+    ## store additional checkpoints for preemption
+    training.snapshot_freq_for_preemption = 1000
+    ## produce samples at each snapshot.
+    training.snapshot_sampling = True
+    training.likelihood_weighting = False
+    # training for perturbed data
+    training.t_spot = 1.
+    # training from pretrained score model
+    training.load_pretrained = False
+    training.pretrained_model_path = SCORE_MODEL_CKPT_PATH
+
+    # sampling
+    config.sampling = sampling = ml_collections.ConfigDict()
+    sampling.method = 'pc'
+    sampling.predictor = 'euler_maruyama'
+    sampling.corrector = 'none' 
+    # sampling.corrector = 'langevin' 
+    sampling.rtol = 1e-5
+    sampling.atol = 1e-5
+    sampling.ode_method = 'dopri5'  # 'rk4'
+    sampling.ode_step = 0.01
+
+    sampling.n_steps_each = 1
+    sampling.noise_removal = True
+    sampling.probability_flow = False
+    sampling.snr = 0.16
+    sampling.vis_row = 4
+    sampling.vis_col = 4
+
+    # conditional
+    sampling.classifier_scale = 1.0
+    sampling.regress = True
+    sampling.labels = 'max'
+    sampling.weight_ratio = False
+    sampling.weight_scheduling = False
+    sampling.t_spot = 1.
+    sampling.t_spot_end = 0.
+    sampling.number_chain_steps = 50
+    sampling.check_dataname = 'imagenet1k'
+
+    # evaluation
+    config.eval = evaluate = ml_collections.ConfigDict()
+    evaluate.begin_ckpt = 5
+    evaluate.end_ckpt = 20
+    # evaluate.batch_size = 512
+    evaluate.batch_size = 128
+    evaluate.enable_sampling = True
+    evaluate.num_samples = 1024
+    evaluate.mmd_distance = 'RBF'
+    evaluate.max_subgraph = False
+    evaluate.save_graph = False
+    
+    # data
+    config.data = data = ml_collections.ConfigDict()
+    data.centered = True
+    data.dequantization = False
+
+    data.root = SCORE_MODEL_DATA_PATH
+    data.name = 'ofa'
+    data.split_ratio = 0.8
+    data.dataset_idx = 'random'
+    data.max_node = 20
+    data.n_vocab = 9
+    data.START_TYPE = 0
+    data.END_TYPE = 1
+    data.num_graphs = 100000
+    data.num_channels = 1
+    data.except_inout = False # ignore
+    data.triu_adj = True
+    data.connect_prev = False
+    data.tg_dataset = None
+    data.label_list = ['meta-acc']
+    # aug_mask
+    data.aug_mask_algo = 'none' # 'long_range' | 'floyd'
+    # num_train
+    data.num_train = 150
+
+    # model
+    config.model = model = ml_collections.ConfigDict()
+    model.name = 'MetaPredictorCATE'
+    model.ema_rate = 0.9999
+    model.normalization = 'GroupNorm'
+    model.nonlinearity = 'swish'
+    model.nf = 128
+    model.num_gnn_layers = 4
+    model.size_cond = False
+    model.embedding_type = 'positional'
+    model.rw_depth = 16
+    model.graph_layer = 'PosTransLayer'
+    model.edge_th = -1.
+    model.heads = 8
+    model.attn_clamp = False
+    #############################################################################
+    # meta
+    model.input_type = 'DA'
+    model.hs = 512
+    model.nz = 56
+    model.num_sample = 20
+
+    model.num_scales = 1000
+    model.beta_min = 0.1
+    model.beta_max = 5.0
+    model.sigma_min = 0.1
+    model.sigma_max = 5.0
+    model.dropout = 0.1
+    # graph encoder
+    config.model.graph_encoder = graph_encoder = ml_collections.ConfigDict()
+    graph_encoder.n_layers = 2
+    graph_encoder.d_model = 64
+    graph_encoder.n_head = 2
+    graph_encoder.d_ff = 32
+    graph_encoder.dropout = 0.1
+    graph_encoder.n_vocab = 9
+
+    # optimization
+    config.optim = optim = ml_collections.ConfigDict()
+    optim.weight_decay = 0
+    optim.optimizer = 'Adam'
+    optim.lr = 0.001
+    optim.beta1 = 0.9
+    optim.eps = 1e-8
+    optim.warmup = 1000
+    optim.grad_clip = 1.
+
+    config.seed = 42
+    config.device = torch.device('cuda:0') if torch.cuda.is_available() else torch.device('cpu')
+    
+    # log
+    config.log = log = ml_collections.ConfigDict()
+    log.use_wandb = True
+    log.wandb_project_name = 'DiffusionNAG'
+    log.log_valid_sample_prop = False
+    log.num_graphs_to_visualize = 20
+
+    return config
--- a/MobileNetV3/configs/tr_scorenet_ofa.py
+++ b/MobileNetV3/configs/tr_scorenet_ofa.py
@@ -0,0 +1,141 @@
+"""Training PGSN on Community Small Dataset with GraphGDP"""
+
+import ml_collections
+import torch
+
+
+def get_config():
+    config = ml_collections.ConfigDict()
+    
+    # general
+    config.resume = False
+    config.resume_ckpt_path = './exp'
+    config.folder_name = 'tr_scorenet'
+    config.task = 'tr_scorenet'
+    config.exp_name = None
+
+    config.model_type = 'sde'
+
+    # training
+    config.training = training = ml_collections.ConfigDict()
+    training.sde = 'vesde'
+    training.continuous = True
+    training.reduce_mean = True
+
+    training.batch_size = 256
+    training.eval_batch_size = 1000
+    training.n_iters = 1000000
+    training.snapshot_freq = 10000 
+    training.log_freq = 200
+    training.eval_freq = 10000
+    ## store additional checkpoints for preemption
+    training.snapshot_freq_for_preemption = 5000
+    ## produce samples at each snapshot.
+    training.snapshot_sampling = True
+    training.likelihood_weighting = False
+
+    # sampling
+    config.sampling = sampling = ml_collections.ConfigDict()
+    sampling.method = 'pc'
+    sampling.predictor = 'euler_maruyama'
+    sampling.corrector = 'none' 
+    sampling.rtol = 1e-5
+    sampling.atol = 1e-5
+    sampling.ode_method = 'dopri5'  # 'rk4'
+    sampling.ode_step = 0.01
+
+    sampling.n_steps_each = 1
+    sampling.noise_removal = True
+    sampling.probability_flow = False
+    sampling.snr = 0.16
+    sampling.vis_row = 4
+    sampling.vis_col = 4
+    sampling.alpha = 0.5
+    sampling.qtype = 'threshold'
+
+    # evaluation
+    config.eval = evaluate = ml_collections.ConfigDict()
+    evaluate.begin_ckpt = 5
+    evaluate.end_ckpt = 20
+    evaluate.batch_size = 1024
+    evaluate.enable_sampling = True
+    evaluate.num_samples = 1024
+    evaluate.mmd_distance = 'RBF'
+    evaluate.max_subgraph = False
+    evaluate.save_graph = False
+
+    # data
+    config.data = data = ml_collections.ConfigDict()
+    data.centered = True
+    data.dequantization = False
+
+    data.root = './data/ofa/data_score_model/ofa_database_500000.pt'
+    data.name = 'ofa'
+    data.split_ratio = 0.9
+    data.dataset_idx = 'random'
+    data.max_node = 20
+    data.n_vocab = 9 # 10 # 
+    data.START_TYPE = 0
+    data.END_TYPE = 1
+    data.num_graphs = 100000
+    data.num_channels = 1
+    data.except_inout = False
+    data.triu_adj = True
+    data.connect_prev = False
+    data.label_list = None
+    data.tg_dataset = None
+    data.node_rule_type = 2
+    # aug_mask
+    data.aug_mask_algo = 'none' 
+
+    # model
+    config.model = model = ml_collections.ConfigDict()
+    model.name = 'CATE'
+    model.ema_rate = 0.9999
+    model.normalization = 'GroupNorm'
+    model.nonlinearity = 'swish'
+    model.nf = 128
+    model.num_gnn_layers = 4
+    model.size_cond = False
+    model.embedding_type = 'positional'
+    model.rw_depth = 16
+    model.graph_layer = 'PosTransLayer'
+    model.edge_th = -1.
+    model.heads = 8
+    model.attn_clamp = False
+
+    model.num_scales = 1000
+    model.sigma_min = 0.1
+    model.sigma_max = 1.0
+    model.dropout = 0.1
+    model.pos_enc_type = 2
+    # graph encoder
+    config.model.graph_encoder = graph_encoder = ml_collections.ConfigDict()
+    graph_encoder.n_layers = 12
+    graph_encoder.d_model = 64
+    graph_encoder.n_head = 8
+    graph_encoder.d_ff = 128
+    graph_encoder.dropout = 0.1
+    graph_encoder.n_vocab = 9 #10 # 30
+
+    # optimization
+    config.optim = optim = ml_collections.ConfigDict()
+    optim.weight_decay = 0
+    optim.optimizer = 'Adam'
+    optim.lr = 2e-5
+    optim.beta1 = 0.9
+    optim.eps = 1e-8
+    optim.warmup = 1000
+    optim.grad_clip = 1.
+
+    config.seed = 42
+    config.device = torch.device('cuda:0') if torch.cuda.is_available() else torch.device('cpu')
+    
+    # log
+    config.log = log = ml_collections.ConfigDict()
+    log.use_wandb = True
+    log.wandb_project_name = 'DiffusionNAG'
+    log.log_valid_sample_prop = False
+    log.num_graphs_to_visualize = 20
+
+    return config
--- a/MobileNetV3/datasets_nas.py
+++ b/MobileNetV3/datasets_nas.py
@@ -0,0 +1,493 @@
+from __future__ import print_function
+import torch
+import os
+import numpy as np
+from torch.utils.data import DataLoader, Dataset
+
+from torch_geometric.utils import to_networkx
+
+from analysis.arch_functions import get_x_adj_from_opsdict_ofa, get_string_from_onehot_x
+from all_path import PROCESSED_DATA_PATH, SCORE_MODEL_DATA_IDX_PATH
+from analysis.arch_functions import OPS
+
+
+def get_data_scaler(config):
+    """Data normalizer. Assume data are always in [0, 1]."""
+
+    if config.data.centered:
+        # Rescale to [-1, 1]
+        return lambda x: x * 2. - 1.
+    else:
+        return lambda x: x
+
+
+def get_data_inverse_scaler(config):
+    """Inverse data normalizer."""
+
+    if config.data.centered:
+        # Rescale [-1, 1] to [0, 1]
+        return lambda x: (x + 1.) / 2.
+    else:
+        return lambda x: x
+
+
+def networkx_graphs(dataset):
+    return [to_networkx(dataset[i], to_undirected=False, remove_self_loops=True) for i in range(len(dataset))]
+
+
+def get_dataloader(config, train_dataset, eval_dataset, test_dataset):
+    train_loader = DataLoader(dataset=train_dataset,
+                            batch_size=config.training.batch_size,
+                            shuffle=True,
+                            collate_fn=collate_fn_ofa if config.model_type == 'meta_predictor' else None)
+    eval_loader = DataLoader(dataset=eval_dataset,
+                            batch_size=config.training.batch_size,
+                            shuffle=False,
+                            collate_fn=collate_fn_ofa if config.model_type == 'meta_predictor' else None)
+    test_loader = DataLoader(dataset=test_dataset,
+                            batch_size=config.training.batch_size,
+                            shuffle=False,
+                            collate_fn=collate_fn_ofa if config.model_type == 'meta_predictor' else None)
+
+    return train_loader, eval_loader, test_loader
+
+
+def get_dataloader_iter(config, train_dataset, eval_dataset, test_dataset):
+    
+    train_loader = DataLoader(dataset=train_dataset,
+                            batch_size=config.training.batch_size if len(train_dataset) > config.training.batch_size else len(train_dataset),
+                            # batch_size=8,
+                            shuffle=True,)
+    eval_loader = DataLoader(dataset=eval_dataset,
+                            batch_size=config.training.batch_size if len(eval_dataset) > config.training.batch_size else len(eval_dataset),
+                            # batch_size=8,
+                            shuffle=False,)
+    test_loader = DataLoader(dataset=test_dataset,
+                            batch_size=config.training.batch_size if len(test_dataset) > config.training.batch_size else len(test_dataset),
+                            # batch_size=8,
+                            shuffle=False,)
+
+    return train_loader, eval_loader, test_loader
+
+
+def is_triu(mat):
+    is_triu_ = np.allclose(mat, np.triu(mat))
+    return is_triu_
+
+
+def collate_fn_ofa(batch):
+    # x, adj, label_dict, task
+    x = torch.stack([item[0] for item in batch])
+    adj = torch.stack([item[1] for item in batch])
+    label_dict = {}
+    for item in batch:
+        for k, v in item[2].items():
+            if not k in label_dict.keys():
+                 label_dict[k] = []
+            label_dict[k].append(v)
+    for k, v in label_dict.items():
+         label_dict[k] = torch.tensor(v)
+    task = [item[3] for item in batch]
+    return x, adj, label_dict, task
+
+
+def get_dataset(config):
+    """Create data loaders for training and evaluation.
+
+    Args:
+        config: A ml_collection.ConfigDict parsed from config files.
+
+    Returns:
+        train_ds, eval_ds, test_ds
+    """
+    num_train = config.data.num_train if 'num_train' in config.data else None
+    NASDataset = OFADataset
+        
+    train_dataset  = NASDataset(
+        config.data.root,
+        config.data.split_ratio, 
+        config.data.except_inout, 
+        config.data.triu_adj, 
+        config.data.connect_prev,
+        'train',
+        config.data.label_list,
+        config.data.tg_dataset,
+        config.data.dataset_idx,
+        num_train,
+        node_rule_type=config.data.node_rule_type)
+    eval_dataset  = NASDataset(
+        config.data.root,
+        config.data.split_ratio, 
+        config.data.except_inout, 
+        config.data.triu_adj, 
+        config.data.connect_prev,
+        'eval',
+        config.data.label_list,
+        config.data.tg_dataset,
+        config.data.dataset_idx,
+        num_train,
+        node_rule_type=config.data.node_rule_type)
+
+    test_dataset  = NASDataset(
+        config.data.root,
+        config.data.split_ratio, 
+        config.data.except_inout, 
+        config.data.triu_adj, 
+        config.data.connect_prev,
+        'test',
+        config.data.label_list,
+        config.data.tg_dataset,
+        config.data.dataset_idx,
+        num_train,
+        node_rule_type=config.data.node_rule_type)
+
+
+    return train_dataset, eval_dataset, test_dataset
+
+
+def get_meta_dataset(config):
+    database = MetaTrainDatabaseOFA
+    data_path = PROCESSED_DATA_PATH
+
+    train_dataset = database(
+		data_path,
+		config.model.num_sample,
+		config.data.label_list,
+		True,
+		config.data.except_inout, 
+        config.data.triu_adj, 
+        config.data.connect_prev,
+        'train')
+    eval_dataset = database(
+		data_path,
+		config.model.num_sample,
+		config.data.label_list,
+		True,
+		config.data.except_inout, 
+        config.data.triu_adj, 
+        config.data.connect_prev,
+        'val')
+    # test_dataset = MetaTestDataset()
+    test_dataset = None
+    return train_dataset, eval_dataset, test_dataset
+
+def get_meta_dataloader(config ,train_dataset, eval_dataset, test_dataset):
+    if config.data.name == 'ofa':
+        train_loader = DataLoader(dataset=train_dataset,
+                                batch_size=config.training.batch_size,
+                                shuffle=True,)
+                                # collate_fn=collate_fn_ofa)
+        eval_loader = DataLoader(dataset=eval_dataset,
+                                batch_size=config.training.batch_size,)
+                                # collate_fn=collate_fn_ofa)
+    else:
+        train_loader = DataLoader(dataset=train_dataset,
+                                batch_size=config.training.batch_size,
+                                shuffle=True)
+        eval_loader = DataLoader(dataset=eval_dataset,
+                                batch_size=config.training.batch_size,
+                                shuffle=False)
+    # test_loader = DataLoader(dataset=test_dataset,
+    #                          batch_size=config.training.batch_size,
+    #                          shuffle=False)
+    test_loader = None
+    return train_loader, eval_loader, test_loader 
+
+
+class MetaTestDataset(Dataset):
+	def __init__(self, data_path, data_name, num_sample, num_class=None):
+		self.num_sample = num_sample
+		self.data_name = data_name
+
+		num_class_dict = {
+		'cifar100': 100,
+		'cifar10':  10,
+		'mnist':    10,
+		'svhn':     10,
+		'aircraft': 30,
+		'pets':     37
+		}
+
+		if num_class is not None:
+			self.num_class = num_class
+		else:
+			self.num_class = num_class_dict[data_name]
+		self.x = torch.load(os.path.join(data_path, f'aircraft100bylabel.pt' if 'ofa' in data_path and data_name == 'aircraft' else f'{data_name}bylabel.pt' ))
+
+	def __len__(self):
+		return 1000000
+
+	def __getitem__(self, index):
+		data = []
+		classes = list(range(self.num_class))
+		for cls in classes:
+			cx = self.x[cls][0]
+			ridx = torch.randperm(len(cx))
+			data.append(cx[ridx[:self.num_sample]])
+		x = torch.cat(data)
+		return x
+
+
+class MetaTrainDatabaseOFA(Dataset):
+    # def __init__(self, data_path, num_sample, is_pred=False):
+    def __init__(
+        self,
+        data_path, 
+        num_sample, 
+        label_list,
+        is_pred=True,
+        except_inout=False, 
+        triu_adj=True, 
+        connect_prev=False,
+        mode='train'):
+
+        self.ops_decoder = list(OPS.keys())
+        self.mode = mode
+        self.acc_norm = True
+        self.num_sample = num_sample
+        self.x = torch.load(os.path.join(data_path, 'imgnet32bylabel.pt'))
+		
+        if is_pred:  
+            self.dpath = f'{data_path}/predictor/processed/'
+        else:
+            raise NotImplementedError
+        
+        self.dname = 'database_219152_14.0K'
+        data = torch.load(self.dpath + f'{self.dname}_{self.mode}.pt')
+        self.net = data['net']
+        self.x_list = []
+        self.adj_list = []
+        self.arch_str_list = []
+        for net in self.net:
+            x, adj = get_x_adj_from_opsdict_ofa(net)
+            # ---------- matrix ---------- #
+            self.x_list.append(x)
+            self.adj_list.append(torch.tensor(adj))
+            # ---------- arch_str ---------- #
+            self.arch_str_list.append(get_string_from_onehot_x(x))
+        # ---------- labels ---------- #
+        self.label_list = label_list
+        if self.label_list is not None:
+            self.flops_list = data['flops']
+            self.params_list = None
+            self.latency_list = None
+
+        self.acc_list = data['acc']
+        self.mean = data['mean']
+        self.std = data['std']
+        self.task_lst = data['class']
+
+    def __len__(self):
+        return len(self.acc_list)
+	
+    def __getitem__(self, index):
+        data = []
+        classes = self.task_lst[index]
+        acc = self.acc_list[index]
+        graph = self.net[index]
+
+        # ---------- x -----------
+        x = self.x_list[index]
+        # ---------- adj ----------
+        adj = self.adj_list[index]
+        acc = self.acc_list[index]
+
+        for i, cls in enumerate(classes):
+            cx = self.x[cls.item()][0]
+            ridx = torch.randperm(len(cx))
+            data.append(cx[ridx[:self.num_sample]])
+        task = torch.cat(data)
+        if self.acc_norm:
+            acc = ((acc - self.mean) / self.std) / 100.0
+        else:
+            acc = acc / 100.0
+
+        label_dict = {}
+        if self.label_list is not None:
+            assert type(self.label_list) == list
+            for label in self.label_list:
+                if label == 'meta-acc':
+                    label_dict[f"{label}"] = acc
+                else:
+                    raise ValueError
+        return x, adj, label_dict, task
+
+
+class OFADataset(Dataset):
+    def __init__(
+        self, 
+        data_path,
+        split_ratio=0.8, 
+        except_inout=False, 
+        triu_adj=True, 
+        connect_prev=False,
+        mode='train',
+        label_list=None,
+        tg_dataset=None,
+        dataset_idx='random',
+        num_train=None,
+        node_rule_type=None):
+        
+        # ---------- entire dataset ---------- #
+        self.data = torch.load(data_path)
+        self.except_inout = except_inout
+        self.triu_adj = triu_adj
+        self.connect_prev = connect_prev
+        self.node_rule_type = node_rule_type
+
+        # ---------- x ---------- #
+        self.x_list = self.data['x_none2zero']
+        
+        # ---------- adj ---------- #
+        assert self.connect_prev == False
+        self.n_adj = len(self.data['node_type'][0])
+        const_adj = self.get_not_connect_prev_adj()
+        self.adj_list = [const_adj] * len(self.x_list)
+
+        # ---------- arch_str ---------- #
+        self.arch_str_list = self.data['net_setting']
+        # ---------- labels ---------- #
+        self.label_list = label_list 
+        if self.label_list is not None:
+            raise NotImplementedError
+        
+        # ----------- split dataset ---------- #
+        self.ds_idx = list(torch.load(SCORE_MODEL_DATA_IDX_PATH))
+
+        self.split_ratio = split_ratio
+        if num_train is None:
+            num_train = int(len(self.x_list) * self.split_ratio)
+            num_test = len(self.x_list) - num_train
+        else:
+            num_train = num_train
+            num_test = len(self.x_list) - num_train
+        # ----------- compute mean and std w/ training dataset ---------- #
+        if self.label_list is not None:
+            self.train_idx_list = self.ds_idx[:num_train]
+            print('Computing mean and std of the training set...')
+            from collections import defaultdict
+            LABEL_TO_MEAN_STD = defaultdict(dict)
+            assert type(self.label_list) == list
+            for label in self.label_list:
+                if label == 'test-acc':
+                    self.test_acc_list_tr = [self.test_acc_list[i] for i in self.train_idx_list]
+                    LABEL_TO_MEAN_STD[label]['std'], LABEL_TO_MEAN_STD[label]['mean'] = torch.std_mean(torch.tensor(self.test_acc_list_tr))
+                elif label == 'flops':
+                    self.flops_list_tr = [self.flops_list[i] for i in self.train_idx_list]
+                    LABEL_TO_MEAN_STD[label]['std'], LABEL_TO_MEAN_STD[label]['mean'] = torch.std_mean(torch.tensor(self.flops_list_tr))
+                elif label == 'params':
+                    self.params_list_tr = [self.params_list[i] for i in self.train_idx_list]
+                    LABEL_TO_MEAN_STD[label]['std'], LABEL_TO_MEAN_STD[label]['mean'] = torch.std_mean(torch.tensor(self.params_list_tr))
+                elif label == 'latency':
+                    self.latency_list_tr = [self.latency_list[i] for i in self.train_idx_list]
+                    LABEL_TO_MEAN_STD[label]['std'], LABEL_TO_MEAN_STD[label]['mean'] = torch.std_mean(torch.tensor(self.latency_list_tr))
+                else:
+                    raise ValueError
+        
+        self.mode = mode
+        if self.mode in ['train']:
+            self.idx_list = self.ds_idx[:num_train]
+        elif self.mode in ['eval']:
+            self.idx_list = self.ds_idx[:num_test]
+        elif self.mode in ['test']:
+            self.idx_list = self.ds_idx[num_train:]
+        
+        self.x_list_ = [self.x_list[i] for i in self.idx_list]
+        self.adj_list_ = [self.adj_list[i] for i in self.idx_list]
+        self.arch_str_list_ = [self.arch_str_list[i] for i in self.idx_list]
+
+        if self.label_list is not None:
+            assert type(self.label_list) == list
+            for label in self.label_list:
+                if label == 'test-acc':
+                    self.test_acc_list_ = [self.test_acc_list[i] for i in self.idx_list]
+                    self.test_acc_list_ = self.normalize(self.test_acc_list_, LABEL_TO_MEAN_STD[label]['mean'], LABEL_TO_MEAN_STD[label]['std'])
+                elif label == 'flops':
+                    self.flops_list_ = [self.flops_list[i] for i in self.idx_list]
+                    self.flops_list_ = self.normalize(self.flops_list_, LABEL_TO_MEAN_STD[label]['mean'], LABEL_TO_MEAN_STD[label]['std'])
+                elif label == 'params':
+                    self.params_list_ = [self.params_list[i] for i in self.idx_list]
+                    self.params_list_ = self.normalize(self.params_list_, LABEL_TO_MEAN_STD[label]['mean'], LABEL_TO_MEAN_STD[label]['std'])
+                elif label == 'latency':
+                    self.latency_list_ = [self.latency_list[i] for i in self.idx_list]
+                    self.latency_list_ = self.normalize(self.latency_list_, LABEL_TO_MEAN_STD[label]['mean'], LABEL_TO_MEAN_STD[label]['std'])
+                else:
+                    raise ValueError
+
+    def normalize(self, original, mean, std):
+        return [(i-mean)/std for i in original]
+    
+    def get_not_connect_prev_adj(self):
+        _adj = torch.zeros(self.n_adj, self.n_adj)
+        for i in range(self.n_adj-1):
+            _adj[i, i+1] = 1
+        _adj = _adj.to(torch.float32).to('cpu') # torch.tensor(_adj, dtype=torch.float32, device=torch.device('cpu'))
+        # if self.except_inout:
+        #     _adj = _adj[1:-1, 1:-1]
+        return _adj
+
+    @property
+    def adj(self):
+        return self.adj_list_[0]
+    
+    # @property
+    def mask(self, algo='floyd', data='ofa'):
+        from utils import aug_mask
+        return aug_mask(self.adj, algo=algo, data=data)[0]
+    
+    def get_unnoramlized_entire_data(self, label, tg_dataset):
+        entire_test_acc_list = self.data['test-acc'][tg_dataset]
+        entire_flops_list = self.data['flops'][tg_dataset]
+        entire_params_list = self.data['params'][tg_dataset]
+        entire_latency_list = self.data['latency'][tg_dataset]
+        
+        if label == 'test-acc':
+            return entire_test_acc_list
+        elif label == 'flops':
+            return entire_flops_list
+        elif label == 'params':
+            return entire_params_list
+        elif label == 'latency':
+            return entire_latency_list
+        else:
+            raise ValueError
+    
+    
+    def get_unnoramlized_data(self, label, tg_dataset):
+        entire_test_acc_list = self.data['test-acc'][tg_dataset]
+        entire_flops_list = self.data['flops'][tg_dataset]
+        entire_params_list = self.data['params'][tg_dataset]
+        entire_latency_list = self.data['latency'][tg_dataset]
+        
+        if label == 'test-acc':
+            return [entire_test_acc_list[i] for i in self.idx_list]
+        elif label == 'flops':
+            return [entire_flops_list[i] for i in self.idx_list]
+        elif label == 'params':
+            return [entire_params_list[i] for i in self.idx_list]
+        elif label == 'latency':
+            return [entire_latency_list[i] for i in self.idx_list]
+        else:
+            raise ValueError
+    
+    def __len__(self):
+        return len(self.x_list_)
+
+    def __getitem__(self, index):
+        
+        label_dict = {}
+        if self.label_list is not None:
+            assert type(self.label_list) == list
+            for label in self.label_list:
+                if label == 'test-acc':
+                    label_dict[f"{label}"] = self.test_acc_list_[index]
+                elif label == 'flops':
+                    label_dict[f"{label}"] = self.flops_list_[index]
+                elif label == 'params':
+                    label_dict[f"{label}"] = self.params_list_[index]
+                elif label == 'latency':
+                    label_dict[f"{label}"] = self.latency_list_[index]
+                else:
+                    raise ValueError
+        
+        return self.x_list_[index], self.adj_list_[index], label_dict
--- a/MobileNetV3/evaluation/init.py
+++ b/MobileNetV3/evaluation/init.py
@@ -0,0 +1 @@
+from .evaluator import get_stats_eval, get_nn_eval
--- a/MobileNetV3/evaluation/evaluator.py
+++ b/MobileNetV3/evaluation/evaluator.py
@@ -0,0 +1,58 @@
+import networkx as nx
+from .structure_evaluator import mmd_eval
+from .gin_evaluator import nn_based_eval
+from torch_geometric.utils import to_networkx
+import torch
+import torch.nn.functional as F
+import dgl
+
+
+def get_stats_eval(config):
+
+    if config.eval.mmd_distance.lower() == 'rbf':
+        method = [('degree', 1., 'argmax'), ('cluster', 0.1, 'argmax'),
+                  ('spectral', 1., 'argmax')]
+    else:
+        raise ValueError
+
+    def eval_stats_fn(test_dataset, pred_graph_list):
+        pred_G = [nx.from_numpy_matrix(pred_adj) for pred_adj in pred_graph_list]
+        sub_pred_G = []
+        if config.eval.max_subgraph:
+            for G in pred_G:
+                CGs = [G.subgraph(c) for c in nx.connected_components(G)]
+                CGs = sorted(CGs, key=lambda x: x.number_of_nodes(), reverse=True)
+                sub_pred_G += [CGs[0]]
+            pred_G = sub_pred_G
+
+        test_G = [to_networkx(test_dataset[i], to_undirected=True, remove_self_loops=True)
+                  for i in range(len(test_dataset))]
+        results = mmd_eval(test_G, pred_G, method)
+        return results
+
+    return eval_stats_fn
+
+
+def get_nn_eval(config):
+
+    if hasattr(config.eval, "N_gin"):
+        N_gin = config.eval.N_gin
+    else:
+        N_gin = 10
+
+    def nn_eval_fn(test_dataset, pred_graph_list):
+        pred_G = [nx.from_numpy_matrix(pred_adj) for pred_adj in pred_graph_list]
+        sub_pred_G = []
+        if config.eval.max_subgraph:
+            for G in pred_G:
+                CGs = [G.subgraph(c) for c in nx.connected_components(G)]
+                CGs = sorted(CGs, key=lambda x: x.number_of_nodes(), reverse=True)
+                sub_pred_G += [CGs[0]]
+            pred_G = sub_pred_G
+        test_G = [to_networkx(test_dataset[i], to_undirected=True, remove_self_loops=True)
+                  for i in range(len(test_dataset))]
+
+        results = nn_based_eval(test_G, pred_G, N_gin)
+        return results
+
+    return nn_eval_fn
--- a/MobileNetV3/evaluation/gin.py
+++ b/MobileNetV3/evaluation/gin.py
@@ -0,0 +1,311 @@
+"""Modified from https://github.com/uoguelph-mlrg/GGM-metrics"""
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import dgl.function as fn
+from dgl.utils import expand_as_pair
+from dgl.nn import SumPooling, AvgPooling, MaxPooling
+
+
+class GINConv(nn.Module):
+    def __init__(self,
+                 apply_func,
+                 aggregator_type,
+                 init_eps=0,
+                 learn_eps=False):
+        super(GINConv, self).__init__()
+        self.apply_func = apply_func
+        self._aggregator_type = aggregator_type
+        if aggregator_type == 'sum':
+            self._reducer = fn.sum
+        elif aggregator_type == 'max':
+            self._reducer = fn.max
+        elif aggregator_type == 'mean':
+            self._reducer = fn.mean
+        else:
+            raise KeyError('Aggregator type {} not recognized.'.format(aggregator_type))
+        # to specify whether eps is trainable or not.
+        if learn_eps:
+            self.eps = torch.nn.Parameter(torch.FloatTensor([init_eps]))
+        else:
+            self.register_buffer('eps', torch.FloatTensor([init_eps]))
+
+    def forward(self, graph, feat, edge_weight=None):
+        r"""
+        Description
+        -----------
+        Compute Graph Isomorphism Network layer.
+        Parameters
+        ----------
+        graph : DGLGraph
+            The graph.
+        feat : torch.Tensor or pair of torch.Tensor
+            If a torch.Tensor is given, the input feature of shape :math:`(N, D_{in})` where
+            :math:`D_{in}` is size of input feature, :math:`N` is the number of nodes.
+            If a pair of torch.Tensor is given, the pair must contain two tensors of shape
+            :math:`(N_{in}, D_{in})` and :math:`(N_{out}, D_{in})`.
+            If ``apply_func`` is not None, :math:`D_{in}` should
+            fit the input dimensionality requirement of ``apply_func``.
+        edge_weight : torch.Tensor, optional
+            Optional tensor on the edge. If given, the convolution will weight
+            with regard to the message.
+        Returns
+        -------
+        torch.Tensor
+            The output feature of shape :math:`(N, D_{out})` where
+            :math:`D_{out}` is the output dimensionality of ``apply_func``.
+            If ``apply_func`` is None, :math:`D_{out}` should be the same
+            as input dimensionality.
+        """
+        with graph.local_scope():
+            aggregate_fn = self.concat_edge_msg
+            # aggregate_fn = fn.copy_src('h', 'm')
+            if edge_weight is not None:
+                assert edge_weight.shape[0] == graph.number_of_edges()
+                graph.edata['_edge_weight'] = edge_weight
+                aggregate_fn = fn.u_mul_e('h', '_edge_weight', 'm')
+
+            feat_src, feat_dst = expand_as_pair(feat, graph)
+            graph.srcdata['h'] = feat_src
+            graph.update_all(aggregate_fn, self._reducer('m', 'neigh'))
+
+
+            diff = torch.tensor(graph.dstdata['neigh'].shape[1: ]) - torch.tensor(feat_dst.shape[1: ])
+            zeros = torch.zeros(feat_dst.shape[0], *diff).to(feat_dst.device)
+            feat_dst = torch.cat([feat_dst, zeros], dim=1)
+            rst = (1 + self.eps) * feat_dst + graph.dstdata['neigh']
+            if self.apply_func is not None:
+                rst = self.apply_func(rst)
+            return rst
+
+    def concat_edge_msg(self, edges):
+        if self.edge_feat_loc not in edges.data:
+            return {'m': edges.src['h']}
+        else:
+            m = torch.cat([edges.src['h'], edges.data[self.edge_feat_loc]], dim=1)
+            return {'m': m}
+
+
+class ApplyNodeFunc(nn.Module):
+    """Update the node feature hv with MLP, BN and ReLU."""
+    def __init__(self, mlp):
+        super(ApplyNodeFunc, self).__init__()
+        self.mlp = mlp
+        self.bn = nn.BatchNorm1d(self.mlp.output_dim)
+
+    def forward(self, h):
+        h = self.mlp(h)
+        h = self.bn(h)
+        h = F.relu(h)
+        return h
+
+
+class MLP(nn.Module):
+    """MLP with linear output"""
+    def __init__(self, num_layers, input_dim, hidden_dim, output_dim):
+        """MLP layers construction
+
+        Paramters
+        ---------
+        num_layers: int
+            The number of linear layers
+        input_dim: int
+            The dimensionality of input features
+        hidden_dim: int
+            The dimensionality of hidden units at ALL layers
+        output_dim: int
+            The number of classes for prediction
+
+        """
+        super(MLP, self).__init__()
+        self.linear_or_not = True  # default is linear model
+        self.num_layers = num_layers
+        self.output_dim = output_dim
+
+        if num_layers < 1:
+            raise ValueError("number of layers should be positive!")
+        elif num_layers == 1:
+            # Linear model
+            self.linear = nn.Linear(input_dim, output_dim)
+
+        else:
+            # Multi-layer model
+            self.linear_or_not = False
+            self.linears = torch.nn.ModuleList()
+            self.batch_norms = torch.nn.ModuleList()
+
+            self.linears.append(nn.Linear(input_dim, hidden_dim))
+            for layer in range(num_layers - 2):
+                self.linears.append(nn.Linear(hidden_dim, hidden_dim))
+            self.linears.append(nn.Linear(hidden_dim, output_dim))
+
+            for layer in range(num_layers - 1):
+                self.batch_norms.append(nn.BatchNorm1d((hidden_dim)))
+
+    def forward(self, x):
+        if self.linear_or_not:
+            # If linear model
+            return self.linear(x)
+        else:
+            # If MLP
+            h = x
+            for i in range(self.num_layers - 1):
+                h = F.relu(self.batch_norms[i](self.linears[i](h)))
+            return self.linears[-1](h)
+
+
+class GIN(nn.Module):
+    """GIN model"""
+    def __init__(self, num_layers, num_mlp_layers, input_dim, hidden_dim,
+                 graph_pooling_type, neighbor_pooling_type, edge_feat_dim=0,
+                 final_dropout=0.0, learn_eps=False, output_dim=1, **kwargs):
+        """model parameters setting
+
+        Paramters
+        ---------
+        num_layers: int
+            The number of linear layers in the neural network
+        num_mlp_layers: int
+            The number of linear layers in mlps
+        input_dim: int
+            The dimensionality of input features
+        hidden_dim: int
+            The dimensionality of hidden units at ALL layers
+        output_dim: int
+            The number of classes for prediction
+        final_dropout: float
+            dropout ratio on the final linear layer
+        learn_eps: boolean
+            If True, learn epsilon to distinguish center nodes from neighbors
+            If False, aggregate neighbors and center nodes altogether.
+        neighbor_pooling_type: str
+            how to aggregate neighbors (sum, mean, or max)
+        graph_pooling_type: str
+            how to aggregate entire nodes in a graph (sum, mean or max)
+        """
+
+        super().__init__()
+
+        def init_weights_orthogonal(m):
+            if isinstance(m, nn.Linear):
+                torch.nn.init.orthogonal_(m.weight)
+            elif isinstance(m, MLP):
+                if hasattr(m, 'linears'):
+                    m.linears.apply(init_weights_orthogonal)
+                else:
+                    m.linear.apply(init_weights_orthogonal)
+            elif isinstance(m, nn.ModuleList):
+                pass
+            else:
+                raise Exception()
+
+        self.num_layers = num_layers
+        self.learn_eps = learn_eps
+
+        # List of MLPs
+        self.ginlayers = torch.nn.ModuleList()
+        self.batch_norms = torch.nn.ModuleList()
+
+        # self.preprocess_nodes = PreprocessNodeAttrs(
+        #     node_attrs=node_preprocess, output_dim=node_preprocess_output_dim)
+        # print(input_dim)
+        for layer in range(self.num_layers - 1):
+            if layer == 0:
+                mlp = MLP(num_mlp_layers, input_dim + edge_feat_dim, hidden_dim, hidden_dim)
+            else:
+                mlp = MLP(num_mlp_layers, hidden_dim + edge_feat_dim, hidden_dim, hidden_dim)
+            if kwargs['init'] == 'orthogonal':
+                init_weights_orthogonal(mlp)
+
+            self.ginlayers.append(
+                GINConv(ApplyNodeFunc(mlp), neighbor_pooling_type, 0, self.learn_eps))
+            self.batch_norms.append(nn.BatchNorm1d(hidden_dim))
+
+        # Linear function for graph poolings of output of each layer
+        # which maps the output of different layers into a prediction score
+        self.linears_prediction = torch.nn.ModuleList()
+
+        for layer in range(num_layers):
+            if layer == 0:
+                self.linears_prediction.append(
+                    nn.Linear(input_dim, output_dim))
+            else:
+                self.linears_prediction.append(
+                    nn.Linear(hidden_dim, output_dim))
+
+        if kwargs['init'] == 'orthogonal':
+            # print('orthogonal')
+            self.linears_prediction.apply(init_weights_orthogonal)
+
+        self.drop = nn.Dropout(final_dropout)
+
+        if graph_pooling_type == 'sum':
+            self.pool = SumPooling()
+        elif graph_pooling_type == 'mean':
+            self.pool = AvgPooling()
+        elif graph_pooling_type == 'max':
+            self.pool = MaxPooling()
+        else:
+            raise NotImplementedError
+
+    def forward(self, g, h):
+        # list of hidden representation at each layer (including input)
+        hidden_rep = [h]
+
+        # h = self.preprocess_nodes(h)
+        for i in range(self.num_layers - 1):
+            h = self.ginlayers[i](g, h)
+            h = self.batch_norms[i](h)
+            h = F.relu(h)
+            hidden_rep.append(h)
+
+        score_over_layer = 0
+
+        # perform pooling over all nodes in each graph in every layer
+        for i, h in enumerate(hidden_rep):
+            pooled_h = self.pool(g, h)
+            score_over_layer += self.drop(self.linears_prediction[i](pooled_h))
+        return score_over_layer
+
+    def get_graph_embed(self, g, h):
+        self.eval()
+        with torch.no_grad():
+            # return self.forward(g, h).detach().numpy()
+            hidden_rep = []
+            # h = self.preprocess_nodes(h)
+            for i in range(self.num_layers - 1):
+                h = self.ginlayers[i](g, h)
+                h = self.batch_norms[i](h)
+                h = F.relu(h)
+                hidden_rep.append(h)
+
+            # perform pooling over all nodes in each graph in every layer
+            graph_embed = torch.Tensor([]).to(self.device)
+            for i, h in enumerate(hidden_rep):
+                pooled_h = self.pool(g, h)
+                graph_embed = torch.cat([graph_embed, pooled_h], dim = 1)
+
+            return graph_embed
+
+    def get_graph_embed_no_cat(self, g, h):
+        self.eval()
+        with torch.no_grad():
+            hidden_rep = []
+            # h = self.preprocess_nodes(h)
+            for i in range(self.num_layers - 1):
+                h = self.ginlayers[i](g, h)
+                h = self.batch_norms[i](h)
+                h = F.relu(h)
+                hidden_rep.append(h)
+
+            return self.pool(g, hidden_rep[-1]).to(self.device)
+
+    @property
+    def edge_feat_loc(self):
+        return self.ginlayers[0].edge_feat_loc
+
+    @edge_feat_loc.setter
+    def edge_feat_loc(self, loc):
+        for layer in self.ginlayers:
+            layer.edge_feat_loc = loc
--- a/MobileNetV3/evaluation/gin_evaluator.py
+++ b/MobileNetV3/evaluation/gin_evaluator.py
@@ -0,0 +1,292 @@
+"""Evaluation on random GIN features. Modified from https://github.com/uoguelph-mlrg/GGM-metrics"""
+
+import torch
+import numpy as np
+import sklearn
+import sklearn.metrics
+from sklearn.preprocessing import StandardScaler
+import time
+import dgl
+
+from .gin import GIN
+
+
+def load_feature_extractor(
+        device, num_layers=3, hidden_dim=35, neighbor_pooling_type='sum',
+        graph_pooling_type='sum', input_dim=1, edge_feat_dim=0,
+        dont_concat=False, num_mlp_layers=2, output_dim=1,
+        node_feat_loc='attr', edge_feat_loc='attr', init='orthogonal',
+        **kwargs):
+
+    model = GIN(num_layers=num_layers, hidden_dim=hidden_dim, neighbor_pooling_type=neighbor_pooling_type,
+                graph_pooling_type=graph_pooling_type, input_dim=input_dim, edge_feat_dim=edge_feat_dim,
+                num_mlp_layers=num_mlp_layers, output_dim=output_dim, init=init)
+
+    model.node_feat_loc = node_feat_loc
+    model.edge_feat_loc = edge_feat_loc
+
+    model.eval()
+
+    if dont_concat:
+        model.forward = model.get_graph_embed_no_cat
+    else:
+        model.forward = model.get_graph_embed
+
+    model.device = device
+    return model.to(device)
+
+
+def time_function(func):
+    def wrapper(*args, **kwargs):
+        start = time.time()
+        results = func(*args, **kwargs)
+        end = time.time()
+        return results, end - start
+    return wrapper
+
+
+class GINMetric():
+    def __init__(self, model):
+        self.feat_extractor = model
+        self.get_activations = self.get_activations_gin
+
+    @time_function
+    def get_activations_gin(self, generated_dataset, reference_dataset):
+        return self._get_activations(generated_dataset, reference_dataset)
+
+    def _get_activations(self, generated_dataset, reference_dataset):
+        gen_activations = self.__get_activations_single_dataset(generated_dataset)
+        ref_activations = self.__get_activations_single_dataset(reference_dataset)
+
+        scaler = StandardScaler()
+        scaler.fit(ref_activations)
+        ref_activations = scaler.transform(ref_activations)
+        gen_activations = scaler.transform(gen_activations)
+
+        return gen_activations, ref_activations
+
+    def __get_activations_single_dataset(self, dataset):
+
+        node_feat_loc = self.feat_extractor.node_feat_loc
+        edge_feat_loc = self.feat_extractor.edge_feat_loc
+
+        ndata = [node_feat_loc] if node_feat_loc in dataset[0].ndata else '__ALL__'
+        edata = [edge_feat_loc] if edge_feat_loc in dataset[0].edata else '__ALL__'
+        graphs = dgl.batch(dataset, ndata=ndata, edata=edata).to(self.feat_extractor.device)
+
+        if node_feat_loc not in graphs.ndata:  # Use degree as features
+            feats = graphs.in_degrees() + graphs.out_degrees()
+            feats = feats.unsqueeze(1).type(torch.float32)
+        else:
+            feats = graphs.ndata[node_feat_loc]
+
+        graph_embeds = self.feat_extractor(graphs, feats)
+        return graph_embeds.cpu().detach().numpy()
+
+    def evaluate(self, *args, **kwargs):
+        raise Exception('Must be implemented by child class')
+
+
+class MMDEvaluation(GINMetric):
+    def __init__(self, model, kernel='rbf', sigma='range', multiplier='mean'):
+        super().__init__(model)
+
+        if multiplier == 'mean':
+            self.__get_sigma_mult_factor = self.__mean_pairwise_distance
+        elif multiplier == 'median':
+            self.__get_sigma_mult_factor = self.__median_pairwise_distance
+        elif multiplier is None:
+            self.__get_sigma_mult_factor = lambda *args, **kwargs: 1
+        else:
+            raise Exception(multiplier)
+
+        if 'rbf' in kernel:
+            if sigma == 'range':
+                self.base_sigmas = np.array([0.01, 0.1, 0.25, 0.5, 0.75, 1.0, 2.5, 5.0, 7.5, 10.0])
+
+                if multiplier == 'mean':
+                    self.name = 'mmd_rbf'
+                elif multiplier == 'median':
+                    self.name = 'mmd_rbf_adaptive_median'
+                else:
+                    self.name = 'mmd_rbf_adaptive'
+            elif sigma == 'one':
+                self.base_sigmas = np.array([1])
+
+                if multiplier == 'mean':
+                    self.name = 'mmd_rbf_single_mean'
+                elif multiplier == 'median':
+                    self.name = 'mmd_rbf_single_median'
+                else:
+                    self.name = 'mmd_rbf_single'
+            else:
+                raise Exception(sigma)
+
+            self.evaluate = self.calculate_MMD_rbf_quadratic
+
+        elif 'linear' in kernel:
+            self.evaluate = self.calculate_MMD_linear_kernel
+
+        else:
+            raise Exception()
+
+    def __get_pairwise_distances(self, generated_dataset, reference_dataset):
+        return sklearn.metrics.pairwise_distances(reference_dataset, generated_dataset, metric='euclidean', n_jobs=8)**2
+
+    def __mean_pairwise_distance(self, dists_GR):
+        return np.sqrt(dists_GR.mean())
+
+    def __median_pairwise_distance(self, dists_GR):
+        return np.sqrt(np.median(dists_GR))
+
+    def get_sigmas(self, dists_GR):
+        mult_factor = self.__get_sigma_mult_factor(dists_GR)
+        return self.base_sigmas * mult_factor
+
+    @time_function
+    def calculate_MMD_rbf_quadratic(self, generated_dataset=None, reference_dataset=None):
+        # https://github.com/djsutherland/opt-mmd/blob/master/two_sample/mmd.py
+
+        if not isinstance(generated_dataset, torch.Tensor) and not isinstance(generated_dataset, np.ndarray):
+            (generated_dataset, reference_dataset), _ = self.get_activations(generated_dataset, reference_dataset)
+
+        GG = self.__get_pairwise_distances(generated_dataset, generated_dataset)
+        GR = self.__get_pairwise_distances(generated_dataset, reference_dataset)
+        RR = self.__get_pairwise_distances(reference_dataset, reference_dataset)
+
+        max_mmd = 0
+        sigmas = self.get_sigmas(GR)
+
+        for sigma in sigmas:
+            gamma = 1 / (2 * sigma**2)
+
+            K_GR = np.exp(-gamma * GR)
+            K_GG = np.exp(-gamma * GG)
+            K_RR = np.exp(-gamma * RR)
+
+            mmd = K_GG.mean() + K_RR.mean() - 2 * K_GR.mean()
+            max_mmd = mmd if mmd > max_mmd else max_mmd
+
+        return {self.name: max_mmd}
+
+    @time_function
+    def calculate_MMD_linear_kernel(self, generated_dataset=None, reference_dataset=None):
+        # https://github.com/djsutherland/opt-mmd/blob/master/two_sample/mmd.py
+        if not isinstance(generated_dataset, torch.Tensor) and not isinstance(generated_dataset, np.ndarray):
+            (generated_dataset, reference_dataset), _ = self.get_activations(generated_dataset, reference_dataset)
+
+        G_bar = generated_dataset.mean(axis=0)
+        R_bar = reference_dataset.mean(axis=0)
+        Z_bar = G_bar - R_bar
+        mmd = Z_bar.dot(Z_bar)
+        mmd = mmd if mmd >= 0 else 0
+        return {'mmd_linear': mmd}
+
+
+class prdcEvaluation(GINMetric):
+    # From PRDC github: https://github.com/clovaai/generative-evaluation-prdc/blob/master/prdc/prdc.py#L54
+    def __init__(self, *args, use_pr=False, **kwargs):
+        super().__init__(*args, **kwargs)
+        self.use_pr = use_pr
+
+    @time_function
+    def evaluate(self, generated_dataset=None, reference_dataset=None, nearest_k=5):
+        """ Computes precision, recall, density, and coverage given two manifolds. """
+
+        if not isinstance(generated_dataset, torch.Tensor) and not isinstance(generated_dataset, np.ndarray):
+            (generated_dataset, reference_dataset), _ = self.get_activations(generated_dataset, reference_dataset)
+
+        real_nearest_neighbour_distances = self.__compute_nearest_neighbour_distances(reference_dataset, nearest_k)
+        distance_real_fake = self.__compute_pairwise_distance(reference_dataset, generated_dataset)
+
+        if self.use_pr:
+            fake_nearest_neighbour_distances = self.__compute_nearest_neighbour_distances(generated_dataset, nearest_k)
+            precision = (
+                distance_real_fake <= np.expand_dims(real_nearest_neighbour_distances, axis=1)
+            ).any(axis=0).mean()
+
+            recall = (
+                distance_real_fake <= np.expand_dims(fake_nearest_neighbour_distances, axis=0)
+            ).any(axis=1).mean()
+
+            f1_pr = 2 / ((1 / (precision + 1e-8)) + (1 / (recall + 1e-8)))
+            result = dict(precision=precision, recall=recall, f1_pr=f1_pr)
+        else:
+            density = (1. / float(nearest_k)) * (
+                    distance_real_fake <= np.expand_dims(real_nearest_neighbour_distances, axis=1)).sum(axis=0).mean()
+
+            coverage = (distance_real_fake.min(axis=1) <= real_nearest_neighbour_distances).mean()
+
+            f1_dc = 2 / ((1 / (density + 1e-8)) + (1 / (coverage + 1e-8)))
+            result = dict(density=density, coverage=coverage, f1_dc=f1_dc)
+        return result
+
+    def __compute_pairwise_distance(self, data_x, data_y=None):
+        """
+        Args:
+            data_x: numpy.ndarray([N, feature_dim], dtype=np.float32)
+            data_y: numpy.ndarray([N, feature_dim], dtype=np.float32)
+        Return:
+            numpy.ndarray([N, N], dtype=np.float32) of pairwise distances.
+        """
+        if data_y is None:
+            data_y = data_x
+        dists = sklearn.metrics.pairwise_distances(data_x, data_y, metric='euclidean', n_jobs=8)
+        return dists
+
+    def __get_kth_value(self, unsorted, k, axis=-1):
+        """
+        Args:
+            unsorted: numpy.ndarray of any dimensionality.
+            k: int
+        Return:
+            kth values along the designated axis.
+        """
+        indices = np.argpartition(unsorted, k, axis=axis)[..., :k]
+        k_smallest = np.take_along_axis(unsorted, indices, axis=axis)
+        kth_values = k_smallest.max(axis=axis)
+        return kth_values
+
+    def __compute_nearest_neighbour_distances(self, input_features, nearest_k):
+        """
+        Args:
+            input_features: numpy.ndarray([N, feature_dim], dtype=np.float32)
+            nearest_k: int
+        Return:
+            Distances to kth nearest neighbours.
+        """
+        distances = self.__compute_pairwise_distance(input_features)
+        radii = self.__get_kth_value(distances, k=nearest_k + 1, axis=-1)
+        return radii
+
+
+def nn_based_eval(graph_ref_list, graph_pred_list, N_gin=10):
+    device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')
+
+    evaluators = []
+    for _ in range(N_gin):
+        gin = load_feature_extractor(device)
+        evaluators.append(MMDEvaluation(model=gin, kernel='rbf', sigma='range', multiplier='mean'))
+        evaluators.append(prdcEvaluation(model=gin, use_pr=True))
+        evaluators.append(prdcEvaluation(model=gin, use_pr=False))
+
+    ref_graphs = [dgl.from_networkx(g).to(device) for g in graph_ref_list]
+    gen_graphs = [dgl.from_networkx(g).to(device) for g in graph_pred_list]
+
+    metrics = {
+        'mmd_rbf': [],
+        'f1_pr': [],
+        'f1_dc': []
+    }
+    for evaluator in evaluators:
+        res, time = evaluator.evaluate(generated_dataset=gen_graphs, reference_dataset=ref_graphs)
+        for key in list(res.keys()):
+            if key in metrics:
+                metrics[key].append(res[key])
+
+    results = {
+        'MMD_RBF': (np.mean(metrics['mmd_rbf']), np.std(metrics['mmd_rbf'])),
+        'F1_PR': (np.mean(metrics['f1_pr']), np.std(metrics['f1_pr'])),
+        'F1_DC': (np.mean(metrics['f1_dc']), np.std(metrics['f1_dc']))
+    }
+    return results
--- a/MobileNetV3/evaluation/structure_evaluator.py
+++ b/MobileNetV3/evaluation/structure_evaluator.py
@@ -0,0 +1,209 @@
+"""MMD Evaluation on graph structure statistics. Modified from https://github.com/uoguelph-mlrg/GGM-metrics"""
+
+import numpy as np
+import networkx as nx
+import numpy as np
+# from scipy.linalg import toeplitz
+# import pyemd
+import concurrent.futures
+from scipy.linalg import eigvalsh
+from functools import partial
+
+
+class Descriptor():
+    def __init__(self, is_parallel=False, bins=100, kernel='rbf', sigma_type='single', **kwargs):
+        self.is_parallel = is_parallel
+        self.bins = bins
+        self.max_workers = kwargs.get('max_workers')
+
+        if kernel == 'rbf':
+            self.distance = self.l2
+            self.name += '_rbf'
+        else:
+            ValueError
+
+        if sigma_type == 'argmax':
+            log_sigmas = np.linspace(-5., 5., 50)
+            # the first 30 sigma values is usually enough
+            log_sigmas = log_sigmas[:30]
+            self.sigmas = [np.exp(log_sigma) for log_sigma in log_sigmas]
+        elif sigma_type == 'single':
+            self.sigmas = kwargs['sigma']
+        else:
+            raise ValueError
+
+    def evaluate(self, graph_ref_list, graph_pred_list):
+        """Compute the distance between the distributions of two unordered sets of graphs.
+        Args:
+            graph_ref_list, graph_pred_list: two lists of networkx graphs to be evaluated.
+        """
+
+        graph_pred_list = [G for G in graph_pred_list if not G.number_of_nodes() == 0]
+
+        sample_pred = self.extract_features(graph_pred_list)
+        sample_ref = self.extract_features(graph_ref_list)
+
+        GG = self.disc(sample_pred, sample_pred, distance_scaling=self.distance_scaling)
+        GR = self.disc(sample_pred, sample_ref, distance_scaling=self.distance_scaling)
+        RR = self.disc(sample_ref, sample_ref, distance_scaling=self.distance_scaling)
+
+        sigmas = self.sigmas
+        max_mmd = 0
+        mmd_dict = []
+        for sigma in sigmas:
+            gamma = 1 / (2 * sigma ** 2)
+
+            K_GR = np.exp(-gamma * GR)
+            K_GG = np.exp(-gamma * GG)
+            K_RR = np.exp(-gamma * RR)
+
+            mmd = K_GG.mean() + K_RR.mean() - (2 * K_GR.mean())
+            mmd_dict.append((sigma, mmd))
+            max_mmd = mmd if mmd > max_mmd else max_mmd
+
+        # print(self.name, mmd_dict)
+
+        return max_mmd
+
+    def pad_histogram(self, x, y):
+        # convert histogram values x and y to float, and pad them for equal length
+        support_size = max(len(x), len(y))
+        x = x.astype(np.float)
+        y = y.astype(np.float)
+        if len(x) < len(y):
+            x = np.hstack((x, [0.] * (support_size - len(x))))
+        elif len(y) < len(x):
+            y = np.hstack((y, [0.] * (support_size - len(y))))
+
+        return x, y
+
+    # def emd(self, x, y, distance_scaling=1.0):
+    #     support_size = max(len(x), len(y))
+    #     x, y = self.pad_histogram(x, y)
+    #
+    #     d_mat = toeplitz(range(support_size)).astype(np.float)
+    #     distance_mat = d_mat / distance_scaling
+    #
+    #     dist = pyemd.emd(x, y, distance_mat)
+    #     return dist ** 2
+
+    def l2(self, x, y, **kwargs):
+        # gaussian rbf
+        x, y = self.pad_histogram(x, y)
+        dist = np.linalg.norm(x - y, 2)
+        return dist ** 2
+
+    def kernel_parallel_unpacked(self, x, samples2, kernel):
+        dist = []
+        for s2 in samples2:
+            dist += [kernel(x, s2)]
+        return dist
+
+    def kernel_parallel_worker(self, t):
+        return self.kernel_parallel_unpacked(*t)
+
+    def disc(self, samples1, samples2, **kwargs):
+        # Discrepancy between 2 samples
+        tot_dist = []
+        if not self.is_parallel:
+            for s1 in samples1:
+                for s2 in samples2:
+                    tot_dist += [self.distance(s1, s2)]
+        else:
+            with concurrent.futures.ProcessPoolExecutor(max_workers=self.max_workers) as executor:
+                for dist in executor.map(self.kernel_parallel_worker,
+                                         [(s1, samples2, partial(self.distance, **kwargs)) for s1 in samples1]):
+                    tot_dist += [dist]
+        return np.array(tot_dist)
+
+
+class degree(Descriptor):
+    def __init__(self, *args, **kwargs):
+        self.name = 'degree'
+        self.sigmas = [kwargs.get('sigma', 1.0)]
+        self.distance_scaling = 1.0
+        super().__init__(*args, **kwargs)
+
+    def extract_features(self, dataset):
+        res = []
+        if self.is_parallel:
+            with concurrent.futures.ProcessPoolExecutor(max_workers=self.max_workers) as executor:
+                for deg_hist in executor.map(self.degree_worker, dataset):
+                    res.append(deg_hist)
+        else:
+            for g in dataset:
+                degree_hist = self.degree_worker(g)
+                res.append(degree_hist)
+
+        res = [s1 / np.sum(s1) for s1 in res]
+        return res
+
+    def degree_worker(self, G):
+        return np.array(nx.degree_histogram(G))
+
+
+class cluster(Descriptor):
+    def __init__(self, *args, **kwargs):
+        self.name = 'cluster'
+        self.sigmas = [kwargs.get('sigma', [1.0 / 10])]
+        super().__init__(*args, **kwargs)
+        self.distance_scaling = self.bins
+
+    def extract_features(self, dataset):
+        res = []
+        if self.is_parallel:
+            with concurrent.futures.ProcessPoolExecutor(max_workers=self.max_workers) as executor:
+                for clustering_hist in executor.map(self.clustering_worker, [(G, self.bins) for G in dataset]):
+                    res.append(clustering_hist)
+        else:
+            for g in dataset:
+                clustering_hist = self.clustering_worker((g, self.bins))
+                res.append(clustering_hist)
+
+        res = [s1 / np.sum(s1) for s1 in res]
+        return res
+
+    def clustering_worker(self, param):
+        G, bins = param
+        clustering_coeffs_list = list(nx.clustering(G).values())
+        hist, _ = np.histogram(
+            clustering_coeffs_list, bins=bins, range=(0.0, 1.0), density=False)
+        return hist
+
+
+class spectral(Descriptor):
+    def __init__(self, *args, **kwargs):
+        self.name = 'spectral'
+        self.sigmas = [kwargs.get('sigma', 1.0)]
+        self.distance_scaling = 1
+        super().__init__(*args, **kwargs)
+
+    def extract_features(self, dataset):
+        res = []
+        if self.is_parallel:
+            with concurrent.futures.ThreadPoolExecutor(max_workers=self.max_workers) as executor:
+                for spectral_density in executor.map(self.spectral_worker, dataset):
+                    res.append(spectral_density)
+        else:
+            for g in dataset:
+                spectral_temp = self.spectral_worker(g)
+                res.append(spectral_temp)
+        return res
+
+    def spectral_worker(self, G):
+        eigs = eigvalsh(nx.normalized_laplacian_matrix(G).todense())
+        spectral_pmf, _ = np.histogram(eigs, bins=200, range=(-1e-5, 2), density=False)
+        spectral_pmf = spectral_pmf / spectral_pmf.sum()
+        return spectral_pmf
+
+
+def mmd_eval(graph_ref_list, graph_pred_list, methods):
+    evaluators = []
+    for (method, sigma, sigma_type) in methods:
+        evaluators.append(eval(method)(sigma=sigma, sigma_type=sigma_type))
+
+    results = {}
+    for evaluator in evaluators:
+        results[evaluator.name] = evaluator.evaluate(graph_ref_list, graph_pred_list)
+
+    return results
--- a/MobileNetV3/logger.py
+++ b/MobileNetV3/logger.py
@@ -0,0 +1,180 @@
+import os
+import wandb
+import torch
+import numpy as np
+
+
+class Logger:
+    def __init__(
+        self,
+        exp_name,
+        log_dir=None,
+        exp_suffix="",
+        write_textfile=True,
+        use_wandb=False,
+        wandb_project_name=None,
+        entity='hysh',
+        config=None
+    ):
+
+        self.log_dir = log_dir
+        self.write_textfile = write_textfile
+        self.use_wandb = use_wandb
+
+        self.logs_for_save = {}
+        self.logs = {}
+
+        if self.write_textfile:
+            self.f = open(os.path.join(log_dir, 'logs.txt'), 'w')
+
+        if self.use_wandb:
+            exp_suffix = "_".join(exp_suffix.split("/")[:-1])
+            wandb.init(
+                config=config if config is not None else wandb.config,
+                entity=entity,
+                project=wandb_project_name, 
+                name=exp_name + "_" + exp_suffix, 
+                group=exp_name,
+                reinit=True)
+
+    def write_str(self, log_str):
+        self.f.write(log_str+'\n')
+        self.f.flush()
+
+    def update_config(self, v, is_args=False):
+        if is_args:
+            self.logs_for_save.update({'args': v})
+        else:
+            self.logs_for_save.update(v)
+        if self.use_wandb:
+            wandb.config.update(v, allow_val_change=True)
+
+    def write_log_nohead(self, element, step):
+        log_str = f"{step} | "
+        log_dict = {}
+        for key, val in element.items():
+            if not key in self.logs_for_save:
+                self.logs_for_save[key] =  []
+            self.logs_for_save[key].append(val)
+            log_str += f'{key} {val} | '
+            log_dict[f'{key}'] = val
+        
+        if self.write_textfile:
+            self.f.write(log_str+'\n')
+            self.f.flush()
+
+        if self.use_wandb:
+            wandb.log(log_dict, step=step)
+
+    def write_log(self, element, step, return_log_dict=False):
+        log_str = f"{step} | "
+        log_dict = {}
+        for head, keys  in element.items():
+            for k in keys:
+                if k in self.logs:
+                    v = self.logs[k].avg
+                if not k in self.logs_for_save:
+                    self.logs_for_save[k] = []
+                self.logs_for_save[k].append(v)
+                log_str += f'{k} {v}| '
+                log_dict[f'{head}/{k}'] = v
+
+        if self.write_textfile:
+            self.f.write(log_str+'\n')
+            self.f.flush()
+
+        if return_log_dict:
+            return log_dict
+        
+        if self.use_wandb:
+            wandb.log(log_dict, step=step)
+
+    def log_sample(self, sample_x):
+        wandb.log({"sampled_x": [wandb.Image(x.unsqueeze(-1).cpu().numpy()) for x in sample_x]})
+    
+    def log_valid_sample_prop(self, arch_metric, x_axis, y_axis):
+        assert x_axis in ['test_acc', 'flops', 'params', 'latency']
+        assert y_axis in ['test_acc', 'flops', 'params', 'latency']
+        
+        data = [[x, y] for (x, y) in zip(arch_metric[2][f'{x_axis}_list'], arch_metric[2][f'{y_axis}_list'])]
+        table = wandb.Table(data=data, columns = [x_axis, y_axis])
+        wandb.log({f"valid_sample ({x_axis}-{y_axis})" : wandb.plot.scatter(table, x_axis, y_axis)})
+    
+    def save_log(self, name=None):
+        name = 'logs.pt' if name is None else name
+        torch.save(self.logs_for_save, os.path.join(self.log_dir, name))
+
+    def update(self, key, v, n=1):
+        if not key in self.logs:
+            self.logs[key] = AverageMeter()
+        self.logs[key].update(v, n)
+
+    def reset(self, keys=None, except_keys=[]):
+        if keys is not None:
+            if isinstance(keys, list):
+                for key in keys:
+                    self.logs[key] =  AverageMeter()
+            else:
+                self.logs[keys] = AverageMeter()
+        else:
+            for key in self.logs.keys():
+                if not key in except_keys:
+                    self.logs[key] = AverageMeter()
+
+    def avg(self, keys=None, except_keys=[]):
+        if keys is not None:
+            if isinstance(keys, list):
+                return {key: self.logs[key].avg for key in keys if key in self.logs.keys()}
+            else:
+                return self.logs[keys].avg
+        else:
+            avg_dict = {}
+            for key in self.logs.keys():
+                if not key in except_keys:
+                    avg_dict[key] =  self.logs[key].avg
+            return avg_dict 
+
+
+class AverageMeter(object):
+	"""
+	Computes and stores the average and current value
+	Copied from: https://github.com/pytorch/examples/blob/master/imagenet/main.py
+	"""
+
+	def __init__(self):
+		self.val = 0
+		self.avg = 0
+		self.sum = 0
+		self.count = 0
+
+	def reset(self):
+		self.val = 0
+		self.avg = 0
+		self.sum = 0
+		self.count = 0
+
+	def update(self, val, n=1):
+		self.val = val
+		self.sum += val * n
+		self.count += n
+		self.avg = self.sum / self.count
+
+
+def get_metrics(g_embeds, x_embeds, logit_scale, prefix='train'):
+    metrics = {}
+    logits_per_g = (logit_scale * g_embeds @ x_embeds.t()).detach().cpu()
+    logits_per_x = logits_per_g.t().detach().cpu()
+
+    logits = {"g_to_x": logits_per_g, "x_to_g": logits_per_x}
+    ground_truth = torch.arange(len(x_embeds)).view(-1, 1)
+
+    for name, logit in logits.items():
+        ranking = torch.argsort(logit, descending=True)
+        preds = torch.where(ranking == ground_truth)[1]
+        preds = preds.detach().cpu().numpy()
+        metrics[f"{prefix}_{name}_mean_rank"] = preds.mean() + 1
+        metrics[f"{prefix}_{name}_median_rank"] = np.floor(np.median(preds)) + 1
+        for k in [1, 5, 10]:
+            metrics[f"{prefix}_{name}_R@{k}"] = np.mean(preds < k)
+
+    return metrics
--- a/MobileNetV3/losses.py
+++ b/MobileNetV3/losses.py
@@ -0,0 +1,584 @@
+"""All functions related to loss computation and optimization."""
+
+import torch
+import torch.optim as optim
+import numpy as np
+from models import utils as mutils
+from sde_lib import VPSDE, VESDE
+
+
+def get_optimizer(config, params):
+    """Return a flax optimizer object based on `config`."""
+    if config.optim.optimizer == 'Adam':
+        optimizer = optim.Adam(params, lr=config.optim.lr, betas=(config.optim.beta1, 0.999), eps=config.optim.eps,
+                               weight_decay=config.optim.weight_decay)
+    else:
+        raise NotImplementedError(
+            f'Optimizer {config.optim.optimizer} not supported yet!'
+        )
+    return optimizer
+
+
+def optimization_manager(config):
+    """Return an optimize_fn based on `config`."""
+
+    def optimize_fn(optimizer, params, step, lr=config.optim.lr,
+                    warmup=config.optim.warmup,
+                    grad_clip=config.optim.grad_clip):
+        """Optimize with warmup and gradient clipping (disabled if negative)."""
+        if warmup > 0:
+            for g in optimizer.param_groups:
+                g['lr'] = lr * np.minimum(step / warmup, 1.0)
+        if grad_clip >= 0:
+            torch.nn.utils.clip_grad_norm_(params, max_norm=grad_clip)
+        optimizer.step()
+
+    return optimize_fn
+
+
+def get_sde_loss_fn_nas(sde, train, reduce_mean=True, continuous=True, likelihood_weighting=True, eps=1e-5):
+    """Create a loss function for training with arbitrary SDEs.
+
+    Args:
+        sde: An `sde_lib.SDE` object that represents the forward SDE.
+        train: `True` for training loss and `False` for evaluation loss.
+        reduce_mean: If `True`, average the loss across data dimensions. Otherwise, sum the loss across data dimensions.
+        continuous: `True` indicates that the model is defined to take continuous time steps.
+                    Otherwise, it requires ad-hoc interpolation to take continuous time steps.
+        likelihood_weighting: If `True`, weight the mixture of score matching losses according
+            to https://arxiv.org/abs/2101.09258; otherwise, use the weighting recommended in Score SDE paper.
+        eps: A `float` number. The smallest time step to sample from.
+
+    Returns:
+        A loss function.
+    """
+
+    # reduce_op = torch.mean if reduce_mean else lambda *args, **kwargs: 0.5 * torch.sum(*args, **kwargs)
+
+    def loss_fn(model, batch):
+        """Compute the loss function.
+
+        Args:
+            model: A score model.
+            batch: A mini-batch of training data, including adjacency matrices and mask.
+
+        Returns:
+            loss: A scalar that represents the average loss value across the mini-batch.
+        """
+        x, adj, mask = batch
+        # adj, mask: [32, 1, 20, 20]
+        score_fn = mutils.get_score_fn(sde, model, train=train, continuous=continuous)
+        t = torch.rand(x.shape[0], device=adj.device) * (sde.T - eps) + eps
+
+        z = torch.randn_like(x)  # [B, C, N, N]
+        # z = torch.tril(z, -1)
+        # z = z + z.transpose(2, 3)
+
+        mean, std = sde.marginal_prob(x, t)
+        # mean = torch.tril(mean, -1)
+        # mean = mean + mean.transpose(2, 3)
+
+        perturbed_data = mean + std[:, None, None] * z
+        score = score_fn(perturbed_data, t, mask)
+
+        # mask = torch.tril(mask, -1)
+        # mask = mask + mask.transpose(2, 3)
+        # mask = mask.reshape(mask.shape[0], -1)  # low triangular part of adj matrices
+
+        if not likelihood_weighting:
+            losses = torch.square(score * std[:, None, None] + z)
+            losses = losses.reshape(losses.shape[0], -1)
+            if reduce_mean:
+                # losses = torch.sum(losses * mask, dim=-1) / torch.sum(mask, dim=-1)
+                losses = torch.mean(losses, dim=-1)
+            else:
+                losses = 0.5 * torch.sum(losses, dim=-1)
+            loss = losses.mean()
+        else:
+            g2 = sde.sde(torch.zeros_like(x), t)[1] ** 2
+            losses = torch.square(score + z / std[:, None, None])
+            losses = losses.reshape(losses.shape[0], -1)
+            if reduce_mean:
+                # losses = torch.sum(losses * mask, dim=-1) / torch.sum(mask, dim=-1)
+                losses = torch.mean(losses, dim=-1)
+            else:
+                losses = 0.5 * torch.sum(losses, dim=-1)
+            loss = (losses * g2).mean()
+
+        return loss
+
+    return loss_fn
+
+
+def get_predictor_loss_fn_nas_binary(sde, train, reduce_mean=True, continuous=True, 
+                              likelihood_weighting=True, eps=1e-5, label_list=None, 
+                              noised=True, t_spot=None):
+    """Create a loss function for training with arbitrary SDEs.
+
+    Args:
+        sde: An `sde_lib.SDE` object that represents the forward SDE.
+        train: `True` for training loss and `False` for evaluation loss.
+        reduce_mean: If `True`, average the loss across data dimensions. Otherwise, sum the loss across data dimensions.
+        continuous: `True` indicates that the model is defined to take continuous time steps.
+                    Otherwise, it requires ad-hoc interpolation to take continuous time steps.
+        likelihood_weighting: If `True`, weight the mixture of score matching losses according
+            to https://arxiv.org/abs/2101.09258; otherwise, use the weighting recommended in Score SDE paper.
+        eps: A `float` number. The smallest time step to sample from.
+
+    Returns:
+        A loss function.
+    """
+
+    # reduce_op = torch.mean if reduce_mean else lambda *args, **kwargs: 0.5 * torch.sum(*args, **kwargs)
+
+    def loss_fn(model, batch):
+        """Compute the loss function.
+
+        Args:
+            model: A score model.
+            batch: A mini-batch of training data, including adjacency matrices and mask.
+
+        Returns:
+            loss: A scalar that represents the average loss value across the mini-batch.
+        """
+        x, adj, mask, extra = batch
+        # adj, mask: [32, 1, 20, 20]
+        # score_fn = mutils.get_score_fn(sde, model, train=train, continuous=continuous)
+        predictor_fn = mutils.get_predictor_fn(sde, model, train=train, continuous=continuous)
+        if noised:
+            if t_spot < 1:
+                t = torch.rand(x.shape[0], device=adj.device) * (t_spot - eps) + eps # torch.rand: [0, 1)
+            else:
+                t = torch.rand(x.shape[0], device=adj.device) * (sde.T - eps) + eps
+            
+            z = torch.randn_like(x)  # [B, C, N, N]
+            # z = torch.tril(z, -1)
+            # z = z + z.transpose(2, 3)
+
+            mean, std = sde.marginal_prob(x, t)
+            # mean = torch.tril(mean, -1)
+            # mean = mean + mean.transpose(2, 3)
+
+            perturbed_data = mean + std[:, None, None] * z
+            # score = score_fn(perturbed_data, t, mask)
+            pred = predictor_fn(perturbed_data, t, mask)
+        else:
+            t = eps * torch.ones(x.shape[0], device=adj.device)
+            pred = predictor_fn(x, t, mask)
+        
+        labels = extra[f"{label_list}"][1]
+        labels = labels.to(pred.device).unsqueeze(1).type(pred.dtype)
+        # mask = torch.tril(mask, -1)
+        # mask = mask + mask.transpose(2, 3)
+        # mask = mask.reshape(mask.shape[0], -1)  # low triangular part of adj matrices
+        # loss = torch.nn.MSELoss()(pred, labels)
+        loss = torch.nn.BCEWithLogitsLoss()(pred, labels)
+
+        # if not likelihood_weighting:
+        #     losses = torch.square(score * std[:, None, None] + z)
+        #     losses = losses.reshape(losses.shape[0], -1)
+        #     if reduce_mean:
+        #         # losses = torch.sum(losses * mask, dim=-1) / torch.sum(mask, dim=-1)
+        #         losses = torch.mean(losses, dim=-1)
+        #     else:
+        #         losses = 0.5 * torch.sum(losses, dim=-1)
+        #     loss = losses.mean()
+        # else:
+        #     g2 = sde.sde(torch.zeros_like(x), t)[1] ** 2
+        #     losses = torch.square(score + z / std[:, None, None])
+        #     losses = losses.reshape(losses.shape[0], -1)
+        #     if reduce_mean:
+        #         # losses = torch.sum(losses * mask, dim=-1) / torch.sum(mask, dim=-1)
+        #         losses = torch.mean(losses, dim=-1)
+        #     else:
+        #         losses = 0.5 * torch.sum(losses, dim=-1)
+        #     loss = (losses * g2).mean()
+
+        return loss, pred, labels
+
+    return loss_fn
+
+
+
+def get_predictor_loss_fn_nas(sde, train, reduce_mean=True, continuous=True, 
+                              likelihood_weighting=True, eps=1e-5, label_list=None, 
+                              noised=True, t_spot=None):
+    """Create a loss function for training with arbitrary SDEs.
+
+    Args:
+        sde: An `sde_lib.SDE` object that represents the forward SDE.
+        train: `True` for training loss and `False` for evaluation loss.
+        reduce_mean: If `True`, average the loss across data dimensions. Otherwise, sum the loss across data dimensions.
+        continuous: `True` indicates that the model is defined to take continuous time steps.
+                    Otherwise, it requires ad-hoc interpolation to take continuous time steps.
+        likelihood_weighting: If `True`, weight the mixture of score matching losses according
+            to https://arxiv.org/abs/2101.09258; otherwise, use the weighting recommended in Score SDE paper.
+        eps: A `float` number. The smallest time step to sample from.
+
+    Returns:
+        A loss function.
+    """
+
+    # reduce_op = torch.mean if reduce_mean else lambda *args, **kwargs: 0.5 * torch.sum(*args, **kwargs)
+
+    def loss_fn(model, batch):
+        """Compute the loss function.
+
+        Args:
+            model: A score model.
+            batch: A mini-batch of training data, including adjacency matrices and mask.
+
+        Returns:
+            loss: A scalar that represents the average loss value across the mini-batch.
+        """
+        x, adj, mask, extra = batch
+        # adj, mask: [32, 1, 20, 20]
+        # score_fn = mutils.get_score_fn(sde, model, train=train, continuous=continuous)
+        predictor_fn = mutils.get_predictor_fn(sde, model, train=train, continuous=continuous)
+        if noised:
+            if t_spot < 1:
+                t = torch.rand(x.shape[0], device=adj.device) * (t_spot - eps) + eps # torch.rand: [0, 1)
+            else:
+                t = torch.rand(x.shape[0], device=adj.device) * (sde.T - eps) + eps
+            
+            z = torch.randn_like(x)  # [B, C, N, N]
+            # z = torch.tril(z, -1)
+            # z = z + z.transpose(2, 3)
+
+            mean, std = sde.marginal_prob(x, t)
+            # mean = torch.tril(mean, -1)
+            # mean = mean + mean.transpose(2, 3)
+
+            perturbed_data = mean + std[:, None, None] * z
+            # score = score_fn(perturbed_data, t, mask)
+            pred = predictor_fn(perturbed_data, t, mask)
+        else:
+            t = eps * torch.ones(x.shape[0], device=adj.device)
+            pred = predictor_fn(x, t, mask)
+        
+        labels = extra[f"{label_list[-1]}"]
+        labels = labels.to(pred.device).unsqueeze(1).type(pred.dtype)
+        # mask = torch.tril(mask, -1)
+        # mask = mask + mask.transpose(2, 3)
+        # mask = mask.reshape(mask.shape[0], -1)  # low triangular part of adj matrices
+        loss = torch.nn.MSELoss()(pred, labels)
+
+        # if not likelihood_weighting:
+        #     losses = torch.square(score * std[:, None, None] + z)
+        #     losses = losses.reshape(losses.shape[0], -1)
+        #     if reduce_mean:
+        #         # losses = torch.sum(losses * mask, dim=-1) / torch.sum(mask, dim=-1)
+        #         losses = torch.mean(losses, dim=-1)
+        #     else:
+        #         losses = 0.5 * torch.sum(losses, dim=-1)
+        #     loss = losses.mean()
+        # else:
+        #     g2 = sde.sde(torch.zeros_like(x), t)[1] ** 2
+        #     losses = torch.square(score + z / std[:, None, None])
+        #     losses = losses.reshape(losses.shape[0], -1)
+        #     if reduce_mean:
+        #         # losses = torch.sum(losses * mask, dim=-1) / torch.sum(mask, dim=-1)
+        #         losses = torch.mean(losses, dim=-1)
+        #     else:
+        #         losses = 0.5 * torch.sum(losses, dim=-1)
+        #     loss = (losses * g2).mean()
+
+        return loss, pred, labels
+
+    return loss_fn
+
+
+def get_meta_predictor_loss_fn_nas(sde, train, reduce_mean=True, continuous=True, 
+                              likelihood_weighting=True, eps=1e-5, label_list=None, 
+                              noised=True, t_spot=None):
+    """Create a loss function for training with arbitrary SDEs.
+
+    Args:
+        sde: An `sde_lib.SDE` object that represents the forward SDE.
+        train: `True` for training loss and `False` for evaluation loss.
+        reduce_mean: If `True`, average the loss across data dimensions. Otherwise, sum the loss across data dimensions.
+        continuous: `True` indicates that the model is defined to take continuous time steps.
+                    Otherwise, it requires ad-hoc interpolation to take continuous time steps.
+        likelihood_weighting: If `True`, weight the mixture of score matching losses according
+            to https://arxiv.org/abs/2101.09258; otherwise, use the weighting recommended in Score SDE paper.
+        eps: A `float` number. The smallest time step to sample from.
+
+    Returns:
+        A loss function.
+    """
+
+    # reduce_op = torch.mean if reduce_mean else lambda *args, **kwargs: 0.5 * torch.sum(*args, **kwargs)
+
+    def loss_fn(model, batch):
+        """Compute the loss function.
+
+        Args:
+            model: A score model.
+            batch: A mini-batch of training data, including adjacency matrices and mask.
+
+        Returns:
+            loss: A scalar that represents the average loss value across the mini-batch.
+        """
+        x, adj, mask, extra, task = batch
+        predictor_fn = mutils.get_predictor_fn(sde, model, train=train, continuous=continuous)
+        if noised:
+            if t_spot < 1:
+                t = torch.rand(x.shape[0], device=adj.device) * (t_spot - eps) + eps # torch.rand: [0, 1)
+            else:
+                t = torch.rand(x.shape[0], device=adj.device) * (sde.T - eps) + eps
+            
+            z = torch.randn_like(x)  # [B, C, N, N]
+
+            mean, std = sde.marginal_prob(x, t)
+
+            perturbed_data = mean + std[:, None, None] * z
+            # score = score_fn(perturbed_data, t, mask)
+            pred = predictor_fn(perturbed_data, t, mask, task)
+        else:
+            t = eps * torch.ones(x.shape[0], device=adj.device)
+            pred = predictor_fn(x, t, mask, task)
+        labels = extra[f"{label_list[-1]}"]
+        labels = labels.to(pred.device).unsqueeze(1).type(pred.dtype)
+
+        loss = torch.nn.MSELoss()(pred, labels)
+
+        return loss, pred, labels
+
+    return loss_fn
+
+
+def get_sde_loss_fn(sde, train, reduce_mean=True, continuous=True, likelihood_weighting=True, eps=1e-5):
+    """Create a loss function for training with arbitrary SDEs.
+
+    Args:
+        sde: An `sde_lib.SDE` object that represents the forward SDE.
+        train: `True` for training loss and `False` for evaluation loss.
+        reduce_mean: If `True`, average the loss across data dimensions. Otherwise, sum the loss across data dimensions.
+        continuous: `True` indicates that the model is defined to take continuous time steps.
+                    Otherwise, it requires ad-hoc interpolation to take continuous time steps.
+        likelihood_weighting: If `True`, weight the mixture of score matching losses according
+            to https://arxiv.org/abs/2101.09258; otherwise, use the weighting recommended in Score SDE paper.
+        eps: A `float` number. The smallest time step to sample from.
+
+    Returns:
+        A loss function.
+    """
+
+    # reduce_op = torch.mean if reduce_mean else lambda *args, **kwargs: 0.5 * torch.sum(*args, **kwargs)
+
+    def loss_fn(model, batch):
+        """Compute the loss function.
+
+        Args:
+            model: A score model.
+            batch: A mini-batch of training data, including adjacency matrices and mask.
+
+        Returns:
+            loss: A scalar that represents the average loss value across the mini-batch.
+        """
+        adj, mask = batch
+        # adj, mask: [32, 1, 20, 20]
+        score_fn = mutils.get_score_fn(sde, model, train=train, continuous=continuous)
+        t = torch.rand(adj.shape[0], device=adj.device) * (sde.T - eps) + eps
+
+        z = torch.randn_like(adj)  # [B, C, N, N]
+        z = torch.tril(z, -1)
+        z = z + z.transpose(2, 3)
+
+        mean, std = sde.marginal_prob(adj, t)
+        mean = torch.tril(mean, -1)
+        mean = mean + mean.transpose(2, 3)
+
+        perturbed_data = mean + std[:, None, None, None] * z
+        score = score_fn(perturbed_data, t, mask=mask)
+
+        mask = torch.tril(mask, -1)
+        mask = mask + mask.transpose(2, 3)
+        mask = mask.reshape(mask.shape[0], -1)  # low triangular part of adj matrices
+
+        if not likelihood_weighting:
+            losses = torch.square(score * std[:, None, None, None] + z)
+            losses = losses.reshape(losses.shape[0], -1)
+            if reduce_mean:
+                losses = torch.sum(losses * mask, dim=-1) / torch.sum(mask, dim=-1)
+            else:
+                losses = 0.5 * torch.sum(losses * mask, dim=-1)
+            loss = losses.mean()
+        else:
+            g2 = sde.sde(torch.zeros_like(adj), t)[1] ** 2
+            losses = torch.square(score + z / std[:, None, None, None])
+            losses = losses.reshape(losses.shape[0], -1)
+            if reduce_mean:
+                losses = torch.sum(losses * mask, dim=-1) / torch.sum(mask, dim=-1)
+            else:
+                losses = 0.5 * torch.sum(losses * mask, dim=-1)
+            loss = (losses * g2).mean()
+
+        return loss
+
+    return loss_fn
+
+
+def get_step_fn(sde, train, optimize_fn=None, reduce_mean=False, continuous=True, 
+                likelihood_weighting=False, data='NASBench201'):
+    """Create a one-step training/evaluation function.
+
+    Args:
+        sde: An `sde_lib.SDE` object that represents the forward SDE.
+             Tuple (`sde_lib.SDE`, `sde_lib.SDE`) that represents the forward node SDE and edge SDE.
+        optimize_fn: An optimization function.
+        reduce_mean: If `True`, average the loss across data dimensions.
+            Otherwise, sum the loss across data dimensions.
+        continuous: `True` indicates that the model is defined to take continuous time steps.
+        likelihood_weighting: If `True`, weight the mixture of score matching losses according to
+            https://arxiv.org/abs/2101.09258; otherwise, use the weighting recommended by score-sde.
+
+    Returns:
+        A one-step function for training or evaluation.
+    """
+
+    if continuous:
+        if isinstance(sde, tuple):
+            loss_fn = get_multi_sde_loss_fn(sde[0], sde[1], train, reduce_mean=reduce_mean, continuous=True,
+                                            likelihood_weighting=likelihood_weighting)
+        else:
+            if data in ['NASBench201', 'ofa']:
+                loss_fn = get_sde_loss_fn_nas(sde, train, reduce_mean=reduce_mean,
+                                    continuous=True, likelihood_weighting=likelihood_weighting)
+            else:
+                loss_fn = get_sde_loss_fn(sde, train, reduce_mean=reduce_mean,
+                                      continuous=True, likelihood_weighting=likelihood_weighting)
+    else:
+        assert not likelihood_weighting, "Likelihood weighting is not supported for original SMLD/DDPM training."
+        if isinstance(sde, VESDE):
+            loss_fn = get_smld_loss_fn(sde, train, reduce_mean=reduce_mean)
+        elif isinstance(sde, VPSDE):
+            loss_fn = get_ddpm_loss_fn(sde, train, reduce_mean=reduce_mean)
+        elif isinstance(sde, tuple):
+            raise ValueError("Discrete training for multi sde is not recommended.")
+        else:
+            raise ValueError(f"Discrete training for {sde.__class__.__name__} is not recommended.")
+
+    def step_fn(state, batch):
+        """Running one step of training or evaluation.
+
+        For jax version: This function will undergo `jax.lax.scan` so that multiple steps can be pmapped and
+            jit-compiled together for faster execution.
+
+        Args:
+            state: A dictionary of training information, containing the score model, optimizer,
+                EMA status, and number of optimization steps.
+            batch: A mini-batch of training/evaluation data, including min-batch adjacency matrices and mask.
+
+        Returns:
+            loss: The average loss value of this state.
+        """
+        model = state['model']
+        if train:
+            optimizer = state['optimizer']
+            optimizer.zero_grad()
+            loss = loss_fn(model, batch)
+            loss.backward()
+            optimize_fn(optimizer, model.parameters(), step=state['step'])
+            state['step'] += 1
+            state['ema'].update(model.parameters())
+        else:
+            with torch.no_grad():
+                ema = state['ema']
+                ema.store(model.parameters())
+                ema.copy_to(model.parameters())
+                loss = loss_fn(model, batch)
+                ema.restore(model.parameters())
+
+        return loss
+
+    return step_fn
+
+
+def get_step_fn_predictor(sde, train, optimize_fn=None, reduce_mean=False, continuous=True, 
+                likelihood_weighting=False, data='NASBench201', label_list=None, noised=True, 
+                t_spot=None, is_meta=False, is_binary=False):
+    """Create a one-step training/evaluation function.
+
+    Args:
+        sde: An `sde_lib.SDE` object that represents the forward SDE.
+             Tuple (`sde_lib.SDE`, `sde_lib.SDE`) that represents the forward node SDE and edge SDE.
+        optimize_fn: An optimization function.
+        reduce_mean: If `True`, average the loss across data dimensions.
+            Otherwise, sum the loss across data dimensions.
+        continuous: `True` indicates that the model is defined to take continuous time steps.
+        likelihood_weighting: If `True`, weight the mixture of score matching losses according to
+            https://arxiv.org/abs/2101.09258; otherwise, use the weighting recommended by score-sde.
+
+    Returns:
+        A one-step function for training or evaluation.
+    """
+
+    if continuous:
+        if isinstance(sde, tuple):
+            loss_fn = get_multi_sde_loss_fn(sde[0], sde[1], train, reduce_mean=reduce_mean, continuous=True,
+                                            likelihood_weighting=likelihood_weighting)
+        else:
+            if data in ['NASBench201', 'ofa']:
+                if is_meta:
+                    loss_fn = get_meta_predictor_loss_fn_nas(sde, train, reduce_mean=reduce_mean,
+                                        continuous=True, likelihood_weighting=likelihood_weighting,
+                                        label_list=label_list, noised=noised, t_spot=t_spot)
+                elif is_binary:
+                    loss_fn = get_predictor_loss_fn_nas_binary(sde, train, reduce_mean=reduce_mean,
+                                        continuous=True, likelihood_weighting=likelihood_weighting,
+                                        label_list=label_list, noised=noised, t_spot=t_spot)
+                else:
+                    loss_fn = get_predictor_loss_fn_nas(sde, train, reduce_mean=reduce_mean,
+                                        continuous=True, likelihood_weighting=likelihood_weighting,
+                                        label_list=label_list, noised=noised, t_spot=t_spot)
+            else:
+                loss_fn = get_sde_loss_fn(sde, train, reduce_mean=reduce_mean,
+                                      continuous=True, likelihood_weighting=likelihood_weighting)
+    else:
+        assert not likelihood_weighting, "Likelihood weighting is not supported for original SMLD/DDPM training."
+        if isinstance(sde, VESDE):
+            loss_fn = get_smld_loss_fn(sde, train, reduce_mean=reduce_mean)
+        elif isinstance(sde, VPSDE):
+            loss_fn = get_ddpm_loss_fn(sde, train, reduce_mean=reduce_mean)
+        elif isinstance(sde, tuple):
+            raise ValueError("Discrete training for multi sde is not recommended.")
+        else:
+            raise ValueError(f"Discrete training for {sde.__class__.__name__} is not recommended.")
+
+    def step_fn(state, batch):
+        """Running one step of training or evaluation.
+
+        For jax version: This function will undergo `jax.lax.scan` so that multiple steps can be pmapped and
+            jit-compiled together for faster execution.
+
+        Args:
+            state: A dictionary of training information, containing the score model, optimizer,
+                EMA status, and number of optimization steps.
+            batch: A mini-batch of training/evaluation data, including min-batch adjacency matrices and mask.
+
+        Returns:
+            loss: The average loss value of this state.
+        """
+        model = state['model']
+        if train:
+            model.train()
+            optimizer = state['optimizer']
+            optimizer.zero_grad()
+            loss, pred, labels = loss_fn(model, batch)
+            loss.backward()
+            optimize_fn(optimizer, model.parameters(), step=state['step'])
+            state['step'] += 1
+            # state['ema'].update(model.parameters())
+        else:
+            model.eval()
+            with torch.no_grad():
+                # ema = state['ema']
+                # ema.store(model.parameters())
+                # ema.copy_to(model.parameters())
+                loss, pred, labels = loss_fn(model, batch)
+                # ema.restore(model.parameters())
+
+        return loss, pred, labels
+
+    return step_fn
--- a/MobileNetV3/main.py
+++ b/MobileNetV3/main.py
@@ -0,0 +1,40 @@
+"""Training and evaluation"""
+
+import run_lib
+from absl import app, flags
+from ml_collections.config_flags import config_flags
+import logging
+import os
+
+FLAGS = flags.FLAGS
+
+config_flags.DEFINE_config_file(
+    'config', None, 'Training configuration.', lock_config=True
+)
+config_flags.DEFINE_config_file(
+    'classifier_config_nf', None, 'Training configuration.', lock_config=True
+)
+flags.DEFINE_string('workdir', None, 'Work directory.')
+flags.DEFINE_enum('mode', None, ['train', 'eval'],
+                  'Running mode: train or eval')
+flags.DEFINE_string('eval_folder', 'eval', 'The folder name for storing evaluation results')
+flags.mark_flags_as_required(['config', 'mode'])
+
+
+def main(argv):
+    # Set random seed
+    run_lib.set_random_seed(FLAGS.config)
+
+    if FLAGS.mode == 'train':
+        logger = logging.getLogger()
+        logger.setLevel('INFO')
+        # Run the training pipeline
+        run_lib.train(FLAGS.config)
+    elif FLAGS.mode == 'eval':
+        run_lib.evaluate(FLAGS.config)
+    else:
+        raise ValueError(f"Mode {FLAGS.mode} not recognized.")
+
+
+if __name__ == '__main__':
+    app.run(main)
--- a/MobileNetV3/main_exp/diffusion/run_lib.py
+++ b/MobileNetV3/main_exp/diffusion/run_lib.py
@@ -0,0 +1,329 @@
+import torch
+import numpy as np
+import sys
+from scipy.stats import pearsonr, spearmanr
+from torch.utils.data import DataLoader
+sys.path.append('.')
+import sampling
+
+import datasets_nas
+from models import pgsn
+from models import digcn
+from models import cate
+from models import dagformer
+from models import digcn
+from models import digcn_meta
+from models import regressor
+from models.GDSS import scorenetx
+from models import utils as mutils
+from models.ema import ExponentialMovingAverage
+import sde_lib
+from utils import *
+import losses
+
+from analysis.arch_functions import BasicArchMetricsOFA
+import losses
+from analysis.arch_functions import NUM_STAGE, MAX_LAYER_PER_STAGE
+from all_path import *
+
+
+def get_sampling_fn(config, p=1, prod_w=False, weight_ratio_abs=False):
+    # Setup SDEs
+    if config.training.sde.lower() == 'vpsde':
+        sde = sde_lib.VPSDE(
+            beta_min=config.model.beta_min, 
+            beta_max=config.model.beta_max, 
+            N=config.model.num_scales)
+        sampling_eps = 1e-3
+    elif config.training.sde.lower() == 'subvpsde':
+        sde = sde_lib.subVPSDE(
+            beta_min=config.model.beta_min, 
+            beta_max=config.model.beta_max,
+            N=config.model.num_scales)
+        sampling_eps = 1e-3
+    elif config.training.sde.lower() == 'vesde':
+        sde = sde_lib.VESDE(
+            sigma_min=config.model.sigma_min, 
+            sigma_max=config.model.sigma_max,
+            N=config.model.num_scales)
+        sampling_eps = 1e-5
+    else:
+        raise NotImplementedError(f"SDE {config.training.sde} unknown.")
+    
+    # create data normalizer and its inverse
+    inverse_scaler = datasets_nas.get_data_inverse_scaler(config)
+    
+    sampling_shape = (
+        config.eval.batch_size, config.data.max_node, config.data.n_vocab) # ofa: 1024, 20, 28
+    sampling_fn = sampling.get_sampling_fn(
+        config, sde, sampling_shape, inverse_scaler, 
+        sampling_eps, config.data.name, conditional=True, 
+        p=p, prod_w=prod_w, weight_ratio_abs=weight_ratio_abs)
+    
+    return sampling_fn, sde
+
+
+def get_sampling_fn_meta(config, p=1, prod_w=False, weight_ratio_abs=False, init=False, n_init=5):
+    # Setup SDEs
+    if config.training.sde.lower() == 'vpsde':
+        sde = sde_lib.VPSDE(
+            beta_min=config.model.beta_min, 
+            beta_max=config.model.beta_max, 
+            N=config.model.num_scales)
+        sampling_eps = 1e-3
+    elif config.training.sde.lower() == 'subvpsde':
+        sde = sde_lib.subVPSDE(
+            beta_min=config.model.beta_min, 
+            beta_max=config.model.beta_max,
+            N=config.model.num_scales)
+        sampling_eps = 1e-3
+    elif config.training.sde.lower() == 'vesde':
+        sde = sde_lib.VESDE(
+            sigma_min=config.model.sigma_min, 
+            sigma_max=config.model.sigma_max,
+            N=config.model.num_scales)
+        sampling_eps = 1e-5
+    else:
+        raise NotImplementedError(f"SDE {config.training.sde} unknown.")
+    
+    # create data normalizer and its inverse
+    inverse_scaler = datasets_nas.get_data_inverse_scaler(config)
+    
+    if init:
+        sampling_shape = (
+            n_init, config.data.max_node, config.data.n_vocab) 
+    else:
+        sampling_shape = (
+            config.eval.batch_size, config.data.max_node, config.data.n_vocab) # ofa: 1024, 20, 28
+    sampling_fn = sampling.get_sampling_fn(
+        config, sde, sampling_shape, inverse_scaler, 
+        sampling_eps, config.data.name, conditional=True, 
+        is_meta=True, data_name=config.sampling.check_dataname, 
+        num_sample=config.model.num_sample)
+    
+    return sampling_fn, sde
+
+
+def get_score_model(config, pos_enc_type=2):
+    # Build sampling functions and Load pre-trained score network & predictor network
+    score_config = torch.load(config.scorenet_ckpt_path)['config']
+    ckpt_path = config.scorenet_ckpt_path
+    score_config.sampling.corrector = 'langevin'
+    score_config.model.pos_enc_type = pos_enc_type
+
+    score_model = mutils.create_model(score_config)
+    score_ema = ExponentialMovingAverage(
+        score_model.parameters(), decay=score_config.model.ema_rate)
+    score_state = dict(
+        model=score_model, ema=score_ema, step=0, config=score_config)
+    score_state = restore_checkpoint(
+        ckpt_path, score_state, 
+        device=config.device, resume=True)
+    score_ema.copy_to(score_model.parameters())
+    return score_model, score_ema, score_config
+
+
+def get_predictor(config):
+    classifier_model = mutils.create_model(config)
+
+    return classifier_model 
+
+
+def get_adj(data_name, except_inout):
+    if data_name == 'NASBench201':
+        _adj = np.asarray(
+                [[0, 1, 1, 1, 0, 0, 0, 0],
+                [0, 0, 0, 0, 1, 1, 0, 0],
+                [0, 0, 0, 0, 0, 0, 1, 0],
+                [0, 0, 0, 0, 0, 0, 0, 1],
+                [0, 0, 0, 0, 0, 0, 1, 0],
+                [0, 0, 0, 0, 0, 0, 0, 1],
+                [0, 0, 0, 0, 0, 0, 0, 1],
+                [0, 0, 0, 0, 0, 0, 0, 0]]
+            )
+        _adj = torch.tensor(_adj, dtype=torch.float32, device=torch.device('cpu'))
+        if except_inout:
+            _adj = _adj[1:-1, 1:-1]
+    elif data_name == 'ofa':
+        assert except_inout 
+        num_nodes = NUM_STAGE * MAX_LAYER_PER_STAGE
+        _adj = torch.zeros(num_nodes, num_nodes)
+        for i in range(num_nodes-1):
+            _adj[i, i+1] = 1
+        return _adj
+    return _adj    
+
+def generate_archs(
+        config, sampling_fn, score_model, score_ema, classifier_model,
+        num_samples, patient_factor, batch_size=512, classifier_scale=None,
+        task=None):
+    
+    metrics = BasicArchMetricsOFA()
+    # algo = 'none'
+    adj_s = get_adj(config.data.name, config.data.except_inout)
+    mask_s = aug_mask(adj_s, algo=config.data.aug_mask_algo)[0]
+    adj_c = get_adj(config.data.name, config.data.except_inout)
+    mask_c = aug_mask(adj_c, algo=config.data.aug_mask_algo)[0]
+    assert (adj_s == adj_c).all() and (mask_s == mask_c).all()
+    adj_s, mask_s, adj_c, mask_c = \
+        adj_s.to(config.device), mask_s.to(config.device), adj_c.to(config.device), mask_c.to(config.device)
+    
+    # Generate and save samples
+    score_ema.copy_to(score_model.parameters())
+    if num_samples > batch_size:
+        num_sampling_rounds = int(np.ceil(num_samples / batch_size) * patient_factor)
+    else:
+        num_sampling_rounds = int(patient_factor)
+    print(f'==> Sampling for {num_sampling_rounds} rounds...')
+    
+    r = 0
+    all_samples = []
+    classifier_scales = list(range(100000, 0, -int(classifier_scale)))
+    
+    while True and r < num_sampling_rounds:
+        classifier_scale = classifier_scales[r]
+        print(f'==> round {r} classifier_scale {classifier_scale}')
+        sample, _, sample_chain, (score_grad_norm_p, classifier_grad_norm_p, score_grad_norm_c, classifier_grad_norm_c) \
+            = sampling_fn(score_model, mask_s, classifier_model, 
+                        eval_chain=True, 
+                        number_chain_steps=config.sampling.number_chain_steps,
+                        classifier_scale=classifier_scale,
+                        task=task, sample_bs=num_samples)
+        try:
+            sample_list = quantize(sample, adj_s) # quantization
+            _, validity, valid_arch_str, _, _ = metrics.compute_validity(sample_list, adj_s, mask_s)
+        except:
+            import pdb; pdb.set_trace()
+            validity = 0.
+            valid_arch_str = []
+        print(f' ==> [Validity]: {round(validity, 4)}')
+
+        if len(valid_arch_str) > 0:
+            all_samples += valid_arch_str
+        print(f' ==> [# Unique Arch]: {len(set(all_samples))}')
+        
+        if (len(set(all_samples)) >= num_samples):
+            break
+
+        r += 1
+    
+    return list(set(all_samples))[:num_samples]
+
+
+def noise_aware_meta_predictor_fit(config, 
+                              predictor_model=None,
+                              xtrain=None, 
+                              seed=None, 
+                              sde=None, 
+                              batch_size=5, 
+                              epochs=50,
+                              save_best_p_corr=False,
+                              save_path=None,):
+    assert save_best_p_corr
+    reset_seed(seed)
+
+    data_loader = DataLoader(xtrain, 
+                             batch_size=batch_size, 
+                             shuffle=True, 
+                             drop_last=True)
+
+    # create data normalizer and its inverse
+    scaler = datasets_nas.get_data_scaler(config)
+
+    # Initialize model.
+    optimizer = losses.get_optimizer(config, predictor_model.parameters())
+    state = dict(optimizer=optimizer, 
+                 model=predictor_model, 
+                 step=0, 
+                 config=config)
+
+    # Build one-step training and evaluation functions
+    optimize_fn = losses.optimization_manager(config)
+    continuous = config.training.continuous
+    reduce_mean = config.training.reduce_mean
+    likelihood_weighting = config.training.likelihood_weighting
+    train_step_fn = losses.get_step_fn_predictor(sde, train=True, optimize_fn=optimize_fn,
+                                    reduce_mean=reduce_mean, continuous=continuous,
+                                    likelihood_weighting=likelihood_weighting,
+                                    data=config.data.name, label_list=config.data.label_list, 
+                                    noised=config.training.noised,
+                                    t_spot=config.training.t_spot,
+                                    is_meta=True)
+
+    # temp 
+    # epochs = len(xtrain) * 100
+    is_best = False
+    best_p_corr = -1
+    ckpt_dir = os.path.join(save_path, 'loop')
+    print(f'==> Training for {epochs} epochs')
+    for epoch in range(epochs):
+        pred_list, labels_list = list(), list()
+        for step, batch in enumerate(data_loader):
+            x = batch['x'].to(config.device) # (5, 5, 20, 9)???
+            adj = get_adj(config.data.name, config.data.except_inout)
+            task = batch['task']
+            extra = batch
+            mask = aug_mask(adj, 
+                            algo=config.data.aug_mask_algo, 
+                            data=config.data.name)
+            x = scaler(x.to(config.device))
+            adj = adj.to(config.device)
+            mask = mask.to(config.device)
+            task = task.to(config.device)
+            batch = (x, adj, mask, extra, task)
+            # Execute one training step
+            loss, pred, labels = train_step_fn(state, batch)
+            pred_list += [v.detach().item() for v in pred.squeeze()]
+            labels_list += [v.detach().item() for v in labels.squeeze()]
+        p_corr = pearsonr(np.array(pred_list), np.array(labels_list))[0]
+        s_corr = spearmanr(np.array(pred_list), np.array(labels_list))[0]
+        if epoch % 50 == 0: print(f'==> [Epoch-{epoch}] P corr: {round(p_corr, 4)} | S corr: {round(s_corr, 4)}')
+
+        if save_best_p_corr:
+            if p_corr > best_p_corr:
+                is_best = True
+                best_p_corr = p_corr
+                os.makedirs(ckpt_dir, exist_ok=True)
+                save_checkpoint(ckpt_dir, state, epoch, is_best)
+    if save_best_p_corr:
+        loaded_state = torch.load(os.path.join(ckpt_dir, 'model_best.pth.tar'), map_location=config.device)
+        predictor_model.load_state_dict(loaded_state['model'])
+
+
+def save_checkpoint(ckpt_dir, state, epoch, is_best):
+    saved_state = {}
+    for k in state:
+        if k in ['optimizer', 'model', 'ema']:
+            saved_state.update({k: state[k].state_dict()})
+        else:
+            saved_state.update({k: state[k]})
+    os.makedirs(ckpt_dir, exist_ok=True)
+    torch.save(saved_state, os.path.join(ckpt_dir, f'checkpoint_{epoch}.pth.tar'))
+    if is_best:
+        shutil.copy(os.path.join(ckpt_dir, f'checkpoint_{epoch}.pth.tar'), os.path.join(ckpt_dir, 'model_best.pth.tar'))
+    # remove the ckpt except is_best state
+    for ckpt_file in sorted(os.listdir(ckpt_dir)):
+        if not ckpt_file.startswith('checkpoint'):
+            continue
+        if os.path.join(ckpt_dir, ckpt_file) != os.path.join(ckpt_dir, 'model_best.pth.tar'):
+            os.remove(os.path.join(ckpt_dir, ckpt_file))
+
+
+def restore_checkpoint(ckpt_dir, state, device, resume=False):
+    if not resume:
+        os.makedirs(os.path.dirname(ckpt_dir), exist_ok=True)
+        return state
+    elif not os.path.exists(ckpt_dir):
+        if not os.path.exists(os.path.dirname(ckpt_dir)):
+            os.makedirs(os.path.dirname(ckpt_dir))
+        logging.warning(f"No checkpoint found at {ckpt_dir}. "
+                        f"Returned the same state as input")
+        return state
+    else:
+        loaded_state = torch.load(ckpt_dir, map_location=device)
+        for k in state:
+            if k in ['optimizer', 'model', 'ema']:
+                state[k].load_state_dict(loaded_state[k])
+            else:
+                state[k] = loaded_state[k]
+        return state
--- a/MobileNetV3/main_exp/get_files/get_aircraft.py
+++ b/MobileNetV3/main_exp/get_files/get_aircraft.py
@@ -0,0 +1,63 @@
+"""
+@author: Hayeon Lee
+2020/02/19
+Script for downloading, and reorganizing aircraft 
+for few shot classification
+Run this file as follows:
+    python get_data.py
+"""
+
+import pickle
+import os
+import numpy as np
+from tqdm import tqdm
+import requests
+import tarfile
+from PIL import Image
+import glob
+import shutil
+import pickle
+import collections
+import sys
+sys.path.append(os.path.join(os.getcwd(), 'main_exp'))
+from all_path import RAW_DATA_PATH
+
+def download_file(url, filename):
+    """
+    Helper method handling downloading large files from `url` 
+    to `filename`. Returns a pointer to `filename`.
+    """
+    chunkSize = 1024
+    r = requests.get(url, stream=True)
+    with open(filename, 'wb') as f:
+        pbar = tqdm( unit="B", total=int( r.headers['Content-Length'] ) )
+        for chunk in r.iter_content(chunk_size=chunkSize):
+            if chunk: # filter out keep-alive new chunks
+                pbar.update (len(chunk))
+                f.write(chunk)
+    return filename
+
+dir_path = RAW_DATA_PATH
+if not os.path.exists(dir_path):
+    os.makedirs(dir_path)
+file_name = os.path.join(dir_path, 'fgvc-aircraft-2013b.tar.gz')
+
+if not os.path.exists(file_name):
+    print(f"Downloading {file_name}\n")
+    download_file(
+        'http://www.robots.ox.ac.uk/~vgg/data/fgvc-aircraft/archives/fgvc-aircraft-2013b.tar.gz',
+        file_name)
+    print("\nDownloading done.\n")
+else:
+    print("fgvc-aircraft-2013b.tar.gz has already been downloaded. Did not download twice.\n")
+
+untar_file_name = os.path.join(dir_path, 'aircraft')
+if not os.path.exists(untar_file_name):
+    tarname = file_name
+    print("Untarring: {}".format(tarname))
+    tar = tarfile.open(tarname)
+    tar.extractall(untar_file_name)
+    tar.close()
+else:
+    print(f"{untar_file_name} folder already exists. Did not untarring twice\n")
+os.remove(file_name)
--- a/MobileNetV3/main_exp/get_files/get_pets.py
+++ b/MobileNetV3/main_exp/get_files/get_pets.py
@@ -0,0 +1,50 @@
+###########################################################################################
+# Copyright (c) Hayeon Lee, Eunyoung Hyung [GitHub MetaD2A], 2021
+# Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets, ICLR 2021
+###########################################################################################
+import os
+from tqdm import tqdm
+import requests
+import zipfile
+import sys
+sys.path.append(os.path.join(os.getcwd(), 'main_exp'))
+from all_path import RAW_DATA_PATH
+
+
+def download_file(url, filename):
+    """
+    Helper method handling downloading large files from `url`
+    to `filename`. Returns a pointer to `filename`.
+    """
+    chunkSize = 1024
+    r = requests.get(url, stream=True)
+    with open(filename, 'wb') as f:
+        pbar = tqdm(unit="B", total=int(r.headers['Content-Length']))
+        for chunk in r.iter_content(chunk_size=chunkSize):
+            if chunk:  # filter out keep-alive new chunks
+                pbar.update(len(chunk))
+                f.write(chunk)
+    return filename
+
+
+dir_path = os.path.join(RAW_DATA_PATH, 'pets')
+if not os.path.exists(dir_path):
+    os.makedirs(dir_path)
+
+full_name = os.path.join(dir_path, 'test15.pth')
+if not os.path.exists(full_name):
+    print(f"Downloading {full_name}\n")
+    download_file(
+        'https://www.dropbox.com/s/kzmrwyyk5iaugv0/test15.pth?dl=1', full_name)
+    print("Downloading done.\n")
+else:
+    print(f"{full_name} has already been downloaded. Did not download twice.\n")
+
+full_name = os.path.join(dir_path, 'train85.pth')
+if not os.path.exists(full_name):
+    print(f"Downloading {full_name}\n")
+    download_file(
+        'https://www.dropbox.com/s/w7mikpztkamnw9s/train85.pth?dl=1', full_name)
+    print("Downloading done.\n")
+else:
+    print(f"{full_name} has already been downloaded. Did not download twice.\n")
--- a/MobileNetV3/main_exp/get_files/get_preprocessed_data.py
+++ b/MobileNetV3/main_exp/get_files/get_preprocessed_data.py
@@ -0,0 +1,46 @@
+###########################################################################################
+# Copyright (c) Hayeon Lee, Eunyoung Hyung [GitHub MetaD2A], 2021
+# Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets, ICLR 2021
+###########################################################################################
+import os
+from tqdm import tqdm
+import requests
+from all_path import PROCESSED_DATA_PATH
+
+dir_path = PROCESSED_DATA_PATH
+if not os.path.exists(dir_path):
+	os.makedirs(dir_path)
+
+
+def download_file(url, filename):
+	"""
+	Helper method handling downloading large files from `url`
+	to `filename`. Returns a pointer to `filename`.
+	"""
+	chunkSize = 1024
+	r = requests.get(url, stream=True)
+	with open(filename, 'wb') as f:
+		pbar = tqdm( unit="B", total=int( r.headers['Content-Length'] ) )
+		for chunk in r.iter_content(chunk_size=chunkSize):
+			if chunk: # filter out keep-alive new chunks
+				pbar.update (len(chunk))
+				f.write(chunk)
+	return filename
+
+
+def get_preprocessed_data(file_name, url):
+		print(f"Downloading {file_name} datasets\n")
+		full_name = os.path.join(dir_path, file_name)
+		download_file(url, full_name)
+		print("Downloading done.\n")
+
+
+for file_name, url in [
+	('aircraftbylabel.pt', 'https://www.dropbox.com/s/nn6mlrk1jijg108/aircraft100bylabel.pt?dl=1'),
+	('cifar100bylabel.pt', 'https://www.dropbox.com/s/nn6mlrk1jijg108/aircraft100bylabel.pt?dl=1'),
+	('cifar10bylabel.pt', 'https://www.dropbox.com/s/wt1pcwi991xyhwr/cifar10bylabel.pt?dl=1'),
+	('imgnet32bylabel.pt', 'https://www.dropbox.com/s/7r3hpugql8qgi9d/imgnet32bylabel.pt?dl=1'),
+	('petsbylabel.pt', 'https://www.dropbox.com/s/mxh6qz3grhy7wcn/petsbylabel.pt?dl=1'),
+	]:
+
+	get_preprocessed_data(file_name, url)
--- a/MobileNetV3/main_exp/get_files/get_preprocessed_score_model_data.py
+++ b/MobileNetV3/main_exp/get_files/get_preprocessed_score_model_data.py
@@ -0,0 +1,44 @@
+###########################################################################################
+# Copyright (c) Hayeon Lee, Eunyoung Hyung [GitHub MetaD2A], 2021
+# Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets, ICLR 2021
+###########################################################################################
+import os
+from tqdm import tqdm
+import requests
+
+
+DATA_PATH = "./data/ofa/data_score_model"
+dir_path = DATA_PATH
+if not os.path.exists(dir_path):
+	os.makedirs(dir_path)
+
+
+def download_file(url, filename):
+	"""
+	Helper method handling downloading large files from `url`
+	to `filename`. Returns a pointer to `filename`.
+	"""
+	chunkSize = 1024
+	r = requests.get(url, stream=True)
+	with open(filename, 'wb') as f:
+		pbar = tqdm( unit="B", total=int( r.headers['Content-Length'] ) )
+		for chunk in r.iter_content(chunk_size=chunkSize):
+			if chunk: # filter out keep-alive new chunks
+				pbar.update (len(chunk))
+				f.write(chunk)
+	return filename
+
+
+def get_preprocessed_data(file_name, url):
+		print(f"Downloading {file_name} datasets\n")
+		full_name = os.path.join(dir_path, file_name)
+		download_file(url, full_name)
+		print("Downloading done.\n")
+
+
+for file_name, url in [
+	('ofa_database_500000.pt', 'https://www.dropbox.com/scl/fi/0asz5qnvakf6ggucuynkk/ofa_database_500000.pt?rlkey=lqa1y4d6mikgzznevtanl2ybx&dl=1'),
+	('ridx-500000.pt', 'https://www.dropbox.com/scl/fi/ambrm9n5efdkyydmsli0h/ridx-500000.pt?rlkey=b6iliyuiaxya4ropms8chsa7c&dl=1'),
+	]:
+
+	get_preprocessed_data(file_name, url)
--- a/MobileNetV3/main_exp/nag.py
+++ b/MobileNetV3/main_exp/nag.py
@@ -0,0 +1,390 @@
+from __future__ import print_function
+import torch
+import os
+import gc
+import sys
+from tqdm import tqdm
+import numpy as np
+import time
+import os
+
+from torch import optim
+from torch.optim.lr_scheduler import ReduceLROnPlateau
+from scipy.stats import pearsonr
+
+from transfer_nag_lib.MetaD2A_mobilenetV3.metad2a_utils import load_graph_config, decode_ofa_mbv3_str_to_igraph
+from transfer_nag_lib.MetaD2A_mobilenetV3.metad2a_utils import get_log
+from transfer_nag_lib.MetaD2A_mobilenetV3.metad2a_utils import save_model, mean_confidence_interval
+
+from transfer_nag_lib.MetaD2A_mobilenetV3.loader import get_meta_train_loader, MetaTestDataset
+
+from transfer_nag_lib.encoder_FSBO_ofa import EncoderFSBO as PredictorModel
+from transfer_nag_lib.MetaD2A_mobilenetV3.predictor import Predictor as MetaD2APredictor
+from transfer_nag_lib.MetaD2A_mobilenetV3.evaluation.train import train_single_model
+
+from diffusion.run_lib import generate_archs 
+from diffusion.run_lib import get_sampling_fn_meta
+from diffusion.run_lib import get_score_model
+from diffusion.run_lib import get_predictor 
+
+sys.path.append(os.path.join(os.getcwd()))
+from all_path import *
+from utils import restore_checkpoint
+
+
+class NAG:
+    def __init__(self, args, dgp_arch=[99, 50, 179, 194], bohb=False):
+        self.args = args
+        self.batch_size = args.batch_size
+        self.num_sample = args.num_sample
+        self.max_epoch = args.max_epoch
+        self.save_epoch = args.save_epoch
+        self.save_path = args.save_path
+        self.search_space = args.search_space
+        self.model_name = 'predictor'
+        self.test = args.test
+        self.device = torch.device("cuda:0") if torch.cuda.is_available() else torch.device("cpu")
+        self.max_corr_dict = {'corr': -1, 'epoch': -1}
+        self.train_arch = args.train_arch
+        self.use_metad2a_predictor_selec = args.use_metad2a_predictor_selec
+
+        self.raw_data_path = RAW_DATA_PATH
+        self.model_path = UNNOISE_META_PREDICTOR_CKPT_PATH
+        self.data_path = PROCESSED_DATA_PATH   
+        self.classifier_ckpt_path = NOISE_META_PREDICTOR_CKPT_PATH
+        self.load_diffusion_model(self.args.n_training_samples, args.pos_enc_type)
+
+        graph_config = load_graph_config(
+            args.graph_data_name, args.nvt, self.data_path)
+
+        self.model = PredictorModel(args, graph_config, dgp_arch=dgp_arch)
+        self.metad2a_model = MetaD2APredictor(args).model
+        
+        if self.test:
+            self.data_name = args.data_name
+            self.num_class = args.num_class
+            self.load_epoch = args.load_epoch
+            self.n_training_samples = self.args.n_training_samples
+            self.n_gen_samples = args.n_gen_samples
+            self.folder_name = args.folder_name
+            self.unique = args.unique
+            
+            model_state_dict = self.model.state_dict()
+            load_max_pt = 'ckpt_max_corr.pt'
+            ckpt_path = os.path.join(self.model_path, load_max_pt)
+            ckpt = torch.load(ckpt_path)
+            for k, v in ckpt.items():
+                if k in model_state_dict.keys():
+                    model_state_dict[k] = v
+            self.model.cpu()
+            self.model.load_state_dict(model_state_dict)
+        self.model.to(self.device)
+        
+        self.optimizer = optim.Adam(self.model.parameters(), lr=args.lr)
+        self.scheduler = ReduceLROnPlateau(self.optimizer, 'min',
+                      factor=0.1, patience=1000, verbose=True)
+        self.mtrloader = get_meta_train_loader(
+            self.batch_size, self.data_path, self.num_sample, is_pred=True)
+
+        self.acc_mean = self.mtrloader.dataset.mean
+        self.acc_std = self.mtrloader.dataset.std
+
+
+    def forward(self, x, arch, labels=None, train=False, matrix=False, metad2a=False):
+        if metad2a: 
+            D_mu = self.metad2a_model.set_encode(x.to(self.device))
+            G_mu = self.metad2a_model.graph_encode(arch)
+            y_pred = self.metad2a_model.predict(D_mu, G_mu)
+            return y_pred
+        else:
+            D_mu = self.model.set_encode(x.to(self.device))
+            G_mu = self.model.graph_encode(arch, matrix=matrix)
+            y_pred, y_dist = self.model.predict(D_mu, G_mu, labels=labels, train=train)
+            return y_pred, y_dist
+    
+    def meta_train(self):
+        sttime = time.time()
+        for epoch in range(1, self.max_epoch + 1):
+            self.mtrlog.ep_sttime = time.time()
+            loss, corr = self.meta_train_epoch(epoch)
+            self.scheduler.step(loss)
+            self.mtrlog.print_pred_log(loss, corr, 'train', epoch)
+            valoss, vacorr = self.meta_validation(epoch)
+            if self.max_corr_dict['corr'] < vacorr or epoch==1:
+                self.max_corr_dict['corr'] = vacorr
+                self.max_corr_dict['epoch'] = epoch
+                self.max_corr_dict['loss'] = valoss
+                save_model(epoch, self.model, self.model_path, max_corr=True)
+
+            self.mtrlog.print_pred_log(
+                valoss, vacorr, 'valid', max_corr_dict=self.max_corr_dict)
+
+            if epoch % self.save_epoch == 0:
+                save_model(epoch, self.model, self.model_path)
+
+        self.mtrlog.save_time_log()
+        self.mtrlog.max_corr_log(self.max_corr_dict)
+
+    def meta_train_epoch(self, epoch):
+        self.model.to(self.device)
+        self.model.train()
+
+        self.mtrloader.dataset.set_mode('train')
+
+        dlen = len(self.mtrloader.dataset)
+        trloss = 0
+        y_all, y_pred_all = [], []
+        pbar = tqdm(self.mtrloader)
+
+        for x, g, acc in pbar:
+            self.optimizer.zero_grad()
+            y_pred, y_dist = self.forward(x, g, labels=acc, train=True, matrix=False)
+            y = acc.to(self.device).double()
+            print(y.double())
+            print(y_dist)
+            loss = -self.model.mll(y_dist, y)
+            loss.backward()
+            self.optimizer.step()
+
+            y = y.tolist()
+            y_pred = y_pred.squeeze().tolist()
+            y_all += y
+            y_pred_all += y_pred
+            pbar.set_description(get_log(
+                epoch, loss, y_pred, y, self.acc_std, self.acc_mean))
+            trloss += float(loss)
+
+        return trloss / dlen, pearsonr(np.array(y_all),
+                                       np.array(y_pred_all))[0]
+    
+    def meta_validation(self, epoch):
+        self.model.to(self.device)
+        self.model.eval()
+
+        valoss = 0
+        self.mtrloader.dataset.set_mode('valid')
+        dlen = len(self.mtrloader.dataset)
+        y_all, y_pred_all = [], []
+        pbar = tqdm(self.mtrloader)
+
+        with torch.no_grad():
+            for x, g, acc in pbar:
+                y_pred, y_dist = self.forward(x, g, labels=acc, train=False, matrix=False)
+                y = acc.to(self.device)
+                loss = -self.model.mll(y_dist, y)
+
+                y = y.tolist()
+                y_pred = y_pred.squeeze().tolist()
+                y_all += y
+                y_pred_all += y_pred
+                pbar.set_description(get_log(
+                    epoch, loss, y_pred, y, self.acc_std, self.acc_mean, tag='val'))
+                valoss += float(loss)
+                try:
+                    pearson_corr = pearsonr(np.array(y_all), np.array(y_pred_all))[0]
+                except Exception as e:
+                    pearson_corr = 0
+
+        return valoss / dlen, pearson_corr
+
+    def meta_test(self):
+        if self.data_name == 'all':
+            for data_name in ['cifar10', 'cifar100', 'aircraft', 'pets']:
+                acc = self.meta_test_per_dataset(data_name)
+        else:
+            acc = self.meta_test_per_dataset(self.data_name)
+        return acc
+    
+    
+    def meta_test_per_dataset(self, data_name):        
+        self.test_dataset = MetaTestDataset(
+            self.data_path, data_name, self.num_sample, self.num_class)
+        
+        meta_test_path = self.args.exp_name
+        os.makedirs(meta_test_path, exist_ok=True)
+        f_arch_str = open(os.path.join(meta_test_path, 'architecture.txt'), 'w')
+        f = open(os.path.join(meta_test_path, 'accuracy.txt'), 'w')
+        
+        elasped_time = []
+
+        print(f'==> select top architectures for {data_name} by meta-predictor...')
+        
+        gen_arch_str = self.get_gen_arch_str()            
+        
+        gen_arch_igraph = [decode_ofa_mbv3_str_to_igraph(_) for _ in gen_arch_str]
+        
+        y_pred_all = []
+        self.metad2a_model.eval()
+        self.metad2a_model.to(self.device)
+        
+        # MetaD2A ver. prediction
+        sttime = time.time()
+        with torch.no_grad():
+            for i, arch_igraph in enumerate(gen_arch_igraph):
+                x, g = self.collect_data(arch_igraph)
+                y_pred = self.forward(x, g, metad2a=True)
+                y_pred = torch.mean(y_pred)
+                y_pred_all.append(y_pred.cpu().detach().item())
+        
+        if self.use_metad2a_predictor_selec:
+            top_arch_lst = self.select_top_arch(
+                data_name, torch.tensor(y_pred_all), gen_arch_str, self.n_training_samples)
+        else:
+            top_arch_lst = gen_arch_str[:self.n_training_samples]
+        
+        elasped = time.time() - sttime
+        elasped_time.append(elasped)
+        
+        for _, arch_str in enumerate(top_arch_lst):
+            f_arch_str.write(f'{arch_str}\n'); print(f'neural architecture config: {arch_str}')
+        
+        support = top_arch_lst
+        x_support = []
+        y_support = []
+        seeds = [777, 888, 999]
+        y_support_per_seed = {
+            _: [] for _ in seeds
+        }
+        net_info = {
+            'params': [],
+            'flops': [],
+        }
+        best_acc = 0.0
+        best_sampe_num = 0
+
+        print("Data name: %s" % data_name)
+        for i, arch_str in enumerate(support):
+            save_path = os.path.join(meta_test_path, arch_str)
+            os.makedirs(save_path, exist_ok=True)
+            acc_runs = []
+            for seed in seeds:
+                print(f'==> train for {data_name} {arch_str} ({seed})')
+                valid_acc, max_valid_acc, params, flops = train_single_model(save_path=save_path,
+                                workers=8,
+                                datasets=data_name,
+                                xpaths=f'{self.raw_data_path}/{data_name}',
+                                splits=[0],
+                                use_less=False,
+                                seed=seed,
+                                model_str=arch_str,
+                                device='cuda',
+                                lr=0.01,
+                                momentum=0.9,
+                                weight_decay=4e-5,
+                                report_freq=50,
+                                epochs=20,
+                                grad_clip=5,
+                                cutout=True,
+                                cutout_length=16,
+                                autoaugment=True,
+                                drop=0.2,
+                                drop_path=0.2,
+                                img_size=224)
+                acc_runs.append(valid_acc)
+                y_support_per_seed[seed].append(valid_acc)
+                
+            for r, acc in enumerate(acc_runs):
+                msg = f'run {r + 1} {acc:.2f} (%)'
+                f.write(msg + '\n')
+                f.flush()
+                print(msg)
+            m, h = mean_confidence_interval(acc_runs)
+            
+            if m > best_acc:
+                best_acc = m
+                best_sampe_num = i
+            msg = f'Avg {m:.3f}+-{h.item():.2f} (%) (best acc {best_acc:.3f} - #{i})'
+            f.write(msg + '\n')
+            print(msg)
+            y_support.append(np.mean(acc_runs))
+            x_support.append(arch_str)
+            net_info['params'].append(params)
+            net_info['flops'].append(flops)
+        torch.save({'y_support': y_support, 'x_support': x_support, 
+                    'y_support_per_seed': y_support_per_seed, 
+                    'net_info': net_info,
+                    'best_acc': best_acc,
+                    'best_sample_num': best_sampe_num}, 
+                                            meta_test_path+'/result.pt')
+                                    
+
+        return None
+    
+    
+    def train_single_arch(self, data_name, arch_str, meta_test_path):
+        save_path = os.path.join(meta_test_path, arch_str)
+        seeds = (777, 888, 999)
+        train_single_model(save_path=save_path,
+                           workers=24,
+                           datasets=[data_name],
+                           xpaths=[f'{self.raw_data_path}/{data_name}'],
+                           splits=[0],
+                           use_less=False,
+                           seeds=seeds,
+                           model_str=arch_str,
+                           arch_config={'channel': 16, 'num_cells': 5})
+        # Changed training time from 49/199
+        epoch = 49 if data_name == 'mnist' else 199
+        test_acc_lst = []
+        for seed in seeds:
+            result = torch.load(os.path.join(save_path, f'seed-0{seed}.pth'))
+            test_acc_lst.append(result[data_name]['valid_acc1es'][f'x-test@{epoch}'])
+        return test_acc_lst
+
+
+    def select_top_arch(
+            self, data_name, y_pred_all, gen_arch_str, N):
+        _, sorted_idx = torch.sort(y_pred_all, descending=True)
+        sotred_gen_arch_str = [gen_arch_str[_] for _ in sorted_idx]
+        final_str = sotred_gen_arch_str[:N]
+        return final_str
+
+    def collect_data_only(self):
+        x_batch = []
+        x_batch.append(self.test_dataset[0])
+        return torch.stack(x_batch).to(self.device)
+
+    def collect_data(self, arch_igraph):
+        x_batch, g_batch = [], []
+        for _ in range(10):
+            x_batch.append(self.test_dataset[0])
+            g_batch.append(arch_igraph)
+        return torch.stack(x_batch).to(self.device), g_batch
+
+    def load_diffusion_model(self, n_training_samples, pos_enc_type):
+        self.config = torch.load(CONFIG_PATH)
+        self.config.data.root = SCORE_MODEL_DATA_PATH
+        self.config.scorenet_ckpt_path = SCORE_MODEL_CKPT_PATH
+        torch.save(self.config, CONFIG_PATH)
+        
+        self.sampling_fn, self.sde = get_sampling_fn_meta(self.config)
+        self.sampling_fn_training_samples, _ = get_sampling_fn_meta(self.config, init=True, n_init=n_training_samples)
+        self.score_model, self.score_ema, self.score_config \
+            = get_score_model(self.config, pos_enc_type=pos_enc_type)
+    
+    def get_gen_arch_str(self):
+        classifier_config = torch.load(self.classifier_ckpt_path)['config']
+        # Load meta-predictor
+        classifier_model = get_predictor(classifier_config)
+        classifier_state = dict(model=classifier_model, step=0, config=classifier_config)
+        classifier_state = restore_checkpoint(self.classifier_ckpt_path, 
+                                              classifier_state, device=self.config.device, resume=True)
+        print(f'==> load checkpoint for our predictor: {self.classifier_ckpt_path}...')
+                
+        with torch.no_grad():
+            x = self.collect_data_only()
+        
+        generated_arch_str = generate_archs(
+            self.config, 
+            self.sampling_fn,
+            self.score_model, 
+            self.score_ema, 
+            classifier_model,
+            num_samples=self.n_gen_samples, 
+            patient_factor=self.args.patient_factor,
+            batch_size=self.args.eval_batch_size,
+            classifier_scale=self.args.classifier_scale,
+            task=x if self.args.fix_task else None)
+        
+        gc.collect()
+        return generated_arch_str
--- a/MobileNetV3/main_exp/run_transfer_nag.py
+++ b/MobileNetV3/main_exp/run_transfer_nag.py
@@ -0,0 +1,154 @@
+import os
+import sys
+import random
+import numpy as np
+import argparse
+import torch
+import os
+from nag import NAG
+# sys.path.append(os.getcwd())
+# from utils import str2bool
+
+
+
+def str2bool(v):
+    return v.lower() in ['t', 'true', True]
+
+# save_path = "results"
+# data_path = os.path.join('MetaD2A_nas_bench_201', 'data')
+# model_load_path = '/home/data/GTAD/baselines/transferNAS'
+
+
+def get_parser():
+    parser = argparse.ArgumentParser()
+    # general settings
+    parser.add_argument('--seed', type=int, default=444)
+    parser.add_argument('--gpu', type=str, default='0',
+                        help='set visible gpus')
+    parser.add_argument('--search_space', type=str, default='ofa')
+    parser.add_argument('--save-path', type=str,
+                        default=None, help='the path of save directory')
+    parser.add_argument('--data-path', type=str,
+                        default=None, help='the path of save directory')
+    parser.add_argument('--model-load-path', type=str,
+                        default=None, help='')
+    parser.add_argument('--save-epoch', type=int, default=20,
+                        help='how many epochs to wait each time to save model states')
+    parser.add_argument('--max-epoch', type=int, default=50,
+                        help='number of epochs to train')
+    parser.add_argument('--batch_size', type=int,
+                        default=1024, help='batch size for generator')
+    parser.add_argument('--graph-data-name',
+                        default='ofa', help='graph dataset name')
+    parser.add_argument('--nvt', type=int, default=27,
+                        help='number of different node types')
+    # set encoder
+    parser.add_argument('--num-sample', type=int, default=20,
+                        help='the number of images as input for set encoder')
+    # graph encoder
+    parser.add_argument('--hs', type=int, default=512,
+                        help='hidden size of GRUs')
+    parser.add_argument('--nz', type=int, default=56,
+                        help='the number of dimensions of latent vectors z')
+    # test
+    parser.add_argument('--test', action='store_true',
+                        default=True, help='turn on test mode')
+    parser.add_argument('--load-epoch', type=int, default=100,
+                        help='checkpoint epoch loaded for meta-test')
+    parser.add_argument('--data-name', type=str,
+                        default='pets', help='meta-test dataset name')
+    parser.add_argument('--trials', type=int, default=5)
+
+    parser.add_argument('--num-class', type=int, default=None,
+                        help='the number of class of dataset')
+    parser.add_argument('--num-gen-arch', type=int, default=500,
+                        help='the number of candidate architectures generated by the generator')
+    parser.add_argument('--train-arch', type=str2bool, default=True,
+                        help='whether to train the searched architecture')
+    parser.add_argument('--n_training_samples', type=int, default=5)
+    parser.add_argument('--N', type=int, default=10)
+    parser.add_argument('--use_gp', type=str2bool, default=False)
+    parser.add_argument('--sorting', type=str2bool, default=True)
+    parser.add_argument('--use_metad2a_predictor_selec', type=str2bool, default=True)
+    parser.add_argument('--use_ensemble_selec', type=str2bool, default=False)
+
+    # ---------- For diffusion NAG ------------ #
+    parser.add_argument('--folder_name', type=str, default='DiffusionNAG')
+    parser.add_argument('--task', type=str, default='mtst')
+    parser.add_argument('--exp_name', type=str, default='')
+    parser.add_argument('--wandb_exp_name', type=str, default='')
+    parser.add_argument('--wandb_project_name', type=str, default='DiffusionNAG')
+    parser.add_argument('--use_wandb', type=str2bool, default=False)
+    parser.add_argument('--classifier_scale', type=int, default=10000.0, help='classifier scale')
+    parser.add_argument('--eval_batch_size', type=int, default=256)
+    parser.add_argument('--predictor', type=str, default='euler_maruyama', 
+                        choices=['euler_maruyama', 'reverse_diffusion', 'none'])
+    parser.add_argument('--corrector', type=str, default='langevin',
+                        choices=['none', 'langevin'])
+    parser.add_argument('--weight_ratio', type=str2bool, default=False)
+    parser.add_argument('--weight_scheduling', type=str2bool, default=False)
+    parser.add_argument('--weight_ratio_abs', type=str2bool, default=False)
+    parser.add_argument('--p', type=int, default=1)
+    parser.add_argument('--prod_w', type=str2bool, default=False)
+    parser.add_argument('--t_spot', type=float, default=1.0)
+    parser.add_argument('--t_spot_end', type=float, default=0.0)
+    # Train
+    parser.add_argument('--lr', type=float, default=0.001, help='learning rate')
+    parser.add_argument('--epochs', type=int, default=500)
+    parser.add_argument('--save_best_p_corr', type=str2bool, default=True)
+    parser.add_argument('--unique', type=str2bool, default=True)
+    parser.add_argument('--patient_factor', type=int, default=20)
+    parser.add_argument('--n_gen_samples', type=int, default=50)
+    ################ OFA ####################
+    parser.add_argument('--ofa_path', type=str, default='/home/hayeon/imagenet1k', help='')
+    parser.add_argument('--ofa_batch_size', type=int, default=256, help='')
+    parser.add_argument('--ofa_workers', type=int, default=4, help='')
+    ################ Diffusion ##############
+    parser.add_argument('--diffusion_lr', type=float, default=1e-3, help='')
+    parser.add_argument('--noise_aware_acc_norm', type=int, default=-1)
+    parser.add_argument('--fix_task', type=str2bool, default=True)
+    ################ BO ####################
+    parser.add_argument('--bo_loop_max_epoch', type=int, default=30)
+    parser.add_argument('--bo_loop_acc_norm', type=int, default=1)
+    parser.add_argument('--gp_model_acc_norm', type=int, default=1)
+    parser.add_argument('--num_ensemble', type=int, default=3)
+    parser.add_argument('--explore_type', type=str, default='ei')
+    ################ BO ####################
+    # parser.add_argument('--multi_proc', type=str2bool, default=False)
+    parser.add_argument('--eps', type=float, default=0.)
+    parser.add_argument('--beta', type=float, default=0.5)
+    parser.add_argument('--pos_enc_type', type=int, default=4)
+    args = parser.parse_args()
+
+    return args
+
+def set_exp_name(args):
+    exp_name = f'./exp/{args.task}/{args.folder_name}/data-{args.data_name}'
+    wandb_exp_name = f'./exp/{args.task}/{args.folder_name}/{args.data_name}'
+    
+    os.makedirs(exp_name, exist_ok=True)
+    args.exp_name = exp_name
+    args.wandb_exp_name = wandb_exp_name
+
+
+def main():
+    args = get_parser()
+    os.environ["CUDA_VISIBLE_DEVICES"] = args.gpu
+    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
+    torch.cuda.manual_seed(args.seed)
+    torch.manual_seed(args.seed)
+    np.random.seed(args.seed)
+    random.seed(args.seed)
+    
+    set_exp_name(args)
+
+    p = NAG(args)
+    
+    if args.test:
+        p.meta_test()
+    else:
+        p.meta_train()
+
+
+if __name__ == '__main__':
+    main()
--- a/MobileNetV3/main_exp/transfer_nag_lib/DeepKernelGPHelpers.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/DeepKernelGPHelpers.py
@@ -0,0 +1,100 @@
+#!/usr/bin/env python3
+# -*- coding: utf-8 -*-
+"""
+Created on Tue Jul  6 14:02:53 2021
+
+@author: hsjomaa
+"""
+import numpy as np
+from scipy.stats import norm
+import pandas as pd
+from torch import autograd as ag
+import torch
+from sklearn.preprocessing import PowerTransformer
+
+
+def regret(output,response):
+    incumbent   = output[0]
+    best_output = []
+    for _ in output:
+        incumbent = _ if _ > incumbent else incumbent
+        best_output.append(incumbent)
+    opt       = max(response)
+    orde      = list(np.sort(np.unique(response))[::-1])
+    tmp       = pd.DataFrame(best_output,columns=['regret_validation'])
+    
+    tmp['rank_valid']        = tmp['regret_validation'].map(lambda x : orde.index(x))
+    tmp['regret_validation'] = opt - tmp['regret_validation']
+    return tmp
+
+def EI(incumbent, model_fn,support,queries,return_variance, return_score=False):
+    mu, stddev     = model_fn(queries)
+    mu             = mu.reshape(-1,)
+    stddev         = stddev.reshape(-1,)
+    if return_variance:
+        stddev         = np.sqrt(stddev)
+    with np.errstate(divide='warn'):
+        imp = mu - incumbent
+        Z = imp / stddev
+        score = imp * norm.cdf(Z) + stddev * norm.pdf(Z)
+    if not return_score:
+        score[support] = 0
+        return np.argmax(score)
+    else:
+        return score
+    
+    
+class Metric(object):
+    def __init__(self,prefix='train: '):
+        self.reset()
+        self.message=prefix + "loss: {loss:.2f} - noise: {log_var:.2f} - mse: {mse:.2f}"
+        
+    def update(self,loss,noise,mse):
+        self.loss.append(np.asscalar(loss))
+        self.noise.append(np.asscalar(noise))
+        self.mse.append(np.asscalar(mse))
+    
+    def reset(self,):
+        self.loss = []
+        self.noise = []
+        self.mse = []
+    
+    def report(self):
+        return self.message.format(loss=np.mean(self.loss),
+                            log_var=np.mean(self.noise),
+                            mse=np.mean(self.mse))
+    
+    def get(self):
+        return {"loss":np.mean(self.loss),
+                "noise":np.mean(self.noise),
+                "mse":np.mean(self.mse)}
+    
+def totorch(x,device):
+    if type(x) is tuple:
+        return tuple([ag.Variable(torch.Tensor(e)).to(device) for e in x])
+    return torch.Tensor(x).to(device)
+
+
+def prepare_data(indexes, support, Lambda, response, metafeatures=None, output_transform=False):
+    # Generate indexes of the batch
+    X,E,Z,y,r = [],[],[],[],[]
+    #### get support data
+    for dim in indexes:
+        if metafeatures is not None:
+            Z.append(metafeatures)
+        E.append(Lambda[support])
+        X.append(Lambda[dim])
+        r_ = response[support,np.newaxis]
+        y_ = response[dim]
+        if output_transform:
+            power = PowerTransformer(method="yeo-johnson")
+            r_ = power.fit_transform(r_)
+            y_ = power.transform(y_.reshape(-1,1)).reshape(-1,)
+        r.append(r_)
+        y.append(y_)
+    X = np.array(X)
+    E = np.array(E)
+    Z = np.array(Z)
+    y = np.array(y)
+    r = np.array(r)
+    return (np.expand_dims(E, axis=-1), r, np.expand_dims(X, axis=-1), Z), y
--- a/MobileNetV3/main_exp/transfer_nag_lib/DeepKernelGPModules.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/DeepKernelGPModules.py
@@ -0,0 +1,581 @@
+#!/usr/bin/env python3
+# -*- coding: utf-8 -*-
+"""
+Created on Tue Jul  6 14:03:42 2021
+
+@author: hsjomaa
+"""
+## Original packages
+import torch
+import torch.nn as nn
+from sklearn.preprocessing import MinMaxScaler
+import copy 
+import numpy as np
+import os
+# from torch.utils.tensorboard import SummaryWriter
+import json
+import time
+## Our packages
+import gpytorch
+import logging
+from transfer_nag_lib.DeepKernelGPHelpers import totorch,prepare_data, Metric, EI
+from transfer_nag_lib.MetaD2A_nas_bench_201.generator import Generator
+from transfer_nag_lib.MetaD2A_nas_bench_201.main import get_parser
+np.random.seed(1203)
+RandomQueryGenerator= np.random.RandomState(413)
+RandomSupportGenerator= np.random.RandomState(413)
+RandomTaskGenerator = np.random.RandomState(413)
+
+
+class DeepKernelGP(nn.Module):
+
+    def __init__(self,X,Y,Z,kernel,backbone_fn, config, support,log_dir,seed):
+        super(DeepKernelGP, self).__init__()
+        torch.manual_seed(seed)
+        ## GP parameters
+        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        self.X,self.Y,self.Z = X,Y,Z
+        self.feature_extractor = backbone_fn().to(self.device)
+        self.config=config
+        self.get_model_likelihood_mll(len(support),kernel,backbone_fn)
+        
+        logging.basicConfig(filename=log_dir, level=logging.DEBUG)
+
+    def get_model_likelihood_mll(self, train_size,kernel,backbone_fn):
+        
+        train_x=torch.ones(train_size, self.feature_extractor.out_features).to(self.device)
+        train_y=torch.ones(train_size).to(self.device)
+
+        likelihood = gpytorch.likelihoods.GaussianLikelihood()
+        model = ExactGPLayer(train_x=train_x, train_y=train_y, likelihood=likelihood, config=self.config,
+                             dims=self.feature_extractor.out_features)
+        self.model = model.to(self.device)
+        self.likelihood = likelihood.to(self.device)
+        self.mll = gpytorch.mlls.ExactMarginalLogLikelihood(likelihood, model).to(self.device)
+
+    def set_forward(self, x, is_feature=False):
+        pass
+
+    def set_forward_loss(self, x):
+        pass
+    
+    def train(self, support, load_model,optimizer, checkpoint=None,epochs=1000, verbose = False):
+
+        if load_model:
+            assert(checkpoint is not None)
+            print("KEYS MATCHED")
+            self.load_checkpoint(os.path.join(checkpoint,"weights"))
+            
+        inputs,labels = prepare_data(support,support,self.X,self.Y,self.Z)
+        inputs,labels = totorch(inputs,device=self.device), totorch(labels.reshape(-1,),device=self.device)
+        losses = [np.inf]
+        best_loss = np.inf
+        starttime = time.time()
+        initial_weights = copy.deepcopy(self.state_dict())
+        patience=0
+        max_patience = self.config["patience"]
+        for _ in range(epochs):
+            optimizer.zero_grad()
+            z = self.feature_extractor(inputs)
+            self.model.set_train_data(inputs=z, targets=labels)
+            predictions = self.model(z)
+            try:
+                loss = -self.mll(predictions, self.model.train_targets)
+                loss.backward()
+                optimizer.step()
+            except Exception as ada:
+                logging.info(f"Exception {ada}")
+                break
+            
+            if verbose:
+                print("Iter {iter}/{epochs} - Loss: {loss:.5f}   noise: {noise:.5f}".format(
+                    iter=_+1,epochs=epochs,loss=loss.item(),noise=self.likelihood.noise.item()))                
+            losses.append(loss.detach().to("cpu").item())
+            if best_loss>losses[-1]:
+                best_loss = losses[-1]
+                weights = copy.deepcopy(self.state_dict())
+            if np.allclose(losses[-1],losses[-2],atol=self.config["loss_tol"]):
+                patience+=1
+            else:
+                patience=0
+            if patience>max_patience:
+                break
+        self.load_state_dict(weights)
+        logging.info(f"Current Iteration: {len(support)} | Incumbent {max(self.Y[support])} | Duration {np.round(time.time()-starttime)} | Epochs {_} | Noise {self.likelihood.noise.item()}")
+        return losses,weights,initial_weights
+    
+    def load_checkpoint(self, checkpoint):
+        ckpt = torch.load(checkpoint,map_location=torch.device(self.device))
+        self.model.load_state_dict(ckpt['gp'],strict=False)
+        self.likelihood.load_state_dict(ckpt['likelihood'],strict=False)
+        self.feature_extractor.load_state_dict(ckpt['net'],strict=False)
+        
+
+    def predict(self,support, query_range=None, noise_fn=None):
+        
+        card = len(self.Y)
+        if noise_fn:
+            self.Y = noise_fn(self.Y)
+        x_support,y_support = prepare_data(support,support,
+                                           self.X,self.Y,self.Z)
+        if query_range is None:
+            x_query,_ = prepare_data(np.arange(card),support,
+                                           self.X,self.Y,self.Z)
+        else:
+            x_query,_ = prepare_data(query_range,support,
+                                           self.X,self.Y,self.Z)            
+        self.model.eval()
+        self.feature_extractor.eval()
+        self.likelihood.eval()        
+
+        z_support = self.feature_extractor(totorch(x_support,self.device)).detach()
+        self.model.set_train_data(inputs=z_support, targets=totorch(y_support.reshape(-1,),self.device), strict=False)
+
+        with torch.no_grad():
+            z_query = self.feature_extractor(totorch(x_query,self.device)).detach()
+            pred    = self.likelihood(self.model(z_query))
+
+            
+        mu    = pred.mean.detach().to("cpu").numpy().reshape(-1,)
+        stddev = pred.stddev.detach().to("cpu").numpy().reshape(-1,)
+        
+        return mu,stddev
+    
+class DKT(nn.Module):
+    def __init__(self, train_data,valid_data, kernel,backbone_fn, config):
+        super(DKT, self).__init__()
+        ## GP parameters
+        self.train_data = train_data
+        self.valid_data = valid_data
+        self.fixed_context_size = config["fixed_context_size"]
+        self.minibatch_size = config["minibatch_size"]
+        self.n_inner_steps = config["n_inner_steps"]
+        self.checkpoint_path = config["checkpoint_path"]
+        os.makedirs(self.checkpoint_path,exist_ok=False)
+        json.dump(config, open(os.path.join(self.checkpoint_path,"configuration.json"),"w"))
+        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        logging.basicConfig(filename=os.path.join(self.checkpoint_path,"log.txt"), level=logging.DEBUG)
+        self.feature_extractor = backbone_fn().to(self.device)
+        self.config=config
+        self.get_model_likelihood_mll(self.fixed_context_size,kernel,backbone_fn)
+        self.mse = nn.MSELoss()
+        self.curr_valid_loss = np.inf
+        self.get_tasks()
+        self.setup_writers()
+        
+        self.train_metrics = Metric()
+        self.valid_metrics = Metric(prefix="valid: ")
+        print(self)
+        
+        
+    def setup_writers(self,):
+        train_log_dir = os.path.join(self.checkpoint_path,"train")
+        os.makedirs(train_log_dir,exist_ok=True)
+        self.train_summary_writer = SummaryWriter(train_log_dir)
+        
+        valid_log_dir = os.path.join(self.checkpoint_path,"valid")
+        os.makedirs(valid_log_dir,exist_ok=True)
+        self.valid_summary_writer = SummaryWriter(valid_log_dir)        
+        
+    def get_tasks(self,):
+        pairs = []
+        for space in self.train_data.keys():
+            for task in self.train_data[space].keys():
+                pairs.append([space,task])
+        self.tasks = pairs
+        ##########
+        pairs = []
+        for space in self.valid_data.keys():
+            for task in self.valid_data[space].keys():
+                pairs.append([space,task])
+        self.valid_tasks = pairs
+        
+
+    def get_model_likelihood_mll(self, train_size,kernel,backbone_fn):
+        
+        train_x=torch.ones(train_size, self.feature_extractor.out_features).to(self.device)
+        train_y=torch.ones(train_size).to(self.device)
+
+        likelihood = gpytorch.likelihoods.GaussianLikelihood()
+        model = ExactGPLayer(train_x=train_x, train_y=train_y, likelihood=likelihood, config=self.config,dims = self.feature_extractor.out_features)
+        self.model = model.to(self.device)
+        self.likelihood = likelihood.to(self.device)
+        self.mll        = gpytorch.mlls.ExactMarginalLogLikelihood(likelihood, model).to(self.device)
+    
+    def set_forward(self, x, is_feature=False):
+        pass
+
+    def set_forward_loss(self, x):
+        pass
+
+    def epoch_end(self):
+        RandomTaskGenerator.shuffle(self.tasks)
+        
+    def train_loop(self, epoch, optimizer, scheduler_fn=None):
+        if scheduler_fn:
+            scheduler = scheduler_fn(optimizer,len(self.tasks))
+        self.epoch_end()
+        assert(self.training)
+        for task in self.tasks:
+            inputs, labels = self.get_batch(task)
+            for _ in range(self.n_inner_steps):
+                optimizer.zero_grad()
+                z = self.feature_extractor(inputs)
+                self.model.set_train_data(inputs=z, targets=labels, strict=False)
+                predictions = self.model(z)
+                loss = -self.mll(predictions, self.model.train_targets)
+                loss.backward()
+                optimizer.step()
+                mse = self.mse(predictions.mean, labels)
+                self.train_metrics.update(loss,self.model.likelihood.noise,mse)
+            if scheduler_fn:
+                scheduler.step()
+        
+        training_results = self.train_metrics.get()
+        for k,v in training_results.items():
+            self.train_summary_writer.add_scalar(k, v, epoch)
+        for task in self.valid_tasks:
+            mse,loss = self.test_loop(task,train=False)
+            self.valid_metrics.update(loss,np.array(0),mse,)
+            
+        logging.info(self.train_metrics.report() + " " + self.valid_metrics.report())
+        validation_results = self.valid_metrics.get()
+        for k,v in validation_results.items():
+            self.valid_summary_writer.add_scalar(k, v, epoch)
+        self.feature_extractor.train()
+        self.likelihood.train()
+        self.model.train()
+        
+        if validation_results["loss"] < self.curr_valid_loss:
+            self.save_checkpoint(os.path.join(self.checkpoint_path,"weights"))
+            self.curr_valid_loss = validation_results["loss"]
+        self.valid_metrics.reset()       
+        self.train_metrics.reset()
+            
+    def test_loop(self, task, train, optimizer=None): # no optimizer needed for GP
+        (x_support, y_support),(x_query,y_query) = self.get_support_and_queries(task,train)
+        z_support = self.feature_extractor(x_support).detach()
+        self.model.set_train_data(inputs=z_support, targets=y_support, strict=False)
+        self.model.eval()        
+        self.feature_extractor.eval()
+        self.likelihood.eval()
+
+        with torch.no_grad():
+            z_query = self.feature_extractor(x_query).detach()
+            pred    = self.likelihood(self.model(z_query))
+            loss = -self.mll(pred, y_query)
+            lower, upper = pred.confidence_region() #2 standard deviations above and below the mean
+
+        mse = self.mse(pred.mean, y_query)
+
+        return mse,loss
+
+    def get_batch(self,task):
+        # we want to fit the gp given context info to new observations
+        # task is an algorithm/dataset pair
+        space,task = task
+        Lambda,response = np.array(self.train_data[space][task]["X"]), MinMaxScaler().fit_transform(np.array(self.train_data[space][task]["y"])).reshape(-1,)
+
+        card, dim = Lambda.shape
+        
+        support = RandomSupportGenerator.choice(np.arange(card),
+                                              replace=False,size=self.fixed_context_size)
+        remaining = np.setdiff1d(np.arange(card),support)
+        indexes = RandomQueryGenerator.choice(
+            remaining,replace=False,size=self.minibatch_size if len(remaining)>self.minibatch_size else len(remaining))
+        
+        inputs,labels = prepare_data(support,indexes,Lambda,response,np.zeros(32))
+        inputs,labels = totorch(inputs,device=self.device), totorch(labels.reshape(-1,),device=self.device)
+        return inputs, labels
+        
+    def get_support_and_queries(self,task, train=False):
+        
+        # task is an algorithm/dataset pair
+        space,task = task
+        
+        hpo_data = self.valid_data if not train else self.train_data
+        Lambda,response =     np.array(hpo_data[space][task]["X"]), MinMaxScaler().fit_transform(np.array(hpo_data[space][task]["y"])).reshape(-1,)
+        card, dim = Lambda.shape
+
+        support = RandomSupportGenerator.choice(np.arange(card),
+                                              replace=False,size=self.fixed_context_size)
+        indexes = RandomQueryGenerator.choice(
+            np.setdiff1d(np.arange(card),support),replace=False,size=self.minibatch_size)
+        
+        support_x,support_y = prepare_data(support,support,Lambda,response,np.zeros(32))
+        query_x,query_y = prepare_data(support,indexes,Lambda,response,np.zeros(32))
+        
+        return (totorch(support_x,self.device),totorch(support_y.reshape(-1,),self.device)),\
+    (totorch(query_x,self.device),totorch(query_y.reshape(-1,),self.device))
+        
+    def save_checkpoint(self, checkpoint):
+        # save state
+        gp_state_dict         = self.model.state_dict()
+        likelihood_state_dict = self.likelihood.state_dict()
+        nn_state_dict         = self.feature_extractor.state_dict()
+        torch.save({'gp': gp_state_dict, 'likelihood': likelihood_state_dict, 'net':nn_state_dict}, checkpoint)
+
+    def load_checkpoint(self, checkpoint):
+        ckpt = torch.load(checkpoint)
+        self.model.load_state_dict(ckpt['gp'])
+        self.likelihood.load_state_dict(ckpt['likelihood'])
+        self.feature_extractor.load_state_dict(ckpt['net'])
+
+class ExactGPLayer(gpytorch.models.ExactGP):
+    def __init__(self, train_x, train_y, likelihood,config,dims ):
+        super(ExactGPLayer, self).__init__(train_x, train_y, likelihood)
+        self.mean_module  = gpytorch.means.ConstantMean()
+
+        ## RBF kernel
+        if(config["kernel"]=='rbf' or config["kernel"]=='RBF'):
+            self.covar_module = gpytorch.kernels.ScaleKernel(gpytorch.kernels.RBFKernel(ard_num_dims=dims if config["ard"] else None))
+        elif(config["kernel"]=='52'):
+            self.covar_module = gpytorch.kernels.ScaleKernel(gpytorch.kernels.MaternKernel(nu=config["nu"],ard_num_dims=dims if config["ard"] else None))
+        ## Spectral kernel
+        else:
+            raise ValueError("[ERROR] the kernel '" + str(config["kernel"]) + "' is not supported for regression, use 'rbf' or 'spectral'.")
+            
+    def forward(self, x):
+        mean_x  = self.mean_module(x)
+        covar_x = self.covar_module(x)
+        return gpytorch.distributions.MultivariateNormal(mean_x, covar_x)
+    
+
+class batch_mlp(nn.Module):
+    def __init__(self, d_in, output_sizes, nonlinearity="relu",dropout=0.0):
+        
+        super(batch_mlp, self).__init__()
+        assert(nonlinearity=="relu")
+        self.nonlinearity = nn.ReLU()
+
+        self.fc = nn.ModuleList([nn.Linear(in_features=d_in, out_features=output_sizes[0])])
+        for d_out in output_sizes[1:]:
+            self.fc.append(nn.Linear(in_features=self.fc[-1].out_features, out_features=d_out))
+        self.out_features = output_sizes[-1]
+        self.dropout = nn.Dropout(dropout)
+    def forward(self,x):
+        
+        for fc in self.fc[:-1]:
+            x = fc(x)
+            x = self.dropout(x)
+            x = self.nonlinearity(x)
+        x = self.fc[-1](x)
+        x = self.dropout(x)
+        return x
+    
+class StandardDeepGP(nn.Module):
+    def __init__(self, configuration):
+        
+        super(StandardDeepGP, self).__init__()
+        self.A = batch_mlp(configuration["dim"], configuration["output_size_A"],dropout=configuration["dropout"])
+        self.out_features = configuration["output_size_A"][-1]
+
+        
+    def forward(self, x):
+        # e,r,x,z = x
+        hidden = self.A(x.squeeze(dim=-1)) ### NxA
+        return hidden
+
+
+class DKTNAS(nn.Module):
+    def __init__(self, kernel, backbone_fn, config, pretrained_encoder=True, GP_only=False):
+        super(DKTNAS, self).__init__()
+        ## GP parameters
+
+        self.fixed_context_size = config["fixed_context_size"]
+        self.minibatch_size = config["minibatch_size"]
+        self.n_inner_steps = config["n_inner_steps"]
+        self.set_encoder_args = get_parser()
+        if not os.path.exists(self.set_encoder_args.save_path):
+            os.makedirs(self.set_encoder_args.save_path)
+        self.set_encoder_args.model_path = os.path.join(self.set_encoder_args.save_path,
+                                                        self.set_encoder_args.model_name, 'model')
+        if not os.path.exists(self.set_encoder_args.model_path):
+            os.makedirs(self.set_encoder_args.model_path)
+        self.set_encoder = Generator(self.set_encoder_args)
+        if pretrained_encoder:
+            self.dataset_enc, self.arch, self.acc = self.set_encoder.train_dgp(encode=False)
+            self.dataset_enc_val, self.acc_val = self.set_encoder.test_dgp(data_name='cifar100', encode=False)
+        else: # In case we want to train the set-encoder from scratch
+            self.dataset_enc = np.load("train_data_path.npy")
+            self.acc = np.load("train_acc.npy")
+            self.dataset_enc_val = np.load("cifar100_data_path.npy")
+            self.acc_val = np.load("cifar100_acc.npy")
+        self.valid_data = self.dataset_enc_val
+        self.checkpoint_path = config["checkpoint_path"]
+        os.makedirs(self.checkpoint_path, exist_ok=False)
+        json.dump(config, open(os.path.join(self.checkpoint_path, "configuration.json"), "w"))
+        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        logging.basicConfig(filename=os.path.join(self.checkpoint_path, "log.txt"), level=logging.DEBUG)
+        self.feature_extractor = backbone_fn().to(self.device)
+        self.config = config
+        self.GP_only = GP_only
+        self.get_model_likelihood_mll(self.fixed_context_size, kernel, backbone_fn)
+        self.mse = nn.MSELoss()
+        self.curr_valid_loss = np.inf
+        # self.get_tasks()
+        self.setup_writers()
+
+        self.train_metrics = Metric()
+        self.valid_metrics = Metric(prefix="valid: ")
+        self.tasks = len(self.dataset_enc)
+
+        print(self)
+
+    def setup_writers(self, ):
+        train_log_dir = os.path.join(self.checkpoint_path, "train")
+        os.makedirs(train_log_dir, exist_ok=True)
+        # self.train_summary_writer = SummaryWriter(train_log_dir)
+
+        valid_log_dir = os.path.join(self.checkpoint_path, "valid")
+        os.makedirs(valid_log_dir, exist_ok=True)
+        # self.valid_summary_writer = SummaryWriter(valid_log_dir)
+
+
+    def get_model_likelihood_mll(self, train_size, kernel, backbone_fn):
+        if not self.GP_only:
+            train_x = torch.ones(train_size, self.feature_extractor.out_features).to(self.device)
+            train_y = torch.ones(train_size).to(self.device)
+
+            likelihood = gpytorch.likelihoods.GaussianLikelihood()
+
+            model = ExactGPLayer(train_x=None, train_y=None, likelihood=likelihood, config=self.config,
+                             dims=self.feature_extractor.out_features)
+        else:
+            train_x = torch.ones(train_size, self.fixed_context_size).to(self.device)
+            train_y = torch.ones(train_size).to(self.device)
+
+            likelihood = gpytorch.likelihoods.GaussianLikelihood()
+
+            model = ExactGPLayer(train_x=None, train_y=None, likelihood=likelihood, config=self.config,
+                                 dims=self.fixed_context_size)
+        self.model = model.to(self.device)
+        self.likelihood = likelihood.to(self.device)
+        self.mll = gpytorch.mlls.ExactMarginalLogLikelihood(likelihood, model).to(self.device)
+
+    def set_forward(self, x, is_feature=False):
+        pass
+
+    def set_forward_loss(self, x):
+        pass
+
+    def epoch_end(self):
+        RandomTaskGenerator.shuffle([1])
+
+    def train_loop(self, epoch, optimizer, scheduler_fn=None):
+        if scheduler_fn:
+            scheduler = scheduler_fn(optimizer, 1)
+        self.epoch_end()
+        assert (self.training)
+        for task in range(self.tasks):
+            inputs, labels = self.get_batch(task)
+            for _ in range(self.n_inner_steps):
+                    optimizer.zero_grad()
+                    z = self.feature_extractor(inputs)
+                    self.model.set_train_data(inputs=z, targets=labels, strict=False)
+                    predictions = self.model(z)
+                    loss = -self.mll(predictions, self.model.train_targets)
+                    loss.backward()
+                    optimizer.step()
+                    mse = self.mse(predictions.mean, labels)
+                    self.train_metrics.update(loss, self.model.likelihood.noise, mse)
+            if scheduler_fn:
+                    scheduler.step()
+
+        training_results = self.train_metrics.get()
+        for k, v in training_results.items():
+            self.train_summary_writer.add_scalar(k, v, epoch)
+        mse, loss = self.test_loop(train=False)
+        self.valid_metrics.update(loss, np.array(0), mse, )
+
+        logging.info(self.train_metrics.report() + " " + self.valid_metrics.report())
+        validation_results = self.valid_metrics.get()
+        for k, v in validation_results.items():
+            self.valid_summary_writer.add_scalar(k, v, epoch)
+        self.feature_extractor.train()
+        self.likelihood.train()
+        self.model.train()
+
+        if validation_results["loss"] < self.curr_valid_loss:
+            self.save_checkpoint(os.path.join(self.checkpoint_path, "weights"))
+            self.curr_valid_loss = validation_results["loss"]
+        self.valid_metrics.reset()
+        self.train_metrics.reset()
+
+    def test_loop(self, train=None, optimizer=None):  # no optimizer needed for GP
+        (x_support, y_support), (x_query, y_query) = self.get_support_and_queries(train)
+        z_support = self.feature_extractor(x_support).detach()
+        self.model.set_train_data(inputs=z_support, targets=y_support, strict=False)
+        self.model.eval()
+        self.feature_extractor.eval()
+        self.likelihood.eval()
+
+        with torch.no_grad():
+            z_query = self.feature_extractor(x_query).detach()
+            pred = self.likelihood(self.model(z_query))
+            loss = -self.mll(pred, y_query)
+            lower, upper = pred.confidence_region()  # 2 standard deviations above and below the mean
+
+        mse = self.mse(pred.mean, y_query)
+
+        return mse, loss
+
+    def get_batch(self, task, valid=False):
+
+        # we want to fit the gp given context info to new observations
+        #TODO: scale the response as in FSBO(needed for train)
+        Lambda, response = np.array(self.dataset_enc), np.array(self.acc)
+
+        inputs, labels = Lambda[task], response[task]
+        inputs, labels = totorch([inputs], device=self.device), totorch([labels], device=self.device)
+        return inputs, labels
+
+    def get_support_and_queries(self, task, train=False):
+
+        # TODO: scale the response as in FSBO(not necessary for test)
+        Lambda, response = np.array(self.dataset_enc_val), np.array(self.acc_val)
+        card, dim = Lambda.shape
+
+        support = RandomSupportGenerator.choice(np.arange(card),
+                                                replace=False, size=self.fixed_context_size)
+        indexes = RandomQueryGenerator.choice(
+            np.setdiff1d(np.arange(card), support), replace=False, size=self.minibatch_size)
+
+        support_x, support_y = Lambda[support], response[support]
+        query_x, query_y = Lambda[indexes], response[indexes]
+
+        return (totorch(support_x, self.device), totorch(support_y.reshape(-1, ), self.device)), \
+               (totorch(query_x, self.device), totorch(query_y.reshape(-1, ), self.device))
+
+    def save_checkpoint(self, checkpoint):
+        # save state
+        gp_state_dict = self.model.state_dict()
+        likelihood_state_dict = self.likelihood.state_dict()
+        nn_state_dict = self.feature_extractor.state_dict()
+        torch.save({'gp': gp_state_dict, 'likelihood': likelihood_state_dict, 'net': nn_state_dict}, checkpoint)
+
+    def load_checkpoint(self, checkpoint):
+        ckpt = torch.load(checkpoint)
+        self.model.load_state_dict(ckpt['gp'])
+        self.likelihood.load_state_dict(ckpt['likelihood'])
+        self.feature_extractor.load_state_dict(ckpt['net'])
+
+    def predict(self, x_support, y_support, x_query, y_query, GP_only=False):
+        if not GP_only:
+            z_support = self.feature_extractor(x_support).detach()
+        else:
+            z_support = x_support
+        self.model.set_train_data(inputs=z_support, targets=y_support, strict=False)
+        self.model.eval()
+        self.feature_extractor.eval()
+        self.likelihood.eval()
+
+        with torch.no_grad():
+            if not GP_only:
+                z_query = self.feature_extractor(x_query).detach()
+            else:
+                z_query = x_query
+            pred = self.likelihood(self.model(z_query))
+        mu = pred.mean.detach().to("cpu").numpy().reshape(-1, )
+        stddev = pred.stddev.detach().to("cpu").numpy().reshape(-1, )
+        return mu, stddev
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/README.md
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/README.md
@@ -0,0 +1,168 @@
+# Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets
+This code is for MobileNetV3 Search Space experiments
+
+
+## Prerequisites
+- Python 3.6 (Anaconda)
+- PyTorch 1.6.0
+- CUDA 10.2
+- python-igraph==0.8.2
+- tqdm==4.50.2
+- torchvision==0.7.0
+- python-igraph==0.8.2
+- scipy==1.5.2
+- ofa==0.0.4-2007200808
+
+
+## MobileNetV3 Search Space
+Go to the folder for MobileNetV3 experiments (i.e. ```MetaD2A_mobilenetV3```)
+
+The overall flow is summarized as follows:
+- Building database for Predictor
+- Meta-Training Predictor
+- Building database for Generator with trained Predictor
+- Meta-Training Generator
+- Meta-Testing (Searching)
+- Evaluating the Searched architecture
+
+
+## Data Preparation
+To download preprocessed data files, run ```get_files/get_preprocessed_data.py```: 
+```shell script
+$ python get_files/get_preprocessed_data.py
+```
+It will take some time to download and preprocess each dataset.
+
+
+## Meta Test and Evaluation
+### Meta-Test
+
+You can download trained checkpoint files for generator and predictor
+```shell script
+$ python get_files/get_generator_checkpoint.py
+$ python get_files/get_predictor_checkpoint.py
+```
+
+If you want to meta-test with your own dataset, please first make your own preprocessed data, 
+by modifying  ```process_dataset.py``` .
+```shell script
+$ process_dataset.py
+```
+
+This code automatically generates neural architecturess and then 
+selects high-performing architectures among the candidates.
+By setting ```--data-name``` as the name of dataset (i.e. ```cifar10```, ```cifar100```, ```aircraft100```, ```pets```), 
+you can evaluate the specific dataset.
+
+```shell script
+# Meta-testing
+$ python main.py --gpu 0 --model generator --hs 56 --nz 56 --test --load-epoch 120 --num-gen-arch 200 --data-name {DATASET_NAME}
+```
+
+### Arhictecture Evaluation (MetaD2A vs NSGANetV2)
+##### Dataset Preparation
+You need to download Oxford-IIIT Pet dataset to evaluate on ```--data-name pets```
+```shell script
+$ python get_files/get_pets.py
+```
+Every others ```cifar10```, ```cifar100```, ```aircraft100``` will be downloaded automatically.
+
+##### evaluation
+You can run the searched architecture by running ```evaluation/main```. Codes are based on NSGANetV2.
+
+Go to the evaluation folder (i.e. ```evaluation```)
+```shell script
+$ cd evaluation
+```
+
+This automatically run the top 1 predicted architecture derived by MetaD2A. 
+```shell script
+python main.py --data-name cifar10 --num-gen-arch 200
+```
+You can also give flop constraint by using ```bound``` option. 
+```shell script
+python main.py --data-name cifar10 --num-gen-arch 200 --bound 300
+```
+
+You can compare MetaD2A with NSGANetV2 
+but you need to download some files provided 
+by [NSGANetV2](https://github.com/human-analysis/nsganetv2)
+
+```shell script
+python main.py --data-name cifar10 --num-gen-arch 200 --model-config flops@232
+```
+
+
+## Meta-Training MetaD2A Model
+To build database for Meta-training, you need to set ```IMGNET_PATH```, which is a directory of ILSVRC2021.
+
+### Database Building for Predictor
+We recommend you to run the multiple ```create_database.sh``` simultaneously to build fast. 
+You need to set ```IMGNET_PATH``` in the shell script.
+```shell script
+# Examples
+bash create_database.sh 0,1,2,3 0 49 predictor
+bash create_database.sh all 50 99 predictor
+...
+```
+After enough dataset is gathered, run ```build_database.py``` to collect them as one file. 
+```shell script
+python build_database.py --model_name predictor --collect
+```
+
+We also provide the database we use. To download database, run ```get_files/get_predictor_database.py```: 
+```shell script
+$ python get_files/get_predictor_database.py
+```
+
+### Meta-Train Predictor
+You can train the predictor as follows
+```shell script
+# Meta-training for predictor
+$ python main.py --gpu 0 --model predictor --hs 512 --nz 56 
+```
+### Database Building for Generator
+We recommend you to run the multiple ```create_database.sh``` simultaneously to build fast.
+```shell script
+# Examples
+bash create_database.sh 4,5,6,7 0 49 generator
+bash create_database.sh all 50 99 generator
+...
+```
+After enough dataset is gathered, run ```build_database.py``` to collect them as one. 
+```shell script
+python build_database.py --model_name generator --collect
+```
+
+We also provide the database we use. To download database, run ```get_files/get_generator_database.py``` 
+```shell script
+$ python get_files/get_generator_database.py
+```
+
+
+### Meta-Train Generator
+You can train the generator as follows
+```shell script
+# Meta-training for generator
+$ python main.py --gpu 0 --model generator --hs 56 --nz 56 
+```
+
+
+
+## Citation
+If you found the provided code useful, please cite our work.
+```
+@inproceedings{
+    lee2021rapid,
+    title={Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets},
+    author={Hayeon Lee and Eunyoung Hyung and Sung Ju Hwang},
+    booktitle={ICLR},
+    year={2021}
+}
+```
+
+## Reference
+- [Set Transformer: A Framework for Attention-based Permutation-Invariant Neural Networks (ICML2019)](https://github.com/juho-lee/set_transformer)
+- [D-VAE: A Variational Autoencoder for Directed Acyclic Graphs, Advances in Neural Information Processing Systems (NeurIPS2019)](https://github.com/muhanzhang/D-VAE)
+- [Once for All: Train One Network and Specialize it for Efficient Deployment (ICLR2020)](https://github.com/mit-han-lab/once-for-all)
+- [NSGANetV2: Evolutionary Multi-Objective Surrogate-Assisted Neural Architecture Search (ECCV2020)](https://github.com/human-analysis/nsganetv2)
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/init.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/init.py
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/build_database.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/build_database.py
@@ -0,0 +1,49 @@
+###########################################################################################
+# Copyright (c) Hayeon Lee, Eunyoung Hyung [GitHub MetaD2A], 2021
+# Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets, ICLR 2021
+###########################################################################################
+import os
+import random
+import numpy as np
+import torch
+from parser import get_parser
+from predictor import PredictorModel
+from database import DatabaseOFA
+from utils import load_graph_config
+
+def main():
+	args = get_parser()
+	
+	if args.gpu == 'all':
+		device_list = range(torch.cuda.device_count())
+		args.gpu = ','.join(str(_) for _ in device_list)
+	else:
+		device_list = [int(_) for _ in args.gpu.split(',')]
+	os.environ['CUDA_VISIBLE_DEVICES'] = args.gpu
+	args.device = torch.device("cuda:0")
+	args.batch_size = args.batch_size * max(len(device_list), 1)
+
+	torch.cuda.manual_seed(args.seed)
+	torch.manual_seed(args.seed)
+	np.random.seed(args.seed)
+	random.seed(args.seed)
+	
+	args.model_path = os.path.join(args.save_path, args.model_name, 'model')
+	
+	if args.model_name == 'generator':
+		graph_config = load_graph_config(
+			args.graph_data_name, args.nvt, args.data_path)
+		model = PredictorModel(args, graph_config)
+		d = DatabaseOFA(args, model)
+	else:
+		d = DatabaseOFA(args)
+		
+	if args.collect:
+		d.collect_db()
+	else:
+		assert args.index is not None
+		assert args.imgnet is not None
+		d.make_db()
+
+if __name__ == '__main__':
+	main()
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/create_database.sh
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/create_database.sh
@@ -0,0 +1,15 @@
+#bash create_database.sh all predictor 0 49
+
+IMGNET_PATH='/w14/dataset/ILSVRC2012' # PUT YOUR ILSVRC2012 DIR
+
+for ((ind=$2;ind<=$3;ind++))
+do
+  python build_database.py --gpu $1 \
+               --model_name $4 \
+               --index $ind \
+               --imgnet $IMGNET_PATH \
+               --hs 512 \
+               --nz 56
+done
+
+
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/database/init.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/database/init.py
@@ -0,0 +1,5 @@
+###########################################################################################
+# Copyright (c) Hayeon Lee, Eunyoung Hyung [GitHub MetaD2A], 2021
+# Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets, ICLR 2021
+###########################################################################################
+from .db_ofa import DatabaseOFA
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/database/base_provider.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/database/base_provider.py
@@ -0,0 +1,57 @@
+######################################################################################
+# Copyright (c) Han Cai, Once for All, ICLR 2020 [GitHub OFA]
+# Modified by Hayeon Lee, Eunyoung Hyung, MetaD2A, ICLR2021, 2021. 03 [GitHub MetaD2A]
+######################################################################################
+
+import numpy as np
+import torch
+
+__all__ = ['DataProvider']
+
+
+class DataProvider:
+	SUB_SEED = 937162211  # random seed for sampling subset
+	VALID_SEED = 2147483647  # random seed for the validation set
+
+	@staticmethod
+	def name():
+		""" Return name of the dataset """
+		raise NotImplementedError
+
+	@property
+	def data_shape(self):
+		""" Return shape as python list of one data entry """
+		raise NotImplementedError
+
+	@property
+	def n_classes(self):
+		""" Return `int` of num classes """
+		raise NotImplementedError
+
+	@property
+	def save_path(self):
+		""" local path to save the data """
+		raise NotImplementedError
+
+	@property
+	def data_url(self):
+		""" link to download the data """
+		raise NotImplementedError
+
+	@staticmethod
+	def random_sample_valid_set(train_size, valid_size):
+		assert train_size > valid_size
+
+		g = torch.Generator()
+		g.manual_seed(DataProvider.VALID_SEED)  # set random seed before sampling validation set
+		rand_indexes = torch.randperm(train_size, generator=g).tolist()
+
+		valid_indexes = rand_indexes[:valid_size]
+		train_indexes = rand_indexes[valid_size:]
+		return train_indexes, valid_indexes
+
+	@staticmethod
+	def labels_to_one_hot(n_classes, labels):
+		new_labels = np.zeros((labels.shape[0], n_classes), dtype=np.float32)
+		new_labels[range(labels.shape[0]), labels] = np.ones(labels.shape)
+		return new_labels
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/database/db_ofa.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/database/db_ofa.py
@@ -0,0 +1,107 @@
+import os
+import torch
+import time
+import copy
+import glob
+from .imagenet import ImagenetDataProvider
+from .imagenet_loader import ImagenetRunConfig
+from .run_manager import RunManager
+from ofa.model_zoo import ofa_net
+
+
+class DatabaseOFA:
+	def __init__(self, args, predictor=None):
+		self.path = f'{args.data_path}/{args.model_name}'
+		self.model_name = args.model_name
+		self.index = args.index
+		self.args = args
+		self.predictor = predictor
+		ImagenetDataProvider.DEFAULT_PATH = args.imgnet
+		
+		if not os.path.exists(self.path):
+			os.makedirs(self.path)
+
+	def make_db(self):
+		self.ofa_network = ofa_net('ofa_mbv3_d234_e346_k357_w1.0', pretrained=True)
+		self.run_config = ImagenetRunConfig(test_batch_size=self.args.batch_size,
+		                                    n_worker=20)
+		database = []
+		st_time = time.time()
+		f = open(f'{self.path}/txt_{self.index}.txt', 'w')
+		for dn in range(10000):
+			best_pp = -1
+			best_info = None
+			dls = None
+			with torch.no_grad():
+				if self.model_name == 'generator':
+					for i in range(10):
+						net_setting = self.ofa_network.sample_active_subnet()
+						subnet = self.ofa_network.get_active_subnet(preserve_weight=True)
+						if i == 0:
+							run_manager = RunManager('.tmp/eval_subnet', self.args, subnet,
+							                         self.run_config, init=False, pp=self.predictor)
+							self.run_config.data_provider.assign_active_img_size(224)
+							dls = {j: copy.deepcopy(run_manager.data_loader) for j in range(1, 10)}
+						else:
+							run_manager = RunManager('.tmp/eval_subnet', self.args, subnet,
+							                         self.run_config,
+							                         init=False, data_loader=dls[i], pp=self.predictor)
+							run_manager.reset_running_statistics(net=subnet)
+						
+						loss, (top1, top5), pred_acc \
+							= run_manager.validate(net=subnet, net_setting=net_setting)
+						
+						if best_pp < pred_acc:
+							best_pp = pred_acc
+							print('[%d] class=%d,\t loss=%.5f,\t top1=%.1f,\t top5=%.1f' % (
+								dn, len(run_manager.cls_lst), loss, top1, top5))
+							info_dict = {'loss': loss,
+							             'top1': top1,
+							             'top5': top5,
+							             'net': net_setting,
+							             'class': run_manager.cls_lst,
+							             'params': run_manager.net_info['params'],
+							             'flops': run_manager.net_info['flops'],
+							             'test_transform': run_manager.test_transform
+							             }
+							best_info = info_dict
+				elif self.model_name == 'predictor':
+					net_setting = self.ofa_network.sample_active_subnet()
+					subnet = self.ofa_network.get_active_subnet(preserve_weight=True)
+					run_manager = RunManager('.tmp/eval_subnet', self.args, subnet, self.run_config, init=False)
+					self.run_config.data_provider.assign_active_img_size(224)
+					run_manager.reset_running_statistics(net=subnet)
+					
+					loss, (top1, top5), _ = run_manager.validate(net=subnet)
+					print('[%d] class=%d,\t loss=%.5f,\t top1=%.1f,\t top5=%.1f' % (
+						dn, len(run_manager.cls_lst), loss, top1, top5))
+					best_info = {'loss': loss,
+					             'top1': top1,
+					             'top5': top5,
+					             'net': net_setting,
+					             'class': run_manager.cls_lst,
+					             'params': run_manager.net_info['params'],
+					             'flops': run_manager.net_info['flops'],
+					             'test_transform': run_manager.test_transform
+					             }
+				database.append(best_info)
+				if (len(database)) % 10 == 0:
+					msg = f'{(time.time() - st_time) / 60.0:0.2f}(min) save {len(database)} database, {self.index} id'
+					print(msg)
+					f.write(msg + '\n')
+					f.flush()
+					torch.save(database, f'{self.path}/database_{self.index}.pt')
+					
+	def collect_db(self):
+		if not os.path.exists(self.path + f'/processed'):
+			os.makedirs(self.path + f'/processed')
+			
+		database = []
+		dlst = glob.glob(self.path + '/*.pt')
+		for filepath in dlst:
+			database += torch.load(filepath)
+		
+		assert len(database) != 0
+		
+		print(f'The number of database: {len(database)}')
+		torch.save(database, self.path + f'/processed/collected_database.pt')
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/database/imagenet.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/database/imagenet.py
@@ -0,0 +1,240 @@
+######################################################################################
+# Copyright (c) Han Cai, Once for All, ICLR 2020 [GitHub OFA]
+# Modified by Hayeon Lee, Eunyoung Hyung, MetaD2A, ICLR2021, 2021. 03 [GitHub MetaD2A]
+######################################################################################
+import warnings
+import os
+import torch
+import math
+import numpy as np
+import torch.utils.data
+import torchvision.transforms as transforms
+import torchvision.datasets as datasets
+
+from ofa_local.imagenet_classification.data_providers.base_provider import DataProvider
+from ofa_local.utils.my_dataloader import MyRandomResizedCrop, MyDistributedSampler
+from .metaloader import MetaImageNetDataset, EpisodeSampler, MetaDataLoader
+
+
+__all__ = ['ImagenetDataProvider']
+
+
+class ImagenetDataProvider(DataProvider):
+	DEFAULT_PATH = '/dataset/imagenet'
+
+	def __init__(self, save_path=None, train_batch_size=256, test_batch_size=512, valid_size=None, n_worker=32,
+	             resize_scale=0.08, distort_color=None, image_size=224,
+	             num_replicas=None, rank=None):
+		warnings.filterwarnings('ignore')
+		self._save_path = save_path
+
+		self.image_size = image_size  # int or list of int
+		self.distort_color = 'None' if distort_color is None else distort_color
+		self.resize_scale = resize_scale
+
+		self._valid_transform_dict = {}
+		if not isinstance(self.image_size, int):
+			from ofa.utils.my_dataloader import MyDataLoader
+			assert isinstance(self.image_size, list)
+			self.image_size.sort()  # e.g., 160 -> 224
+			MyRandomResizedCrop.IMAGE_SIZE_LIST = self.image_size.copy()
+			MyRandomResizedCrop.ACTIVE_SIZE = max(self.image_size)
+
+			for img_size in self.image_size:
+				self._valid_transform_dict[img_size] = self.build_valid_transform(img_size)
+			self.active_img_size = max(self.image_size)  # active resolution for test
+			valid_transforms = self._valid_transform_dict[self.active_img_size]
+			train_loader_class = MyDataLoader  # randomly sample image size for each batch of training image
+		else:
+			self.active_img_size = self.image_size
+			valid_transforms = self.build_valid_transform()
+			train_loader_class = torch.utils.data.DataLoader
+
+
+		########################## modification ########################
+		train_dataset = self.train_dataset(self.build_train_transform())
+
+		if valid_size is not None:
+			if not isinstance(valid_size, int):
+				assert isinstance(valid_size, float) and 0 < valid_size < 1
+				valid_size = int(len(train_dataset) * valid_size)
+
+			valid_dataset = self.train_dataset(valid_transforms)
+			train_indexes, valid_indexes = self.random_sample_valid_set(len(train_dataset), valid_size)
+			if num_replicas is not None:
+				train_sampler = MyDistributedSampler(train_dataset, num_replicas, rank, True, np.array(train_indexes))
+				valid_sampler = MyDistributedSampler(valid_dataset, num_replicas, rank, True, np.array(valid_indexes))
+			else:
+				train_sampler = torch.utils.data.sampler.SubsetRandomSampler(train_indexes)
+				valid_sampler = torch.utils.data.sampler.SubsetRandomSampler(valid_indexes)
+
+			self.train = train_loader_class(
+				train_dataset, batch_size=train_batch_size, sampler=train_sampler,
+				num_workers=n_worker, pin_memory=True,
+			)
+			self.valid = torch.utils.data.DataLoader(
+				valid_dataset, batch_size=test_batch_size, sampler=valid_sampler,
+				num_workers=n_worker, pin_memory=True,
+			)
+		else:
+			if num_replicas is not None:
+				train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset, num_replicas, rank)
+				self.train = train_loader_class(
+					train_dataset, batch_size=train_batch_size, sampler=train_sampler,
+					num_workers=n_worker, pin_memory=True
+				)
+			else:
+				self.train = train_loader_class(
+					train_dataset, batch_size=train_batch_size, shuffle=True, num_workers=n_worker, pin_memory=True,
+				)
+			self.valid = None
+
+		# test_dataset = self.test_dataset(valid_transforms)
+		test_dataset = self.meta_test_dataset(valid_transforms)
+		if num_replicas is not None:
+			test_sampler = torch.utils.data.distributed.DistributedSampler(test_dataset, num_replicas, rank)
+			self.test = torch.utils.data.DataLoader(
+				test_dataset, batch_size=test_batch_size, sampler=test_sampler, num_workers=n_worker, pin_memory=True,
+			)
+		else:
+			# self.test = torch.utils.data.DataLoader(
+			# 	test_dataset, batch_size=test_batch_size, shuffle=True, num_workers=n_worker, pin_memory=True,
+			# )
+			sampler = EpisodeSampler(
+						max_way=1000, query=10, ylst=test_dataset.ylst)
+			self.test = MetaDataLoader(dataset=test_dataset,
+                      					sampler=sampler,
+                      					batch_size=test_batch_size,
+                      					shuffle=False,
+                      					num_workers=4)
+
+		if self.valid is None:
+			self.valid = self.test
+
+	@staticmethod
+	def name():
+		return 'imagenet'
+
+	@property
+	def data_shape(self):
+		return 3, self.active_img_size, self.active_img_size  # C, H, W
+
+	@property
+	def n_classes(self):
+		return 1000
+
+	@property
+	def save_path(self):
+		if self._save_path is None:
+			self._save_path = self.DEFAULT_PATH
+			if not os.path.exists(self._save_path):
+				self._save_path = os.path.expanduser('~/dataset/imagenet')
+		return self._save_path
+
+	@property
+	def data_url(self):
+		raise ValueError('unable to download %s' % self.name())
+
+	def train_dataset(self, _transforms):
+		return datasets.ImageFolder(self.train_path, _transforms)
+
+	def test_dataset(self, _transforms):
+		return datasets.ImageFolder(self.valid_path, _transforms)
+
+	def meta_test_dataset(self, _transforms):
+		return MetaImageNetDataset('val', max_way=1000, query=10, 
+					dpath='/w14/dataset/ILSVRC2012', transform=_transforms)
+
+	@property
+	def train_path(self):
+		return os.path.join(self.save_path, 'train')
+
+	@property
+	def valid_path(self):
+		return os.path.join(self.save_path, 'val')
+
+	@property
+	def normalize(self):
+		return transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
+
+	def build_train_transform(self, image_size=None, print_log=True):
+		if image_size is None:
+			image_size = self.image_size
+		if print_log:
+			print('Color jitter: %s, resize_scale: %s, img_size: %s' %
+			      (self.distort_color, self.resize_scale, image_size))
+
+		if isinstance(image_size, list):
+			resize_transform_class = MyRandomResizedCrop
+			print('Use MyRandomResizedCrop: %s, \t %s' % MyRandomResizedCrop.get_candidate_image_size(),
+			      'sync=%s, continuous=%s' % (MyRandomResizedCrop.SYNC_DISTRIBUTED, MyRandomResizedCrop.CONTINUOUS))
+		else:
+			resize_transform_class = transforms.RandomResizedCrop
+
+		# random_resize_crop -> random_horizontal_flip
+		train_transforms = [
+			resize_transform_class(image_size, scale=(self.resize_scale, 1.0)),
+			transforms.RandomHorizontalFlip(),
+		]
+
+		# color augmentation (optional)
+		color_transform = None
+		if self.distort_color == 'torch':
+			color_transform = transforms.ColorJitter(brightness=0.4, contrast=0.4, saturation=0.4, hue=0.1)
+		elif self.distort_color == 'tf':
+			color_transform = transforms.ColorJitter(brightness=32. / 255., saturation=0.5)
+		if color_transform is not None:
+			train_transforms.append(color_transform)
+
+		train_transforms += [
+			transforms.ToTensor(),
+			self.normalize,
+		]
+
+		train_transforms = transforms.Compose(train_transforms)
+		return train_transforms
+
+	def build_valid_transform(self, image_size=None):
+		if image_size is None:
+			image_size = self.active_img_size
+		return transforms.Compose([
+			transforms.Resize(int(math.ceil(image_size / 0.875))),
+			transforms.CenterCrop(image_size),
+			transforms.ToTensor(),
+			self.normalize,
+		])
+
+	def assign_active_img_size(self, new_img_size):
+		self.active_img_size = new_img_size
+		if self.active_img_size not in self._valid_transform_dict:
+			self._valid_transform_dict[self.active_img_size] = self.build_valid_transform()
+		# change the transform of the valid and test set
+		self.valid.dataset.transform = self._valid_transform_dict[self.active_img_size]
+		self.test.dataset.transform = self._valid_transform_dict[self.active_img_size]
+
+	def build_sub_train_loader(self, n_images, batch_size, num_worker=None, num_replicas=None, rank=None):
+		# used for resetting BN running statistics
+		if self.__dict__.get('sub_train_%d' % self.active_img_size, None) is None:
+			if num_worker is None:
+				num_worker = self.train.num_workers
+
+			n_samples = len(self.train.dataset)
+			g = torch.Generator()
+			g.manual_seed(DataProvider.SUB_SEED)
+			rand_indexes = torch.randperm(n_samples, generator=g).tolist()
+
+			new_train_dataset = self.train_dataset(
+				self.build_train_transform(image_size=self.active_img_size, print_log=False))
+			chosen_indexes = rand_indexes[:n_images]
+			if num_replicas is not None:
+				sub_sampler = MyDistributedSampler(new_train_dataset, num_replicas, rank, True, np.array(chosen_indexes))
+			else:
+				sub_sampler = torch.utils.data.sampler.SubsetRandomSampler(chosen_indexes)
+			sub_data_loader = torch.utils.data.DataLoader(
+				new_train_dataset, batch_size=batch_size, sampler=sub_sampler,
+				num_workers=num_worker, pin_memory=True,
+			)
+			self.__dict__['sub_train_%d' % self.active_img_size] = []
+			for images, labels in sub_data_loader:
+				self.__dict__['sub_train_%d' % self.active_img_size].append((images, labels))
+		return self.__dict__['sub_train_%d' % self.active_img_size]
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/database/imagenet_loader.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/database/imagenet_loader.py
@@ -0,0 +1,40 @@
+from .imagenet import ImagenetDataProvider
+from ofa_local.imagenet_classification.run_manager import RunConfig
+
+
+__all__ = ['ImagenetRunConfig']
+
+
+class ImagenetRunConfig(RunConfig):
+
+	def __init__(self, n_epochs=150, init_lr=0.05, lr_schedule_type='cosine', lr_schedule_param=None,
+	             dataset='imagenet', train_batch_size=256, test_batch_size=500, valid_size=None,
+	             opt_type='sgd', opt_param=None, weight_decay=4e-5, label_smoothing=0.1, no_decay_keys=None,
+	             mixup_alpha=None, model_init='he_fout', validation_frequency=1, print_frequency=10,
+	             n_worker=32, resize_scale=0.08, distort_color='tf', image_size=224, **kwargs):
+		super(ImagenetRunConfig, self).__init__(
+			n_epochs, init_lr, lr_schedule_type, lr_schedule_param,
+			dataset, train_batch_size, test_batch_size, valid_size,
+			opt_type, opt_param, weight_decay, label_smoothing, no_decay_keys,
+			mixup_alpha,
+			model_init, validation_frequency, print_frequency
+		)
+
+		self.n_worker = n_worker
+		self.resize_scale = resize_scale
+		self.distort_color = distort_color
+		self.image_size = image_size
+
+	@property
+	def data_provider(self):
+		if self.__dict__.get('_data_provider', None) is None:
+			if self.dataset == ImagenetDataProvider.name():
+				DataProviderClass = ImagenetDataProvider
+			else:
+				raise NotImplementedError
+			self.__dict__['_data_provider'] = DataProviderClass(
+				train_batch_size=self.train_batch_size, test_batch_size=self.test_batch_size,
+				valid_size=self.valid_size, n_worker=self.n_worker, resize_scale=self.resize_scale,
+				distort_color=self.distort_color, image_size=self.image_size,
+			)
+		return self.__dict__['_data_provider']
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/database/metaloader.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/database/metaloader.py
@@ -0,0 +1,210 @@
+from torch.utils.data.sampler import Sampler
+import os
+import random
+from PIL import Image
+from collections import defaultdict
+import torch
+from torch.utils.data import Dataset, DataLoader
+import glob
+
+
+class RandCycleIter:
+  '''
+  Return data_list per class
+  Shuffle the returning order after one epoch
+  '''
+  def __init__ (self, data, shuffle=True):
+    self.data_list = list(data)
+    self.length = len(self.data_list)
+    self.i = self.length - 1
+    self.shuffle = shuffle
+
+  def __iter__ (self):
+    return self
+
+  def __next__ (self):
+    self.i += 1
+
+    if self.i == self.length:
+      self.i = 0
+      if self.shuffle:
+        random.shuffle(self.data_list)
+
+    return self.data_list[self.i]
+
+
+class EpisodeSampler(Sampler):
+  def __init__(self, max_way, query, ylst):
+    self.max_way = max_way
+    self.query = query
+    self.ylst = ylst
+    # self.n_epi = n_epi
+
+    clswise_xidx = defaultdict(list)
+    for i, y in enumerate(ylst):
+      clswise_xidx[y].append(i)
+    self.cws_xidx_iter = [RandCycleIter(cxidx, shuffle=True)
+                          for cxidx in clswise_xidx.values()]
+    self.n_cls = len(clswise_xidx)
+
+    self.create_episode()
+
+
+  def __iter__ (self):
+    return self.get_index()
+
+  def __len__ (self):
+    return self.get_len()
+
+  def create_episode(self):
+    self.way = torch.randperm(int(self.max_way/10.0)-1)[0] * 10 + 10
+    cls_lst = torch.sort(torch.randperm(self.max_way)[:self.way])[0]
+    self.cls_itr = iter(cls_lst)
+    self.cls_lst = cls_lst
+
+  def get_len(self):
+    return self.way * self.query
+
+  def get_index(self):
+    x_itr = self.cws_xidx_iter
+
+    i, j = 0, 0
+    while i < self.query * self.way:
+      if j >= self.query:
+        j = 0
+      if j == 0:
+        cls_idx = next(self.cls_itr).item()
+        bb = [x_itr[cls_idx]] * self.query
+        didx = next(zip(*bb))
+      yield didx[j]
+      # yield (didx[j], self.way)
+
+      i += 1; j += 1
+
+
+class MetaImageNetDataset(Dataset):
+  def __init__(self, mode='val', 
+        max_way=1000, query=10,
+          dpath='/w14/dataset/ILSVRC2012', transform=None):
+    self.dpath = dpath
+    self.transform = transform
+    self.mode = mode
+
+    self.max_way = max_way
+    self.query = query
+    classes, class_to_idx = self._find_classes(dpath+'/'+mode)
+    self.classes, self.class_to_idx = classes, class_to_idx
+    # self.class_folder_lst = \
+    #     glob.glob(dpath+'/'+mode+'/*')
+    # ## sorting alphabetically
+    # self.class_folder_lst = sorted(self.class_folder_lst)
+    self.file_path_lst, self.ylst = [], []
+    for cls in classes:
+      xlst = glob.glob(dpath+'/'+mode+'/'+cls+'/*')
+      self.file_path_lst += xlst[:self.query]
+      y = class_to_idx[cls]
+      self.ylst += [y] * len(xlst[:self.query])
+
+    # for y, cls in enumerate(self.class_folder_lst):
+    #   xlst = glob.glob(cls+'/*')
+    #   self.file_path_lst += xlst[:self.query]
+    #   self.ylst += [y] * len(xlst[:self.query])
+    #   # self.file_path_lst += [xlst[_] for _ in
+    #   #                torch.randperm(len(xlst))[:self.query]]
+    #   # self.ylst += [cls.split('/')[-1]] * len(xlst)
+
+    self.way_idx = 0
+    self.x_idx = 0
+    self.way = 2
+    self.cls_lst = None
+
+
+  def __len__(self):
+    return self.way * self.query 
+
+  def __getitem__(self, index):
+    # if self.way != index[1]:
+    #   self.way = index[1]
+    # index = index[0]
+
+    x = Image.open(
+          self.file_path_lst[index]).convert('RGB')
+
+    if self.transform is not None:
+      x = self.transform(x)
+    cls_name = self.ylst[index]
+    y = self.cls_lst.index(cls_name)
+    # y = self.way_idx
+    # self.x_idx += 1
+    # if self.x_idx == self.query:
+    #   self.way_idx += 1
+    #   self.x_idx = 0
+    # if self.way_idx == self.way:
+    #   self.way_idx = 0
+    #   self.x_idx = 0
+    return x, y #, cls_name # y # cls_name #y
+
+  def _find_classes(self, dir: str):
+      """
+      Finds the class folders in a dataset.
+
+      Args:
+          dir (string): Root directory path.
+
+      Returns:
+          tuple: (classes, class_to_idx) where classes are relative to (dir), and class_to_idx is a dictionary.
+
+      Ensures:
+          No class is a subdirectory of another.
+      """
+      classes = [d.name for d in os.scandir(dir) if d.is_dir()]
+      classes.sort()
+      class_to_idx = {cls_name: i for i, cls_name in enumerate(classes)}
+      return classes, class_to_idx
+
+
+class MetaDataLoader(DataLoader):
+  def __init__(self, 
+    dataset, sampler, batch_size, shuffle, num_workers):  
+    super(MetaDataLoader, self).__init__(
+                                dataset=dataset, 
+                                sampler=sampler, 
+                                batch_size=batch_size, 
+                                shuffle=shuffle, 
+                                num_workers=num_workers)
+
+
+  def create_episode(self):
+    self.sampler.create_episode()
+    self.dataset.way = self.sampler.way
+    self.dataset.cls_lst = self.sampler.cls_lst.tolist()
+
+
+  def get_cls_idx(self):
+    return self.sampler.cls_lst
+
+
+def get_loader(mode='val', way=10, query=10, 
+      n_epi=100, dpath='/w14/dataset/ILSVRC2012', 
+        transform=None):
+  trans = get_transforms(mode)
+  dataset = MetaImageNetDataset(mode, way, query, dpath, trans)
+  sampler = EpisodeSampler(
+    way, query, n_epi, dataset.ylst)
+  dataset.way = sampler.way
+  dataset.cls_lst = sampler.cls_lst
+  loader = MetaDataLoader(dataset=dataset,
+                      sampler=sampler,
+                      batch_size=10,
+                      shuffle=False,
+                      num_workers=4)
+  return loader
+
+# trloader = get_loader()
+
+# trloader.create_episode()
+# print(len(trloader))
+# print(trloader.dataset.way)
+# print(trloader.sampler.way)
+# for i, episode in enumerate(trloader, start=1):
+#   print(episode[2])
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/database/run_manager.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/database/run_manager.py
@@ -0,0 +1,302 @@
+######################################################################################
+# Copyright (c) Han Cai, Once for All, ICLR 2020 [GitHub OFA]
+# Modified by Hayeon Lee, Eunyoung Hyung, MetaD2A, ICLR2021, 2021. 03 [GitHub MetaD2A]
+######################################################################################
+import os
+import json
+import torch.nn as nn
+import torch.nn.parallel
+import torch.backends.cudnn as cudnn
+import torch.optim
+from tqdm import tqdm
+from utils import decode_ofa_mbv3_to_igraph
+from ofa_local.utils import get_net_info, cross_entropy_loss_with_soft_target, cross_entropy_with_label_smoothing
+from ofa_local.utils import AverageMeter, accuracy, write_log, mix_images, mix_labels, init_models
+
+__all__ = ['RunManager']
+import torchvision.models as models
+
+
+class RunManager:
+	
+	def __init__(self, path, args, net, run_config, init=True, measure_latency=None,
+	             no_gpu=False, data_loader=None, pp=None):
+		self.path = path
+		self.mode = args.model_name
+		self.net = net
+		self.run_config = run_config
+		
+		self.best_acc = 0
+		self.start_epoch = 0
+		
+		os.makedirs(self.path, exist_ok=True)
+		# dataloader
+		if data_loader is not None:
+			self.data_loader = data_loader
+			cls_lst = self.data_loader.get_cls_idx()
+			self.cls_lst = cls_lst
+		else:
+			self.data_loader = self.run_config.valid_loader
+			self.data_loader.create_episode()
+			cls_lst = self.data_loader.get_cls_idx()
+			self.cls_lst = cls_lst
+		
+		state_dict = self.net.classifier.state_dict()
+		new_state_dict = {'weight': state_dict['linear.weight'][cls_lst],
+		                  'bias': state_dict['linear.bias'][cls_lst]}
+		
+		self.net.classifier = nn.Linear(1280, len(cls_lst), bias=True)
+		self.net.classifier.load_state_dict(new_state_dict)
+		
+		# move network to GPU if available
+		if torch.cuda.is_available() and (not no_gpu):
+			self.device = torch.device('cuda:0')
+			self.net = self.net.to(self.device)
+			cudnn.benchmark = True
+		else:
+			self.device = torch.device('cpu')
+		
+		# net info
+		net_info = get_net_info(
+			self.net, self.run_config.data_provider.data_shape, measure_latency, False)
+		self.net_info = net_info
+		self.test_transform = self.run_config.data_provider.test.dataset.transform
+
+		# criterion
+		if isinstance(self.run_config.mixup_alpha, float):
+			self.train_criterion = cross_entropy_loss_with_soft_target
+		elif self.run_config.label_smoothing > 0:
+			self.train_criterion = \
+				lambda pred, target: cross_entropy_with_label_smoothing(pred, target, self.run_config.label_smoothing)
+		else:
+			self.train_criterion = nn.CrossEntropyLoss()
+		self.test_criterion = nn.CrossEntropyLoss()
+		
+		# optimizer
+		if self.run_config.no_decay_keys:
+			keys = self.run_config.no_decay_keys.split('#')
+			net_params = [
+				self.network.get_parameters(keys, mode='exclude'),  # parameters with weight decay
+				self.network.get_parameters(keys, mode='include'),  # parameters without weight decay
+			]
+		else:
+			# noinspection PyBroadException
+			try:
+				net_params = self.network.weight_parameters()
+			except Exception:
+				net_params = []
+				for param in self.network.parameters():
+					if param.requires_grad:
+						net_params.append(param)
+		self.optimizer = self.run_config.build_optimizer(net_params)
+		
+		self.net = torch.nn.DataParallel(self.net)
+		
+		if self.mode == 'generator':
+			# PP
+			save_dir = f'{args.save_path}/predictor/model/ckpt_max_corr.pt'
+
+			self.acc_predictor = pp.to('cuda')
+			self.acc_predictor.load_state_dict(torch.load(save_dir))
+			self.acc_predictor = torch.nn.DataParallel(self.acc_predictor)
+			model = models.resnet18(pretrained=True).eval()
+			feature_extractor = torch.nn.Sequential(*list(model.children())[:-1]).to(self.device)
+			self.feature_extractor = torch.nn.DataParallel(feature_extractor)
+	
+	""" save path and log path """
+	
+	@property
+	def save_path(self):
+		if self.__dict__.get('_save_path', None) is None:
+			save_path = os.path.join(self.path, 'checkpoint')
+			os.makedirs(save_path, exist_ok=True)
+			self.__dict__['_save_path'] = save_path
+		return self.__dict__['_save_path']
+	
+	@property
+	def logs_path(self):
+		if self.__dict__.get('_logs_path', None) is None:
+			logs_path = os.path.join(self.path, 'logs')
+			os.makedirs(logs_path, exist_ok=True)
+			self.__dict__['_logs_path'] = logs_path
+		return self.__dict__['_logs_path']
+	
+	@property
+	def network(self):
+		return self.net.module if isinstance(self.net, nn.DataParallel) else self.net
+	
+	def write_log(self, log_str, prefix='valid', should_print=True, mode='a'):
+		write_log(self.logs_path, log_str, prefix, should_print, mode)
+	
+	""" save and load models """
+	
+	def save_model(self, checkpoint=None, is_best=False, model_name=None):
+		if checkpoint is None:
+			checkpoint = {'state_dict': self.network.state_dict()}
+		
+		if model_name is None:
+			model_name = 'checkpoint.pth.tar'
+		
+		checkpoint['dataset'] = self.run_config.dataset  # add `dataset` info to the checkpoint
+		latest_fname = os.path.join(self.save_path, 'latest.txt')
+		model_path = os.path.join(self.save_path, model_name)
+		with open(latest_fname, 'w') as fout:
+			fout.write(model_path + '\n')
+		torch.save(checkpoint, model_path)
+		
+		if is_best:
+			best_path = os.path.join(self.save_path, 'model_best.pth.tar')
+			torch.save({'state_dict': checkpoint['state_dict']}, best_path)
+	
+	def load_model(self, model_fname=None):
+		latest_fname = os.path.join(self.save_path, 'latest.txt')
+		if model_fname is None and os.path.exists(latest_fname):
+			with open(latest_fname, 'r') as fin:
+				model_fname = fin.readline()
+				if model_fname[-1] == '\n':
+					model_fname = model_fname[:-1]
+		# noinspection PyBroadException
+		try:
+			if model_fname is None or not os.path.exists(model_fname):
+				model_fname = '%s/checkpoint.pth.tar' % self.save_path
+				with open(latest_fname, 'w') as fout:
+					fout.write(model_fname + '\n')
+			print("=> loading checkpoint '{}'".format(model_fname))
+			checkpoint = torch.load(model_fname, map_location='cpu')
+		except Exception:
+			print('fail to load checkpoint from %s' % self.save_path)
+			return {}
+		
+		self.network.load_state_dict(checkpoint['state_dict'])
+		if 'epoch' in checkpoint:
+			self.start_epoch = checkpoint['epoch'] + 1
+		if 'best_acc' in checkpoint:
+			self.best_acc = checkpoint['best_acc']
+		if 'optimizer' in checkpoint:
+			self.optimizer.load_state_dict(checkpoint['optimizer'])
+		
+		print("=> loaded checkpoint '{}'".format(model_fname))
+		return checkpoint
+	
+	def save_config(self, extra_run_config=None, extra_net_config=None):
+		""" dump run_config and net_config to the model_folder """
+		run_save_path = os.path.join(self.path, 'run.config')
+		if not os.path.isfile(run_save_path):
+			run_config = self.run_config.config
+			if extra_run_config is not None:
+				run_config.update(extra_run_config)
+			json.dump(run_config, open(run_save_path, 'w'), indent=4)
+			print('Run configs dump to %s' % run_save_path)
+		
+		try:
+			net_save_path = os.path.join(self.path, 'net.config')
+			net_config = self.network.config
+			if extra_net_config is not None:
+				net_config.update(extra_net_config)
+			json.dump(net_config, open(net_save_path, 'w'), indent=4)
+			print('Network configs dump to %s' % net_save_path)
+		except Exception:
+			print('%s do not support net config' % type(self.network))
+	
+	""" metric related """
+	
+	def get_metric_dict(self):
+		return {
+			'top1': AverageMeter(),
+			'top5': AverageMeter(),
+		}
+	
+	def update_metric(self, metric_dict, output, labels):
+		acc1, acc5 = accuracy(output, labels, topk=(1, 5))
+		metric_dict['top1'].update(acc1[0].item(), output.size(0))
+		metric_dict['top5'].update(acc5[0].item(), output.size(0))
+	
+	def get_metric_vals(self, metric_dict, return_dict=False):
+		if return_dict:
+			return {
+				key: metric_dict[key].avg for key in metric_dict
+			}
+		else:
+			return [metric_dict[key].avg for key in metric_dict]
+	
+	def get_metric_names(self):
+		return 'top1', 'top5'
+	
+	""" train and test """
+	def validate(self, epoch=0, is_test=False, run_str='', net=None,
+	             data_loader=None, no_logs=False, train_mode=False, net_setting=None):
+		if net is None:
+			net = self.net
+		if not isinstance(net, nn.DataParallel):
+			net = nn.DataParallel(net)
+		
+		if data_loader is not None:
+			self.data_loader = data_loader
+		
+		if train_mode:
+			net.train()
+		else:
+			net.eval()
+		
+		losses = AverageMeter()
+		metric_dict = self.get_metric_dict()
+		
+		features_stack = []
+		with torch.no_grad():
+			with tqdm(total=len(self.data_loader),
+			          desc='Validate Epoch #{} {}'.format(epoch + 1, run_str), disable=no_logs) as t:
+				for i, (images, labels) in enumerate(self.data_loader):
+					images, labels = images.to(self.device), labels.to(self.device)
+					if self.mode == 'generator':
+						features = self.feature_extractor(images).squeeze()
+						features_stack.append(features)
+					# compute output
+					output = net(images)
+					loss = self.test_criterion(output, labels)
+					# measure accuracy and record loss
+					self.update_metric(metric_dict, output, labels)
+					
+					losses.update(loss.item(), images.size(0))
+					t.set_postfix({
+						'loss': losses.avg,
+						**self.get_metric_vals(metric_dict, return_dict=True),
+						'img_size': images.size(2),
+					})
+					t.update(1)
+					
+		if self.mode == 'generator':
+			features_stack = torch.cat(features_stack)
+			igraph_g = decode_ofa_mbv3_to_igraph(net_setting)[0]
+			D_mu = self.acc_predictor.module.set_encode(features_stack.unsqueeze(0).to('cuda'))
+			G_mu = self.acc_predictor.module.graph_encode(igraph_g)
+			pred_acc = self.acc_predictor.module.predict(D_mu.unsqueeze(0), G_mu).item()
+			
+		return losses.avg, self.get_metric_vals(metric_dict), \
+		       pred_acc if self.mode == 'generator' else None
+	
+
+	def validate_all_resolution(self, epoch=0, is_test=False, net=None):
+		if net is None:
+			net = self.network
+		if isinstance(self.run_config.data_provider.image_size, list):
+			img_size_list, loss_list, top1_list, top5_list = [], [], [], []
+			for img_size in self.run_config.data_provider.image_size:
+				img_size_list.append(img_size)
+				self.run_config.data_provider.assign_active_img_size(img_size)
+				self.reset_running_statistics(net=net)
+				loss, (top1, top5) = self.validate(epoch, is_test, net=net)
+				loss_list.append(loss)
+				top1_list.append(top1)
+				top5_list.append(top5)
+			return img_size_list, loss_list, top1_list, top5_list
+		else:
+			loss, (top1, top5) = self.validate(epoch, is_test, net=net)
+			return [self.run_config.data_provider.active_img_size], [loss], [top1], [top5]
+	
+	def reset_running_statistics(self, net=None, subset_size=2000, subset_batch_size=200, data_loader=None):
+		from ofa_local.imagenet_classification.elastic_nn.utils import set_running_statistics
+		if net is None:
+			net = self.network
+		if data_loader is None:
+			data_loader = self.run_config.random_sub_train_loader(subset_size, subset_batch_size)
+		set_running_statistics(net, data_loader)
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/init.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/init.py
@@ -0,0 +1,4 @@
+######################################################################################
+# Copyright (c) Han Cai, Once for All, ICLR 2020 [GitHub OFA]
+# Modified by Hayeon Lee, Eunyoung Hyung, MetaD2A, ICLR2021, 2021. 03 [GitHub MetaD2A]
+######################################################################################
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/data_providers/init.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/data_providers/init.py
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/data_providers/aircraft.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/data_providers/aircraft.py
@@ -0,0 +1,401 @@
+from __future__ import print_function
+
+import os
+import math
+import warnings
+import numpy as np
+
+# from timm.data.transforms import _pil_interp
+from timm.data.auto_augment import rand_augment_transform
+
+import torch.utils.data
+import torchvision.transforms as transforms
+from torchvision.datasets.folder import default_loader
+
+from ofa.imagenet_codebase.data_providers.base_provider import DataProvider, MyRandomResizedCrop, MyDistributedSampler
+
+
+def make_dataset(dir, image_ids, targets):
+    assert(len(image_ids) == len(targets))
+    images = []
+    dir = os.path.expanduser(dir)
+    for i in range(len(image_ids)):
+        item = (os.path.join(dir, 'data', 'images',
+                             '%s.jpg' % image_ids[i]), targets[i])
+        images.append(item)
+    return images
+
+
+def find_classes(classes_file):
+    # read classes file, separating out image IDs and class names
+    image_ids = []
+    targets = []
+    f = open(classes_file, 'r')
+    for line in f:
+        split_line = line.split(' ')
+        image_ids.append(split_line[0])
+        targets.append(' '.join(split_line[1:]))
+    f.close()
+
+    # index class names
+    classes = np.unique(targets)
+    class_to_idx = {classes[i]: i for i in range(len(classes))}
+    targets = [class_to_idx[c] for c in targets]
+
+    return (image_ids, targets, classes, class_to_idx)
+
+
+class FGVCAircraft(torch.utils.data.Dataset):
+    """`FGVC-Aircraft <http://www.robots.ox.ac.uk/~vgg/data/fgvc-aircraft>`_ Dataset.
+    Args:
+        root (string): Root directory path to dataset.
+        class_type (string, optional): The level of FGVC-Aircraft fine-grain classification
+            to label data with (i.e., ``variant``, ``family``, or ``manufacturer``).
+        transform (callable, optional): A function/transform that takes in a PIL image
+            and returns a transformed version. E.g. ``transforms.RandomCrop``
+        target_transform (callable, optional): A function/transform that takes in the
+            target and transforms it.
+        loader (callable, optional): A function to load an image given its path.
+        download (bool, optional): If true, downloads the dataset from the internet and
+            puts it in the root directory. If dataset is already downloaded, it is not
+            downloaded again.
+    """
+    url = 'http://www.robots.ox.ac.uk/~vgg/data/fgvc-aircraft/archives/fgvc-aircraft-2013b.tar.gz'
+    class_types = ('variant', 'family', 'manufacturer')
+    splits = ('train', 'val', 'trainval', 'test')
+
+    def __init__(self, root, class_type='variant', split='train', transform=None,
+                 target_transform=None, loader=default_loader, download=False):
+        if split not in self.splits:
+            raise ValueError('Split "{}" not found. Valid splits are: {}'.format(
+                split, ', '.join(self.splits),
+            ))
+        if class_type not in self.class_types:
+            raise ValueError('Class type "{}" not found. Valid class types are: {}'.format(
+                class_type, ', '.join(self.class_types),
+            ))
+        self.root = os.path.expanduser(root)
+        self.class_type = class_type
+        self.split = split
+        self.classes_file = os.path.join(self.root, 'data',
+                                         'images_%s_%s.txt' % (self.class_type, self.split))
+
+        if download:
+            self.download()
+
+        (image_ids, targets, classes, class_to_idx) = find_classes(self.classes_file)
+        samples = make_dataset(self.root, image_ids, targets)
+
+        self.transform = transform
+        self.target_transform = target_transform
+        self.loader = loader
+
+        self.samples = samples
+        self.classes = classes
+        self.class_to_idx = class_to_idx
+
+    def __getitem__(self, index):
+        """
+        Args:
+            index (int): Index
+        Returns:
+            tuple: (sample, target) where target is class_index of the target class.
+        """
+
+        path, target = self.samples[index]
+        sample = self.loader(path)
+        if self.transform is not None:
+            sample = self.transform(sample)
+        if self.target_transform is not None:
+            target = self.target_transform(target)
+
+        return sample, target
+
+    def __len__(self):
+        return len(self.samples)
+
+    def __repr__(self):
+        fmt_str = 'Dataset ' + self.__class__.__name__ + '\n'
+        fmt_str += '    Number of datapoints: {}\n'.format(self.__len__())
+        fmt_str += '    Root Location: {}\n'.format(self.root)
+        tmp = '    Transforms (if any): '
+        fmt_str += '{0}{1}\n'.format(tmp, self.transform.__repr__().replace('\n', '\n' + ' ' * len(tmp)))
+        tmp = '    Target Transforms (if any): '
+        fmt_str += '{0}{1}'.format(tmp, self.target_transform.__repr__().replace('\n', '\n' + ' ' * len(tmp)))
+        return fmt_str
+
+    def _check_exists(self):
+        return os.path.exists(os.path.join(self.root, 'data', 'images')) and \
+            os.path.exists(self.classes_file)
+
+    def download(self):
+        """Download the FGVC-Aircraft data if it doesn't exist already."""
+        from six.moves import urllib
+        import tarfile
+
+        if self._check_exists():
+            return
+        
+        # prepare to download data to PARENT_DIR/fgvc-aircraft-2013.tar.gz
+        print('Downloading %s ... (may take a few minutes)' % self.url)
+        
+        parent_dir = os.path.abspath(os.path.join(self.root, os.pardir))
+        tar_name = self.url.rpartition('/')[-1]
+        tar_path = os.path.join(parent_dir, tar_name)
+        data = urllib.request.urlopen(self.url)
+
+        # download .tar.gz file
+        with open(tar_path, 'wb') as f:
+            f.write(data.read())
+
+        # extract .tar.gz to PARENT_DIR/fgvc-aircraft-2013b
+        data_folder = tar_path.strip('.tar.gz')
+        print('Extracting %s to %s ... (may take a few minutes)' % (tar_path, data_folder))
+        tar = tarfile.open(tar_path)
+        tar.extractall(parent_dir)
+
+        # if necessary, rename data folder to self.root
+        if not os.path.samefile(data_folder, self.root):
+            print('Renaming %s to %s ...' % (data_folder, self.root))
+            os.rename(data_folder, self.root)
+
+        # delete .tar.gz file
+        print('Deleting %s ...' % tar_path)
+        os.remove(tar_path)
+
+        print('Done!')
+
+
+class FGVCAircraftDataProvider(DataProvider):
+
+    def __init__(self, save_path=None, train_batch_size=32, test_batch_size=200, valid_size=None, n_worker=32,
+                 resize_scale=0.08, distort_color=None, image_size=224,
+                 num_replicas=None, rank=None):
+
+        warnings.filterwarnings('ignore')
+        self._save_path = save_path
+
+        self.image_size = image_size  # int or list of int
+        self.distort_color = distort_color
+        self.resize_scale = resize_scale
+
+        self._valid_transform_dict = {}
+        if not isinstance(self.image_size, int):
+            assert isinstance(self.image_size, list)
+            from ofa.imagenet_codebase.data_providers.my_data_loader import MyDataLoader
+            self.image_size.sort()  # e.g., 160 -> 224
+            MyRandomResizedCrop.IMAGE_SIZE_LIST = self.image_size.copy()
+            MyRandomResizedCrop.ACTIVE_SIZE = max(self.image_size)
+
+            for img_size in self.image_size:
+                self._valid_transform_dict[img_size] = self.build_valid_transform(img_size)
+            self.active_img_size = max(self.image_size)
+            valid_transforms = self._valid_transform_dict[self.active_img_size]
+            train_loader_class = MyDataLoader  # randomly sample image size for each batch of training image
+        else:
+            self.active_img_size = self.image_size
+            valid_transforms = self.build_valid_transform()
+            train_loader_class = torch.utils.data.DataLoader
+
+        train_transforms = self.build_train_transform()
+        train_dataset = self.train_dataset(train_transforms)
+
+        if valid_size is not None:
+            if not isinstance(valid_size, int):
+                assert isinstance(valid_size, float) and 0 < valid_size < 1
+                valid_size = int(len(train_dataset.samples) * valid_size)
+
+            valid_dataset = self.train_dataset(valid_transforms)
+            train_indexes, valid_indexes = self.random_sample_valid_set(len(train_dataset.samples), valid_size)
+
+            if num_replicas is not None:
+                train_sampler = MyDistributedSampler(train_dataset, num_replicas, rank, np.array(train_indexes))
+                valid_sampler = MyDistributedSampler(valid_dataset, num_replicas, rank, np.array(valid_indexes))
+            else:
+                train_sampler = torch.utils.data.sampler.SubsetRandomSampler(train_indexes)
+                valid_sampler = torch.utils.data.sampler.SubsetRandomSampler(valid_indexes)
+
+            self.train = train_loader_class(
+                train_dataset, batch_size=train_batch_size, sampler=train_sampler,
+                num_workers=n_worker, pin_memory=True,
+            )
+            self.valid = torch.utils.data.DataLoader(
+                valid_dataset, batch_size=test_batch_size, sampler=valid_sampler,
+                num_workers=n_worker, pin_memory=True,
+            )
+        else:
+            if num_replicas is not None:
+                train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset, num_replicas, rank)
+                self.train = train_loader_class(
+                    train_dataset, batch_size=train_batch_size, sampler=train_sampler,
+                    num_workers=n_worker, pin_memory=True
+                )
+            else:
+                self.train = train_loader_class(
+                    train_dataset, batch_size=train_batch_size, shuffle=True,
+                    num_workers=n_worker, pin_memory=True,
+                )
+            self.valid = None
+
+        test_dataset = self.test_dataset(valid_transforms)
+        if num_replicas is not None:
+            test_sampler = torch.utils.data.distributed.DistributedSampler(test_dataset, num_replicas, rank)
+            self.test = torch.utils.data.DataLoader(
+                test_dataset, batch_size=test_batch_size, sampler=test_sampler, num_workers=n_worker, pin_memory=True,
+            )
+        else:
+            self.test = torch.utils.data.DataLoader(
+                test_dataset, batch_size=test_batch_size, shuffle=True, num_workers=n_worker, pin_memory=True,
+            )
+
+        if self.valid is None:
+            self.valid = self.test
+
+    @staticmethod
+    def name():
+        return 'aircraft'
+
+    @property
+    def data_shape(self):
+        return 3, self.active_img_size, self.active_img_size  # C, H, W
+
+    @property
+    def n_classes(self):
+        return 100
+
+    @property
+    def save_path(self):
+        if self._save_path is None:
+            self._save_path = '/mnt/datastore/Aircraft'  # home server
+
+            if not os.path.exists(self._save_path):
+                self._save_path = '/mnt/datastore/Aircraft'  # home server
+        return self._save_path
+
+    @property
+    def data_url(self):
+        raise ValueError('unable to download %s' % self.name())
+
+    def train_dataset(self, _transforms):
+        # dataset = datasets.ImageFolder(self.train_path, _transforms)
+        dataset = FGVCAircraft(
+            root=self.train_path, split='trainval', download=True, transform=_transforms)
+        return dataset
+
+    def test_dataset(self, _transforms):
+        # dataset = datasets.ImageFolder(self.valid_path, _transforms)
+        dataset = FGVCAircraft(
+            root=self.valid_path, split='test', download=True, transform=_transforms)
+        return dataset
+
+    @property
+    def train_path(self):
+        return self.save_path
+
+    @property
+    def valid_path(self):
+        return self.save_path
+
+    @property
+    def normalize(self):
+        return transforms.Normalize(
+            mean=[0.48933587508932375, 0.5183537408957618, 0.5387914411673883],
+            std=[0.22388883112804625, 0.21641635409388751, 0.24615605842636115])
+
+    def build_train_transform(self, image_size=None, print_log=True, auto_augment='rand-m9-mstd0.5'):
+        if image_size is None:
+            image_size = self.image_size
+        # if print_log:
+        #     print('Color jitter: %s, resize_scale: %s, img_size: %s' %
+        #           (self.distort_color, self.resize_scale, image_size))
+
+        # if self.distort_color == 'torch':
+        #     color_transform = transforms.ColorJitter(brightness=0.4, contrast=0.4, saturation=0.4, hue=0.1)
+        # elif self.distort_color == 'tf':
+        #     color_transform = transforms.ColorJitter(brightness=32. / 255., saturation=0.5)
+        # else:
+        #     color_transform = None
+
+        if isinstance(image_size, list):
+            resize_transform_class = MyRandomResizedCrop
+            print('Use MyRandomResizedCrop: %s, \t %s' % MyRandomResizedCrop.get_candidate_image_size(),
+                  'sync=%s, continuous=%s' % (MyRandomResizedCrop.SYNC_DISTRIBUTED, MyRandomResizedCrop.CONTINUOUS))
+            img_size_min = min(image_size)
+        else:
+            resize_transform_class = transforms.RandomResizedCrop
+            img_size_min = image_size
+
+        train_transforms = [
+            resize_transform_class(image_size, scale=(self.resize_scale, 1.0)),
+            transforms.RandomHorizontalFlip(),
+        ]
+
+        aa_params = dict(
+            translate_const=int(img_size_min * 0.45),
+            img_mean=tuple([min(255, round(255 * x)) for x in [0.48933587508932375, 0.5183537408957618,
+                                                               0.5387914411673883]]),
+        )
+        aa_params['interpolation'] = transforms.Resize(image_size) # _pil_interp('bicubic')
+        train_transforms += [rand_augment_transform(auto_augment, aa_params)]
+
+        # if color_transform is not None:
+        #     train_transforms.append(color_transform)
+        train_transforms += [
+            transforms.ToTensor(),
+            self.normalize,
+        ]
+
+        train_transforms = transforms.Compose(train_transforms)
+        return train_transforms
+
+    def build_valid_transform(self, image_size=None):
+        if image_size is None:
+            image_size = self.active_img_size
+        return transforms.Compose([
+            transforms.Resize(int(math.ceil(image_size / 0.875))),
+            transforms.CenterCrop(image_size),
+            transforms.ToTensor(),
+            self.normalize,
+        ])
+
+    def assign_active_img_size(self, new_img_size):
+        self.active_img_size = new_img_size
+        if self.active_img_size not in self._valid_transform_dict:
+            self._valid_transform_dict[self.active_img_size] = self.build_valid_transform()
+        # change the transform of the valid and test set
+        self.valid.dataset.transform = self._valid_transform_dict[self.active_img_size]
+        self.test.dataset.transform = self._valid_transform_dict[self.active_img_size]
+
+    def build_sub_train_loader(self, n_images, batch_size, num_worker=None, num_replicas=None, rank=None):
+        # used for resetting running statistics
+        if self.__dict__.get('sub_train_%d' % self.active_img_size, None) is None:
+            if num_worker is None:
+                num_worker = self.train.num_workers
+
+            n_samples = len(self.train.dataset.samples)
+            g = torch.Generator()
+            g.manual_seed(DataProvider.SUB_SEED)
+            rand_indexes = torch.randperm(n_samples, generator=g).tolist()
+
+            new_train_dataset = self.train_dataset(
+                self.build_train_transform(image_size=self.active_img_size, print_log=False))
+            chosen_indexes = rand_indexes[:n_images]
+            if num_replicas is not None:
+                sub_sampler = MyDistributedSampler(new_train_dataset, num_replicas, rank, np.array(chosen_indexes))
+            else:
+                sub_sampler = torch.utils.data.sampler.SubsetRandomSampler(chosen_indexes)
+            sub_data_loader = torch.utils.data.DataLoader(
+                new_train_dataset, batch_size=batch_size, sampler=sub_sampler,
+                num_workers=num_worker, pin_memory=True,
+            )
+            self.__dict__['sub_train_%d' % self.active_img_size] = []
+            for images, labels in sub_data_loader:
+                self.__dict__['sub_train_%d' % self.active_img_size].append((images, labels))
+        return self.__dict__['sub_train_%d' % self.active_img_size]
+
+
+if __name__ == '__main__':
+    data = FGVCAircraft(root='/mnt/datastore/Aircraft',
+                        split='trainval', download=True)
+    print(len(data.classes))
+    print(len(data.samples))
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/data_providers/autoaugment.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/data_providers/autoaugment.py
@@ -0,0 +1,238 @@
+"""
+Taken from https://github.com/DeepVoltaire/AutoAugment/blob/master/autoaugment.py
+"""
+
+from PIL import Image, ImageEnhance, ImageOps
+import numpy as np
+import random
+
+
+class ImageNetPolicy(object):
+    """ Randomly choose one of the best 24 Sub-policies on ImageNet.
+
+        Example:
+        >>> policy = ImageNetPolicy()
+        >>> transformed = policy(image)
+
+        Example as a PyTorch Transform:
+        >>> transform=transforms.Compose([
+        >>>     transforms.Resize(256),
+        >>>     ImageNetPolicy(),
+        >>>     transforms.ToTensor()])
+    """
+    def __init__(self, fillcolor=(128, 128, 128)):
+        self.policies = [
+            SubPolicy(0.4, "posterize", 8, 0.6, "rotate", 9, fillcolor),
+            SubPolicy(0.6, "solarize", 5, 0.6, "autocontrast", 5, fillcolor),
+            SubPolicy(0.8, "equalize", 8, 0.6, "equalize", 3, fillcolor),
+            SubPolicy(0.6, "posterize", 7, 0.6, "posterize", 6, fillcolor),
+            SubPolicy(0.4, "equalize", 7, 0.2, "solarize", 4, fillcolor),
+
+            SubPolicy(0.4, "equalize", 4, 0.8, "rotate", 8, fillcolor),
+            SubPolicy(0.6, "solarize", 3, 0.6, "equalize", 7, fillcolor),
+            SubPolicy(0.8, "posterize", 5, 1.0, "equalize", 2, fillcolor),
+            SubPolicy(0.2, "rotate", 3, 0.6, "solarize", 8, fillcolor),
+            SubPolicy(0.6, "equalize", 8, 0.4, "posterize", 6, fillcolor),
+
+            SubPolicy(0.8, "rotate", 8, 0.4, "color", 0, fillcolor),
+            SubPolicy(0.4, "rotate", 9, 0.6, "equalize", 2, fillcolor),
+            SubPolicy(0.0, "equalize", 7, 0.8, "equalize", 8, fillcolor),
+            SubPolicy(0.6, "invert", 4, 1.0, "equalize", 8, fillcolor),
+            SubPolicy(0.6, "color", 4, 1.0, "contrast", 8, fillcolor),
+
+            SubPolicy(0.8, "rotate", 8, 1.0, "color", 2, fillcolor),
+            SubPolicy(0.8, "color", 8, 0.8, "solarize", 7, fillcolor),
+            SubPolicy(0.4, "sharpness", 7, 0.6, "invert", 8, fillcolor),
+            SubPolicy(0.6, "shearX", 5, 1.0, "equalize", 9, fillcolor),
+            SubPolicy(0.4, "color", 0, 0.6, "equalize", 3, fillcolor),
+
+            SubPolicy(0.4, "equalize", 7, 0.2, "solarize", 4, fillcolor),
+            SubPolicy(0.6, "solarize", 5, 0.6, "autocontrast", 5, fillcolor),
+            SubPolicy(0.6, "invert", 4, 1.0, "equalize", 8, fillcolor),
+            SubPolicy(0.6, "color", 4, 1.0, "contrast", 8, fillcolor),
+            SubPolicy(0.8, "equalize", 8, 0.6, "equalize", 3, fillcolor)
+        ]
+
+
+    def __call__(self, img):
+        policy_idx = random.randint(0, len(self.policies) - 1)
+        return self.policies[policy_idx](img)
+
+    def __repr__(self):
+        return "AutoAugment ImageNet Policy"
+
+
+class CIFAR10Policy(object):
+    """ Randomly choose one of the best 25 Sub-policies on CIFAR10.
+
+        Example:
+        >>> policy = CIFAR10Policy()
+        >>> transformed = policy(image)
+
+        Example as a PyTorch Transform:
+        >>> transform=transforms.Compose([
+        >>>     transforms.Resize(256),
+        >>>     CIFAR10Policy(),
+        >>>     transforms.ToTensor()])
+    """
+    def __init__(self, fillcolor=(128, 128, 128)):
+        self.policies = [
+            SubPolicy(0.1, "invert", 7, 0.2, "contrast", 6, fillcolor),
+            SubPolicy(0.7, "rotate", 2, 0.3, "translateX", 9, fillcolor),
+            SubPolicy(0.8, "sharpness", 1, 0.9, "sharpness", 3, fillcolor),
+            SubPolicy(0.5, "shearY", 8, 0.7, "translateY", 9, fillcolor),
+            SubPolicy(0.5, "autocontrast", 8, 0.9, "equalize", 2, fillcolor),
+
+            SubPolicy(0.2, "shearY", 7, 0.3, "posterize", 7, fillcolor),
+            SubPolicy(0.4, "color", 3, 0.6, "brightness", 7, fillcolor),
+            SubPolicy(0.3, "sharpness", 9, 0.7, "brightness", 9, fillcolor),
+            SubPolicy(0.6, "equalize", 5, 0.5, "equalize", 1, fillcolor),
+            SubPolicy(0.6, "contrast", 7, 0.6, "sharpness", 5, fillcolor),
+
+            SubPolicy(0.7, "color", 7, 0.5, "translateX", 8, fillcolor),
+            SubPolicy(0.3, "equalize", 7, 0.4, "autocontrast", 8, fillcolor),
+            SubPolicy(0.4, "translateY", 3, 0.2, "sharpness", 6, fillcolor),
+            SubPolicy(0.9, "brightness", 6, 0.2, "color", 8, fillcolor),
+            SubPolicy(0.5, "solarize", 2, 0.0, "invert", 3, fillcolor),
+
+            SubPolicy(0.2, "equalize", 0, 0.6, "autocontrast", 0, fillcolor),
+            SubPolicy(0.2, "equalize", 8, 0.6, "equalize", 4, fillcolor),
+            SubPolicy(0.9, "color", 9, 0.6, "equalize", 6, fillcolor),
+            SubPolicy(0.8, "autocontrast", 4, 0.2, "solarize", 8, fillcolor),
+            SubPolicy(0.1, "brightness", 3, 0.7, "color", 0, fillcolor),
+
+            SubPolicy(0.4, "solarize", 5, 0.9, "autocontrast", 3, fillcolor),
+            SubPolicy(0.9, "translateY", 9, 0.7, "translateY", 9, fillcolor),
+            SubPolicy(0.9, "autocontrast", 2, 0.8, "solarize", 3, fillcolor),
+            SubPolicy(0.8, "equalize", 8, 0.1, "invert", 3, fillcolor),
+            SubPolicy(0.7, "translateY", 9, 0.9, "autocontrast", 1, fillcolor)
+        ]
+
+
+    def __call__(self, img):
+        policy_idx = random.randint(0, len(self.policies) - 1)
+        return self.policies[policy_idx](img)
+
+    def __repr__(self):
+        return "AutoAugment CIFAR10 Policy"
+
+
+class SVHNPolicy(object):
+    """ Randomly choose one of the best 25 Sub-policies on SVHN.
+
+        Example:
+        >>> policy = SVHNPolicy()
+        >>> transformed = policy(image)
+
+        Example as a PyTorch Transform:
+        >>> transform=transforms.Compose([
+        >>>     transforms.Resize(256),
+        >>>     SVHNPolicy(),
+        >>>     transforms.ToTensor()])
+    """
+    def __init__(self, fillcolor=(128, 128, 128)):
+        self.policies = [
+            SubPolicy(0.9, "shearX", 4, 0.2, "invert", 3, fillcolor),
+            SubPolicy(0.9, "shearY", 8, 0.7, "invert", 5, fillcolor),
+            SubPolicy(0.6, "equalize", 5, 0.6, "solarize", 6, fillcolor),
+            SubPolicy(0.9, "invert", 3, 0.6, "equalize", 3, fillcolor),
+            SubPolicy(0.6, "equalize", 1, 0.9, "rotate", 3, fillcolor),
+
+            SubPolicy(0.9, "shearX", 4, 0.8, "autocontrast", 3, fillcolor),
+            SubPolicy(0.9, "shearY", 8, 0.4, "invert", 5, fillcolor),
+            SubPolicy(0.9, "shearY", 5, 0.2, "solarize", 6, fillcolor),
+            SubPolicy(0.9, "invert", 6, 0.8, "autocontrast", 1, fillcolor),
+            SubPolicy(0.6, "equalize", 3, 0.9, "rotate", 3, fillcolor),
+
+            SubPolicy(0.9, "shearX", 4, 0.3, "solarize", 3, fillcolor),
+            SubPolicy(0.8, "shearY", 8, 0.7, "invert", 4, fillcolor),
+            SubPolicy(0.9, "equalize", 5, 0.6, "translateY", 6, fillcolor),
+            SubPolicy(0.9, "invert", 4, 0.6, "equalize", 7, fillcolor),
+            SubPolicy(0.3, "contrast", 3, 0.8, "rotate", 4, fillcolor),
+
+            SubPolicy(0.8, "invert", 5, 0.0, "translateY", 2, fillcolor),
+            SubPolicy(0.7, "shearY", 6, 0.4, "solarize", 8, fillcolor),
+            SubPolicy(0.6, "invert", 4, 0.8, "rotate", 4, fillcolor),
+            SubPolicy(0.3, "shearY", 7, 0.9, "translateX", 3, fillcolor),
+            SubPolicy(0.1, "shearX", 6, 0.6, "invert", 5, fillcolor),
+
+            SubPolicy(0.7, "solarize", 2, 0.6, "translateY", 7, fillcolor),
+            SubPolicy(0.8, "shearY", 4, 0.8, "invert", 8, fillcolor),
+            SubPolicy(0.7, "shearX", 9, 0.8, "translateY", 3, fillcolor),
+            SubPolicy(0.8, "shearY", 5, 0.7, "autocontrast", 3, fillcolor),
+            SubPolicy(0.7, "shearX", 2, 0.1, "invert", 5, fillcolor)
+        ]
+
+
+    def __call__(self, img):
+        policy_idx = random.randint(0, len(self.policies) - 1)
+        return self.policies[policy_idx](img)
+
+    def __repr__(self):
+        return "AutoAugment SVHN Policy"
+
+
+class SubPolicy(object):
+    def __init__(self, p1, operation1, magnitude_idx1, p2, operation2, magnitude_idx2, fillcolor=(128, 128, 128)):
+        ranges = {
+            "shearX": np.linspace(0, 0.3, 10),
+            "shearY": np.linspace(0, 0.3, 10),
+            "translateX": np.linspace(0, 150 / 331, 10),
+            "translateY": np.linspace(0, 150 / 331, 10),
+            "rotate": np.linspace(0, 30, 10),
+            "color": np.linspace(0.0, 0.9, 10),
+            "posterize": np.round(np.linspace(8, 4, 10), 0).astype(np.int),
+            "solarize": np.linspace(256, 0, 10),
+            "contrast": np.linspace(0.0, 0.9, 10),
+            "sharpness": np.linspace(0.0, 0.9, 10),
+            "brightness": np.linspace(0.0, 0.9, 10),
+            "autocontrast": [0] * 10,
+            "equalize": [0] * 10,
+            "invert": [0] * 10
+        }
+
+        # from https://stackoverflow.com/questions/5252170/specify-image-filling-color-when-rotating-in-python-with-pil-and-setting-expand
+        def rotate_with_fill(img, magnitude):
+            rot = img.convert("RGBA").rotate(magnitude)
+            return Image.composite(rot, Image.new("RGBA", rot.size, (128,) * 4), rot).convert(img.mode)
+
+        func = {
+            "shearX": lambda img, magnitude: img.transform(
+                img.size, Image.AFFINE, (1, magnitude * random.choice([-1, 1]), 0, 0, 1, 0),
+                Image.BICUBIC, fillcolor=fillcolor),
+            "shearY": lambda img, magnitude: img.transform(
+                img.size, Image.AFFINE, (1, 0, 0, magnitude * random.choice([-1, 1]), 1, 0),
+                Image.BICUBIC, fillcolor=fillcolor),
+            "translateX": lambda img, magnitude: img.transform(
+                img.size, Image.AFFINE, (1, 0, magnitude * img.size[0] * random.choice([-1, 1]), 0, 1, 0),
+                fillcolor=fillcolor),
+            "translateY": lambda img, magnitude: img.transform(
+                img.size, Image.AFFINE, (1, 0, 0, 0, 1, magnitude * img.size[1] * random.choice([-1, 1])),
+                fillcolor=fillcolor),
+            "rotate": lambda img, magnitude: rotate_with_fill(img, magnitude),
+            "color": lambda img, magnitude: ImageEnhance.Color(img).enhance(1 + magnitude * random.choice([-1, 1])),
+            "posterize": lambda img, magnitude: ImageOps.posterize(img, magnitude),
+            "solarize": lambda img, magnitude: ImageOps.solarize(img, magnitude),
+            "contrast": lambda img, magnitude: ImageEnhance.Contrast(img).enhance(
+                1 + magnitude * random.choice([-1, 1])),
+            "sharpness": lambda img, magnitude: ImageEnhance.Sharpness(img).enhance(
+                1 + magnitude * random.choice([-1, 1])),
+            "brightness": lambda img, magnitude: ImageEnhance.Brightness(img).enhance(
+                1 + magnitude * random.choice([-1, 1])),
+            "autocontrast": lambda img, magnitude: ImageOps.autocontrast(img),
+            "equalize": lambda img, magnitude: ImageOps.equalize(img),
+            "invert": lambda img, magnitude: ImageOps.invert(img)
+        }
+
+        self.p1 = p1
+        self.operation1 = func[operation1]
+        self.magnitude1 = ranges[operation1][magnitude_idx1]
+        self.p2 = p2
+        self.operation2 = func[operation2]
+        self.magnitude2 = ranges[operation2][magnitude_idx2]
+
+
+    def __call__(self, img):
+        if random.random() < self.p1: img = self.operation1(img, self.magnitude1)
+        if random.random() < self.p2: img = self.operation2(img, self.magnitude2)
+        return img
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/data_providers/cifar.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/data_providers/cifar.py
@@ -0,0 +1,657 @@
+import os
+import math
+import numpy as np
+
+import torchvision
+import torch.utils.data
+import torchvision.transforms as transforms
+
+from ofa.imagenet_codebase.data_providers.base_provider import DataProvider, MyRandomResizedCrop, MyDistributedSampler
+
+
+class CIFAR10DataProvider(DataProvider):
+    
+    def __init__(self, save_path=None, train_batch_size=96, test_batch_size=256, valid_size=None,
+                 n_worker=2, resize_scale=0.08, distort_color=None, image_size=224, num_replicas=None, rank=None):
+
+        self._save_path = save_path
+        
+        self.image_size = image_size  # int or list of int
+        self.distort_color = distort_color
+        self.resize_scale = resize_scale
+
+        self._valid_transform_dict = {}
+        if not isinstance(self.image_size, int):
+            assert isinstance(self.image_size, list)
+            from ofa.imagenet_codebase.data_providers.my_data_loader import MyDataLoader
+            self.image_size.sort()  # e.g., 160 -> 224
+            MyRandomResizedCrop.IMAGE_SIZE_LIST = self.image_size.copy()
+            MyRandomResizedCrop.ACTIVE_SIZE = max(self.image_size)
+
+            for img_size in self.image_size:
+                self._valid_transform_dict[img_size] = self.build_valid_transform(img_size)
+            self.active_img_size = max(self.image_size)
+            valid_transforms = self._valid_transform_dict[self.active_img_size]
+            train_loader_class = MyDataLoader  # randomly sample image size for each batch of training image
+        else:
+            self.active_img_size = self.image_size
+            valid_transforms = self.build_valid_transform()
+            train_loader_class = torch.utils.data.DataLoader
+
+        train_transforms = self.build_train_transform()
+        train_dataset = self.train_dataset(train_transforms)
+        
+        if valid_size is not None:
+            if not isinstance(valid_size, int):
+                assert isinstance(valid_size, float) and 0 < valid_size < 1
+                valid_size = int(len(train_dataset.data) * valid_size)
+            
+            valid_dataset = self.train_dataset(valid_transforms)
+            train_indexes, valid_indexes = self.random_sample_valid_set(len(train_dataset.data), valid_size)
+            
+            if num_replicas is not None:
+                train_sampler = MyDistributedSampler(train_dataset, num_replicas, rank, np.array(train_indexes))
+                valid_sampler = MyDistributedSampler(valid_dataset, num_replicas, rank, np.array(valid_indexes))
+            else:
+                train_sampler = torch.utils.data.sampler.SubsetRandomSampler(train_indexes)
+                valid_sampler = torch.utils.data.sampler.SubsetRandomSampler(valid_indexes)
+            
+            self.train = train_loader_class(
+                train_dataset, batch_size=train_batch_size, sampler=train_sampler,
+                num_workers=n_worker, pin_memory=True,
+            )
+            self.valid = torch.utils.data.DataLoader(
+                valid_dataset, batch_size=test_batch_size, sampler=valid_sampler,
+                num_workers=n_worker, pin_memory=True,
+            )
+        else:
+            if num_replicas is not None:
+                train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset, num_replicas, rank)
+                self.train = train_loader_class(
+                    train_dataset, batch_size=train_batch_size, sampler=train_sampler,
+                    num_workers=n_worker, pin_memory=True
+                )
+            else:
+                self.train = train_loader_class(
+                    train_dataset, batch_size=train_batch_size, shuffle=True,
+                    num_workers=n_worker, pin_memory=True,
+                )
+            self.valid = None
+        
+        test_dataset = self.test_dataset(valid_transforms)
+        if num_replicas is not None:
+            test_sampler = torch.utils.data.distributed.DistributedSampler(test_dataset, num_replicas, rank)
+            self.test = torch.utils.data.DataLoader(
+                test_dataset, batch_size=test_batch_size, sampler=test_sampler, num_workers=n_worker, pin_memory=True,
+            )
+        else:
+            self.test = torch.utils.data.DataLoader(
+                test_dataset, batch_size=test_batch_size, shuffle=True, num_workers=n_worker, pin_memory=True,
+            )
+        
+        if self.valid is None:
+            self.valid = self.test
+    
+    @staticmethod
+    def name():
+        return 'cifar10'
+    
+    @property
+    def data_shape(self):
+        return 3, self.active_img_size, self.active_img_size  # C, H, W
+    
+    @property
+    def n_classes(self):
+        return 10
+    
+    @property
+    def save_path(self):
+        if self._save_path is None:
+            self._save_path = '/mnt/datastore/CIFAR'  # home server
+
+            if not os.path.exists(self._save_path):
+                self._save_path = '/mnt/datastore/CIFAR'  # home server
+        return self._save_path
+    
+    @property
+    def data_url(self):
+        raise ValueError('unable to download %s' % self.name())
+    
+    def train_dataset(self, _transforms):
+        # dataset = datasets.ImageFolder(self.train_path, _transforms)
+        dataset = torchvision.datasets.CIFAR10(
+            root=self.valid_path, train=True, download=False, transform=_transforms)
+        return dataset
+    
+    def test_dataset(self, _transforms):
+        # dataset = datasets.ImageFolder(self.valid_path, _transforms)
+        dataset = torchvision.datasets.CIFAR10(
+            root=self.valid_path, train=False, download=False, transform=_transforms)
+        return dataset
+    
+    @property
+    def train_path(self):
+        # return os.path.join(self.save_path, 'train')
+        return self.save_path
+    
+    @property
+    def valid_path(self):
+        # return os.path.join(self.save_path, 'val')
+        return self.save_path
+    
+    @property
+    def normalize(self):
+        return transforms.Normalize(
+            mean=[0.49139968, 0.48215827, 0.44653124], std=[0.24703233, 0.24348505, 0.26158768])
+    
+    def build_train_transform(self, image_size=None, print_log=True):
+        if image_size is None:
+            image_size = self.image_size
+        if print_log:
+            print('Color jitter: %s, resize_scale: %s, img_size: %s' %
+                  (self.distort_color, self.resize_scale, image_size))
+
+        if self.distort_color == 'torch':
+            color_transform = transforms.ColorJitter(brightness=0.4, contrast=0.4, saturation=0.4, hue=0.1)
+        elif self.distort_color == 'tf':
+            color_transform = transforms.ColorJitter(brightness=32. / 255., saturation=0.5)
+        else:
+            color_transform = None
+        
+        if isinstance(image_size, list):
+            resize_transform_class = MyRandomResizedCrop
+            print('Use MyRandomResizedCrop: %s, \t %s' % MyRandomResizedCrop.get_candidate_image_size(),
+                  'sync=%s, continuous=%s' % (MyRandomResizedCrop.SYNC_DISTRIBUTED, MyRandomResizedCrop.CONTINUOUS))
+        else:
+            resize_transform_class = transforms.RandomResizedCrop
+
+        train_transforms = [
+            resize_transform_class(image_size, scale=(self.resize_scale, 1.0)),
+            transforms.RandomHorizontalFlip(),
+        ]
+        if color_transform is not None:
+            train_transforms.append(color_transform)
+        train_transforms += [
+            transforms.ToTensor(),
+            self.normalize,
+        ]
+
+        train_transforms = transforms.Compose(train_transforms)
+        return train_transforms
+
+    def build_valid_transform(self, image_size=None):
+        if image_size is None:
+            image_size = self.active_img_size
+        return transforms.Compose([
+            transforms.Resize(int(math.ceil(image_size / 0.875))),
+            transforms.CenterCrop(image_size),
+            transforms.ToTensor(),
+            self.normalize,
+        ])
+
+    def assign_active_img_size(self, new_img_size):
+        self.active_img_size = new_img_size
+        if self.active_img_size not in self._valid_transform_dict:
+            self._valid_transform_dict[self.active_img_size] = self.build_valid_transform()
+        # change the transform of the valid and test set
+        self.valid.dataset.transform = self._valid_transform_dict[self.active_img_size]
+        self.test.dataset.transform = self._valid_transform_dict[self.active_img_size]
+    
+    def build_sub_train_loader(self, n_images, batch_size, num_worker=None, num_replicas=None, rank=None):
+        # used for resetting running statistics
+        if self.__dict__.get('sub_train_%d' % self.active_img_size, None) is None:
+            if num_worker is None:
+                num_worker = self.train.num_workers
+            
+            n_samples = len(self.train.dataset.data)
+            g = torch.Generator()
+            g.manual_seed(DataProvider.SUB_SEED)
+            rand_indexes = torch.randperm(n_samples, generator=g).tolist()
+            
+            new_train_dataset = self.train_dataset(
+                self.build_train_transform(image_size=self.active_img_size, print_log=False))
+            chosen_indexes = rand_indexes[:n_images]
+            if num_replicas is not None:
+                sub_sampler = MyDistributedSampler(new_train_dataset, num_replicas, rank, np.array(chosen_indexes))
+            else:
+                sub_sampler = torch.utils.data.sampler.SubsetRandomSampler(chosen_indexes)
+            sub_data_loader = torch.utils.data.DataLoader(
+                new_train_dataset, batch_size=batch_size, sampler=sub_sampler,
+                num_workers=num_worker, pin_memory=True,
+            )
+            self.__dict__['sub_train_%d' % self.active_img_size] = []
+            for images, labels in sub_data_loader:
+                self.__dict__['sub_train_%d' % self.active_img_size].append((images, labels))
+        return self.__dict__['sub_train_%d' % self.active_img_size]
+
+
+class CIFAR100DataProvider(DataProvider):
+
+    def __init__(self, save_path=None, train_batch_size=96, test_batch_size=256, valid_size=None,
+                 n_worker=2, resize_scale=0.08, distort_color=None, image_size=224, num_replicas=None, rank=None):
+
+        self._save_path = save_path
+
+        self.image_size = image_size  # int or list of int
+        self.distort_color = distort_color
+        self.resize_scale = resize_scale
+
+        self._valid_transform_dict = {}
+        if not isinstance(self.image_size, int):
+            assert isinstance(self.image_size, list)
+            from ofa.imagenet_codebase.data_providers.my_data_loader import MyDataLoader
+            self.image_size.sort()  # e.g., 160 -> 224
+            MyRandomResizedCrop.IMAGE_SIZE_LIST = self.image_size.copy()
+            MyRandomResizedCrop.ACTIVE_SIZE = max(self.image_size)
+
+            for img_size in self.image_size:
+                self._valid_transform_dict[img_size] = self.build_valid_transform(img_size)
+            self.active_img_size = max(self.image_size)
+            valid_transforms = self._valid_transform_dict[self.active_img_size]
+            train_loader_class = MyDataLoader  # randomly sample image size for each batch of training image
+        else:
+            self.active_img_size = self.image_size
+            valid_transforms = self.build_valid_transform()
+            train_loader_class = torch.utils.data.DataLoader
+
+        train_transforms = self.build_train_transform()
+        train_dataset = self.train_dataset(train_transforms)
+
+        if valid_size is not None:
+            if not isinstance(valid_size, int):
+                assert isinstance(valid_size, float) and 0 < valid_size < 1
+                valid_size = int(len(train_dataset.data) * valid_size)
+
+            valid_dataset = self.train_dataset(valid_transforms)
+            train_indexes, valid_indexes = self.random_sample_valid_set(len(train_dataset.data), valid_size)
+
+            if num_replicas is not None:
+                train_sampler = MyDistributedSampler(train_dataset, num_replicas, rank, np.array(train_indexes))
+                valid_sampler = MyDistributedSampler(valid_dataset, num_replicas, rank, np.array(valid_indexes))
+            else:
+                train_sampler = torch.utils.data.sampler.SubsetRandomSampler(train_indexes)
+                valid_sampler = torch.utils.data.sampler.SubsetRandomSampler(valid_indexes)
+
+            self.train = train_loader_class(
+                train_dataset, batch_size=train_batch_size, sampler=train_sampler,
+                num_workers=n_worker, pin_memory=True,
+            )
+            self.valid = torch.utils.data.DataLoader(
+                valid_dataset, batch_size=test_batch_size, sampler=valid_sampler,
+                num_workers=n_worker, pin_memory=True,
+            )
+        else:
+            if num_replicas is not None:
+                train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset, num_replicas, rank)
+                self.train = train_loader_class(
+                    train_dataset, batch_size=train_batch_size, sampler=train_sampler,
+                    num_workers=n_worker, pin_memory=True
+                )
+            else:
+                self.train = train_loader_class(
+                    train_dataset, batch_size=train_batch_size, shuffle=True,
+                    num_workers=n_worker, pin_memory=True,
+                )
+            self.valid = None
+
+        test_dataset = self.test_dataset(valid_transforms)
+        if num_replicas is not None:
+            test_sampler = torch.utils.data.distributed.DistributedSampler(test_dataset, num_replicas, rank)
+            self.test = torch.utils.data.DataLoader(
+                test_dataset, batch_size=test_batch_size, sampler=test_sampler, num_workers=n_worker, pin_memory=True,
+            )
+        else:
+            self.test = torch.utils.data.DataLoader(
+                test_dataset, batch_size=test_batch_size, shuffle=True, num_workers=n_worker, pin_memory=True,
+            )
+
+        if self.valid is None:
+            self.valid = self.test
+
+    @staticmethod
+    def name():
+        return 'cifar100'
+
+    @property
+    def data_shape(self):
+        return 3, self.active_img_size, self.active_img_size  # C, H, W
+
+    @property
+    def n_classes(self):
+        return 100
+
+    @property
+    def save_path(self):
+        if self._save_path is None:
+            self._save_path = '/mnt/datastore/CIFAR'  # home server
+
+            if not os.path.exists(self._save_path):
+                self._save_path = '/mnt/datastore/CIFAR'  # home server
+        return self._save_path
+
+    @property
+    def data_url(self):
+        raise ValueError('unable to download %s' % self.name())
+
+    def train_dataset(self, _transforms):
+        # dataset = datasets.ImageFolder(self.train_path, _transforms)
+        dataset = torchvision.datasets.CIFAR100(
+            root=self.valid_path, train=True, download=False, transform=_transforms)
+        return dataset
+
+    def test_dataset(self, _transforms):
+        # dataset = datasets.ImageFolder(self.valid_path, _transforms)
+        dataset = torchvision.datasets.CIFAR100(
+            root=self.valid_path, train=False, download=False, transform=_transforms)
+        return dataset
+
+    @property
+    def train_path(self):
+        # return os.path.join(self.save_path, 'train')
+        return self.save_path
+
+    @property
+    def valid_path(self):
+        # return os.path.join(self.save_path, 'val')
+        return self.save_path
+
+    @property
+    def normalize(self):
+        return transforms.Normalize(
+            mean=[0.49139968, 0.48215827, 0.44653124], std=[0.24703233, 0.24348505, 0.26158768])
+
+    def build_train_transform(self, image_size=None, print_log=True):
+        if image_size is None:
+            image_size = self.image_size
+        if print_log:
+            print('Color jitter: %s, resize_scale: %s, img_size: %s' %
+                  (self.distort_color, self.resize_scale, image_size))
+
+        if self.distort_color == 'torch':
+            color_transform = transforms.ColorJitter(brightness=0.4, contrast=0.4, saturation=0.4, hue=0.1)
+        elif self.distort_color == 'tf':
+            color_transform = transforms.ColorJitter(brightness=32. / 255., saturation=0.5)
+        else:
+            color_transform = None
+
+        if isinstance(image_size, list):
+            resize_transform_class = MyRandomResizedCrop
+            print('Use MyRandomResizedCrop: %s, \t %s' % MyRandomResizedCrop.get_candidate_image_size(),
+                  'sync=%s, continuous=%s' % (MyRandomResizedCrop.SYNC_DISTRIBUTED, MyRandomResizedCrop.CONTINUOUS))
+        else:
+            resize_transform_class = transforms.RandomResizedCrop
+
+        train_transforms = [
+            resize_transform_class(image_size, scale=(self.resize_scale, 1.0)),
+            transforms.RandomHorizontalFlip(),
+        ]
+        if color_transform is not None:
+            train_transforms.append(color_transform)
+        train_transforms += [
+            transforms.ToTensor(),
+            self.normalize,
+        ]
+
+        train_transforms = transforms.Compose(train_transforms)
+        return train_transforms
+
+    def build_valid_transform(self, image_size=None):
+        if image_size is None:
+            image_size = self.active_img_size
+        return transforms.Compose([
+            transforms.Resize(int(math.ceil(image_size / 0.875))),
+            transforms.CenterCrop(image_size),
+            transforms.ToTensor(),
+            self.normalize,
+        ])
+
+    def assign_active_img_size(self, new_img_size):
+        self.active_img_size = new_img_size
+        if self.active_img_size not in self._valid_transform_dict:
+            self._valid_transform_dict[self.active_img_size] = self.build_valid_transform()
+        # change the transform of the valid and test set
+        self.valid.dataset.transform = self._valid_transform_dict[self.active_img_size]
+        self.test.dataset.transform = self._valid_transform_dict[self.active_img_size]
+
+    def build_sub_train_loader(self, n_images, batch_size, num_worker=None, num_replicas=None, rank=None):
+        # used for resetting running statistics
+        if self.__dict__.get('sub_train_%d' % self.active_img_size, None) is None:
+            if num_worker is None:
+                num_worker = self.train.num_workers
+
+            n_samples = len(self.train.dataset.data)
+            g = torch.Generator()
+            g.manual_seed(DataProvider.SUB_SEED)
+            rand_indexes = torch.randperm(n_samples, generator=g).tolist()
+
+            new_train_dataset = self.train_dataset(
+                self.build_train_transform(image_size=self.active_img_size, print_log=False))
+            chosen_indexes = rand_indexes[:n_images]
+            if num_replicas is not None:
+                sub_sampler = MyDistributedSampler(new_train_dataset, num_replicas, rank, np.array(chosen_indexes))
+            else:
+                sub_sampler = torch.utils.data.sampler.SubsetRandomSampler(chosen_indexes)
+            sub_data_loader = torch.utils.data.DataLoader(
+                new_train_dataset, batch_size=batch_size, sampler=sub_sampler,
+                num_workers=num_worker, pin_memory=True,
+            )
+            self.__dict__['sub_train_%d' % self.active_img_size] = []
+            for images, labels in sub_data_loader:
+                self.__dict__['sub_train_%d' % self.active_img_size].append((images, labels))
+        return self.__dict__['sub_train_%d' % self.active_img_size]
+
+
+class CINIC10DataProvider(DataProvider):
+
+    def __init__(self, save_path=None, train_batch_size=96, test_batch_size=256, valid_size=None,
+                 n_worker=2, resize_scale=0.08, distort_color=None, image_size=224, num_replicas=None, rank=None):
+
+        self._save_path = save_path
+
+        self.image_size = image_size  # int or list of int
+        self.distort_color = distort_color
+        self.resize_scale = resize_scale
+
+        self._valid_transform_dict = {}
+        if not isinstance(self.image_size, int):
+            assert isinstance(self.image_size, list)
+            from ofa.imagenet_codebase.data_providers.my_data_loader import MyDataLoader
+            self.image_size.sort()  # e.g., 160 -> 224
+            MyRandomResizedCrop.IMAGE_SIZE_LIST = self.image_size.copy()
+            MyRandomResizedCrop.ACTIVE_SIZE = max(self.image_size)
+
+            for img_size in self.image_size:
+                self._valid_transform_dict[img_size] = self.build_valid_transform(img_size)
+            self.active_img_size = max(self.image_size)
+            valid_transforms = self._valid_transform_dict[self.active_img_size]
+            train_loader_class = MyDataLoader  # randomly sample image size for each batch of training image
+        else:
+            self.active_img_size = self.image_size
+            valid_transforms = self.build_valid_transform()
+            train_loader_class = torch.utils.data.DataLoader
+
+        train_transforms = self.build_train_transform()
+        train_dataset = self.train_dataset(train_transforms)
+
+        if valid_size is not None:
+            if not isinstance(valid_size, int):
+                assert isinstance(valid_size, float) and 0 < valid_size < 1
+                valid_size = int(len(train_dataset.data) * valid_size)
+
+            valid_dataset = self.train_dataset(valid_transforms)
+            train_indexes, valid_indexes = self.random_sample_valid_set(len(train_dataset.data), valid_size)
+
+            if num_replicas is not None:
+                train_sampler = MyDistributedSampler(train_dataset, num_replicas, rank, np.array(train_indexes))
+                valid_sampler = MyDistributedSampler(valid_dataset, num_replicas, rank, np.array(valid_indexes))
+            else:
+                train_sampler = torch.utils.data.sampler.SubsetRandomSampler(train_indexes)
+                valid_sampler = torch.utils.data.sampler.SubsetRandomSampler(valid_indexes)
+
+            self.train = train_loader_class(
+                train_dataset, batch_size=train_batch_size, sampler=train_sampler,
+                num_workers=n_worker, pin_memory=True,
+            )
+            self.valid = torch.utils.data.DataLoader(
+                valid_dataset, batch_size=test_batch_size, sampler=valid_sampler,
+                num_workers=n_worker, pin_memory=True,
+            )
+        else:
+            if num_replicas is not None:
+                train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset, num_replicas, rank)
+                self.train = train_loader_class(
+                    train_dataset, batch_size=train_batch_size, sampler=train_sampler,
+                    num_workers=n_worker, pin_memory=True
+                )
+            else:
+                self.train = train_loader_class(
+                    train_dataset, batch_size=train_batch_size, shuffle=True,
+                    num_workers=n_worker, pin_memory=True,
+                )
+            self.valid = None
+
+        test_dataset = self.test_dataset(valid_transforms)
+        if num_replicas is not None:
+            test_sampler = torch.utils.data.distributed.DistributedSampler(test_dataset, num_replicas, rank)
+            self.test = torch.utils.data.DataLoader(
+                test_dataset, batch_size=test_batch_size, sampler=test_sampler, num_workers=n_worker, pin_memory=True,
+            )
+        else:
+            self.test = torch.utils.data.DataLoader(
+                test_dataset, batch_size=test_batch_size, shuffle=True, num_workers=n_worker, pin_memory=True,
+            )
+
+        if self.valid is None:
+            self.valid = self.test
+
+    @staticmethod
+    def name():
+        return 'cinic10'
+
+    @property
+    def data_shape(self):
+        return 3, self.active_img_size, self.active_img_size  # C, H, W
+
+    @property
+    def n_classes(self):
+        return 10
+
+    @property
+    def save_path(self):
+        if self._save_path is None:
+            self._save_path = '/mnt/datastore/CINIC10'  # home server
+
+            if not os.path.exists(self._save_path):
+                self._save_path = '/mnt/datastore/CINIC10'  # home server
+        return self._save_path
+
+    @property
+    def data_url(self):
+        raise ValueError('unable to download %s' % self.name())
+
+    def train_dataset(self, _transforms):
+        dataset = torchvision.datasets.ImageFolder(self.train_path, transform=_transforms)
+        # dataset = torchvision.datasets.CIFAR10(
+        #     root=self.valid_path, train=True, download=False, transform=_transforms)
+        return dataset
+
+    def test_dataset(self, _transforms):
+        dataset = torchvision.datasets.ImageFolder(self.valid_path, transform=_transforms)
+        # dataset = torchvision.datasets.CIFAR10(
+        #     root=self.valid_path, train=False, download=False, transform=_transforms)
+        return dataset
+
+    @property
+    def train_path(self):
+        return os.path.join(self.save_path, 'train_and_valid')
+        # return self.save_path
+
+    @property
+    def valid_path(self):
+        return os.path.join(self.save_path, 'test')
+        # return self.save_path
+
+    @property
+    def normalize(self):
+        return transforms.Normalize(
+            mean=[0.47889522, 0.47227842, 0.43047404], std=[0.24205776, 0.23828046, 0.25874835])
+
+    def build_train_transform(self, image_size=None, print_log=True):
+        if image_size is None:
+            image_size = self.image_size
+        if print_log:
+            print('Color jitter: %s, resize_scale: %s, img_size: %s' %
+                  (self.distort_color, self.resize_scale, image_size))
+
+        if self.distort_color == 'torch':
+            color_transform = transforms.ColorJitter(brightness=0.4, contrast=0.4, saturation=0.4, hue=0.1)
+        elif self.distort_color == 'tf':
+            color_transform = transforms.ColorJitter(brightness=32. / 255., saturation=0.5)
+        else:
+            color_transform = None
+
+        if isinstance(image_size, list):
+            resize_transform_class = MyRandomResizedCrop
+            print('Use MyRandomResizedCrop: %s, \t %s' % MyRandomResizedCrop.get_candidate_image_size(),
+                  'sync=%s, continuous=%s' % (MyRandomResizedCrop.SYNC_DISTRIBUTED, MyRandomResizedCrop.CONTINUOUS))
+        else:
+            resize_transform_class = transforms.RandomResizedCrop
+
+        train_transforms = [
+            resize_transform_class(image_size, scale=(self.resize_scale, 1.0)),
+            transforms.RandomHorizontalFlip(),
+        ]
+        if color_transform is not None:
+            train_transforms.append(color_transform)
+        train_transforms += [
+            transforms.ToTensor(),
+            self.normalize,
+        ]
+
+        train_transforms = transforms.Compose(train_transforms)
+        return train_transforms
+
+    def build_valid_transform(self, image_size=None):
+        if image_size is None:
+            image_size = self.active_img_size
+        return transforms.Compose([
+            transforms.Resize(int(math.ceil(image_size / 0.875))),
+            transforms.CenterCrop(image_size),
+            transforms.ToTensor(),
+            self.normalize,
+        ])
+
+    def assign_active_img_size(self, new_img_size):
+        self.active_img_size = new_img_size
+        if self.active_img_size not in self._valid_transform_dict:
+            self._valid_transform_dict[self.active_img_size] = self.build_valid_transform()
+        # change the transform of the valid and test set
+        self.valid.dataset.transform = self._valid_transform_dict[self.active_img_size]
+        self.test.dataset.transform = self._valid_transform_dict[self.active_img_size]
+
+    def build_sub_train_loader(self, n_images, batch_size, num_worker=None, num_replicas=None, rank=None):
+        # used for resetting running statistics
+        if self.__dict__.get('sub_train_%d' % self.active_img_size, None) is None:
+            if num_worker is None:
+                num_worker = self.train.num_workers
+
+            n_samples = len(self.train.dataset.samples)
+            g = torch.Generator()
+            g.manual_seed(DataProvider.SUB_SEED)
+            rand_indexes = torch.randperm(n_samples, generator=g).tolist()
+
+            new_train_dataset = self.train_dataset(
+                self.build_train_transform(image_size=self.active_img_size, print_log=False))
+            chosen_indexes = rand_indexes[:n_images]
+            if num_replicas is not None:
+                sub_sampler = MyDistributedSampler(new_train_dataset, num_replicas, rank, np.array(chosen_indexes))
+            else:
+                sub_sampler = torch.utils.data.sampler.SubsetRandomSampler(chosen_indexes)
+            sub_data_loader = torch.utils.data.DataLoader(
+                new_train_dataset, batch_size=batch_size, sampler=sub_sampler,
+                num_workers=num_worker, pin_memory=True,
+            )
+            self.__dict__['sub_train_%d' % self.active_img_size] = []
+            for images, labels in sub_data_loader:
+                self.__dict__['sub_train_%d' % self.active_img_size].append((images, labels))
+        return self.__dict__['sub_train_%d' % self.active_img_size]
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/data_providers/dtd.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/data_providers/dtd.py
@@ -0,0 +1,237 @@
+import os
+import warnings
+import numpy as np
+
+from timm.data.transforms import _pil_interp
+from timm.data.auto_augment import rand_augment_transform
+
+import torch.utils.data
+import torchvision.transforms as transforms
+import torchvision.datasets as datasets
+
+from ofa.imagenet_codebase.data_providers.base_provider import DataProvider, MyRandomResizedCrop, MyDistributedSampler
+
+
+class DTDDataProvider(DataProvider):
+
+    def __init__(self, save_path=None, train_batch_size=32, test_batch_size=200, valid_size=None, n_worker=32,
+                 resize_scale=0.08, distort_color=None, image_size=224,
+                 num_replicas=None, rank=None):
+
+        warnings.filterwarnings('ignore')
+        self._save_path = save_path
+
+        self.image_size = image_size  # int or list of int
+        self.distort_color = distort_color
+        self.resize_scale = resize_scale
+
+        self._valid_transform_dict = {}
+        if not isinstance(self.image_size, int):
+            assert isinstance(self.image_size, list)
+            from ofa.imagenet_codebase.data_providers.my_data_loader import MyDataLoader
+            self.image_size.sort()  # e.g., 160 -> 224
+            MyRandomResizedCrop.IMAGE_SIZE_LIST = self.image_size.copy()
+            MyRandomResizedCrop.ACTIVE_SIZE = max(self.image_size)
+
+            for img_size in self.image_size:
+                self._valid_transform_dict[img_size] = self.build_valid_transform(img_size)
+            self.active_img_size = max(self.image_size)
+            valid_transforms = self._valid_transform_dict[self.active_img_size]
+            train_loader_class = MyDataLoader  # randomly sample image size for each batch of training image
+        else:
+            self.active_img_size = self.image_size
+            valid_transforms = self.build_valid_transform()
+            train_loader_class = torch.utils.data.DataLoader
+
+        train_transforms = self.build_train_transform()
+        train_dataset = self.train_dataset(train_transforms)
+
+        if valid_size is not None:
+            if not isinstance(valid_size, int):
+                assert isinstance(valid_size, float) and 0 < valid_size < 1
+                valid_size = int(len(train_dataset.samples) * valid_size)
+
+            valid_dataset = self.train_dataset(valid_transforms)
+            train_indexes, valid_indexes = self.random_sample_valid_set(len(train_dataset.samples), valid_size)
+
+            if num_replicas is not None:
+                train_sampler = MyDistributedSampler(train_dataset, num_replicas, rank, np.array(train_indexes))
+                valid_sampler = MyDistributedSampler(valid_dataset, num_replicas, rank, np.array(valid_indexes))
+            else:
+                train_sampler = torch.utils.data.sampler.SubsetRandomSampler(train_indexes)
+                valid_sampler = torch.utils.data.sampler.SubsetRandomSampler(valid_indexes)
+
+            self.train = train_loader_class(
+                train_dataset, batch_size=train_batch_size, sampler=train_sampler,
+                num_workers=n_worker, pin_memory=True,
+            )
+            self.valid = torch.utils.data.DataLoader(
+                valid_dataset, batch_size=test_batch_size, sampler=valid_sampler,
+                num_workers=n_worker, pin_memory=True,
+            )
+        else:
+            if num_replicas is not None:
+                train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset, num_replicas, rank)
+                self.train = train_loader_class(
+                    train_dataset, batch_size=train_batch_size, sampler=train_sampler,
+                    num_workers=n_worker, pin_memory=True
+                )
+            else:
+                self.train = train_loader_class(
+                    train_dataset, batch_size=train_batch_size, shuffle=True,
+                    num_workers=n_worker, pin_memory=True,
+                )
+            self.valid = None
+
+        test_dataset = self.test_dataset(valid_transforms)
+        if num_replicas is not None:
+            test_sampler = torch.utils.data.distributed.DistributedSampler(test_dataset, num_replicas, rank)
+            self.test = torch.utils.data.DataLoader(
+                test_dataset, batch_size=test_batch_size, sampler=test_sampler, num_workers=n_worker, pin_memory=True,
+            )
+        else:
+            self.test = torch.utils.data.DataLoader(
+                test_dataset, batch_size=test_batch_size, shuffle=True, num_workers=n_worker, pin_memory=True,
+            )
+
+        if self.valid is None:
+            self.valid = self.test
+
+    @staticmethod
+    def name():
+        return 'dtd'
+
+    @property
+    def data_shape(self):
+        return 3, self.active_img_size, self.active_img_size  # C, H, W
+
+    @property
+    def n_classes(self):
+        return 47
+
+    @property
+    def save_path(self):
+        if self._save_path is None:
+            self._save_path = '/mnt/datastore/dtd'  # home server
+
+            if not os.path.exists(self._save_path):
+                self._save_path = '/mnt/datastore/dtd'  # home server
+        return self._save_path
+
+    @property
+    def data_url(self):
+        raise ValueError('unable to download %s' % self.name())
+
+    def train_dataset(self, _transforms):
+        dataset = datasets.ImageFolder(self.train_path, _transforms)
+        return dataset
+
+    def test_dataset(self, _transforms):
+        dataset = datasets.ImageFolder(self.valid_path, _transforms)
+        return dataset
+
+    @property
+    def train_path(self):
+        return os.path.join(self.save_path, 'train')
+
+    @property
+    def valid_path(self):
+        return os.path.join(self.save_path, 'valid')
+
+    @property
+    def normalize(self):
+        return transforms.Normalize(
+            mean=[0.5329876098715876, 0.474260843249454, 0.42627281899380676],
+            std=[0.26549755708788914, 0.25473554309855373, 0.2631728035662832])
+
+    def build_train_transform(self, image_size=None, print_log=True, auto_augment='rand-m9-mstd0.5'):
+        if image_size is None:
+            image_size = self.image_size
+        # if print_log:
+        #     print('Color jitter: %s, resize_scale: %s, img_size: %s' %
+        #           (self.distort_color, self.resize_scale, image_size))
+
+        # if self.distort_color == 'torch':
+        #     color_transform = transforms.ColorJitter(brightness=0.4, contrast=0.4, saturation=0.4, hue=0.1)
+        # elif self.distort_color == 'tf':
+        #     color_transform = transforms.ColorJitter(brightness=32. / 255., saturation=0.5)
+        # else:
+        #     color_transform = None
+
+        if isinstance(image_size, list):
+            resize_transform_class = MyRandomResizedCrop
+            print('Use MyRandomResizedCrop: %s, \t %s' % MyRandomResizedCrop.get_candidate_image_size(),
+                  'sync=%s, continuous=%s' % (MyRandomResizedCrop.SYNC_DISTRIBUTED, MyRandomResizedCrop.CONTINUOUS))
+            img_size_min = min(image_size)
+        else:
+            resize_transform_class = transforms.RandomResizedCrop
+            img_size_min = image_size
+
+        train_transforms = [
+            resize_transform_class(image_size, scale=(self.resize_scale, 1.0)),
+            transforms.RandomHorizontalFlip(),
+        ]
+
+        aa_params = dict(
+            translate_const=int(img_size_min * 0.45),
+            img_mean=tuple([min(255, round(255 * x)) for x in [0.5329876098715876, 0.474260843249454,
+                                                               0.42627281899380676]]),
+        )
+        aa_params['interpolation'] = _pil_interp('bicubic')
+        train_transforms += [rand_augment_transform(auto_augment, aa_params)]
+
+        # if color_transform is not None:
+        #     train_transforms.append(color_transform)
+        train_transforms += [
+            transforms.ToTensor(),
+            self.normalize,
+        ]
+
+        train_transforms = transforms.Compose(train_transforms)
+        return train_transforms
+
+    def build_valid_transform(self, image_size=None):
+        if image_size is None:
+            image_size = self.active_img_size
+        return transforms.Compose([
+            # transforms.Resize(int(math.ceil(image_size / 0.875))),
+            transforms.Resize((image_size, image_size), interpolation=3),
+            transforms.CenterCrop(image_size),
+            transforms.ToTensor(),
+            self.normalize,
+        ])
+
+    def assign_active_img_size(self, new_img_size):
+        self.active_img_size = new_img_size
+        if self.active_img_size not in self._valid_transform_dict:
+            self._valid_transform_dict[self.active_img_size] = self.build_valid_transform()
+        # change the transform of the valid and test set
+        self.valid.dataset.transform = self._valid_transform_dict[self.active_img_size]
+        self.test.dataset.transform = self._valid_transform_dict[self.active_img_size]
+
+    def build_sub_train_loader(self, n_images, batch_size, num_worker=None, num_replicas=None, rank=None):
+        # used for resetting running statistics
+        if self.__dict__.get('sub_train_%d' % self.active_img_size, None) is None:
+            if num_worker is None:
+                num_worker = self.train.num_workers
+
+            n_samples = len(self.train.dataset.samples)
+            g = torch.Generator()
+            g.manual_seed(DataProvider.SUB_SEED)
+            rand_indexes = torch.randperm(n_samples, generator=g).tolist()
+
+            new_train_dataset = self.train_dataset(
+                self.build_train_transform(image_size=self.active_img_size, print_log=False))
+            chosen_indexes = rand_indexes[:n_images]
+            if num_replicas is not None:
+                sub_sampler = MyDistributedSampler(new_train_dataset, num_replicas, rank, np.array(chosen_indexes))
+            else:
+                sub_sampler = torch.utils.data.sampler.SubsetRandomSampler(chosen_indexes)
+            sub_data_loader = torch.utils.data.DataLoader(
+                new_train_dataset, batch_size=batch_size, sampler=sub_sampler,
+                num_workers=num_worker, pin_memory=True,
+            )
+            self.__dict__['sub_train_%d' % self.active_img_size] = []
+            for images, labels in sub_data_loader:
+                self.__dict__['sub_train_%d' % self.active_img_size].append((images, labels))
+        return self.__dict__['sub_train_%d' % self.active_img_size]
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/data_providers/flowers102.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/data_providers/flowers102.py
@@ -0,0 +1,241 @@
+import warnings
+import os
+import math
+import numpy as np
+
+import PIL
+
+import torch.utils.data
+import torchvision.transforms as transforms
+import torchvision.datasets as datasets
+
+from ofa.imagenet_codebase.data_providers.base_provider import DataProvider, MyRandomResizedCrop, MyDistributedSampler
+
+
+class Flowers102DataProvider(DataProvider):
+    
+    def __init__(self, save_path=None, train_batch_size=32, test_batch_size=512, valid_size=None, n_worker=32,
+                 resize_scale=0.08, distort_color=None, image_size=224,
+                 num_replicas=None, rank=None):
+        
+        # warnings.filterwarnings('ignore')
+        self._save_path = save_path
+        
+        self.image_size = image_size  # int or list of int
+        self.distort_color = distort_color
+        self.resize_scale = resize_scale
+
+        self._valid_transform_dict = {}
+        if not isinstance(self.image_size, int):
+            assert isinstance(self.image_size, list)
+            from ofa.imagenet_codebase.data_providers.my_data_loader import MyDataLoader
+            self.image_size.sort()  # e.g., 160 -> 224
+            MyRandomResizedCrop.IMAGE_SIZE_LIST = self.image_size.copy()
+            MyRandomResizedCrop.ACTIVE_SIZE = max(self.image_size)
+
+            for img_size in self.image_size:
+                self._valid_transform_dict[img_size] = self.build_valid_transform(img_size)
+            self.active_img_size = max(self.image_size)
+            valid_transforms = self._valid_transform_dict[self.active_img_size]
+            train_loader_class = MyDataLoader  # randomly sample image size for each batch of training image
+        else:
+            self.active_img_size = self.image_size
+            valid_transforms = self.build_valid_transform()
+            train_loader_class = torch.utils.data.DataLoader
+
+        train_transforms = self.build_train_transform()
+        train_dataset = self.train_dataset(train_transforms)
+
+        weights = self.make_weights_for_balanced_classes(
+            train_dataset.imgs, self.n_classes)
+        weights = torch.DoubleTensor(weights)
+        train_sampler = torch.utils.data.sampler.WeightedRandomSampler(weights, len(weights))
+
+        if valid_size is not None:
+            raise NotImplementedError("validation dataset not yet implemented")
+            # valid_dataset = self.valid_dataset(valid_transforms)
+            
+            # self.train = train_loader_class(
+            #     train_dataset, batch_size=train_batch_size, sampler=train_sampler,
+            #     num_workers=n_worker, pin_memory=True)
+            # self.valid = torch.utils.data.DataLoader(
+            #     valid_dataset, batch_size=test_batch_size,
+            #     num_workers=n_worker, pin_memory=True)
+        else:
+            self.train = train_loader_class(
+                train_dataset, batch_size=train_batch_size, sampler=train_sampler,
+                num_workers=n_worker, pin_memory=True,
+            )
+            self.valid = None
+        
+        test_dataset = self.test_dataset(valid_transforms)
+        self.test = torch.utils.data.DataLoader(
+            test_dataset, batch_size=test_batch_size, shuffle=True, num_workers=n_worker, pin_memory=True,
+        )
+        
+        if self.valid is None:
+            self.valid = self.test
+    
+    @staticmethod
+    def name():
+        return 'flowers102'
+    
+    @property
+    def data_shape(self):
+        return 3, self.active_img_size, self.active_img_size  # C, H, W
+    
+    @property
+    def n_classes(self):
+        return 102
+    
+    @property
+    def save_path(self):
+        if self._save_path is None:
+            # self._save_path = '/mnt/datastore/Oxford102Flowers'  # home server
+            self._save_path = '/mnt/datastore/Flowers102'  # home server
+
+            if not os.path.exists(self._save_path):
+                # self._save_path = '/mnt/datastore/Oxford102Flowers'  # home server
+                self._save_path = '/mnt/datastore/Flowers102'  # home server
+        return self._save_path
+    
+    @property
+    def data_url(self):
+        raise ValueError('unable to download %s' % self.name())
+    
+    def train_dataset(self, _transforms):
+        dataset = datasets.ImageFolder(self.train_path, _transforms)
+        return dataset
+
+    # def valid_dataset(self, _transforms):
+    #     dataset = datasets.ImageFolder(self.valid_path, _transforms)
+    #     return dataset
+
+    def test_dataset(self, _transforms):
+        dataset = datasets.ImageFolder(self.test_path, _transforms)
+        return dataset
+    
+    @property
+    def train_path(self):
+        return os.path.join(self.save_path, 'train')
+    
+    # @property
+    # def valid_path(self):
+    #     return os.path.join(self.save_path, 'train')
+
+    @property
+    def test_path(self):
+        return os.path.join(self.save_path, 'test')
+    
+    @property
+    def normalize(self):
+        return transforms.Normalize(
+            mean=[0.5178361839861569, 0.4106749456881299, 0.32864167836880803],
+            std=[0.2972239085211309, 0.24976049135203868, 0.28533308036347665])
+
+    @staticmethod
+    def make_weights_for_balanced_classes(images, nclasses):
+        count = [0] * nclasses
+
+        # Counts per label
+        for item in images:
+            count[item[1]] += 1
+
+        weight_per_class = [0.] * nclasses
+
+        # Total number of images.
+        N = float(sum(count))
+
+        # super-sample the smaller classes.
+        for i in range(nclasses):
+            weight_per_class[i] = N / float(count[i])
+
+        weight = [0] * len(images)
+
+        # Calculate a weight per image.
+        for idx, val in enumerate(images):
+            weight[idx] = weight_per_class[val[1]]
+
+        return weight
+
+    def build_train_transform(self, image_size=None, print_log=True):
+        if image_size is None:
+            image_size = self.image_size
+        if print_log:
+            print('Color jitter: %s, resize_scale: %s, img_size: %s' %
+                  (self.distort_color, self.resize_scale, image_size))
+
+        if self.distort_color == 'torch':
+            color_transform = transforms.ColorJitter(brightness=0.4, contrast=0.4, saturation=0.4, hue=0.1)
+        elif self.distort_color == 'tf':
+            color_transform = transforms.ColorJitter(brightness=32. / 255., saturation=0.5)
+        else:
+            color_transform = None
+        
+        if isinstance(image_size, list):
+            resize_transform_class = MyRandomResizedCrop
+            print('Use MyRandomResizedCrop: %s, \t %s' % MyRandomResizedCrop.get_candidate_image_size(),
+                  'sync=%s, continuous=%s' % (MyRandomResizedCrop.SYNC_DISTRIBUTED, MyRandomResizedCrop.CONTINUOUS))
+        else:
+            resize_transform_class = transforms.RandomResizedCrop
+
+        train_transforms = [
+            transforms.RandomAffine(
+                45, translate=(0.4, 0.4), scale=(0.75, 1.5), shear=None, resample=PIL.Image.BILINEAR, fillcolor=0),
+            resize_transform_class(image_size, scale=(self.resize_scale, 1.0)),
+            # transforms.RandomHorizontalFlip(),
+        ]
+        if color_transform is not None:
+            train_transforms.append(color_transform)
+        train_transforms += [
+            transforms.ToTensor(),
+            self.normalize,
+        ]
+
+        train_transforms = transforms.Compose(train_transforms)
+        return train_transforms
+
+    def build_valid_transform(self, image_size=None):
+        if image_size is None:
+            image_size = self.active_img_size
+        return transforms.Compose([
+            transforms.Resize(int(math.ceil(image_size / 0.875))),
+            transforms.CenterCrop(image_size),
+            transforms.ToTensor(),
+            self.normalize,
+        ])
+
+    def assign_active_img_size(self, new_img_size):
+        self.active_img_size = new_img_size
+        if self.active_img_size not in self._valid_transform_dict:
+            self._valid_transform_dict[self.active_img_size] = self.build_valid_transform()
+        # change the transform of the valid and test set
+        self.valid.dataset.transform = self._valid_transform_dict[self.active_img_size]
+        self.test.dataset.transform = self._valid_transform_dict[self.active_img_size]
+    
+    def build_sub_train_loader(self, n_images, batch_size, num_worker=None, num_replicas=None, rank=None):
+        # used for resetting running statistics
+        if self.__dict__.get('sub_train_%d' % self.active_img_size, None) is None:
+            if num_worker is None:
+                num_worker = self.train.num_workers
+            
+            n_samples = len(self.train.dataset.samples)
+            g = torch.Generator()
+            g.manual_seed(DataProvider.SUB_SEED)
+            rand_indexes = torch.randperm(n_samples, generator=g).tolist()
+            
+            new_train_dataset = self.train_dataset(
+                self.build_train_transform(image_size=self.active_img_size, print_log=False))
+            chosen_indexes = rand_indexes[:n_images]
+            if num_replicas is not None:
+                sub_sampler = MyDistributedSampler(new_train_dataset, num_replicas, rank, np.array(chosen_indexes))
+            else:
+                sub_sampler = torch.utils.data.sampler.SubsetRandomSampler(chosen_indexes)
+            sub_data_loader = torch.utils.data.DataLoader(
+                new_train_dataset, batch_size=batch_size, sampler=sub_sampler,
+                num_workers=num_worker, pin_memory=True,
+            )
+            self.__dict__['sub_train_%d' % self.active_img_size] = []
+            for images, labels in sub_data_loader:
+                self.__dict__['sub_train_%d' % self.active_img_size].append((images, labels))
+        return self.__dict__['sub_train_%d' % self.active_img_size]
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/data_providers/imagenet.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/data_providers/imagenet.py
@@ -0,0 +1,225 @@
+import warnings
+import os
+import math
+import numpy as np
+
+import torch.utils.data
+import torchvision.transforms as transforms
+import torchvision.datasets as datasets
+
+from ofa.imagenet_codebase.data_providers.base_provider import DataProvider, MyRandomResizedCrop, MyDistributedSampler
+
+
+class ImagenetDataProvider(DataProvider):
+    
+    def __init__(self, save_path=None, train_batch_size=256, test_batch_size=512, valid_size=None, n_worker=32,
+                 resize_scale=0.08, distort_color=None, image_size=224,
+                 num_replicas=None, rank=None):
+        
+        warnings.filterwarnings('ignore')
+        self._save_path = save_path
+        
+        self.image_size = image_size  # int or list of int
+        self.distort_color = distort_color
+        self.resize_scale = resize_scale
+
+        self._valid_transform_dict = {}
+        if not isinstance(self.image_size, int):
+            assert isinstance(self.image_size, list)
+            from ofa.imagenet_codebase.data_providers.my_data_loader import MyDataLoader
+            self.image_size.sort()  # e.g., 160 -> 224
+            MyRandomResizedCrop.IMAGE_SIZE_LIST = self.image_size.copy()
+            MyRandomResizedCrop.ACTIVE_SIZE = max(self.image_size)
+
+            for img_size in self.image_size:
+                self._valid_transform_dict[img_size] = self.build_valid_transform(img_size)
+            self.active_img_size = max(self.image_size)
+            valid_transforms = self._valid_transform_dict[self.active_img_size]
+            train_loader_class = MyDataLoader  # randomly sample image size for each batch of training image
+        else:
+            self.active_img_size = self.image_size
+            valid_transforms = self.build_valid_transform()
+            train_loader_class = torch.utils.data.DataLoader
+
+        train_transforms = self.build_train_transform()
+        train_dataset = self.train_dataset(train_transforms)
+        
+        if valid_size is not None:
+            if not isinstance(valid_size, int):
+                assert isinstance(valid_size, float) and 0 < valid_size < 1
+                valid_size = int(len(train_dataset.samples) * valid_size)
+            
+            valid_dataset = self.train_dataset(valid_transforms)
+            train_indexes, valid_indexes = self.random_sample_valid_set(len(train_dataset.samples), valid_size)
+            
+            if num_replicas is not None:
+                train_sampler = MyDistributedSampler(train_dataset, num_replicas, rank, np.array(train_indexes))
+                valid_sampler = MyDistributedSampler(valid_dataset, num_replicas, rank, np.array(valid_indexes))
+            else:
+                train_sampler = torch.utils.data.sampler.SubsetRandomSampler(train_indexes)
+                valid_sampler = torch.utils.data.sampler.SubsetRandomSampler(valid_indexes)
+            
+            self.train = train_loader_class(
+                train_dataset, batch_size=train_batch_size, sampler=train_sampler,
+                num_workers=n_worker, pin_memory=True,
+            )
+            self.valid = torch.utils.data.DataLoader(
+                valid_dataset, batch_size=test_batch_size, sampler=valid_sampler,
+                num_workers=n_worker, pin_memory=True,
+            )
+        else:
+            if num_replicas is not None:
+                train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset, num_replicas, rank)
+                self.train = train_loader_class(
+                    train_dataset, batch_size=train_batch_size, sampler=train_sampler,
+                    num_workers=n_worker, pin_memory=True
+                )
+            else:
+                self.train = train_loader_class(
+                    train_dataset, batch_size=train_batch_size, shuffle=True,
+                    num_workers=n_worker, pin_memory=True,
+                )
+            self.valid = None
+        
+        test_dataset = self.test_dataset(valid_transforms)
+        if num_replicas is not None:
+            test_sampler = torch.utils.data.distributed.DistributedSampler(test_dataset, num_replicas, rank)
+            self.test = torch.utils.data.DataLoader(
+                test_dataset, batch_size=test_batch_size, sampler=test_sampler, num_workers=n_worker, pin_memory=True,
+            )
+        else:
+            self.test = torch.utils.data.DataLoader(
+                test_dataset, batch_size=test_batch_size, shuffle=True, num_workers=n_worker, pin_memory=True,
+            )
+        
+        if self.valid is None:
+            self.valid = self.test
+    
+    @staticmethod
+    def name():
+        return 'imagenet'
+    
+    @property
+    def data_shape(self):
+        return 3, self.active_img_size, self.active_img_size  # C, H, W
+    
+    @property
+    def n_classes(self):
+        return 1000
+    
+    @property
+    def save_path(self):
+        if self._save_path is None:
+            # self._save_path = '/dataset/imagenet'
+            # self._save_path = '/usr/local/soft/temp-datastore/ILSVRC2012'  # servers
+            self._save_path = '/mnt/datastore/ILSVRC2012'  # home server
+
+            if not os.path.exists(self._save_path):
+                # self._save_path = os.path.expanduser('~/dataset/imagenet')
+                # self._save_path = os.path.expanduser('/usr/local/soft/temp-datastore/ILSVRC2012')
+                self._save_path = '/mnt/datastore/ILSVRC2012'  # home server
+        return self._save_path
+    
+    @property
+    def data_url(self):
+        raise ValueError('unable to download %s' % self.name())
+    
+    def train_dataset(self, _transforms):
+        dataset = datasets.ImageFolder(self.train_path, _transforms)
+        return dataset
+    
+    def test_dataset(self, _transforms):
+        dataset = datasets.ImageFolder(self.valid_path, _transforms)
+        return dataset
+    
+    @property
+    def train_path(self):
+        return os.path.join(self.save_path, 'train')
+    
+    @property
+    def valid_path(self):
+        return os.path.join(self.save_path, 'val')
+    
+    @property
+    def normalize(self):
+        return transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
+    
+    def build_train_transform(self, image_size=None, print_log=True):
+        if image_size is None:
+            image_size = self.image_size
+        if print_log:
+            print('Color jitter: %s, resize_scale: %s, img_size: %s' %
+                  (self.distort_color, self.resize_scale, image_size))
+
+        if self.distort_color == 'torch':
+            color_transform = transforms.ColorJitter(brightness=0.4, contrast=0.4, saturation=0.4, hue=0.1)
+        elif self.distort_color == 'tf':
+            color_transform = transforms.ColorJitter(brightness=32. / 255., saturation=0.5)
+        else:
+            color_transform = None
+        
+        if isinstance(image_size, list):
+            resize_transform_class = MyRandomResizedCrop
+            print('Use MyRandomResizedCrop: %s, \t %s' % MyRandomResizedCrop.get_candidate_image_size(),
+                  'sync=%s, continuous=%s' % (MyRandomResizedCrop.SYNC_DISTRIBUTED, MyRandomResizedCrop.CONTINUOUS))
+        else:
+            resize_transform_class = transforms.RandomResizedCrop
+
+        train_transforms = [
+            resize_transform_class(image_size, scale=(self.resize_scale, 1.0)),
+            transforms.RandomHorizontalFlip(),
+        ]
+        if color_transform is not None:
+            train_transforms.append(color_transform)
+        train_transforms += [
+            transforms.ToTensor(),
+            self.normalize,
+        ]
+
+        train_transforms = transforms.Compose(train_transforms)
+        return train_transforms
+
+    def build_valid_transform(self, image_size=None):
+        if image_size is None:
+            image_size = self.active_img_size
+        return transforms.Compose([
+            transforms.Resize(int(math.ceil(image_size / 0.875))),
+            transforms.CenterCrop(image_size),
+            transforms.ToTensor(),
+            self.normalize,
+        ])
+
+    def assign_active_img_size(self, new_img_size):
+        self.active_img_size = new_img_size
+        if self.active_img_size not in self._valid_transform_dict:
+            self._valid_transform_dict[self.active_img_size] = self.build_valid_transform()
+        # change the transform of the valid and test set
+        self.valid.dataset.transform = self._valid_transform_dict[self.active_img_size]
+        self.test.dataset.transform = self._valid_transform_dict[self.active_img_size]
+    
+    def build_sub_train_loader(self, n_images, batch_size, num_worker=None, num_replicas=None, rank=None):
+        # used for resetting running statistics
+        if self.__dict__.get('sub_train_%d' % self.active_img_size, None) is None:
+            if num_worker is None:
+                num_worker = self.train.num_workers
+            
+            n_samples = len(self.train.dataset.samples)
+            g = torch.Generator()
+            g.manual_seed(DataProvider.SUB_SEED)
+            rand_indexes = torch.randperm(n_samples, generator=g).tolist()
+            
+            new_train_dataset = self.train_dataset(
+                self.build_train_transform(image_size=self.active_img_size, print_log=False))
+            chosen_indexes = rand_indexes[:n_images]
+            if num_replicas is not None:
+                sub_sampler = MyDistributedSampler(new_train_dataset, num_replicas, rank, np.array(chosen_indexes))
+            else:
+                sub_sampler = torch.utils.data.sampler.SubsetRandomSampler(chosen_indexes)
+            sub_data_loader = torch.utils.data.DataLoader(
+                new_train_dataset, batch_size=batch_size, sampler=sub_sampler,
+                num_workers=num_worker, pin_memory=True,
+            )
+            self.__dict__['sub_train_%d' % self.active_img_size] = []
+            for images, labels in sub_data_loader:
+                self.__dict__['sub_train_%d' % self.active_img_size].append((images, labels))
+        return self.__dict__['sub_train_%d' % self.active_img_size]
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/data_providers/pets.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/data_providers/pets.py
@@ -0,0 +1,237 @@
+import os
+import math
+import warnings
+import numpy as np
+
+# from timm.data.transforms import _pil_interp
+from timm.data.auto_augment import rand_augment_transform
+
+import torch.utils.data
+import torchvision.transforms as transforms
+import torchvision.datasets as datasets
+
+from ofa.imagenet_codebase.data_providers.base_provider import DataProvider, MyRandomResizedCrop, MyDistributedSampler
+
+
+class OxfordIIITPetsDataProvider(DataProvider):
+
+    def __init__(self, save_path=None, train_batch_size=32, test_batch_size=200, valid_size=None, n_worker=32,
+                 resize_scale=0.08, distort_color=None, image_size=224,
+                 num_replicas=None, rank=None):
+
+        warnings.filterwarnings('ignore')
+        self._save_path = save_path
+
+        self.image_size = image_size  # int or list of int
+        self.distort_color = distort_color
+        self.resize_scale = resize_scale
+
+        self._valid_transform_dict = {}
+        if not isinstance(self.image_size, int):
+            assert isinstance(self.image_size, list)
+            from ofa.imagenet_codebase.data_providers.my_data_loader import MyDataLoader
+            self.image_size.sort()  # e.g., 160 -> 224
+            MyRandomResizedCrop.IMAGE_SIZE_LIST = self.image_size.copy()
+            MyRandomResizedCrop.ACTIVE_SIZE = max(self.image_size)
+
+            for img_size in self.image_size:
+                self._valid_transform_dict[img_size] = self.build_valid_transform(img_size)
+            self.active_img_size = max(self.image_size)
+            valid_transforms = self._valid_transform_dict[self.active_img_size]
+            train_loader_class = MyDataLoader  # randomly sample image size for each batch of training image
+        else:
+            self.active_img_size = self.image_size
+            valid_transforms = self.build_valid_transform()
+            train_loader_class = torch.utils.data.DataLoader
+
+        train_transforms = self.build_train_transform()
+        train_dataset = self.train_dataset(train_transforms)
+
+        if valid_size is not None:
+            if not isinstance(valid_size, int):
+                assert isinstance(valid_size, float) and 0 < valid_size < 1
+                valid_size = int(len(train_dataset.samples) * valid_size)
+
+            valid_dataset = self.train_dataset(valid_transforms)
+            train_indexes, valid_indexes = self.random_sample_valid_set(len(train_dataset.samples), valid_size)
+
+            if num_replicas is not None:
+                train_sampler = MyDistributedSampler(train_dataset, num_replicas, rank, np.array(train_indexes))
+                valid_sampler = MyDistributedSampler(valid_dataset, num_replicas, rank, np.array(valid_indexes))
+            else:
+                train_sampler = torch.utils.data.sampler.SubsetRandomSampler(train_indexes)
+                valid_sampler = torch.utils.data.sampler.SubsetRandomSampler(valid_indexes)
+
+            self.train = train_loader_class(
+                train_dataset, batch_size=train_batch_size, sampler=train_sampler,
+                num_workers=n_worker, pin_memory=True,
+            )
+            self.valid = torch.utils.data.DataLoader(
+                valid_dataset, batch_size=test_batch_size, sampler=valid_sampler,
+                num_workers=n_worker, pin_memory=True,
+            )
+        else:
+            if num_replicas is not None:
+                train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset, num_replicas, rank)
+                self.train = train_loader_class(
+                    train_dataset, batch_size=train_batch_size, sampler=train_sampler,
+                    num_workers=n_worker, pin_memory=True
+                )
+            else:
+                self.train = train_loader_class(
+                    train_dataset, batch_size=train_batch_size, shuffle=True,
+                    num_workers=n_worker, pin_memory=True,
+                )
+            self.valid = None
+
+        test_dataset = self.test_dataset(valid_transforms)
+        if num_replicas is not None:
+            test_sampler = torch.utils.data.distributed.DistributedSampler(test_dataset, num_replicas, rank)
+            self.test = torch.utils.data.DataLoader(
+                test_dataset, batch_size=test_batch_size, sampler=test_sampler, num_workers=n_worker, pin_memory=True,
+            )
+        else:
+            self.test = torch.utils.data.DataLoader(
+                test_dataset, batch_size=test_batch_size, shuffle=True, num_workers=n_worker, pin_memory=True,
+            )
+
+        if self.valid is None:
+            self.valid = self.test
+
+    @staticmethod
+    def name():
+        return 'pets'
+
+    @property
+    def data_shape(self):
+        return 3, self.active_img_size, self.active_img_size  # C, H, W
+
+    @property
+    def n_classes(self):
+        return 37
+
+    @property
+    def save_path(self):
+        if self._save_path is None:
+            self._save_path = '/mnt/datastore/Oxford-IIITPets'  # home server
+
+            if not os.path.exists(self._save_path):
+                self._save_path = '/mnt/datastore/Oxford-IIITPets'  # home server
+        return self._save_path
+
+    @property
+    def data_url(self):
+        raise ValueError('unable to download %s' % self.name())
+
+    def train_dataset(self, _transforms):
+        dataset = datasets.ImageFolder(self.train_path, _transforms)
+        return dataset
+
+    def test_dataset(self, _transforms):
+        dataset = datasets.ImageFolder(self.valid_path, _transforms)
+        return dataset
+
+    @property
+    def train_path(self):
+        return os.path.join(self.save_path, 'train')
+
+    @property
+    def valid_path(self):
+        return os.path.join(self.save_path, 'valid')
+
+    @property
+    def normalize(self):
+        return transforms.Normalize(
+            mean=[0.4828895122298728, 0.4448394893850807, 0.39566558230789783],
+            std=[0.25925664613996574, 0.2532760018681693, 0.25981017205097917])
+
+    def build_train_transform(self, image_size=None, print_log=True, auto_augment='rand-m9-mstd0.5'):
+        if image_size is None:
+            image_size = self.image_size
+        # if print_log:
+        #     print('Color jitter: %s, resize_scale: %s, img_size: %s' %
+        #           (self.distort_color, self.resize_scale, image_size))
+
+        # if self.distort_color == 'torch':
+        #     color_transform = transforms.ColorJitter(brightness=0.4, contrast=0.4, saturation=0.4, hue=0.1)
+        # elif self.distort_color == 'tf':
+        #     color_transform = transforms.ColorJitter(brightness=32. / 255., saturation=0.5)
+        # else:
+        #     color_transform = None
+
+        if isinstance(image_size, list):
+            resize_transform_class = MyRandomResizedCrop
+            print('Use MyRandomResizedCrop: %s, \t %s' % MyRandomResizedCrop.get_candidate_image_size(),
+                  'sync=%s, continuous=%s' % (MyRandomResizedCrop.SYNC_DISTRIBUTED, MyRandomResizedCrop.CONTINUOUS))
+            img_size_min = min(image_size)
+        else:
+            resize_transform_class = transforms.RandomResizedCrop
+            img_size_min = image_size
+
+        train_transforms = [
+            resize_transform_class(image_size, scale=(self.resize_scale, 1.0)),
+            transforms.RandomHorizontalFlip(),
+        ]
+
+        aa_params = dict(
+            translate_const=int(img_size_min * 0.45),
+            img_mean=tuple([min(255, round(255 * x)) for x in [0.4828895122298728, 0.4448394893850807,
+                                                               0.39566558230789783]]),
+        )
+        aa_params['interpolation'] = transforms.Resize(image_size) # _pil_interp('bicubic')
+        train_transforms += [rand_augment_transform(auto_augment, aa_params)]
+
+        # if color_transform is not None:
+        #     train_transforms.append(color_transform)
+        train_transforms += [
+            transforms.ToTensor(),
+            self.normalize,
+        ]
+
+        train_transforms = transforms.Compose(train_transforms)
+        return train_transforms
+
+    def build_valid_transform(self, image_size=None):
+        if image_size is None:
+            image_size = self.active_img_size
+        return transforms.Compose([
+            transforms.Resize(int(math.ceil(image_size / 0.875))),
+            transforms.CenterCrop(image_size),
+            transforms.ToTensor(),
+            self.normalize,
+        ])
+
+    def assign_active_img_size(self, new_img_size):
+        self.active_img_size = new_img_size
+        if self.active_img_size not in self._valid_transform_dict:
+            self._valid_transform_dict[self.active_img_size] = self.build_valid_transform()
+        # change the transform of the valid and test set
+        self.valid.dataset.transform = self._valid_transform_dict[self.active_img_size]
+        self.test.dataset.transform = self._valid_transform_dict[self.active_img_size]
+
+    def build_sub_train_loader(self, n_images, batch_size, num_worker=None, num_replicas=None, rank=None):
+        # used for resetting running statistics
+        if self.__dict__.get('sub_train_%d' % self.active_img_size, None) is None:
+            if num_worker is None:
+                num_worker = self.train.num_workers
+
+            n_samples = len(self.train.dataset.samples)
+            g = torch.Generator()
+            g.manual_seed(DataProvider.SUB_SEED)
+            rand_indexes = torch.randperm(n_samples, generator=g).tolist()
+
+            new_train_dataset = self.train_dataset(
+                self.build_train_transform(image_size=self.active_img_size, print_log=False))
+            chosen_indexes = rand_indexes[:n_images]
+            if num_replicas is not None:
+                sub_sampler = MyDistributedSampler(new_train_dataset, num_replicas, rank, np.array(chosen_indexes))
+            else:
+                sub_sampler = torch.utils.data.sampler.SubsetRandomSampler(chosen_indexes)
+            sub_data_loader = torch.utils.data.DataLoader(
+                new_train_dataset, batch_size=batch_size, sampler=sub_sampler,
+                num_workers=num_worker, pin_memory=True,
+            )
+            self.__dict__['sub_train_%d' % self.active_img_size] = []
+            for images, labels in sub_data_loader:
+                self.__dict__['sub_train_%d' % self.active_img_size].append((images, labels))
+        return self.__dict__['sub_train_%d' % self.active_img_size]
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/data_providers/pets2.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/data_providers/pets2.py
@@ -0,0 +1,69 @@
+import torch
+from glob import glob
+from torch.utils.data.dataset import Dataset
+import os
+from PIL import Image
+
+
+def load_image(filename):
+  img = Image.open(filename)
+  img = img.convert('RGB')
+  return img
+
+
+class PetDataset(Dataset):
+  def __init__(self, root, train=True, num_cl=37, val_split=0.15, transforms=None):
+    pt_name = os.path.join(root, '{}{}.pth'.format('train' if train else 'test',
+                                                                int(100 * (1 - val_split)) if train else int(
+                                                                  100 * val_split)))
+    if not os.path.exists(pt_name):
+      filenames = glob(os.path.join(root, 'images') + '/*.jpg')
+      classes = set()
+  
+      data = []
+      labels = []
+  
+      for image in filenames:
+        class_name = image.rsplit("/", 1)[1].rsplit('_', 1)[0]
+        classes.add(class_name)
+        img = load_image(image)
+  
+        data.append(img)
+        labels.append(class_name)
+  
+      # convert classnames to indices
+      class2idx = {cl: idx for idx, cl in enumerate(classes)}
+      labels = torch.Tensor(list(map(lambda x: class2idx[x], labels))).long()
+      data = list(zip(data, labels))
+  
+      class_values = [[] for x in range(num_cl)]
+  
+      # create arrays for each class type
+      for d in data:
+        class_values[d[1].item()].append(d)
+  
+      train_data = []
+      val_data = []
+  
+      for class_dp in class_values:
+        split_idx = int(len(class_dp) * (1 - val_split))
+        train_data += class_dp[:split_idx]
+        val_data += class_dp[split_idx:]
+      torch.save(train_data, os.path.join(root, 'train{}.pth'.format(int(100 * (1 - val_split)))))
+      torch.save(val_data, os.path.join(root, 'test{}.pth'.format(int(100 * val_split))))
+
+    self.data = torch.load(pt_name)
+    self.len = len(self.data)
+    self.transform = transforms
+  
+  def __getitem__(self, index):
+    img, label = self.data[index]
+    
+    if self.transform:
+      img = self.transform(img)
+    
+    return img, label
+  
+  def __len__(self):
+    return self.len
+
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/data_providers/stl10.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/data_providers/stl10.py
@@ -0,0 +1,226 @@
+import os
+import math
+import numpy as np
+
+import torchvision
+import torch.utils.data
+import torchvision.transforms as transforms
+
+from ofa.imagenet_codebase.data_providers.base_provider import DataProvider, MyRandomResizedCrop, MyDistributedSampler
+
+
+class STL10DataProvider(DataProvider):
+
+    def __init__(self, save_path=None, train_batch_size=96, test_batch_size=256, valid_size=None,
+                 n_worker=2, resize_scale=0.08, distort_color=None, image_size=224, num_replicas=None, rank=None):
+
+        self._save_path = save_path
+
+        self.image_size = image_size  # int or list of int
+        self.distort_color = distort_color
+        self.resize_scale = resize_scale
+
+        self._valid_transform_dict = {}
+        if not isinstance(self.image_size, int):
+            assert isinstance(self.image_size, list)
+            from ofa.imagenet_codebase.data_providers.my_data_loader import MyDataLoader
+            self.image_size.sort()  # e.g., 160 -> 224
+            MyRandomResizedCrop.IMAGE_SIZE_LIST = self.image_size.copy()
+            MyRandomResizedCrop.ACTIVE_SIZE = max(self.image_size)
+
+            for img_size in self.image_size:
+                self._valid_transform_dict[img_size] = self.build_valid_transform(img_size)
+            self.active_img_size = max(self.image_size)
+            valid_transforms = self._valid_transform_dict[self.active_img_size]
+            train_loader_class = MyDataLoader  # randomly sample image size for each batch of training image
+        else:
+            self.active_img_size = self.image_size
+            valid_transforms = self.build_valid_transform()
+            train_loader_class = torch.utils.data.DataLoader
+
+        train_transforms = self.build_train_transform()
+        train_dataset = self.train_dataset(train_transforms)
+
+        if valid_size is not None:
+            if not isinstance(valid_size, int):
+                assert isinstance(valid_size, float) and 0 < valid_size < 1
+                valid_size = int(len(train_dataset.data) * valid_size)
+
+            valid_dataset = self.train_dataset(valid_transforms)
+            train_indexes, valid_indexes = self.random_sample_valid_set(len(train_dataset.data), valid_size)
+
+            if num_replicas is not None:
+                train_sampler = MyDistributedSampler(train_dataset, num_replicas, rank, np.array(train_indexes))
+                valid_sampler = MyDistributedSampler(valid_dataset, num_replicas, rank, np.array(valid_indexes))
+            else:
+                train_sampler = torch.utils.data.sampler.SubsetRandomSampler(train_indexes)
+                valid_sampler = torch.utils.data.sampler.SubsetRandomSampler(valid_indexes)
+
+            self.train = train_loader_class(
+                train_dataset, batch_size=train_batch_size, sampler=train_sampler,
+                num_workers=n_worker, pin_memory=True,
+            )
+            self.valid = torch.utils.data.DataLoader(
+                valid_dataset, batch_size=test_batch_size, sampler=valid_sampler,
+                num_workers=n_worker, pin_memory=True,
+            )
+        else:
+            if num_replicas is not None:
+                train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset, num_replicas, rank)
+                self.train = train_loader_class(
+                    train_dataset, batch_size=train_batch_size, sampler=train_sampler,
+                    num_workers=n_worker, pin_memory=True
+                )
+            else:
+                self.train = train_loader_class(
+                    train_dataset, batch_size=train_batch_size, shuffle=True,
+                    num_workers=n_worker, pin_memory=True,
+                )
+            self.valid = None
+
+        test_dataset = self.test_dataset(valid_transforms)
+        if num_replicas is not None:
+            test_sampler = torch.utils.data.distributed.DistributedSampler(test_dataset, num_replicas, rank)
+            self.test = torch.utils.data.DataLoader(
+                test_dataset, batch_size=test_batch_size, sampler=test_sampler, num_workers=n_worker, pin_memory=True,
+            )
+        else:
+            self.test = torch.utils.data.DataLoader(
+                test_dataset, batch_size=test_batch_size, shuffle=True, num_workers=n_worker, pin_memory=True,
+            )
+
+        if self.valid is None:
+            self.valid = self.test
+
+    @staticmethod
+    def name():
+        return 'stl10'
+
+    @property
+    def data_shape(self):
+        return 3, self.active_img_size, self.active_img_size  # C, H, W
+
+    @property
+    def n_classes(self):
+        return 10
+
+    @property
+    def save_path(self):
+        if self._save_path is None:
+            self._save_path = '/mnt/datastore/STL10'  # home server
+
+            if not os.path.exists(self._save_path):
+                self._save_path = '/mnt/datastore/STL10'  # home server
+        return self._save_path
+
+    @property
+    def data_url(self):
+        raise ValueError('unable to download %s' % self.name())
+
+    def train_dataset(self, _transforms):
+        # dataset = datasets.ImageFolder(self.train_path, _transforms)
+        dataset = torchvision.datasets.STL10(
+            root=self.valid_path, split='train', download=False, transform=_transforms)
+        return dataset
+
+    def test_dataset(self, _transforms):
+        # dataset = datasets.ImageFolder(self.valid_path, _transforms)
+        dataset = torchvision.datasets.STL10(
+            root=self.valid_path, split='test', download=False, transform=_transforms)
+        return dataset
+
+    @property
+    def train_path(self):
+        # return os.path.join(self.save_path, 'train')
+        return self.save_path
+
+    @property
+    def valid_path(self):
+        # return os.path.join(self.save_path, 'val')
+        return self.save_path
+
+    @property
+    def normalize(self):
+        return transforms.Normalize(
+            mean=[0.44671097, 0.4398105, 0.4066468],
+            std=[0.2603405, 0.25657743, 0.27126738])
+
+    def build_train_transform(self, image_size=None, print_log=True):
+        if image_size is None:
+            image_size = self.image_size
+        if print_log:
+            print('Color jitter: %s, resize_scale: %s, img_size: %s' %
+                  (self.distort_color, self.resize_scale, image_size))
+
+        if self.distort_color == 'torch':
+            color_transform = transforms.ColorJitter(brightness=0.4, contrast=0.4, saturation=0.4, hue=0.1)
+        elif self.distort_color == 'tf':
+            color_transform = transforms.ColorJitter(brightness=32. / 255., saturation=0.5)
+        else:
+            color_transform = None
+
+        if isinstance(image_size, list):
+            resize_transform_class = MyRandomResizedCrop
+            print('Use MyRandomResizedCrop: %s, \t %s' % MyRandomResizedCrop.get_candidate_image_size(),
+                  'sync=%s, continuous=%s' % (MyRandomResizedCrop.SYNC_DISTRIBUTED, MyRandomResizedCrop.CONTINUOUS))
+        else:
+            resize_transform_class = transforms.RandomResizedCrop
+
+        train_transforms = [
+            resize_transform_class(image_size, scale=(self.resize_scale, 1.0)),
+            transforms.RandomHorizontalFlip(),
+        ]
+        if color_transform is not None:
+            train_transforms.append(color_transform)
+        train_transforms += [
+            transforms.ToTensor(),
+            self.normalize,
+        ]
+
+        train_transforms = transforms.Compose(train_transforms)
+        return train_transforms
+
+    def build_valid_transform(self, image_size=None):
+        if image_size is None:
+            image_size = self.active_img_size
+        return transforms.Compose([
+            transforms.Resize(int(math.ceil(image_size / 0.875))),
+            transforms.CenterCrop(image_size),
+            transforms.ToTensor(),
+            self.normalize,
+        ])
+
+    def assign_active_img_size(self, new_img_size):
+        self.active_img_size = new_img_size
+        if self.active_img_size not in self._valid_transform_dict:
+            self._valid_transform_dict[self.active_img_size] = self.build_valid_transform()
+        # change the transform of the valid and test set
+        self.valid.dataset.transform = self._valid_transform_dict[self.active_img_size]
+        self.test.dataset.transform = self._valid_transform_dict[self.active_img_size]
+
+    def build_sub_train_loader(self, n_images, batch_size, num_worker=None, num_replicas=None, rank=None):
+        # used for resetting running statistics
+        if self.__dict__.get('sub_train_%d' % self.active_img_size, None) is None:
+            if num_worker is None:
+                num_worker = self.train.num_workers
+
+            n_samples = len(self.train.dataset.data)
+            g = torch.Generator()
+            g.manual_seed(DataProvider.SUB_SEED)
+            rand_indexes = torch.randperm(n_samples, generator=g).tolist()
+
+            new_train_dataset = self.train_dataset(
+                self.build_train_transform(image_size=self.active_img_size, print_log=False))
+            chosen_indexes = rand_indexes[:n_images]
+            if num_replicas is not None:
+                sub_sampler = MyDistributedSampler(new_train_dataset, num_replicas, rank, np.array(chosen_indexes))
+            else:
+                sub_sampler = torch.utils.data.sampler.SubsetRandomSampler(chosen_indexes)
+            sub_data_loader = torch.utils.data.DataLoader(
+                new_train_dataset, batch_size=batch_size, sampler=sub_sampler,
+                num_workers=num_worker, pin_memory=True,
+            )
+            self.__dict__['sub_train_%d' % self.active_img_size] = []
+            for images, labels in sub_data_loader:
+                self.__dict__['sub_train_%d' % self.active_img_size].append((images, labels))
+        return self.__dict__['sub_train_%d' % self.active_img_size]
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/networks/init.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/networks/init.py
@@ -0,0 +1,4 @@
+from ofa.imagenet_codebase.networks.proxyless_nets import ProxylessNASNets, proxyless_base, MobileNetV2
+from ofa.imagenet_codebase.networks.mobilenet_v3 import MobileNetV3, MobileNetV3Large
+from transfer_nag_lib.MetaD2A_mobilenetV3.evaluation.codebase.networks.nsganetv2 import NSGANetV2
+
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/networks/nsganetv2.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/networks/nsganetv2.py
@@ -0,0 +1,126 @@
+from timm.models.layers import drop_path
+from ofa.imagenet_codebase.modules.layers import *
+from ofa.imagenet_codebase.networks import MobileNetV3
+
+
+class MobileInvertedResidualBlock(MyModule):
+    """
+    Modified from https://github.com/mit-han-lab/once-for-all/blob/master/ofa/
+    imagenet_codebase/networks/proxyless_nets.py to include drop path in training
+
+    """
+    def __init__(self, mobile_inverted_conv, shortcut, drop_connect_rate=0.0):
+        super(MobileInvertedResidualBlock, self).__init__()
+
+        self.mobile_inverted_conv = mobile_inverted_conv
+        self.shortcut = shortcut
+        self.drop_connect_rate = drop_connect_rate
+
+    def forward(self, x):
+        if self.mobile_inverted_conv is None or isinstance(self.mobile_inverted_conv, ZeroLayer):
+            res = x
+        elif self.shortcut is None or isinstance(self.shortcut, ZeroLayer):
+            res = self.mobile_inverted_conv(x)
+        else:
+            # res = self.mobile_inverted_conv(x) + self.shortcut(x)
+            res = self.mobile_inverted_conv(x)
+
+            if self.drop_connect_rate > 0.:
+                res = drop_path(res, drop_prob=self.drop_connect_rate, training=self.training)
+
+            res += self.shortcut(x)
+
+        return res
+
+    @property
+    def module_str(self):
+        return '(%s, %s)' % (
+            self.mobile_inverted_conv.module_str if self.mobile_inverted_conv is not None else None,
+            self.shortcut.module_str if self.shortcut is not None else None
+        )
+
+    @property
+    def config(self):
+        return {
+            'name': MobileInvertedResidualBlock.__name__,
+            'mobile_inverted_conv': self.mobile_inverted_conv.config if self.mobile_inverted_conv is not None else None,
+            'shortcut': self.shortcut.config if self.shortcut is not None else None,
+        }
+
+    @staticmethod
+    def build_from_config(config):
+        mobile_inverted_conv = set_layer_from_config(config['mobile_inverted_conv'])
+        shortcut = set_layer_from_config(config['shortcut'])
+        return MobileInvertedResidualBlock(
+            mobile_inverted_conv, shortcut, drop_connect_rate=config['drop_connect_rate'])
+
+
+class NSGANetV2(MobileNetV3):
+    """
+    Modified from https://github.com/mit-han-lab/once-for-all/blob/master/ofa/
+    imagenet_codebase/networks/mobilenet_v3.py to include drop path in training
+    and option to reset classification layer
+    """
+    @staticmethod
+    def build_from_config(config, drop_connect_rate=0.0):
+        first_conv = set_layer_from_config(config['first_conv'])
+        final_expand_layer = set_layer_from_config(config['final_expand_layer'])
+        feature_mix_layer = set_layer_from_config(config['feature_mix_layer'])
+        classifier = set_layer_from_config(config['classifier'])
+
+        blocks = []
+        for block_idx, block_config in enumerate(config['blocks']):
+            block_config['drop_connect_rate'] = drop_connect_rate * block_idx / len(config['blocks'])
+            blocks.append(MobileInvertedResidualBlock.build_from_config(block_config))
+
+        net = MobileNetV3(first_conv, blocks, final_expand_layer, feature_mix_layer, classifier)
+        if 'bn' in config:
+            net.set_bn_param(**config['bn'])
+        else:
+            net.set_bn_param(momentum=0.1, eps=1e-3)
+
+        return net
+
+    def zero_last_gamma(self):
+        for m in self.modules():
+            if isinstance(m, MobileInvertedResidualBlock):
+                if isinstance(m.mobile_inverted_conv, MBInvertedConvLayer) and isinstance(m.shortcut, IdentityLayer):
+                    m.mobile_inverted_conv.point_linear.bn.weight.data.zero_()
+
+    @staticmethod
+    def build_net_via_cfg(cfg, input_channel, last_channel, n_classes, dropout_rate):
+        # first conv layer
+        first_conv = ConvLayer(
+            3, input_channel, kernel_size=3, stride=2, use_bn=True, act_func='h_swish', ops_order='weight_bn_act'
+        )
+        # build mobile blocks
+        feature_dim = input_channel
+        blocks = []
+        for stage_id, block_config_list in cfg.items():
+            for k, mid_channel, out_channel, use_se, act_func, stride, expand_ratio in block_config_list:
+                mb_conv = MBInvertedConvLayer(
+                    feature_dim, out_channel, k, stride, expand_ratio, mid_channel, act_func, use_se
+                )
+                if stride == 1 and out_channel == feature_dim:
+                    shortcut = IdentityLayer(out_channel, out_channel)
+                else:
+                    shortcut = None
+                blocks.append(MobileInvertedResidualBlock(mb_conv, shortcut))
+                feature_dim = out_channel
+        # final expand layer
+        final_expand_layer = ConvLayer(
+            feature_dim, feature_dim * 6, kernel_size=1, use_bn=True, act_func='h_swish', ops_order='weight_bn_act',
+        )
+        feature_dim = feature_dim * 6
+        # feature mix layer
+        feature_mix_layer = ConvLayer(
+            feature_dim, last_channel, kernel_size=1, bias=False, use_bn=False, act_func='h_swish',
+        )
+        # classifier
+        classifier = LinearLayer(last_channel, n_classes, dropout_rate=dropout_rate)
+
+        return first_conv, blocks, final_expand_layer, feature_mix_layer, classifier
+
+    @staticmethod
+    def reset_classifier(model, last_channel, n_classes, dropout_rate=0.0):
+        model.classifier = LinearLayer(last_channel, n_classes, dropout_rate=dropout_rate)
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/run_manager/init.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/codebase/run_manager/init.py
@@ -0,0 +1,309 @@
+from transfer_nag_lib.MetaD2A_mobilenetV3.evaluation.codebase.data_providers.imagenet import *
+from transfer_nag_lib.MetaD2A_mobilenetV3.evaluation.codebase.data_providers.cifar import *
+from transfer_nag_lib.MetaD2A_mobilenetV3.evaluation.codebase.data_providers.pets import *
+from transfer_nag_lib.MetaD2A_mobilenetV3.evaluation.codebase.data_providers.aircraft import *
+
+from ofa.imagenet_codebase.run_manager.run_manager import *
+
+
+class ImagenetRunConfig(RunConfig):
+
+    def __init__(self, n_epochs=1, init_lr=1e-4, lr_schedule_type='cosine', lr_schedule_param=None,
+                 dataset='imagenet', train_batch_size=128, test_batch_size=512, valid_size=None,
+                 opt_type='sgd', opt_param=None, weight_decay=4e-5, label_smoothing=0.0, no_decay_keys=None,
+                 mixup_alpha=None,
+                 model_init='he_fout', validation_frequency=1, print_frequency=10,
+                 n_worker=32, resize_scale=0.08, distort_color='tf', image_size=224,
+                 data_path='/mnt/datastore/ILSVRC2012',
+                 **kwargs):
+        super(ImagenetRunConfig, self).__init__(
+            n_epochs, init_lr, lr_schedule_type, lr_schedule_param,
+            dataset, train_batch_size, test_batch_size, valid_size,
+            opt_type, opt_param, weight_decay, label_smoothing, no_decay_keys,
+            mixup_alpha,
+            model_init, validation_frequency, print_frequency
+        )
+        self.n_worker = n_worker
+        self.resize_scale = resize_scale
+        self.distort_color = distort_color
+        self.image_size = image_size
+        self.imagenet_data_path = data_path
+
+    @property
+    def data_provider(self):
+        if self.__dict__.get('_data_provider', None) is None:
+            if self.dataset == ImagenetDataProvider.name():
+                DataProviderClass = ImagenetDataProvider
+            else:
+                raise NotImplementedError
+            self.__dict__['_data_provider'] = DataProviderClass(
+                save_path=self.imagenet_data_path,
+                train_batch_size=self.train_batch_size, test_batch_size=self.test_batch_size,
+                valid_size=self.valid_size, n_worker=self.n_worker, resize_scale=self.resize_scale,
+                distort_color=self.distort_color, image_size=self.image_size,
+            )
+        return self.__dict__['_data_provider']
+
+
+class CIFARRunConfig(RunConfig):
+    def __init__(self, n_epochs=5, init_lr=0.01, lr_schedule_type='cosine', lr_schedule_param=None,
+                 dataset='cifar10', train_batch_size=96, test_batch_size=256, valid_size=None,
+                 opt_type='sgd', opt_param=None, weight_decay=4e-5, label_smoothing=0.0, no_decay_keys=None,
+                 mixup_alpha=None,
+                 model_init='he_fout', validation_frequency=1, print_frequency=10,
+                 n_worker=2, resize_scale=0.08, distort_color=None, image_size=224,
+                 data_path='/mnt/datastore/CIFAR',
+                 **kwargs):
+        super(CIFARRunConfig, self).__init__(
+            n_epochs, init_lr, lr_schedule_type, lr_schedule_param,
+            dataset, train_batch_size, test_batch_size, valid_size,
+            opt_type, opt_param, weight_decay, label_smoothing, no_decay_keys,
+            mixup_alpha,
+            model_init, validation_frequency, print_frequency
+        )
+
+        self.n_worker = n_worker
+        self.resize_scale = resize_scale
+        self.distort_color = distort_color
+        self.image_size = image_size
+        self.cifar_data_path = data_path
+
+    @property
+    def data_provider(self):
+        if self.__dict__.get('_data_provider', None) is None:
+            if self.dataset == CIFAR10DataProvider.name():
+                DataProviderClass = CIFAR10DataProvider
+            elif self.dataset == CIFAR100DataProvider.name():
+                DataProviderClass = CIFAR100DataProvider
+            elif self.dataset == CINIC10DataProvider.name():
+                DataProviderClass = CINIC10DataProvider
+            else:
+                raise NotImplementedError
+            self.__dict__['_data_provider'] = DataProviderClass(
+                save_path=self.cifar_data_path,
+                train_batch_size=self.train_batch_size, test_batch_size=self.test_batch_size,
+                valid_size=self.valid_size, n_worker=self.n_worker, resize_scale=self.resize_scale,
+                distort_color=self.distort_color, image_size=self.image_size,
+            )
+        return self.__dict__['_data_provider']
+
+
+class Flowers102RunConfig(RunConfig):
+
+    def __init__(self, n_epochs=3, init_lr=1e-2, lr_schedule_type='cosine', lr_schedule_param=None,
+                 dataset='flowers102', train_batch_size=32, test_batch_size=250, valid_size=None,
+                 opt_type='sgd', opt_param=None, weight_decay=4e-5, label_smoothing=0.0, no_decay_keys=None,
+                 mixup_alpha=None,
+                 model_init='he_fout', validation_frequency=1, print_frequency=10,
+                 n_worker=4, resize_scale=0.08, distort_color=None, image_size=224,
+                 data_path='/mnt/datastore/Flowers102',
+                 **kwargs):
+        super(Flowers102RunConfig, self).__init__(
+            n_epochs, init_lr, lr_schedule_type, lr_schedule_param,
+            dataset, train_batch_size, test_batch_size, valid_size,
+            opt_type, opt_param, weight_decay, label_smoothing, no_decay_keys,
+            mixup_alpha,
+            model_init, validation_frequency, print_frequency
+        )
+
+        self.n_worker = n_worker
+        self.resize_scale = resize_scale
+        self.distort_color = distort_color
+        self.image_size = image_size
+        self.flowers102_data_path = data_path
+
+    @property
+    def data_provider(self):
+        if self.__dict__.get('_data_provider', None) is None:
+            if self.dataset == Flowers102DataProvider.name():
+                DataProviderClass = Flowers102DataProvider
+            else:
+                raise NotImplementedError
+            self.__dict__['_data_provider'] = DataProviderClass(
+                save_path=self.flowers102_data_path,
+                train_batch_size=self.train_batch_size, test_batch_size=self.test_batch_size,
+                valid_size=self.valid_size, n_worker=self.n_worker, resize_scale=self.resize_scale,
+                distort_color=self.distort_color, image_size=self.image_size,
+            )
+        return self.__dict__['_data_provider']
+
+
+class STL10RunConfig(RunConfig):
+
+    def __init__(self, n_epochs=5, init_lr=1e-2, lr_schedule_type='cosine', lr_schedule_param=None,
+                 dataset='stl10', train_batch_size=96, test_batch_size=256, valid_size=None,
+                 opt_type='sgd', opt_param=None, weight_decay=4e-5, label_smoothing=0.0, no_decay_keys=None,
+                 mixup_alpha=None,
+                 model_init='he_fout', validation_frequency=1, print_frequency=10,
+                 n_worker=4, resize_scale=0.08, distort_color=None, image_size=224,
+                 data_path='/mnt/datastore/STL10',
+                 **kwargs):
+        super(STL10RunConfig, self).__init__(
+            n_epochs, init_lr, lr_schedule_type, lr_schedule_param,
+            dataset, train_batch_size, test_batch_size, valid_size,
+            opt_type, opt_param, weight_decay, label_smoothing, no_decay_keys,
+            mixup_alpha,
+            model_init, validation_frequency, print_frequency
+        )
+
+        self.n_worker = n_worker
+        self.resize_scale = resize_scale
+        self.distort_color = distort_color
+        self.image_size = image_size
+        self.stl10_data_path = data_path
+
+    @property
+    def data_provider(self):
+        if self.__dict__.get('_data_provider', None) is None:
+            if self.dataset == STL10DataProvider.name():
+                DataProviderClass = STL10DataProvider
+            else:
+                raise NotImplementedError
+            self.__dict__['_data_provider'] = DataProviderClass(
+                save_path=self.stl10_data_path,
+                train_batch_size=self.train_batch_size, test_batch_size=self.test_batch_size,
+                valid_size=self.valid_size, n_worker=self.n_worker, resize_scale=self.resize_scale,
+                distort_color=self.distort_color, image_size=self.image_size,
+            )
+        return self.__dict__['_data_provider']
+
+
+class DTDRunConfig(RunConfig):
+
+    def __init__(self, n_epochs=1, init_lr=0.05, lr_schedule_type='cosine', lr_schedule_param=None,
+                 dataset='dtd', train_batch_size=32, test_batch_size=250, valid_size=None,
+                 opt_type='sgd', opt_param=None, weight_decay=4e-5, label_smoothing=0.0, no_decay_keys=None,
+                 mixup_alpha=None, model_init='he_fout', validation_frequency=1, print_frequency=10,
+                 n_worker=32, resize_scale=0.08, distort_color='tf', image_size=224,
+                 data_path='/mnt/datastore/dtd',
+                 **kwargs):
+        super(DTDRunConfig, self).__init__(
+            n_epochs, init_lr, lr_schedule_type, lr_schedule_param,
+            dataset, train_batch_size, test_batch_size, valid_size,
+            opt_type, opt_param, weight_decay, label_smoothing, no_decay_keys,
+            mixup_alpha,
+            model_init, validation_frequency, print_frequency
+        )
+        self.n_worker = n_worker
+        self.resize_scale = resize_scale
+        self.distort_color = distort_color
+        self.image_size = image_size
+        self.data_path = data_path
+
+    @property
+    def data_provider(self):
+        if self.__dict__.get('_data_provider', None) is None:
+            if self.dataset == DTDDataProvider.name():
+                DataProviderClass = DTDDataProvider
+            else:
+                raise NotImplementedError
+            self.__dict__['_data_provider'] = DataProviderClass(
+                save_path=self.data_path,
+                train_batch_size=self.train_batch_size, test_batch_size=self.test_batch_size,
+                valid_size=self.valid_size, n_worker=self.n_worker, resize_scale=self.resize_scale,
+                distort_color=self.distort_color, image_size=self.image_size,
+            )
+        return self.__dict__['_data_provider']
+
+
+class PetsRunConfig(RunConfig):
+
+    def __init__(self, n_epochs=1, init_lr=0.05, lr_schedule_type='cosine', lr_schedule_param=None,
+                 dataset='pets', train_batch_size=32, test_batch_size=250, valid_size=None,
+                 opt_type='sgd', opt_param=None, weight_decay=4e-5, label_smoothing=0.0, no_decay_keys=None,
+                 mixup_alpha=None,
+                 model_init='he_fout', validation_frequency=1, print_frequency=10,
+                 n_worker=32, resize_scale=0.08, distort_color='tf', image_size=224,
+                 data_path='/mnt/datastore/Oxford-IIITPets',
+                 **kwargs):
+        super(PetsRunConfig, self).__init__(
+            n_epochs, init_lr, lr_schedule_type, lr_schedule_param,
+            dataset, train_batch_size, test_batch_size, valid_size,
+            opt_type, opt_param, weight_decay, label_smoothing, no_decay_keys,
+            mixup_alpha,
+            model_init, validation_frequency, print_frequency
+        )
+        self.n_worker = n_worker
+        self.resize_scale = resize_scale
+        self.distort_color = distort_color
+        self.image_size = image_size
+        self.imagenet_data_path = data_path
+
+    @property
+    def data_provider(self):
+        if self.__dict__.get('_data_provider', None) is None:
+            if self.dataset == OxfordIIITPetsDataProvider.name():
+                DataProviderClass = OxfordIIITPetsDataProvider
+            else:
+                raise NotImplementedError
+            self.__dict__['_data_provider'] = DataProviderClass(
+                save_path=self.imagenet_data_path,
+                train_batch_size=self.train_batch_size, test_batch_size=self.test_batch_size,
+                valid_size=self.valid_size, n_worker=self.n_worker, resize_scale=self.resize_scale,
+                distort_color=self.distort_color, image_size=self.image_size,
+            )
+        return self.__dict__['_data_provider']
+
+
+class AircraftRunConfig(RunConfig):
+
+    def __init__(self, n_epochs=1, init_lr=0.05, lr_schedule_type='cosine', lr_schedule_param=None,
+                 dataset='aircraft', train_batch_size=32, test_batch_size=250, valid_size=None,
+                 opt_type='sgd', opt_param=None, weight_decay=4e-5, label_smoothing=0.0, no_decay_keys=None,
+                 mixup_alpha=None,
+                 model_init='he_fout', validation_frequency=1, print_frequency=10,
+                 n_worker=32, resize_scale=0.08, distort_color='tf', image_size=224,
+                 data_path='/mnt/datastore/Aircraft',
+                 **kwargs):
+        super(AircraftRunConfig, self).__init__(
+            n_epochs, init_lr, lr_schedule_type, lr_schedule_param,
+            dataset, train_batch_size, test_batch_size, valid_size,
+            opt_type, opt_param, weight_decay, label_smoothing, no_decay_keys,
+            mixup_alpha,
+            model_init, validation_frequency, print_frequency
+        )
+        self.n_worker = n_worker
+        self.resize_scale = resize_scale
+        self.distort_color = distort_color
+        self.image_size = image_size
+        self.data_path = data_path
+
+    @property
+    def data_provider(self):
+        if self.__dict__.get('_data_provider', None) is None:
+            if self.dataset == FGVCAircraftDataProvider.name():
+                DataProviderClass = FGVCAircraftDataProvider
+            else:
+                raise NotImplementedError
+            self.__dict__['_data_provider'] = DataProviderClass(
+                save_path=self.data_path,
+                train_batch_size=self.train_batch_size, test_batch_size=self.test_batch_size,
+                valid_size=self.valid_size, n_worker=self.n_worker, resize_scale=self.resize_scale,
+                distort_color=self.distort_color, image_size=self.image_size,
+            )
+        return self.__dict__['_data_provider']
+
+
+def get_run_config(**kwargs):
+    if kwargs['dataset'] == 'imagenet':
+        run_config = ImagenetRunConfig(**kwargs)
+    elif kwargs['dataset'].startswith('cifar') or kwargs['dataset'].startswith('cinic'):
+        run_config = CIFARRunConfig(**kwargs)
+    elif kwargs['dataset'] == 'flowers102':
+        run_config = Flowers102RunConfig(**kwargs)
+    elif kwargs['dataset'] == 'stl10':
+        run_config = STL10RunConfig(**kwargs)
+    elif kwargs['dataset'] == 'dtd':
+        run_config = DTDRunConfig(**kwargs)
+    elif kwargs['dataset'] == 'pets':
+        run_config = PetsRunConfig(**kwargs)
+    elif kwargs['dataset'] == 'aircraft':
+        run_config = AircraftRunConfig(**kwargs)
+    elif kwargs['dataset'] == 'aircraft100':
+        run_config = AircraftRunConfig(**kwargs)
+    else:
+        raise NotImplementedError
+
+    return run_config
+
+
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/eval_utils.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/eval_utils.py
@@ -0,0 +1,122 @@
+import numpy as np
+import torch
+import torchvision.transforms as transforms
+from PIL import Image
+import torchvision.utils
+from transfer_nag_lib.MetaD2A_mobilenetV3.evaluation.codebase.data_providers.aircraft import FGVCAircraft
+from transfer_nag_lib.MetaD2A_mobilenetV3.evaluation.codebase.data_providers.pets2 import PetDataset
+import torch.utils.data as Data
+from transfer_nag_lib.MetaD2A_mobilenetV3.evaluation.codebase.data_providers.autoaugment import CIFAR10Policy
+
+
+def get_dataset(data_name, batch_size, data_path, num_workers,
+                img_size, autoaugment, cutout, cutout_length):
+	num_class_dict = {
+		'cifar100': 100,
+		'cifar10': 10,
+		'mnist': 10,
+		'aircraft': 100,
+		'svhn': 10,
+		'pets': 37
+	}
+		# 'aircraft30': 30,
+		# 'aircraft100': 100,
+	
+	train_transform, valid_transform = _data_transforms(
+     		data_name, img_size, autoaugment, cutout, cutout_length)
+	if data_name == 'cifar100':
+		train_data = torchvision.datasets.CIFAR100(
+			root=data_path, train=True, download=True, transform=train_transform)
+		valid_data = torchvision.datasets.CIFAR100(
+			root=data_path, train=False, download=True, transform=valid_transform)
+	elif data_name == 'cifar10':
+		train_data = torchvision.datasets.CIFAR10(
+			root=data_path, train=True, download=True, transform=train_transform)
+		valid_data = torchvision.datasets.CIFAR10(
+			root=data_path, train=False, download=True, transform=valid_transform)
+	elif data_name.startswith('aircraft'):
+		print(data_path)
+		if 'aircraft100' in data_path:
+			data_path = data_path.replace('aircraft100', 'aircraft/fgvc-aircraft-2013b')
+		else:
+			data_path = data_path.replace('aircraft', 'aircraft/fgvc-aircraft-2013b')
+		train_data = FGVCAircraft(data_path, class_type='variant', split='trainval',
+		                          transform=train_transform, download=True)
+		valid_data = FGVCAircraft(data_path, class_type='variant', split='test',
+		                          transform=valid_transform, download=True)
+	elif data_name.startswith('pets'):
+		train_data = PetDataset(data_path, train=True, num_cl=37,
+		                        val_split=0.15, transforms=train_transform)
+		valid_data = PetDataset(data_path, train=False, num_cl=37,
+		                        val_split=0.15, transforms=valid_transform)
+	else:
+		raise KeyError
+	
+	train_queue = torch.utils.data.DataLoader(
+		train_data, batch_size=batch_size, shuffle=True, pin_memory=True,
+		num_workers=num_workers)
+	
+	valid_queue = torch.utils.data.DataLoader(
+		valid_data, batch_size=200, shuffle=False, pin_memory=True,
+		num_workers=num_workers)
+	
+	return train_queue, valid_queue, num_class_dict[data_name]
+
+
+
+class Cutout(object):
+	def __init__(self, length):
+		self.length = length
+	
+	def __call__(self, img):
+		h, w = img.size(1), img.size(2)
+		mask = np.ones((h, w), np.float32)
+		y = np.random.randint(h)
+		x = np.random.randint(w)
+		
+		y1 = np.clip(y - self.length // 2, 0, h)
+		y2 = np.clip(y + self.length // 2, 0, h)
+		x1 = np.clip(x - self.length // 2, 0, w)
+		x2 = np.clip(x + self.length // 2, 0, w)
+		
+		mask[y1: y2, x1: x2] = 0.
+		mask = torch.from_numpy(mask)
+		mask = mask.expand_as(img)
+		img *= mask
+		return img
+
+
+def _data_transforms(data_name, img_size, autoaugment, cutout, cutout_length):
+	if 'cifar' in data_name:
+		norm_mean = [0.49139968, 0.48215827, 0.44653124]
+		norm_std = [0.24703233, 0.24348505, 0.26158768]
+	elif 'aircraft' in data_name:
+		norm_mean = [0.48933587508932375, 0.5183537408957618, 0.5387914411673883]
+		norm_std = [0.22388883112804625, 0.21641635409388751, 0.24615605842636115]
+	elif 'pets' in data_name:
+		norm_mean = [0.4828895122298728, 0.4448394893850807, 0.39566558230789783]
+		norm_std = [0.25925664613996574, 0.2532760018681693, 0.25981017205097917]
+	else:
+		raise KeyError
+	
+	train_transform = transforms.Compose([
+		transforms.Resize((img_size, img_size), interpolation=Image.BICUBIC),  # BICUBIC interpolation
+		transforms.RandomHorizontalFlip(),
+	])
+	
+	if autoaugment:
+		train_transform.transforms.append(CIFAR10Policy())
+	
+	train_transform.transforms.append(transforms.ToTensor())
+	
+	if cutout:
+		train_transform.transforms.append(Cutout(cutout_length))
+	
+	train_transform.transforms.append(transforms.Normalize(norm_mean, norm_std))
+	
+	valid_transform = transforms.Compose([
+		transforms.Resize((img_size, img_size), interpolation=Image.BICUBIC),  # BICUBIC interpolation
+		transforms.ToTensor(),
+		transforms.Normalize(norm_mean, norm_std),
+	])
+	return train_transform, valid_transform
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/evaluator.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/evaluator.py
@@ -0,0 +1,233 @@
+import os
+import torch
+import numpy as np
+import random
+import sys
+import transfer_nag_lib.MetaD2A_mobilenetV3.evaluation.eval_utils
+from transfer_nag_lib.MetaD2A_mobilenetV3.evaluation.codebase.networks import NSGANetV2
+from transfer_nag_lib.MetaD2A_mobilenetV3.evaluation.codebase.run_manager import get_run_config
+from ofa.elastic_nn.networks import OFAMobileNetV3
+from ofa.imagenet_codebase.run_manager import RunManager
+from ofa.elastic_nn.modules.dynamic_op import DynamicSeparableConv2d
+from torchprofile import profile_macs
+import copy
+import json
+import warnings
+
+warnings.simplefilter("ignore")
+
+DynamicSeparableConv2d.KERNEL_TRANSFORM_MODE = 1
+
+
+class ArchManager:
+	def __init__(self):
+		self.num_blocks = 20
+		self.num_stages = 5
+		self.kernel_sizes = [3, 5, 7]
+		self.expand_ratios = [3, 4, 6]
+		self.depths = [2, 3, 4]
+		self.resolutions = [160, 176, 192, 208, 224]
+	
+	def random_sample(self):
+		sample = {}
+		d = []
+		e = []
+		ks = []
+		for i in range(self.num_stages):
+			d.append(random.choice(self.depths))
+		
+		for i in range(self.num_blocks):
+			e.append(random.choice(self.expand_ratios))
+			ks.append(random.choice(self.kernel_sizes))
+		
+		sample = {
+			'wid': None,
+			'ks': ks,
+			'e': e,
+			'd': d,
+			'r': [random.choice(self.resolutions)]
+		}
+		
+		return sample
+	
+	def random_resample(self, sample, i):
+		assert i >= 0 and i < self.num_blocks
+		sample['ks'][i] = random.choice(self.kernel_sizes)
+		sample['e'][i] = random.choice(self.expand_ratios)
+	
+	def random_resample_depth(self, sample, i):
+		assert i >= 0 and i < self.num_stages
+		sample['d'][i] = random.choice(self.depths)
+	
+	def random_resample_resolution(self, sample):
+		sample['r'][0] = random.choice(self.resolutions)
+
+
+def parse_string_list(string):
+	if isinstance(string, str):
+		# convert '[5 5 5 7 7 7 3 3 7 7 7 3 3]' to [5, 5, 5, 7, 7, 7, 3, 3, 7, 7, 7, 3, 3]
+		return list(map(int, string[1:-1].split()))
+	else:
+		return string
+
+
+def pad_none(x, depth, max_depth):
+	new_x, counter = [], 0
+	for d in depth:
+		for _ in range(d):
+			new_x.append(x[counter])
+			counter += 1
+		if d < max_depth:
+			new_x += [None] * (max_depth - d)
+	return new_x
+
+
+def get_net_info(net, data_shape, measure_latency=None, print_info=True, clean=False, lut=None):
+	net_info = eval_utils.get_net_info(
+		net, data_shape, measure_latency, print_info=print_info, clean=clean, lut=lut)
+	
+	gpu_latency, cpu_latency = None, None
+	for k in net_info.keys():
+		if 'gpu' in k:
+			gpu_latency = np.round(net_info[k]['val'], 2)
+		if 'cpu' in k:
+			cpu_latency = np.round(net_info[k]['val'], 2)
+	
+	return {
+		'params': np.round(net_info['params'] / 1e6, 2),
+		'flops': np.round(net_info['flops'] / 1e6, 2),
+		'gpu': gpu_latency, 'cpu': cpu_latency
+	}
+
+
+def validate_config(config, max_depth=4):
+	kernel_size, exp_ratio, depth = config['ks'], config['e'], config['d']
+	
+	if isinstance(kernel_size, str): kernel_size = parse_string_list(kernel_size)
+	if isinstance(exp_ratio, str): exp_ratio = parse_string_list(exp_ratio)
+	if isinstance(depth, str): depth = parse_string_list(depth)
+	
+	assert (isinstance(kernel_size, list) or isinstance(kernel_size, int))
+	assert (isinstance(exp_ratio, list) or isinstance(exp_ratio, int))
+	assert isinstance(depth, list)
+	
+	if len(kernel_size) < len(depth) * max_depth:
+		kernel_size = pad_none(kernel_size, depth, max_depth)
+	if len(exp_ratio) < len(depth) * max_depth:
+		exp_ratio = pad_none(exp_ratio, depth, max_depth)
+	
+	# return {'ks': kernel_size, 'e': exp_ratio, 'd': depth, 'w': config['w']}
+	return {'ks': kernel_size, 'e': exp_ratio, 'd': depth}
+
+
+def set_nas_test_dataset(path, test_data_name, max_img):
+	if not test_data_name in ['mnist', 'svhn', 'cifar10',
+	                          'cifar100', 'aircraft', 'pets']: raise ValueError(test_data_name)
+	
+	dpath = path
+	num_cls = 10  # mnist, svhn, cifar10
+	if test_data_name in ['cifar100', 'aircraft']:
+		num_cls = 100
+	elif test_data_name == 'pets':
+		num_cls = 37
+
+	x = torch.load(dpath + f'/{test_data_name}bylabel')
+	img_per_cls = min(int(max_img / num_cls), 20)
+	return x, img_per_cls, num_cls
+
+
+class OFAEvaluator:
+	""" based on OnceForAll supernet taken from https://github.com/mit-han-lab/once-for-all """
+	
+	def __init__(self, num_gen_arch, img_size, drop_path,
+	             n_classes=1000,
+	             model_path=None,
+	             kernel_size=None, exp_ratio=None, depth=None):
+		# default configurations
+		self.kernel_size = [3, 5, 7] if kernel_size is None else kernel_size  # depth-wise conv kernel size
+		self.exp_ratio = [3, 4, 6] if exp_ratio is None else exp_ratio  # expansion rate
+		self.depth = [2, 3, 4] if depth is None else depth  # number of MB block repetition
+		
+		if 'w1.0' in model_path:
+			self.width_mult = 1.0
+		elif 'w1.2' in model_path:
+			self.width_mult = 1.2
+		else:
+			raise ValueError
+		
+		self.engine = OFAMobileNetV3(
+			n_classes=n_classes,
+			dropout_rate=0, width_mult_list=self.width_mult, ks_list=self.kernel_size,
+			expand_ratio_list=self.exp_ratio, depth_list=self.depth)
+		
+  
+		init = torch.load(model_path, map_location='cpu')['state_dict']
+		self.engine.load_weights_from_net(init)
+		print(f'load {model_path}...')
+		
+		## metad2a
+		self.arch_manager = ArchManager()
+		self.num_gen_arch = num_gen_arch
+
+	
+	def sample_random_architecture(self):
+		sampled_architecture = self.arch_manager.random_sample()
+		return sampled_architecture
+	
+	def get_architecture(self, bound=None):
+		g_lst, pred_acc_lst, x_lst = [], [], []
+		searched_g, max_pred_acc = None, 0
+		
+		with torch.no_grad():
+			for n in range(self.num_gen_arch):
+				file_acc = self.lines[n].split()[0]
+				g_dict = ' '.join(self.lines[n].split())
+				g = json.loads(g_dict.replace("'", "\""))
+				
+				if bound is not None:
+					subnet, config = self.sample(config=g)
+					net = NSGANetV2.build_from_config(subnet.config,
+													drop_connect_rate=self.drop_path)
+					inputs = torch.randn(1, 3, self.img_size, self.img_size)
+					flops = profile_macs(copy.deepcopy(net), inputs) / 1e6
+					if flops <= bound:
+						searched_g = g
+						break
+				else:
+					searched_g = g
+					pred_acc_lst.append(file_acc)
+					break
+		
+		if searched_g is None:
+			raise ValueError(searched_g)
+		return searched_g, pred_acc_lst
+	
+
+	def sample(self, config=None):
+		""" randomly sample a sub-network """
+		if config is not None:
+			config = validate_config(config)
+			self.engine.set_active_subnet(ks=config['ks'], e=config['e'], d=config['d'])
+		else:
+			config = self.engine.sample_active_subnet()
+		
+		subnet = self.engine.get_active_subnet(preserve_weight=True)
+		return subnet, config
+	
+	@staticmethod
+	def save_net_config(path, net, config_name='net.config'):
+		""" dump run_config and net_config to the model_folder """
+		net_save_path = os.path.join(path, config_name)
+		json.dump(net.config, open(net_save_path, 'w'), indent=4)
+		print('Network configs dump to %s' % net_save_path)
+	
+	@staticmethod
+	def save_net(path, net, model_name):
+		""" dump net weight as checkpoint """
+		if isinstance(net, torch.nn.DataParallel):
+			checkpoint = {'state_dict': net.module.state_dict()}
+		else:
+			checkpoint = {'state_dict': net.state_dict()}
+		model_path = os.path.join(path, model_name)
+		torch.save(checkpoint, model_path)
+		print('Network model dump to %s' % model_path)
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/main.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/main.py
@@ -0,0 +1,169 @@
+import os
+import sys
+import json
+import logging
+import numpy as np
+import copy
+import torch
+import torch.nn as nn
+import random
+import torch.optim as optim
+from evaluator import OFAEvaluator
+from torchprofile import profile_macs
+from codebase.networks import NSGANetV2
+from parser import get_parse
+from eval_utils import get_dataset
+
+
+args = get_parse()
+os.environ["CUDA_VISIBLE_DEVICES"] = args.gpu
+device_list = [int(_) for _ in args.gpu.split(',')]
+args.n_gpus = len(device_list)
+args.device = torch.device("cuda:0")
+
+if args.seed is None or args.seed < 0: args.seed = random.randint(1, 100000)
+torch.cuda.manual_seed(args.seed)
+torch.manual_seed(args.seed)
+np.random.seed(args.seed)
+random.seed(args.seed)
+
+
+evaluator = OFAEvaluator(args,
+                         model_path='../.torch/ofa_nets/ofa_mbv3_d234_e346_k357_w1.0')
+
+args.save_path = os.path.join(args.save_path, f'evaluation/{args.data_name}')
+if args.model_config.startswith('flops@'):
+	args.save_path += f'-nsganetV2-{args.model_config}-{args.seed}'
+else:
+	args.save_path += f'-metaD2A-{args.bound}-{args.seed}'
+if not os.path.exists(args.save_path):
+	os.makedirs(args.save_path)
+
+args.data_path = os.path.join(args.data_path, args.data_name)
+
+log_format = '%(asctime)s %(message)s'
+logging.basicConfig(stream=sys.stdout, level=logging.INFO,
+                    format=log_format, datefmt='%m/%d %I:%M:%S %p')
+fh = logging.FileHandler(os.path.join(args.save_path, 'log.txt'))
+fh.setFormatter(logging.Formatter(log_format))
+logging.getLogger().addHandler(fh)
+if not torch.cuda.is_available():
+	logging.info('no gpu self.args.device available')
+	sys.exit(1)
+logging.info("args = %s", args)
+
+
+
+def set_architecture(n_cls):
+	if args.model_config.startswith('flops@'):
+		names = {'cifar10': 'CIFAR-10', 'cifar100': 'CIFAR-100',
+		         'aircraft100': 'Aircraft', 'pets': 'Pets'}
+		p = os.path.join('./searched-architectures/{}/net-{}/net.subnet'.
+		                 format(names[args.data_name], args.model_config))
+		g = json.load(open(p))
+	else:
+		g, acc = evaluator.get_architecture(args)
+	
+	subnet, config = evaluator.sample(g)
+	net = NSGANetV2.build_from_config(subnet.config, drop_connect_rate=args.drop_path)
+	net.load_state_dict(subnet.state_dict())
+	
+	NSGANetV2.reset_classifier(
+		net, last_channel=net.classifier.in_features,
+		n_classes=n_cls, dropout_rate=args.drop)
+	# calculate #Paramaters and #FLOPS
+	inputs = torch.randn(1, 3, args.img_size, args.img_size)
+	flops = profile_macs(copy.deepcopy(net), inputs) / 1e6
+	params = sum(p.numel() for p in net.parameters() if p.requires_grad) / 1e6
+	net_name = "net_flops@{:.0f}".format(flops)
+	logging.info('#params {:.2f}M, #flops {:.0f}M'.format(params, flops))
+	OFAEvaluator.save_net_config(args.save_path, net, net_name + '.config')
+	if args.n_gpus > 1:
+		net = nn.DataParallel(net)  # data parallel in case more than 1 gpu available
+	net = net.to(args.device)
+	
+	return net, net_name
+
+
+def train(train_queue, net, criterion, optimizer):
+	net.train()
+	train_loss, correct, total = 0, 0, 0
+	for step, (inputs, targets) in enumerate(train_queue):
+		# upsample by bicubic to match imagenet training size
+		inputs, targets = inputs.to(args.device), targets.to(args.device)
+		optimizer.zero_grad()
+		outputs = net(inputs)
+		loss = criterion(outputs, targets)
+		loss.backward()
+		nn.utils.clip_grad_norm_(net.parameters(), args.grad_clip)
+		optimizer.step()
+		train_loss += loss.item()
+		_, predicted = outputs.max(1)
+		total += targets.size(0)
+		correct += predicted.eq(targets).sum().item()
+		if step % args.report_freq == 0:
+			logging.info('train %03d %e %f', step, train_loss / total, 100. * correct / total)
+	logging.info('train acc %f', 100. * correct / total)
+	return train_loss / total, 100. * correct / total
+
+
+def infer(valid_queue, net, criterion, early_stop=False):
+	net.eval()
+	test_loss, correct, total = 0, 0, 0
+	with torch.no_grad():
+		for step, (inputs, targets) in enumerate(valid_queue):
+			inputs, targets = inputs.to(args.device), targets.to(args.device)
+			outputs = net(inputs)
+			loss = criterion(outputs, targets)
+			test_loss += loss.item()
+			_, predicted = outputs.max(1)
+			total += targets.size(0)
+			correct += predicted.eq(targets).sum().item()
+			if step % args.report_freq == 0:
+				logging.info('valid %03d %e %f', step, test_loss / total, 100. * correct / total)
+			if early_stop and step == 10:
+				break
+	acc = 100. * correct / total
+	logging.info('valid acc %f', 100. * correct / total)
+	
+	return test_loss / total, acc
+
+
+def main():
+	best_acc, top_checkpoints = 0, []
+	
+	train_queue, valid_queue, n_cls = get_dataset(args)
+	net, net_name = set_architecture(n_cls)
+	parameters = filter(lambda p: p.requires_grad, net.parameters())
+	optimizer = optim.SGD(parameters, lr=args.lr, momentum=args.momentum,                  weight_decay=args.weight_decay)
+	criterion = nn.CrossEntropyLoss().to(args.device)
+	scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, args.epochs)
+	
+	for epoch in range(args.epochs):
+		logging.info('epoch %d lr %e', epoch, scheduler.get_lr()[0])
+		
+		train(train_queue, net, criterion, optimizer)
+		_, valid_acc = infer(valid_queue, net, criterion)
+		# checkpoint saving
+		
+		if len(top_checkpoints) < args.topk:
+			OFAEvaluator.save_net(args.save_path, net, net_name + '.ckpt{}'.format(epoch))
+			top_checkpoints.append((os.path.join(args.save_path, net_name + '.ckpt{}'.format(epoch)), valid_acc))
+		else:
+			idx = np.argmin([x[1] for x in top_checkpoints])
+			if valid_acc > top_checkpoints[idx][1]:
+				OFAEvaluator.save_net(args.save_path, net, net_name + '.ckpt{}'.format(epoch))
+				top_checkpoints.append((os.path.join(args.save_path, net_name + '.ckpt{}'.format(epoch)), valid_acc))
+				# remove the idx
+				os.remove(top_checkpoints[idx][0])
+				top_checkpoints.pop(idx)
+				print(top_checkpoints)
+		if valid_acc > best_acc:
+			OFAEvaluator.save_net(args.save_path, net, net_name + '.best')
+			best_acc = valid_acc
+		scheduler.step()
+	
+
+
+if __name__ == '__main__':
+	main()
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/parser.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/parser.py
@@ -0,0 +1,43 @@
+import argparse
+
+def get_parse():
+  parser = argparse.ArgumentParser(description='MetaD2A vs NSGANETv2')
+  parser.add_argument('--save-path', type=str, default='../results', help='the path of save directory')
+  parser.add_argument('--data-path', type=str, default='../data', help='the path of save directory')
+  parser.add_argument('--data-name', type=str, default=None, help='meta-test dataset name')
+  parser.add_argument('--num-gen-arch', type=int, default=200,
+                      help='the number of candidate architectures generated by the generator')
+  parser.add_argument('--bound', type=int, default=None)
+
+  # original setting
+  parser.add_argument('--seed', type=int, default=-1, help='random seed')
+  parser.add_argument('--batch-size', type=int, default=96, help='batch size')
+  parser.add_argument('--num_workers', type=int, default=2, help='number of workers for data loading')
+  parser.add_argument('--gpu', type=str, default='0', help='set visible gpus')
+  parser.add_argument('--lr', type=float, default=0.01, help='init learning rate')
+  parser.add_argument('--momentum', type=float, default=0.9, help='momentum')
+  parser.add_argument('--weight_decay', type=float, default=4e-5, help='weight decay')
+  parser.add_argument('--report_freq', type=float, default=50, help='report frequency')
+  parser.add_argument('--epochs', type=int, default=150, help='num of training epochs')
+  parser.add_argument('--grad_clip', type=float, default=5, help='gradient clipping')
+  parser.add_argument('--cutout', action='store_true', default=True, help='use cutout')
+  parser.add_argument('--cutout_length', type=int, default=16, help='cutout length')
+  parser.add_argument('--autoaugment', action='store_true', default=True, help='use auto augmentation')
+
+  parser.add_argument('--topk', type=int, default=10, help='top k checkpoints to save')
+  parser.add_argument('--evaluate', action='store_true', default=False, help='evaluate a pretrained model')
+  # model related
+  parser.add_argument('--model', default='resnet101', type=str, metavar='MODEL',
+                      help='Name of model to train (default: "countception"')
+  parser.add_argument('--model-config', type=str, default='search',
+                      help='location of a json file of specific model declaration')
+  parser.add_argument('--initial-checkpoint', default='', type=str, metavar='PATH',
+                      help='Initialize model from this checkpoint (default: none)')
+  parser.add_argument('--drop', type=float, default=0.2,
+                      help='dropout rate')
+  parser.add_argument('--drop-path', type=float, default=0.2, metavar='PCT',
+                      help='Drop path rate (default: None)')
+  parser.add_argument('--img-size', type=int, default=224,
+                      help='input resolution (192 -> 256)')
+  args = parser.parse_args()
+  return args
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/train.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/evaluation/train.py
@@ -0,0 +1,261 @@
+import os
+import sys
+import json
+import logging
+import numpy as np
+import copy
+import torch
+import torch.nn as nn
+import random
+import torch.optim as optim
+
+from transfer_nag_lib.MetaD2A_mobilenetV3.evaluation.evaluator import OFAEvaluator
+from torchprofile import profile_macs
+from transfer_nag_lib.MetaD2A_mobilenetV3.evaluation.codebase.networks import NSGANetV2
+from transfer_nag_lib.MetaD2A_mobilenetV3.evaluation.parser import get_parse
+from transfer_nag_lib.MetaD2A_mobilenetV3.evaluation.eval_utils import get_dataset
+from transfer_nag_lib.MetaD2A_nas_bench_201.metad2a_utils import reset_seed
+from transfer_nag_lib.ofa_net import OFASubNet
+
+
+# os.environ["CUDA_VISIBLE_DEVICES"] = args.gpu
+# device_list = [int(_) for _ in args.gpu.split(',')]
+# args.n_gpus = len(device_list)
+# args.device = torch.device("cuda:0")
+
+# if args.seed is None or args.seed < 0: args.seed = random.randint(1, 100000)
+# torch.cuda.manual_seed(args.seed)
+# torch.manual_seed(args.seed)
+# np.random.seed(args.seed)
+# random.seed(args.seed)
+
+
+
+# args.save_path = os.path.join(args.save_path, f'evaluation/{args.data_name}')
+# if args.model_config.startswith('flops@'):
+# 	args.save_path += f'-nsganetV2-{args.model_config}-{args.seed}'
+# else:
+# 	args.save_path += f'-metaD2A-{args.bound}-{args.seed}'
+# if not os.path.exists(args.save_path):
+# 	os.makedirs(args.save_path)
+
+# args.data_path = os.path.join(args.data_path, args.data_name)
+
+# log_format = '%(asctime)s %(message)s'
+# logging.basicConfig(stream=sys.stdout, level=print,
+#                     format=log_format, datefmt='%m/%d %I:%M:%S %p')
+# fh = logging.FileHandler(os.path.join(args.save_path, 'log.txt'))
+# fh.setFormatter(logging.Formatter(log_format))
+# logging.getLogger().addHandler(fh)
+# if not torch.cuda.is_available():
+# 	print('no gpu self.args.device available')
+# 	sys.exit(1)
+# print("args = %s", args)
+
+
+
+def set_architecture(n_cls, evaluator, drop_path, drop, img_size, n_gpus, device, save_path, model_str):
+	# g, acc = evaluator.get_architecture(model_str)
+	g = OFASubNet(model_str).get_op_dict()
+	subnet, config = evaluator.sample(g)
+	net = NSGANetV2.build_from_config(subnet.config, drop_connect_rate=drop_path)
+	net.load_state_dict(subnet.state_dict())
+	
+	NSGANetV2.reset_classifier(
+		net, last_channel=net.classifier.in_features,
+		n_classes=n_cls, dropout_rate=drop)
+	# calculate #Paramaters and #FLOPS
+	inputs = torch.randn(1, 3, img_size, img_size)
+	flops = profile_macs(copy.deepcopy(net), inputs) / 1e6
+	params = sum(p.numel() for p in net.parameters() if p.requires_grad) / 1e6
+	net_name = "net_flops@{:.0f}".format(flops)
+	print('#params {:.2f}M, #flops {:.0f}M'.format(params, flops))
+	# OFAEvaluator.save_net_config(save_path, net, net_name + '.config')
+	if torch.cuda.device_count() > 1:
+		print("Let's use", torch.cuda.device_count(), "GPUs!")
+		net = nn.DataParallel(net)
+	net = net.to(device)
+	
+	return net, net_name, params, flops
+
+
+def train(train_queue, net, criterion, optimizer, grad_clip, device, report_freq):
+	net.train()
+	train_loss, correct, total = 0, 0, 0
+	for step, (inputs, targets) in enumerate(train_queue):
+		# upsample by bicubic to match imagenet training size
+		inputs, targets = inputs.to(device), targets.to(device)
+		optimizer.zero_grad()
+		outputs = net(inputs)
+		loss = criterion(outputs, targets)
+		loss.backward()
+		nn.utils.clip_grad_norm_(net.parameters(), grad_clip)
+		optimizer.step()
+		train_loss += loss.item()
+		_, predicted = outputs.max(1)
+		total += targets.size(0)
+		correct += predicted.eq(targets).sum().item()
+		if step % report_freq == 0:
+			print(f'train step {step:03d} loss {train_loss / total:.4f} train acc {100. * correct / total:.4f}')
+	print(f'train acc {100. * correct / total:.4f}')
+	return train_loss / total, 100. * correct / total
+
+
+def infer(valid_queue, net, criterion, device, report_freq, early_stop=False):
+	net.eval()
+	test_loss, correct, total = 0, 0, 0
+	with torch.no_grad():
+		for step, (inputs, targets) in enumerate(valid_queue):
+			inputs, targets = inputs.to(device), targets.to(device)
+			outputs = net(inputs)
+			loss = criterion(outputs, targets)
+			test_loss += loss.item()
+			_, predicted = outputs.max(1)
+			total += targets.size(0)
+			correct += predicted.eq(targets).sum().item()
+			if step % report_freq == 0:
+				print(f'valid {step:03d} {test_loss / total:.4f} {100. * correct / total:.4f}')
+			if early_stop and step == 10:
+				break
+	acc = 100. * correct / total
+	print('valid acc {:.4f}'.format(100. * correct / total))
+	
+	return test_loss / total, acc
+
+
+def train_single_model(save_path, workers, datasets, xpaths, splits, use_less,
+                       seed, model_str, device,
+                    	lr=0.01,
+                        momentum=0.9,
+                        weight_decay=4e-5,
+                        report_freq=50,
+                        epochs=150,
+                        grad_clip=5,
+                        cutout=True,
+                        cutout_length=16,
+                        autoaugment=True,
+                        drop=0.2,
+                        drop_path=0.2,
+                        img_size=224,
+                        batch_size=96,
+                        ):
+	assert torch.cuda.is_available(), 'CUDA is not available.'
+	torch.backends.cudnn.enabled = True
+	torch.backends.cudnn.deterministic = True
+	reset_seed(seed)
+	# save_dir = Path(save_dir)
+	# logger = Logger(str(save_dir), 0, False)
+	os.makedirs(save_path, exist_ok=True)
+	to_save_name = save_path + '/seed-{:04d}.pth'.format(seed)
+	print(to_save_name)
+	# args = get_parse()
+	num_gen_arch = None
+	evaluator = OFAEvaluator(num_gen_arch, img_size, drop_path,
+		model_path='/home/data/GTAD/checkpoints/ofa/ofa_net/ofa_mbv3_d234_e346_k357_w1.0')
+
+	train_queue, valid_queue, n_cls = get_dataset(datasets, batch_size, 
+        xpaths, workers, img_size, autoaugment, cutout, cutout_length)
+	net, net_name, params, flops = set_architecture(n_cls, evaluator, 
+        drop_path, drop, img_size, n_gpus=1, device=device, save_path=save_path, model_str=model_str)
+
+
+	# net.to(device)
+
+	parameters = filter(lambda p: p.requires_grad, net.parameters())
+	optimizer = optim.SGD(parameters, lr=lr, momentum=momentum, weight_decay=weight_decay)
+	criterion = nn.CrossEntropyLoss().to(device)
+	scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, epochs)
+
+	# assert epochs == 1
+	max_valid_acc = 0
+	max_epoch = 0
+	for epoch in range(epochs):
+		print('epoch {:d} lr {:.4f}'.format(epoch, scheduler.get_lr()[0]))
+		
+		train(train_queue, net, criterion, optimizer, grad_clip, device, report_freq)
+		_, valid_acc = infer(valid_queue, net, criterion, device, report_freq)
+		torch.save(valid_acc, to_save_name)
+		print(f'seed {seed:04d} last acc {valid_acc:.4f} max acc {max_valid_acc:.4f}')
+		if max_valid_acc < valid_acc:
+			max_valid_acc = valid_acc
+			max_epoch = epoch
+		# parent_path = os.path.abspath(os.path.join(save_path, os.pardir))
+		# with open(parent_path + '/accuracy.txt', 'a+') as f:
+		# 	f.write(f'{model_str} seed {seed:04d} {valid_acc:.4f}\n')
+	
+	return valid_acc, max_valid_acc, params, flops
+	
+ 
+################ NAS BENCH 201 #####################
+# def train_single_model(save_dir, workers, datasets, xpaths, splits, use_less,
+#                        seeds, model_str, arch_config):
+#     assert torch.cuda.is_available(), 'CUDA is not available.'
+#     torch.backends.cudnn.enabled = True
+#     torch.backends.cudnn.deterministic = True
+#     torch.set_num_threads(workers)
+
+#     save_dir = Path(save_dir)
+#     logger = Logger(str(save_dir), 0, False)
+
+#     if model_str in CellArchitectures:
+#         arch = CellArchitectures[model_str]
+#         logger.log(
+#             'The model string is found in pre-defined architecture dict : {:}'.format(model_str))
+#     else:
+#         try:
+#             arch = CellStructure.str2structure(model_str)
+#         except:
+#             raise ValueError(
+#                 'Invalid model string : {:}. It can not be found or parsed.'.format(model_str))
+
+#     assert arch.check_valid_op(get_search_spaces(
+#         'cell', 'nas-bench-201')), '{:} has the invalid op.'.format(arch)
+#     # assert arch.check_valid_op(get_search_spaces('cell', 'full')), '{:} has the invalid op.'.format(arch)
+#     logger.log('Start train-evaluate {:}'.format(arch.tostr()))
+#     logger.log('arch_config : {:}'.format(arch_config))
+
+#     start_time, seed_time = time.time(), AverageMeter()
+#     for _is, seed in enumerate(seeds):
+#         logger.log(
+#             '\nThe {:02d}/{:02d}-th seed is {:} ----------------------<.>----------------------'.format(_is, len(seeds),
+#                                                                                                         seed))
+#         to_save_name = save_dir / 'seed-{:04d}.pth'.format(seed)
+#         if to_save_name.exists():
+#             logger.log(
+#                 'Find the existing file {:}, directly load!'.format(to_save_name))
+#             checkpoint = torch.load(to_save_name)
+#         else:
+#             logger.log(
+#                 'Does not find the existing file {:}, train and evaluate!'.format(to_save_name))
+#             checkpoint = evaluate_all_datasets(arch, datasets, xpaths, splits, use_less,
+#                                                seed, arch_config, workers, logger)
+#             torch.save(checkpoint, to_save_name)
+#         # log information
+#         logger.log('{:}'.format(checkpoint['info']))
+#         all_dataset_keys = checkpoint['all_dataset_keys']
+#         for dataset_key in all_dataset_keys:
+#             logger.log('\n{:} dataset : {:} {:}'.format(
+#                 '-' * 15, dataset_key, '-' * 15))
+#             dataset_info = checkpoint[dataset_key]
+#             # logger.log('Network ==>\n{:}'.format( dataset_info['net_string'] ))
+#             logger.log('Flops = {:} MB, Params = {:} MB'.format(
+#                 dataset_info['flop'], dataset_info['param']))
+#             logger.log('config : {:}'.format(dataset_info['config']))
+#             logger.log('Training State (finish) = {:}'.format(
+#                 dataset_info['finish-train']))
+#             last_epoch = dataset_info['total_epoch'] - 1
+#             train_acc1es, train_acc5es = dataset_info['train_acc1es'], dataset_info['train_acc5es']
+#             valid_acc1es, valid_acc5es = dataset_info['valid_acc1es'], dataset_info['valid_acc5es']
+#         # measure elapsed time
+#         seed_time.update(time.time() - start_time)
+#         start_time = time.time()
+#         need_time = 'Time Left: {:}'.format(convert_secs2time(
+#             seed_time.avg * (len(seeds) - _is - 1), True))
+#         logger.log(
+#             '\n<<<***>>> The {:02d}/{:02d}-th seed is {:} <finish> other procedures need {:}'.format(_is, len(seeds), seed,
+#                                                                                                      need_time))
+#     logger.close()
+# ###################
+
+if __name__ == '__main__':
+	train_single_model()
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/generator/init.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/generator/init.py
@@ -0,0 +1,5 @@
+###########################################################################################
+# Copyright (c) Hayeon Lee, Eunyoung Hyung [GitHub MetaD2A], 2021
+# Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets, ICLR 2021
+###########################################################################################
+from .generator import Generator
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/generator/generator.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/generator/generator.py
@@ -0,0 +1,204 @@
+###########################################################################################
+# Copyright (c) Hayeon Lee, Eunyoung Hyung [GitHub MetaD2A], 2021
+# Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets, ICLR 2021
+###########################################################################################
+from __future__ import print_function
+import os
+import random
+from tqdm import tqdm
+import numpy as np
+import time
+
+import torch
+from torch import optim
+from torch.optim.lr_scheduler import ReduceLROnPlateau
+
+from utils import load_graph_config, decode_ofa_mbv3_to_igraph, decode_igraph_to_ofa_mbv3
+from utils import Accumulator, Log
+from utils import load_model, save_model
+from loader import get_meta_train_loader, get_meta_test_loader
+
+from .generator_model import GeneratorModel
+
+
+class Generator:
+	def __init__(self, args):
+		self.args = args
+		self.batch_size = args.batch_size
+		self.data_path = args.data_path
+		self.num_sample = args.num_sample
+		self.max_epoch = args.max_epoch
+		self.save_epoch = args.save_epoch
+		self.model_path = args.model_path
+		self.save_path = args.save_path
+		self.model_name = args.model_name
+		self.test = args.test
+		self.device = args.device
+		
+		graph_config = load_graph_config(
+			args.graph_data_name, args.nvt, args.data_path)
+		self.model = GeneratorModel(args, graph_config)
+		self.model.to(self.device)
+		
+		if self.test:
+			self.data_name = args.data_name
+			self.num_class = args.num_class
+			self.load_epoch = args.load_epoch
+			self.num_gen_arch = args.num_gen_arch
+			load_model(self.model, self.model_path, self.load_epoch)
+		
+		else:
+			self.optimizer = optim.Adam(self.model.parameters(), lr=1e-4)
+			self.scheduler = ReduceLROnPlateau(self.optimizer, 'min',
+			                                   factor=0.1, patience=10, verbose=True)
+			self.mtrloader = get_meta_train_loader(
+				self.batch_size, self.data_path, self.num_sample)
+			self.mtrlog = Log(self.args, open(os.path.join(
+				self.save_path, self.model_name, 'meta_train_generator.log'), 'w'))
+			self.mtrlog.print_args()
+			self.mtrlogger = Accumulator('loss', 'recon_loss', 'kld')
+			self.mvallogger = Accumulator('loss', 'recon_loss', 'kld')
+	
+	def meta_train(self):
+		sttime = time.time()
+		for epoch in range(1, self.max_epoch + 1):
+			self.mtrlog.ep_sttime = time.time()
+			loss = self.meta_train_epoch(epoch)
+			self.scheduler.step(loss)
+			self.mtrlog.print(self.mtrlogger, epoch, tag='train')
+			
+			self.meta_validation()
+			self.mtrlog.print(self.mvallogger, epoch, tag='valid')
+			
+			if epoch % self.save_epoch == 0:
+				save_model(epoch, self.model, self.model_path)
+		
+		self.mtrlog.save_time_log()
+	
+	def meta_train_epoch(self, epoch):
+		self.model.to(self.device)
+		self.model.train()
+		
+		self.mtrloader.dataset.set_mode('train')
+		pbar = tqdm(self.mtrloader)
+		
+		for batch in pbar:
+			for x, g, acc in batch:
+				self.optimizer.zero_grad()
+				g = decode_ofa_mbv3_to_igraph(g)[0]
+				x_ = x.unsqueeze(0).to(self.device)
+				mu, logvar = self.model.set_encode(x_)
+				loss, recon, kld = self.model.loss(mu.unsqueeze(0), logvar.unsqueeze(0), [g])
+				loss.backward()
+				self.optimizer.step()
+				cnt = len(x)
+				self.mtrlogger.accum([loss.item() / cnt,
+				                      recon.item() / cnt,
+				                      kld.item() / cnt])
+			
+		return self.mtrlogger.get('loss')
+	
+	
+	def meta_validation(self):
+		self.model.to(self.device)
+		self.model.eval()
+		
+		self.mtrloader.dataset.set_mode('valid')
+		pbar = tqdm(self.mtrloader)
+		
+		for batch in pbar:
+			for x, g, acc in batch:
+				with torch.no_grad():
+					g = decode_ofa_mbv3_to_igraph(g)[0]
+					x_ = x.unsqueeze(0).to(self.device)
+					mu, logvar = self.model.set_encode(x_)
+					loss, recon, kld = self.model.loss(mu.unsqueeze(0), logvar.unsqueeze(0), [g])
+				
+				cnt = len(x)
+				self.mvallogger.accum([loss.item() / cnt,
+				                       recon.item() / cnt,
+				                       kld.item() / cnt])
+			
+		return self.mvallogger.get('loss')
+	
+	
+	def meta_test(self, predictor):
+		if self.data_name == 'all':
+			for data_name in ['cifar100', 'cifar10', 'mnist', 'svhn', 'aircraft30', 'aircraft100', 'pets']:
+				self.meta_test_per_dataset(data_name, predictor)
+		else:
+			self.meta_test_per_dataset(self.data_name, predictor)
+	
+	def meta_test_per_dataset(self, data_name, predictor):
+		# meta_test_path = os.path.join(
+		#   self.save_path, 'meta_test', data_name, 'generated_arch')
+		meta_test_path = os.path.join(
+			self.save_path, 'meta_test', data_name, f'{self.num_gen_arch}', 'generated_arch')
+		if not os.path.exists(meta_test_path):
+			os.makedirs(meta_test_path)
+		
+		meta_test_loader = get_meta_test_loader(
+			self.data_path, data_name, self.num_sample, self.num_class)
+		
+		print(f'==> generate architectures for {data_name}')
+		runs = 10 if data_name in ['cifar10', 'cifar100'] else 1
+		# num_gen_arch = 500 if data_name in ['cifar100'] else self.num_gen_arch
+		elasped_time = []
+		for run in range(1, runs + 1):
+			print(f'==> run {run}/{runs}')
+			elasped_time.append(self.generate_architectures(
+				meta_test_loader, data_name,
+				meta_test_path, run, self.num_gen_arch, predictor))
+			print(f'==> done\n')
+		
+		# time_path = os.path.join(self.save_path, 'meta_test', data_name, 'time.txt')
+		time_path = os.path.join(self.save_path, 'meta_test', data_name, f'{self.num_gen_arch}', 'time.txt')
+		with open(time_path, 'w') as f_time:
+			msg = f'generator elasped time {np.mean(elasped_time):.2f}s'
+			print(f'==> save time in {time_path}')
+			f_time.write(msg + '\n');
+			print(msg)
+	
+	def generate_architectures(self, meta_test_loader, data_name,
+	                           meta_test_path, run, num_gen_arch, predictor):
+		self.model.eval()
+		self.model.to(self.device)
+		
+		architecture_string_lst, pred_acc_lst = [], []
+		total_cnt, valid_cnt = 0, 0
+		flag = False
+		
+		start = time.time()
+		with torch.no_grad():
+			for x in meta_test_loader:
+				x_ = x.unsqueeze(0).to(self.device)
+				mu, logvar = self.model.set_encode(x_)
+				z = self.model.reparameterize(mu.unsqueeze(0), logvar.unsqueeze(0))
+				g_recon = self.model.graph_decode(z)
+				pred_acc = predictor.forward(x_, g_recon)
+				architecture_string = decode_igraph_to_ofa_mbv3(g_recon[0])
+				total_cnt += 1
+				if architecture_string is not None:
+					if not architecture_string in architecture_string_lst:
+						valid_cnt += 1
+						architecture_string_lst.append(architecture_string)
+						pred_acc_lst.append(pred_acc.item())
+						if valid_cnt == num_gen_arch:
+							flag = True
+							break
+				if flag:
+					break
+		elapsed = time.time() - start
+		pred_acc_lst, architecture_string_lst = zip(*sorted(zip(pred_acc_lst,
+		                                                        architecture_string_lst),
+		                                        key=lambda x: x[0], reverse=True))
+		
+		spath = os.path.join(meta_test_path, f"run_{run}.txt")
+		with open(spath, 'w') as f:
+			print(f'==> save generated architectures in {spath}')
+			msg = f'elapsed time: {elapsed:6.2f}s '
+			print(msg);
+			f.write(msg + '\n')
+			for i, architecture_string in enumerate(architecture_string_lst):
+				f.write(f"{architecture_string}\n")
+		return elapsed
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/generator/generator_model.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/generator/generator_model.py
@@ -0,0 +1,396 @@
+######################################################################################
+# Copyright (c) muhanzhang, D-VAE, NeurIPS 2019 [GitHub D-VAE]
+# Modified by Hayeon Lee, Eunyoung Hyung, MetaD2A, ICLR2021, 2021. 03 [GitHub MetaD2A]
+######################################################################################
+import torch
+from torch import nn
+from torch.nn import functional as F
+import numpy as np
+import igraph
+from set_encoder.setenc_models import SetPool
+
+
+class GeneratorModel(nn.Module):
+	def __init__(self, args, graph_config):
+		super(GeneratorModel, self).__init__()
+		self.max_n = graph_config['max_n']  # maximum number of vertices
+		self.nvt = graph_config['num_vertex_type']  # number of vertex types
+		self.START_TYPE = graph_config['START_TYPE']
+		self.END_TYPE = graph_config['END_TYPE']
+		self.hs = args.hs  # hidden state size of each vertex
+		self.nz = args.nz  # size of latent representation z
+		self.gs = args.hs  # size of graph state
+		self.bidir = True  # whether to use bidirectional encoding
+		self.vid = True
+		self.device = None
+		self.num_sample = args.num_sample
+		
+		if self.vid:
+			self.vs = self.hs + self.max_n  # vertex state size = hidden state + vid
+		else:
+			self.vs = self.hs
+		
+		# 0. encoding-related
+		self.grue_forward = nn.GRUCell(self.nvt, self.hs)  # encoder GRU
+		self.grue_backward = nn.GRUCell(self.nvt, self.hs)  # backward encoder GRU
+		self.enc_g_mu = nn.Linear(self.gs, self.nz)  # latent mean
+		self.enc_g_var = nn.Linear(self.gs, self.nz)  # latent var
+		self.fc1 = nn.Linear(self.gs, self.nz)  # latent mean
+		self.fc2 = nn.Linear(self.gs, self.nz)  # latent logvar
+		
+		# 1. decoding-related
+		self.grud = nn.GRUCell(self.nvt, self.hs)  # decoder GRU
+		self.fc3 = nn.Linear(self.nz, self.hs)  # from latent z to initial hidden state h0
+		self.add_vertex = nn.Sequential(
+			nn.Linear(self.hs, self.hs * 2),
+			nn.ReLU(),
+			nn.Linear(self.hs * 2, self.nvt)
+		)  # which type of new vertex to add f(h0, hg)
+		self.add_edge = nn.Sequential(
+			nn.Linear(self.hs * 2, self.hs * 4),
+			nn.ReLU(),
+			nn.Linear(self.hs * 4, 1)
+		)  # whether to add edge between v_i and v_new, f(hvi, hnew)
+		self.decoding_gate = nn.Sequential(
+			nn.Linear(self.vs, self.hs),
+			nn.Sigmoid()
+		)
+		self.decoding_mapper = nn.Sequential(
+			nn.Linear(self.vs, self.hs, bias=False),
+		)  # disable bias to ensure padded zeros also mapped to zeros
+		
+		# 2. gate-related
+		self.gate_forward = nn.Sequential(
+			nn.Linear(self.vs, self.hs),
+			nn.Sigmoid()
+		)
+		self.gate_backward = nn.Sequential(
+			nn.Linear(self.vs, self.hs),
+			nn.Sigmoid()
+		)
+		self.mapper_forward = nn.Sequential(
+			nn.Linear(self.vs, self.hs, bias=False),
+		)  # disable bias to ensure padded zeros also mapped to zeros
+		self.mapper_backward = nn.Sequential(
+			nn.Linear(self.vs, self.hs, bias=False),
+		)
+		
+		# 3. bidir-related, to unify sizes
+		if self.bidir:
+			self.hv_unify = nn.Sequential(
+				nn.Linear(self.hs * 2, self.hs),
+			)
+			self.hg_unify = nn.Sequential(
+				nn.Linear(self.gs * 2, self.gs),
+			)
+		
+		# 4. other
+		self.relu = nn.ReLU()
+		self.sigmoid = nn.Sigmoid()
+		self.tanh = nn.Tanh()
+		self.logsoftmax1 = nn.LogSoftmax(1)
+		
+		# 6. predictor
+		np = self.gs
+		self.intra_setpool = SetPool(dim_input=512,
+		                             num_outputs=1,
+		                             dim_output=self.nz,
+		                             dim_hidden=self.nz,
+		                             mode='sabPF')
+		self.inter_setpool = SetPool(dim_input=self.nz,
+		                             num_outputs=1,
+		                             dim_output=self.nz,
+		                             dim_hidden=self.nz,
+		                             mode='sabPF')
+		self.set_fc = nn.Sequential(
+			nn.Linear(512, self.nz),
+			nn.ReLU())
+	
+	def get_device(self):
+		if self.device is None:
+			self.device = next(self.parameters()).device
+		return self.device
+	
+	def _get_zeros(self, n, length):
+		return torch.zeros(n, length).to(self.get_device())  # get a zero hidden state
+	
+	def _get_zero_hidden(self, n=1):
+		return self._get_zeros(n, self.hs)  # get a zero hidden state
+	
+	def _one_hot(self, idx, length):
+		if type(idx) in [list, range]:
+			if idx == []:
+				return None
+			idx = torch.LongTensor(idx).unsqueeze(0).t()
+			x = torch.zeros((len(idx), length)
+			                ).scatter_(1, idx, 1).to(self.get_device())
+		else:
+			idx = torch.LongTensor([idx]).unsqueeze(0)
+			x = torch.zeros((1, length)
+			                ).scatter_(1, idx, 1).to(self.get_device())
+		return x
+	
+	def _gated(self, h, gate, mapper):
+		return gate(h) * mapper(h)
+	
+	def _collate_fn(self, G):
+		return [g.copy() for g in G]
+	
+	def _propagate_to(self, G, v, propagator,
+	                  H=None, reverse=False, gate=None, mapper=None):
+		# propagate messages to vertex index v for all graphs in G
+		# return the new messages (states) at v
+		G = [g for g in G if g.vcount() > v]
+		if len(G) == 0:
+			return
+		if H is not None:
+			idx = [i for i, g in enumerate(G) if g.vcount() > v]
+			H = H[idx]
+		v_types = [g.vs[v]['type'] for g in G]
+		X = self._one_hot(v_types, self.nvt)
+		H_name = 'H_forward'  # name of the hidden states attribute
+		H_pred = [[g.vs[x][H_name] for x in g.predecessors(v)] for g in G]
+		if self.vid:
+			vids = [self._one_hot(g.predecessors(v), self.max_n) for g in G]
+		if reverse:
+			H_name = 'H_backward'  # name of the hidden states attribute
+			H_pred = [[g.vs[x][H_name] for x in g.successors(v)] for g in G]
+			if self.vid:
+				vids = [self._one_hot(g.successors(v), self.max_n) for g in G]
+			gate, mapper = self.gate_backward, self.mapper_backward
+		else:
+			H_name = 'H_forward'  # name of the hidden states attribute
+			H_pred = [
+				[g.vs[x][H_name] for x in g.predecessors(v)] for g in G]
+			if self.vid:
+				vids = [
+					self._one_hot(g.predecessors(v), self.max_n) for g in G]
+			if gate is None:
+				gate, mapper = self.gate_forward, self.mapper_forward
+		if self.vid:
+			H_pred = [[torch.cat(
+				[x[i], y[i:i + 1]], 1) for i in range(len(x))
+			] for x, y in zip(H_pred, vids)]
+		# if h is not provided, use gated sum of v's predecessors' states as the input hidden state
+		if H is None:
+			max_n_pred = max([len(x) for x in H_pred])  # maximum number of predecessors
+			if max_n_pred == 0:
+				H = self._get_zero_hidden(len(G))
+			else:
+				H_pred = [torch.cat(h_pred +
+				                    [self._get_zeros(max_n_pred - len(h_pred),
+				                                     self.vs)], 0).unsqueeze(0)
+				          for h_pred in H_pred]  # pad all to same length
+				H_pred = torch.cat(H_pred, 0)  # batch * max_n_pred * vs
+				H = self._gated(H_pred, gate, mapper).sum(1)  # batch * hs
+		Hv = propagator(X, H)
+		for i, g in enumerate(G):
+			g.vs[v][H_name] = Hv[i:i + 1]
+		return Hv
+	
+	def _propagate_from(self, G, v, propagator, H0=None, reverse=False):
+		# perform a series of propagation_to steps starting from v following a topo order
+		# assume the original vertex indices are in a topological order
+		if reverse:
+			prop_order = range(v, -1, -1)
+		else:
+			prop_order = range(v, self.max_n)
+		Hv = self._propagate_to(G, v, propagator, H0, reverse=reverse)  # the initial vertex
+		for v_ in prop_order[1:]:
+			self._propagate_to(G, v_, propagator, reverse=reverse)
+		return Hv
+	
+	def _update_v(self, G, v, H0=None):
+		# perform a forward propagation step at v when decoding to update v's state
+		# self._propagate_to(G, v, self.grud, H0, reverse=False)
+		self._propagate_to(G, v, self.grud, H0,
+		                   reverse=False, gate=self.decoding_gate,
+		                   mapper=self.decoding_mapper)
+		return
+	
+	def _get_vertex_state(self, G, v):
+		# get the vertex states at v
+		Hv = []
+		for g in G:
+			if v >= g.vcount():
+				hv = self._get_zero_hidden()
+			else:
+				hv = g.vs[v]['H_forward']
+			Hv.append(hv)
+		Hv = torch.cat(Hv, 0)
+		return Hv
+	
+	def _get_graph_state(self, G, decode=False):
+		# get the graph states
+		# when decoding, use the last generated vertex's state as the graph state
+		# when encoding, use the ending vertex state or unify the starting and ending vertex states
+		Hg = []
+		for g in G:
+			hg = g.vs[g.vcount() - 1]['H_forward']
+			if self.bidir and not decode:  # decoding never uses backward propagation
+				hg_b = g.vs[0]['H_backward']
+				hg = torch.cat([hg, hg_b], 1)
+			Hg.append(hg)
+		Hg = torch.cat(Hg, 0)
+		if self.bidir and not decode:
+			Hg = self.hg_unify(Hg)
+		return Hg
+	
+	def graph_encode(self, G):
+		# encode graphs G into latent vectors
+		if type(G) != list:
+			G = [G]
+		self._propagate_from(G, 0, self.grue_forward,
+		                     H0=self._get_zero_hidden(len(G)), reverse=False)
+		if self.bidir:
+			self._propagate_from(G, self.max_n - 1, self.grue_backward,
+			                     H0=self._get_zero_hidden(len(G)), reverse=True)
+		Hg = self._get_graph_state(G)
+		mu, logvar = self.enc_g_mu(Hg), self.enc_g_var(Hg)
+		return mu, logvar
+	
+	def set_encode(self, X):
+		proto_batch = []
+		for x in X:  # X.shape: [32, 400, 512]
+			cls_protos = self.intra_setpool(
+				x.view(-1, self.num_sample, 512)).squeeze(1)
+			proto_batch.append(
+				self.inter_setpool(cls_protos.unsqueeze(0)))
+		v = torch.stack(proto_batch).squeeze()
+		mu, logvar = self.fc1(v), self.fc2(v)
+		return mu, logvar
+	
+	def reparameterize(self, mu, logvar, eps_scale=0.01):
+		# return z ~ N(mu, std)
+		if self.training:
+			std = logvar.mul(0.5).exp_()
+			eps = torch.randn_like(std) * eps_scale
+			return eps.mul(std).add_(mu)
+		else:
+			return mu
+	
+	def _get_edge_score(self, Hvi, H, H0):
+		# compute scores for edges from vi based on Hvi, H (current vertex) and H0
+		# in most cases, H0 need not be explicitly included since Hvi and H contain its information
+		return self.sigmoid(self.add_edge(torch.cat([Hvi, H], -1)))
+	
+	def graph_decode(self, z, stochastic=True):
+		# decode latent vectors z back to graphs
+		# if stochastic=True, stochastically sample each action from the predicted distribution;
+		# otherwise, select argmax action deterministically.
+		H0 = self.tanh(self.fc3(z))  # or relu activation, similar performance
+		G = [igraph.Graph(directed=True) for _ in range(len(z))]
+		for g in G:
+			g.add_vertex(type=self.START_TYPE)
+		self._update_v(G, 0, H0)
+		finished = [False] * len(G)
+		for idx in range(1, self.max_n):
+			# decide the type of the next added vertex
+			if idx == self.max_n - 1:  # force the last node to be end_type
+				new_types = [self.END_TYPE] * len(G)
+			else:
+				Hg = self._get_graph_state(G, decode=True)
+				type_scores = self.add_vertex(Hg)
+				if stochastic:
+					type_probs = F.softmax(type_scores, 1
+					                       ).cpu().detach().numpy()
+					new_types = [np.random.choice(range(self.nvt),
+					                              p=type_probs[i]) for i in range(len(G))]
+				else:
+					new_types = torch.argmax(type_scores, 1)
+					new_types = new_types.flatten().tolist()
+			for i, g in enumerate(G):
+				if not finished[i]:
+					g.add_vertex(type=new_types[i])
+			self._update_v(G, idx)
+			
+			# decide connections
+			edge_scores = []
+			for vi in range(idx - 1, -1, -1):
+				Hvi = self._get_vertex_state(G, vi)
+				H = self._get_vertex_state(G, idx)
+				ei_score = self._get_edge_score(Hvi, H, H0)
+				if stochastic:
+					random_score = torch.rand_like(ei_score)
+					decisions = random_score < ei_score
+				else:
+					decisions = ei_score > 0.5
+				for i, g in enumerate(G):
+					if finished[i]:
+						continue
+					if new_types[i] == self.END_TYPE:
+						# if new node is end_type, connect it to all loose-end vertices (out_degree==0)
+						end_vertices = set([
+							v.index for v in g.vs.select(_outdegree_eq=0)
+							if v.index != g.vcount() - 1])
+						for v in end_vertices:
+							g.add_edge(v, g.vcount() - 1)
+						finished[i] = True
+						continue
+					if decisions[i, 0]:
+						g.add_edge(vi, g.vcount() - 1)
+				self._update_v(G, idx)
+		
+		for g in G:
+			del g.vs['H_forward']  # delete hidden states to save GPU memory
+		return G
+	
+	def loss(self, mu, logvar, G_true, beta=0.005):
+		# compute the loss of decoding mu and logvar to true graphs using teacher forcing
+		# ensure when computing the loss of step i, steps 0 to i-1 are correct
+		z = self.reparameterize(mu, logvar)
+		H0 = self.tanh(self.fc3(z))  # or relu activation, similar performance
+		G = [igraph.Graph(directed=True) for _ in range(len(z))]
+		for g in G:
+			g.add_vertex(type=self.START_TYPE)
+		self._update_v(G, 0, H0)
+		res = 0  # log likelihood
+		for v_true in range(1, self.max_n):
+			# calculate the likelihood of adding true types of nodes
+			# use start type to denote padding vertices since start type only appears for vertex 0
+			# and will never be a true type for later vertices, thus it's free to use
+			true_types = [g_true.vs[v_true]['type']
+			              if v_true < g_true.vcount()
+			              else self.START_TYPE for g_true in G_true]
+			Hg = self._get_graph_state(G, decode=True)
+			type_scores = self.add_vertex(Hg)
+			# vertex log likelihood
+			vll = self.logsoftmax1(type_scores)[
+				np.arange(len(G)), true_types].sum()
+			res = res + vll
+			for i, g in enumerate(G):
+				if true_types[i] != self.START_TYPE:
+					g.add_vertex(type=true_types[i])
+			self._update_v(G, v_true)
+			
+			# calculate the likelihood of adding true edges
+			true_edges = []
+			for i, g_true in enumerate(G_true):
+				true_edges.append(g_true.get_adjlist(igraph.IN)[v_true]
+				                  if v_true < g_true.vcount() else [])
+			edge_scores = []
+			for vi in range(v_true - 1, -1, -1):
+				Hvi = self._get_vertex_state(G, vi)
+				H = self._get_vertex_state(G, v_true)
+				ei_score = self._get_edge_score(Hvi, H, H0)
+				edge_scores.append(ei_score)
+				for i, g in enumerate(G):
+					if vi in true_edges[i]:
+						g.add_edge(vi, v_true)
+				self._update_v(G, v_true)
+			edge_scores = torch.cat(edge_scores[::-1], 1)
+			
+			ground_truth = torch.zeros_like(edge_scores)
+			idx1 = [i for i, x in enumerate(true_edges)
+			        for _ in range(len(x))]
+			idx2 = [xx for x in true_edges for xx in x]
+			ground_truth[idx1, idx2] = 1.0
+			
+			# edges log-likelihood
+			ell = - F.binary_cross_entropy(
+				edge_scores, ground_truth, reduction='sum')
+			res = res + ell
+		
+		res = -res  # convert likelihood to loss
+		kld = -0.5 * torch.sum(1 + logvar - mu.pow(2) - logvar.exp())
+		return res + beta * kld, res, kld
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/get_files/get_generator_checkpoint.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/get_files/get_generator_checkpoint.py
@@ -0,0 +1,37 @@
+###########################################################################################
+# Copyright (c) Hayeon Lee, Eunyoung Hyung [GitHub MetaD2A], 2021
+# Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets, ICLR 2021
+###########################################################################################
+import os
+from tqdm import tqdm
+import requests
+import zipfile
+
+def download_file(url, filename):
+	"""
+	Helper method handling downloading large files from `url`
+	to `filename`. Returns a pointer to `filename`.
+	"""
+	chunkSize = 1024
+	r = requests.get(url, stream=True)
+	with open(filename, 'wb') as f:
+		pbar = tqdm( unit="B", total=int( r.headers['Content-Length'] ) )
+		for chunk in r.iter_content(chunk_size=chunkSize):
+			if chunk: # filter out keep-alive new chunks
+				pbar.update (len(chunk))
+				f.write(chunk)
+	return filename
+
+file_name = 'ckpt_120.pt'
+dir_path = 'results/generator/model'
+if not os.path.exists(dir_path):
+	os.makedirs(dir_path)
+file_name = os.path.join(dir_path, file_name)
+if not os.path.exists(file_name):
+	print(f"Downloading {file_name}\n")
+	download_file('https://www.dropbox.com/s/zss9yt034hen45h/ckpt_120.pt?dl=1', file_name)
+	print("Downloading done.\n")
+else:
+	print(f"{file_name} has already been downloaded. Did not download twice.\n")
+
+
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/get_files/get_generator_database.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/get_files/get_generator_database.py
@@ -0,0 +1,38 @@
+###########################################################################################
+# Copyright (c) Hayeon Lee, Eunyoung Hyung [GitHub MetaD2A], 2021
+# Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets, ICLR 2021
+###########################################################################################
+import os
+from tqdm import tqdm
+import requests
+import zipfile
+
+def download_file(url, filename):
+	"""
+	Helper method handling downloading large files from `url`
+	to `filename`. Returns a pointer to `filename`.
+	"""
+	chunkSize = 1024
+	r = requests.get(url, stream=True)
+	with open(filename, 'wb') as f:
+		pbar = tqdm( unit="B", total=int( r.headers['Content-Length'] ) )
+		for chunk in r.iter_content(chunk_size=chunkSize):
+			if chunk: # filter out keep-alive new chunks
+				pbar.update (len(chunk))
+				f.write(chunk)
+	return filename
+
+
+file_name = 'collected_database.pt'
+dir_path = 'data/generator/processed'
+if not os.path.exists(dir_path):
+	os.makedirs(dir_path)
+file_name = os.path.join(dir_path, file_name)
+if not os.path.exists(file_name):
+	print(f"Downloading generator {file_name}\n")
+	download_file('https://www.dropbox.com/s/zgip4aq0w2pkj49/generator_collected_database.pt?dl=1', file_name)
+	print("Downloading done.\n")
+else:
+	print(f"{file_name} has already been downloaded. Did not download twice.\n")
+
+
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/get_files/get_pets.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/get_files/get_pets.py
@@ -0,0 +1,43 @@
+###########################################################################################
+# Copyright (c) Hayeon Lee, Eunyoung Hyung [GitHub MetaD2A], 2021
+# Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets, ICLR 2021
+###########################################################################################
+import os
+from tqdm import tqdm
+import requests
+import zipfile 
+
+def download_file(url, filename):
+  """
+  Helper method handling downloading large files from `url`
+  to `filename`. Returns a pointer to `filename`.
+  """
+  chunkSize = 1024
+  r = requests.get(url, stream=True)
+  with open(filename, 'wb') as f:
+    pbar = tqdm( unit="B", total=int( r.headers['Content-Length'] ) )
+    for chunk in r.iter_content(chunk_size=chunkSize):
+      if chunk: # filter out keep-alive new chunks
+        pbar.update (len(chunk))
+        f.write(chunk)
+  return filename
+
+dir_path = 'data/pets'
+if not os.path.exists(dir_path):
+  os.makedirs(dir_path)
+
+full_name = os.path.join(dir_path, 'test15.pth')
+if not os.path.exists(full_name):
+  print(f"Downloading {full_name}\n")
+  download_file('https://www.dropbox.com/s/kzmrwyyk5iaugv0/test15.pth?dl=1', full_name)
+  print("Downloading done.\n")
+else:
+  print(f"{full_name} has already been downloaded. Did not download twice.\n")
+
+full_name = os.path.join(dir_path, 'train85.pth')
+if not os.path.exists(full_name):
+  print(f"Downloading {full_name}\n")
+  download_file('https://www.dropbox.com/s/w7mikpztkamnw9s/train85.pth?dl=1', full_name)
+  print("Downloading done.\n")
+else:
+  print(f"{full_name} has already been downloaded. Did not download twice.\n")
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/get_files/get_predictor_checkpoint.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/get_files/get_predictor_checkpoint.py
@@ -0,0 +1,35 @@
+###########################################################################################
+# Copyright (c) Hayeon Lee, Eunyoung Hyung [GitHub MetaD2A], 2021
+# Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets, ICLR 2021
+###########################################################################################
+import os
+from tqdm import tqdm
+import requests
+import zipfile
+
+def download_file(url, filename):
+  """
+  Helper method handling downloading large files from `url`
+  to `filename`. Returns a pointer to `filename`.
+  """
+  chunkSize = 1024
+  r = requests.get(url, stream=True)
+  with open(filename, 'wb') as f:
+    pbar = tqdm( unit="B", total=int( r.headers['Content-Length'] ) )
+    for chunk in r.iter_content(chunk_size=chunkSize):
+      if chunk: # filter out keep-alive new chunks
+        pbar.update (len(chunk))
+        f.write(chunk)
+  return filename
+
+file_name = 'ckpt_max_corr.pt'
+dir_path = 'results/predictor/model'
+if not os.path.exists(dir_path):
+  os.makedirs(dir_path)
+file_name = os.path.join(dir_path, file_name)
+if not os.path.exists(file_name):
+  print(f"Downloading {file_name}\n")
+  download_file('https://www.dropbox.com/s/ycm4jaojgswp0zm/ckpt_max_corr.pt?dl=1', file_name)
+  print("Downloading done.\n")
+else:
+  print(f"{file_name} has already been downloaded. Did not download twice.\n")
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/get_files/get_predictor_database.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/get_files/get_predictor_database.py
@@ -0,0 +1,38 @@
+###########################################################################################
+# Copyright (c) Hayeon Lee, Eunyoung Hyung [GitHub MetaD2A], 2021
+# Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets, ICLR 2021
+###########################################################################################
+import os
+from tqdm import tqdm
+import requests
+import zipfile
+
+def download_file(url, filename):
+	"""
+	Helper method handling downloading large files from `url`
+	to `filename`. Returns a pointer to `filename`.
+	"""
+	chunkSize = 1024
+	r = requests.get(url, stream=True)
+	with open(filename, 'wb') as f:
+		pbar = tqdm( unit="B", total=int( r.headers['Content-Length'] ) )
+		for chunk in r.iter_content(chunk_size=chunkSize):
+			if chunk: # filter out keep-alive new chunks
+				pbar.update (len(chunk))
+				f.write(chunk)
+	return filename
+
+
+file_name = 'collected_database.pt'
+dir_path = 'data/predictor/processed'
+if not os.path.exists(dir_path):
+	os.makedirs(dir_path)
+file_name = os.path.join(dir_path, file_name)
+if not os.path.exists(file_name):
+	print(f"Downloading predictor {file_name}\n")
+	download_file('https://www.dropbox.com/s/ycm4jaojgswp0zm/ckpt_max_corr.pt?dl=1', file_name)
+	print("Downloading done.\n")
+else:
+	print(f"{file_name} has already been downloaded. Did not download twice.\n")
+
+
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/get_files/get_preprocessed_data.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/get_files/get_preprocessed_data.py
@@ -0,0 +1,47 @@
+###########################################################################################
+# Copyright (c) Hayeon Lee, Eunyoung Hyung [GitHub MetaD2A], 2021
+# Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets, ICLR 2021
+###########################################################################################
+import os
+from tqdm import tqdm
+import requests
+import zipfile
+
+def download_file(url, filename):
+  """
+  Helper method handling downloading large files from `url`
+  to `filename`. Returns a pointer to `filename`.
+  """
+  chunkSize = 1024
+  r = requests.get(url, stream=True)
+  with open(filename, 'wb') as f:
+    pbar = tqdm( unit="B", total=int( r.headers['Content-Length'] ) )
+    for chunk in r.iter_content(chunk_size=chunkSize):
+      if chunk: # filter out keep-alive new chunks
+        pbar.update (len(chunk))
+        f.write(chunk)
+  return filename
+
+dir_path = 'data'
+if not os.path.exists(dir_path):
+  os.makedirs(dir_path)
+
+def get_preprocessed_data(file_name, url):
+    print(f"Downloading {file_name} datasets\n")
+    full_name = os.path.join(dir_path, file_name)
+    download_file(url, full_name)
+    print("Downloading done.\n")
+
+
+for file_name, url in [
+		('imgnet32bylabel.pt', 'https://www.dropbox.com/s/7r3hpugql8qgi9d/imgnet32bylabel.pt?dl=1'),
+    ('aircraft100bylabel.pt', 'https://www.dropbox.com/s/nn6mlrk1jijg108/aircraft100bylabel.pt?dl=1'),
+    ('cifar100bylabel.pt', 'https://www.dropbox.com/s/y0xahxgzj29kffk/cifar100bylabel.pt?dl=1'),
+    ('cifar10bylabel.pt', 'https://www.dropbox.com/s/wt1pcwi991xyhwr/cifar10bylabel.pt?dl=1'),
+    ('imgnet32bylabel.pt', 'https://www.dropbox.com/s/7r3hpugql8qgi9d/imgnet32bylabel.pt?dl=1'),
+    ('petsbylabel.pt', 'https://www.dropbox.com/s/mxh6qz3grhy7wcn/petsbylabel.pt?dl=1'),
+    ('mnistbylabel.pt', 'https://www.dropbox.com/s/86rbuic7a7y34e4/mnistbylabel.pt?dl=1'),
+    ('svhnbylabel.pt', 'https://www.dropbox.com/s/yywaelhrsl6egvd/svhnbylabel.pt?dl=1')
+        ]:
+
+    get_preprocessed_data(file_name, url)
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/loader.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/loader.py
@@ -0,0 +1,149 @@
+###########################################################################################
+# Copyright (c) Hayeon Lee, Eunyoung Hyung [GitHub MetaD2A], 2021
+# Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets, ICLR 2021
+###########################################################################################
+from __future__ import print_function
+import os
+import torch
+from tqdm import tqdm
+from torch.utils.data import Dataset
+from torch.utils.data import DataLoader
+
+
+def get_meta_train_loader(batch_size, data_path, num_sample, is_pred=False):
+	dataset = MetaTrainDatabase(data_path, num_sample, is_pred)
+	print(f'==> The number of tasks for meta-training: {len(dataset)}')
+	
+	loader = DataLoader(dataset=dataset,
+	                    batch_size=batch_size,
+	                    shuffle=True,
+	                    num_workers=1,
+	                    collate_fn=collate_fn)
+	return loader
+
+
+def get_meta_test_loader(data_path, data_name, num_class=None, is_pred=False):
+	dataset = MetaTestDataset(data_path, data_name, num_class)
+	print(f'==> Meta-Test dataset {data_name}')
+	
+	loader = DataLoader(dataset=dataset,
+	                    batch_size=100,
+	                    shuffle=False,
+	                    num_workers=1)
+	return loader
+
+
+class MetaTrainDatabase(Dataset):
+	def __init__(self, data_path, num_sample, is_pred=False):
+		self.mode = 'train'
+		self.acc_norm = True
+		self.num_sample = num_sample
+		self.x = torch.load(os.path.join(data_path, 'imgnet32bylabel.pt'))
+		
+		self.dpath = '{}/{}/processed/'.format(data_path, 'predictor' if is_pred else 'generator')
+		self.dname = f'database_219152_14.0K'
+		
+		if not os.path.exists(self.dpath + f'{self.dname}_train.pt'):
+			raise ValueError('')
+			database = torch.load(self.dpath + f'{self.dname}.pt')
+			
+			rand_idx = torch.randperm(len(database))
+			test_len = int(len(database) * 0.15)
+			idxlst = {'test': rand_idx[:test_len],
+			          'valid': rand_idx[test_len:2 * test_len],
+			          'train': rand_idx[2 * test_len:]}
+			
+			for m in ['train', 'valid', 'test']:
+				acc, graph, cls, net, flops = [], [], [], [], []
+				for idx in tqdm(idxlst[m].tolist(), desc=f'data-{m}'):
+					acc.append(database[idx]['top1'])
+					net.append(database[idx]['net'])
+					cls.append(database[idx]['class'])
+					flops.append(database[idx]['flops'])
+				if m == 'train':
+					mean = torch.mean(torch.tensor(acc)).item()
+					std = torch.std(torch.tensor(acc)).item()
+				torch.save({'acc': acc,
+				            'class': cls,
+				            'net': net,
+				            'flops': flops,
+				            'mean': mean,
+				            'std': std},
+				           self.dpath + f'{self.dname}_{m}.pt')
+		
+		self.set_mode(self.mode)
+	
+	def set_mode(self, mode):
+		self.mode = mode
+		data = torch.load(self.dpath + f'{self.dname}_{self.mode}.pt')
+		self.acc = data['acc']
+		self.cls = data['class']
+		self.net = data['net']
+		self.flops = data['flops']
+		self.mean = data['mean']
+		self.std = data['std']
+	
+	def __len__(self):
+		return len(self.acc)
+	
+	def __getitem__(self, index):
+		data = []
+		classes = self.cls[index]
+		acc = self.acc[index]
+		graph = self.net[index]
+
+		for i, cls in enumerate(classes):
+			cx = self.x[cls.item()][0]
+			ridx = torch.randperm(len(cx))
+			data.append(cx[ridx[:self.num_sample]])
+		x = torch.cat(data)
+		if self.acc_norm:
+			acc = ((acc - self.mean) / self.std) / 100.0
+		else:
+			acc = acc / 100.0
+		return x, graph, torch.tensor(acc).view(1, 1)
+
+
+class MetaTestDataset(Dataset):
+	def __init__(self, data_path, data_name, num_sample, num_class=None):
+		self.num_sample = num_sample
+		self.data_name = data_name
+		if data_name == 'aircraft':
+			data_name = 'aircraft100'
+		num_class_dict = {
+			'cifar100': 100,
+			'cifar10': 10,
+			'mnist': 10,
+			'aircraft100': 30,
+			'svhn': 10,
+			'pets': 37
+		}
+			# 'aircraft30': 30,
+			# 'aircraft100': 100,
+		
+		if num_class is not None:
+			self.num_class = num_class
+		else:
+			self.num_class = num_class_dict[data_name]
+		
+		self.x = torch.load(os.path.join(data_path, f'{data_name}bylabel.pt'))
+	
+	def __len__(self):
+		return 1000000
+	
+	def __getitem__(self, index):
+		data = []
+		classes = list(range(self.num_class))
+		for cls in classes:
+			cx = self.x[cls][0]
+			ridx = torch.randperm(len(cx))
+			data.append(cx[ridx[:self.num_sample]])
+		x = torch.cat(data)
+		return x
+
+
+def collate_fn(batch):
+	# x = torch.stack([item[0] for item in batch])
+	# graph = [item[1] for item in batch]
+	# acc = torch.stack([item[2] for item in batch])
+	return batch
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/main.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/main.py
@@ -0,0 +1,48 @@
+###########################################################################################
+# Copyright (c) Hayeon Lee, Eunyoung Hyung [GitHub MetaD2A], 2021
+# Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets, ICLR 2021
+###########################################################################################
+import os
+import random
+import numpy as np
+import torch
+from parser import get_parser
+from generator import Generator
+from predictor import Predictor
+
+def main():
+	args = get_parser()
+	os.environ["CUDA_VISIBLE_DEVICES"] = args.gpu
+	args.device = torch.device("cuda:0")
+	torch.cuda.manual_seed(args.seed)
+	torch.manual_seed(args.seed)
+	np.random.seed(args.seed)
+	random.seed(args.seed)
+	
+	if not os.path.exists(args.save_path):
+		os.makedirs(args.save_path)
+	args.model_path = os.path.join(args.save_path, args.model_name, 'model')
+	if not os.path.exists(args.model_path):
+		os.makedirs(args.model_path)
+	
+	if args.model_name == 'generator':
+		g = Generator(args)
+		if args.test:
+			args.model_path = os.path.join(args.save_path, 'predictor', 'model')
+			hs = args.hs
+			args.hs = 512
+			p = Predictor(args)
+			args.model_path = os.path.join(args.save_path, args.model_name, 'model')
+			args.hs = hs
+			g.meta_test(p)
+		else:
+			g.meta_train()
+	elif args.model_name == 'predictor':
+		p = Predictor(args)
+		p.meta_train()
+	else:
+		raise ValueError('You should select generator|predictor|train_arch')
+
+
+if __name__ == '__main__':
+	main()
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/metad2a_utils.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/metad2a_utils.py
@@ -0,0 +1,344 @@
+###########################################################################################
+# Copyright (c) Hayeon Lee, Eunyoung Hyung [GitHub MetaD2A], 2021
+# Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets, ICLR 2021
+###########################################################################################
+from __future__ import print_function
+import os
+import time
+import igraph
+import random
+import numpy as np
+import scipy.stats
+import argparse
+import torch
+
+
+def load_graph_config(graph_data_name, nvt, data_path):
+	max_n=20
+	graph_config = {}
+	graph_config['num_vertex_type'] = nvt + 2  # original types + start/end types
+	graph_config['max_n'] = max_n + 2  # maximum number of nodes
+	graph_config['START_TYPE'] = 0  # predefined start vertex type
+	graph_config['END_TYPE'] = 1  # predefined end vertex type
+	
+	return graph_config
+
+
+type_dict = {'2-3-3': 0, '2-3-4': 1, '2-3-6': 2,
+             '2-5-3': 3, '2-5-4': 4, '2-5-6': 5,
+             '2-7-3': 6, '2-7-4': 7, '2-7-6': 8,
+             '3-3-3': 9, '3-3-4': 10, '3-3-6': 11,
+             '3-5-3': 12, '3-5-4': 13, '3-5-6': 14,
+             '3-7-3': 15, '3-7-4': 16, '3-7-6': 17,
+             '4-3-3': 18, '4-3-4': 19, '4-3-6': 20,
+             '4-5-3': 21, '4-5-4': 22, '4-5-6': 23,
+             '4-7-3': 24, '4-7-4': 25, '4-7-6': 26}
+
+edge_dict = {2: (2, 3, 3), 3: (2, 3, 4), 4: (2, 3, 6),
+             5: (2, 5, 3), 6: (2, 5, 4), 7: (2, 5, 6),
+             8: (2, 7, 3), 9: (2, 7, 4), 10: (2, 7, 6),
+             11: (3, 3, 3), 12: (3, 3, 4), 13: (3, 3, 6),
+             14: (3, 5, 3), 15: (3, 5, 4), 16: (3, 5, 6),
+             17: (3, 7, 3), 18: (3, 7, 4), 19: (3, 7, 6),
+             20: (4, 3, 3), 21: (4, 3, 4), 22: (4, 3, 6),
+             23: (4, 5, 3), 24: (4, 5, 4), 25: (4, 5, 6),
+             26: (4, 7, 3), 27: (4, 7, 4), 28: (4, 7, 6)}
+
+
+def decode_ofa_mbv3_to_igraph(matrix):
+	# 5 stages, 4 layers for each stage
+	# d: 2, 3, 4
+	# e: 3, 4, 6
+	# k: 3, 5, 7
+	
+	# stage_depth to one hot
+	num_stage = 5
+	num_layer = 4
+	
+	node_types = torch.zeros(num_stage * num_layer)
+	
+	d = []
+	for i in range(num_stage):
+		for j in range(num_layer):
+			d.append(matrix['d'][i])
+	for i, (ks, e, d) in enumerate(zip(
+			matrix['ks'], matrix['e'], d)):
+		node_types[i] = type_dict[f'{d}-{ks}-{e}']
+	
+	n = num_stage * num_layer
+	g = igraph.Graph(directed=True)
+	g.add_vertices(n + 2)  # + in/out nodes
+	g.vs[0]['type'] = 0
+	for i, v in enumerate(node_types):
+		g.vs[i + 1]['type'] = v + 2  # in node: 0, out node: 1
+		g.add_edge(i, i + 1)
+	g.vs[n + 1]['type'] = 1
+	g.add_edge(n, n + 1)
+	return g, n + 2
+
+
+def decode_ofa_mbv3_str_to_igraph(gen_str):
+	# 5 stages, 4 layers for each stage
+	# d: 2, 3, 4
+	# e: 3, 4, 6
+	# k: 3, 5, 7
+	
+	# stage_depth to one hot
+	num_stage = 5
+	num_layer = 4
+	
+	node_types = torch.zeros(num_stage * num_layer)
+	
+	d = []
+	split_str = gen_str.split('_')
+	for i, s in enumerate(split_str):
+		if s == '0-0-0':
+			node_types[i] = random.randint(0, 26)
+		else:
+			node_types[i] = type_dict[s]	
+	
+	n = num_stage * num_layer
+	g = igraph.Graph(directed=True)
+	g.add_vertices(n + 2)  # + in/out nodes
+	g.vs[0]['type'] = 0
+	for i, v in enumerate(node_types):
+		g.vs[i + 1]['type'] = v + 2  # in node: 0, out node: 1
+		g.add_edge(i, i + 1)
+	g.vs[n + 1]['type'] = 1
+	g.add_edge(n, n + 1)
+	return g
+
+
+def is_valid_ofa_mbv3(g, START_TYPE=0, END_TYPE=1):
+	# first need to be a valid DAG computation graph
+	msg = ''
+	res = is_valid_DAG(g, START_TYPE, END_TYPE)
+	# in addition, node i must connect to node i+1
+	res = res and len(g.vs['type']) == 22
+	if not res:
+		return res
+	msg += '{} ({}) '.format(g.vs['type'][1:-1], len(g.vs['type']))
+	
+	for i in range(5):
+		if ((g.vs['type'][1:-1][i * 4]) - 2) // 9 == 0:
+			for j in range(1, 4):
+				res = res and ((g.vs['type'][1:-1][i * 4 + j]) - 2) // 9 == 0
+		
+		elif ((g.vs['type'][1:-1][i * 4]) - 2) // 9 == 1:
+			for j in range(1, 4):
+				res = res and ((g.vs['type'][1:-1][i * 4 + j]) - 2) // 9 == 1
+		
+		elif ((g.vs['type'][1:-1][i * 4]) - 2) // 9 == 2:
+			for j in range(1, 4):
+				res = res and ((g.vs['type'][1:-1][i * 4 + j]) - 2) // 9 == 2
+		else:
+			raise ValueError
+	return res
+
+
+def is_valid_DAG(g, START_TYPE=0, END_TYPE=1):
+	res = g.is_dag()
+	n_start, n_end = 0, 0
+	for v in g.vs:
+		if v['type'] == START_TYPE:
+			n_start += 1
+		elif v['type'] == END_TYPE:
+			n_end += 1
+		if v.indegree() == 0 and v['type'] != START_TYPE:
+			return False
+		if v.outdegree() == 0 and v['type'] != END_TYPE:
+			return False
+	return res and n_start == 1 and n_end == 1
+
+
+def decode_igraph_to_ofa_mbv3(g):
+	if not is_valid_ofa_mbv3(g, START_TYPE=0, END_TYPE=1):
+		return None
+	
+	graph = {'ks': [], 'e': [], 'd': [4, 4, 4, 4, 4]}
+	for i, edge_type in enumerate(g.vs['type'][1:-1]):
+		edge_type = int(edge_type)
+		d, ks, e = edge_dict[edge_type]
+		graph['ks'].append(ks)
+		graph['e'].append(e)
+		graph['d'][i // 4] = d
+	return graph
+
+
+class Accumulator():
+	def __init__(self, *args):
+		self.args = args
+		self.argdict = {}
+		for i, arg in enumerate(args):
+			self.argdict[arg] = i
+		self.sums = [0] * len(args)
+		self.cnt = 0
+	
+	def accum(self, val):
+		val = [val] if type(val) is not list else val
+		val = [v for v in val if v is not None]
+		assert (len(val) == len(self.args))
+		for i in range(len(val)):
+			if torch.is_tensor(val[i]):
+				val[i] = val[i].item()
+			self.sums[i] += val[i]
+		self.cnt += 1
+	
+	def clear(self):
+		self.sums = [0] * len(self.args)
+		self.cnt = 0
+	
+	def get(self, arg, avg=True):
+		i = self.argdict.get(arg, -1)
+		assert (i is not -1)
+		if avg:
+			return self.sums[i] / (self.cnt + 1e-8)
+		else:
+			return self.sums[i]
+	
+	def print_(self, header=None, time=None,
+	           logfile=None, do_not_print=[], as_int=[],
+	           avg=True):
+		msg = '' if header is None else header + ': '
+		if time is not None:
+			msg += ('(%.3f secs), ' % time)
+		
+		args = [arg for arg in self.args if arg not in do_not_print]
+		arg = []
+		for arg in args:
+			val = self.sums[self.argdict[arg]]
+			if avg:
+				val /= (self.cnt + 1e-8)
+			if arg in as_int:
+				msg += ('%s %d, ' % (arg, int(val)))
+			else:
+				msg += ('%s %.4f, ' % (arg, val))
+		print(msg)
+		
+		if logfile is not None:
+			logfile.write(msg + '\n')
+			logfile.flush()
+	
+	def add_scalars(self, summary, header=None, tag_scalar=None,
+	                step=None, avg=True, args=None):
+		for arg in self.args:
+			val = self.sums[self.argdict[arg]]
+			if avg:
+				val /= (self.cnt + 1e-8)
+			else:
+				val = val
+			tag = f'{header}/{arg}' if header is not None else arg
+			if tag_scalar is not None:
+				summary.add_scalars(main_tag=tag,
+				                    tag_scalar_dict={tag_scalar: val},
+				                    global_step=step)
+			else:
+				summary.add_scalar(tag=tag,
+				                   scalar_value=val,
+				                   global_step=step)
+
+
+class Log:
+	def __init__(self, args, logf, summary=None):
+		self.args = args
+		self.logf = logf
+		self.summary = summary
+		self.stime = time.time()
+		self.ep_sttime = None
+	
+	def print(self, logger, epoch, tag=None, avg=True):
+		if tag == 'train':
+			ct = time.time() - self.ep_sttime
+			tt = time.time() - self.stime
+			msg = f'[total {tt:6.2f}s (ep {ct:6.2f}s)] epoch {epoch:3d}'
+			print(msg)
+			self.logf.write(msg + '\n')
+		logger.print_(header=tag, logfile=self.logf, avg=avg)
+		
+		if self.summary is not None:
+			logger.add_scalars(
+				self.summary, header=tag, step=epoch, avg=avg)
+		logger.clear()
+	
+	def print_args(self):
+		argdict = vars(self.args)
+		print(argdict)
+		for k, v in argdict.items():
+			self.logf.write(k + ': ' + str(v) + '\n')
+		self.logf.write('\n')
+	
+	def set_time(self):
+		self.stime = time.time()
+	
+	def save_time_log(self):
+		ct = time.time() - self.stime
+		msg = f'({ct:6.2f}s) meta-training phase done'
+		print(msg)
+		self.logf.write(msg + '\n')
+	
+	def print_pred_log(self, loss, corr, tag, epoch=None, max_corr_dict=None):
+		if tag == 'train':
+			ct = time.time() - self.ep_sttime
+			tt = time.time() - self.stime
+			msg = f'[total {tt:6.2f}s (ep {ct:6.2f}s)] epoch {epoch:3d}'
+			self.logf.write(msg + '\n');
+			print(msg);
+			self.logf.flush()
+		# msg = f'ep {epoch:3d} ep time {time.time() - ep_sttime:8.2f} '
+		# msg += f'time {time.time() - sttime:6.2f} '
+		if max_corr_dict is not None:
+			max_corr = max_corr_dict['corr']
+			max_loss = max_corr_dict['loss']
+			msg = f'{tag}: loss {loss:.6f} ({max_loss:.6f}) '
+			msg += f'corr {corr:.4f} ({max_corr:.4f})'
+		else:
+			msg = f'{tag}: loss {loss:.6f} corr {corr:.4f}'
+		self.logf.write(msg + '\n');
+		print(msg);
+		self.logf.flush()
+	
+	def max_corr_log(self, max_corr_dict):
+		corr = max_corr_dict['corr']
+		loss = max_corr_dict['loss']
+		epoch = max_corr_dict['epoch']
+		msg = f'[epoch {epoch}] max correlation: {corr:.4f}, loss: {loss:.6f}'
+		self.logf.write(msg + '\n');
+		print(msg);
+		self.logf.flush()
+
+
+def get_log(epoch, loss, y_pred, y, acc_std, acc_mean, tag='train'):
+	msg = f'[{tag}] Ep {epoch} loss {loss.item() / len(y):0.4f} '
+	msg += f'pacc {y_pred[0]:0.4f}'
+	msg += f'({y_pred[0] * 100.0 * acc_std + acc_mean:0.4f}) '
+	msg += f'acc {y[0]:0.4f}({y[0] * 100 * acc_std + acc_mean:0.4f})'
+	return msg
+
+
+def load_model(model, model_path, load_epoch=None, load_max_pt=None):
+	if load_max_pt is not None:
+		ckpt_path = os.path.join(model_path, load_max_pt)
+	else:
+		ckpt_path = os.path.join(model_path, f'ckpt_{load_epoch}.pt')
+
+	print(f"==> load checkpoint for MetaD2A predictor: {ckpt_path} ...")
+	model.cpu()
+	model.load_state_dict(torch.load(ckpt_path))
+
+
+def save_model(epoch, model, model_path, max_corr=None):
+	print("==> save current model...")
+	if max_corr is not None:
+		torch.save(model.cpu().state_dict(),
+		           os.path.join(model_path, 'ckpt_max_corr.pt'))
+	else:
+		torch.save(model.cpu().state_dict(),
+		           os.path.join(model_path, f'ckpt_{epoch}.pt'))
+
+
+def mean_confidence_interval(data, confidence=0.95):
+	a = 1.0 * np.array(data)
+	n = len(a)
+	m, se = np.mean(a), scipy.stats.sem(a)
+	h = se * scipy.stats.t.ppf((1 + confidence) / 2., n - 1)
+	return m, h
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/init.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/init.py
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/init.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/init.py
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/data_providers/init.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/data_providers/init.py
@@ -0,0 +1,5 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+from .imagenet import *
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/data_providers/base_provider.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/data_providers/base_provider.py
@@ -0,0 +1,56 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+import numpy as np
+import torch
+
+__all__ = ['DataProvider']
+
+
+class DataProvider:
+	SUB_SEED = 937162211  # random seed for sampling subset
+	VALID_SEED = 2147483647  # random seed for the validation set
+
+	@staticmethod
+	def name():
+		""" Return name of the dataset """
+		raise NotImplementedError
+
+	@property
+	def data_shape(self):
+		""" Return shape as python list of one data entry """
+		raise NotImplementedError
+
+	@property
+	def n_classes(self):
+		""" Return `int` of num classes """
+		raise NotImplementedError
+
+	@property
+	def save_path(self):
+		""" local path to save the data """
+		raise NotImplementedError
+
+	@property
+	def data_url(self):
+		""" link to download the data """
+		raise NotImplementedError
+
+	@staticmethod
+	def random_sample_valid_set(train_size, valid_size):
+		assert train_size > valid_size
+
+		g = torch.Generator()
+		g.manual_seed(DataProvider.VALID_SEED)  # set random seed before sampling validation set
+		rand_indexes = torch.randperm(train_size, generator=g).tolist()
+
+		valid_indexes = rand_indexes[:valid_size]
+		train_indexes = rand_indexes[valid_size:]
+		return train_indexes, valid_indexes
+
+	@staticmethod
+	def labels_to_one_hot(n_classes, labels):
+		new_labels = np.zeros((labels.shape[0], n_classes), dtype=np.float32)
+		new_labels[range(labels.shape[0]), labels] = np.ones(labels.shape)
+		return new_labels
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/data_providers/imagenet.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/data_providers/imagenet.py
@@ -0,0 +1,225 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+import warnings
+import os
+import math
+import numpy as np
+import torch.utils.data
+import torchvision.transforms as transforms
+import torchvision.datasets as datasets
+
+from .base_provider import DataProvider
+from ofa_local.utils.my_dataloader import MyRandomResizedCrop, MyDistributedSampler
+
+__all__ = ['ImagenetDataProvider']
+
+
+class ImagenetDataProvider(DataProvider):
+	DEFAULT_PATH = '/dataset/imagenet'
+
+	def __init__(self, save_path=None, train_batch_size=256, test_batch_size=512, valid_size=None, n_worker=32,
+	             resize_scale=0.08, distort_color=None, image_size=224,
+	             num_replicas=None, rank=None):
+
+		warnings.filterwarnings('ignore')
+		self._save_path = save_path
+
+		self.image_size = image_size  # int or list of int
+		self.distort_color = 'None' if distort_color is None else distort_color
+		self.resize_scale = resize_scale
+
+		self._valid_transform_dict = {}
+		if not isinstance(self.image_size, int):
+			from ofa.utils.my_dataloader import MyDataLoader
+			assert isinstance(self.image_size, list)
+			self.image_size.sort()  # e.g., 160 -> 224
+			MyRandomResizedCrop.IMAGE_SIZE_LIST = self.image_size.copy()
+			MyRandomResizedCrop.ACTIVE_SIZE = max(self.image_size)
+
+			for img_size in self.image_size:
+				self._valid_transform_dict[img_size] = self.build_valid_transform(img_size)
+			self.active_img_size = max(self.image_size)  # active resolution for test
+			valid_transforms = self._valid_transform_dict[self.active_img_size]
+			train_loader_class = MyDataLoader  # randomly sample image size for each batch of training image
+		else:
+			self.active_img_size = self.image_size
+			valid_transforms = self.build_valid_transform()
+			train_loader_class = torch.utils.data.DataLoader
+
+		train_dataset = self.train_dataset(self.build_train_transform())
+
+		if valid_size is not None:
+			if not isinstance(valid_size, int):
+				assert isinstance(valid_size, float) and 0 < valid_size < 1
+				valid_size = int(len(train_dataset) * valid_size)
+
+			valid_dataset = self.train_dataset(valid_transforms)
+			train_indexes, valid_indexes = self.random_sample_valid_set(len(train_dataset), valid_size)
+
+			if num_replicas is not None:
+				train_sampler = MyDistributedSampler(train_dataset, num_replicas, rank, True, np.array(train_indexes))
+				valid_sampler = MyDistributedSampler(valid_dataset, num_replicas, rank, True, np.array(valid_indexes))
+			else:
+				train_sampler = torch.utils.data.sampler.SubsetRandomSampler(train_indexes)
+				valid_sampler = torch.utils.data.sampler.SubsetRandomSampler(valid_indexes)
+
+			self.train = train_loader_class(
+				train_dataset, batch_size=train_batch_size, sampler=train_sampler,
+				num_workers=n_worker, pin_memory=True,
+			)
+			self.valid = torch.utils.data.DataLoader(
+				valid_dataset, batch_size=test_batch_size, sampler=valid_sampler,
+				num_workers=n_worker, pin_memory=True,
+			)
+		else:
+			if num_replicas is not None:
+				train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset, num_replicas, rank)
+				self.train = train_loader_class(
+					train_dataset, batch_size=train_batch_size, sampler=train_sampler,
+					num_workers=n_worker, pin_memory=True
+				)
+			else:
+				self.train = train_loader_class(
+					train_dataset, batch_size=train_batch_size, shuffle=True, num_workers=n_worker, pin_memory=True,
+				)
+			self.valid = None
+
+		test_dataset = self.test_dataset(valid_transforms)
+		if num_replicas is not None:
+			test_sampler = torch.utils.data.distributed.DistributedSampler(test_dataset, num_replicas, rank)
+			self.test = torch.utils.data.DataLoader(
+				test_dataset, batch_size=test_batch_size, sampler=test_sampler, num_workers=n_worker, pin_memory=True,
+			)
+		else:
+			self.test = torch.utils.data.DataLoader(
+				test_dataset, batch_size=test_batch_size, shuffle=True, num_workers=n_worker, pin_memory=True,
+			)
+
+		if self.valid is None:
+			self.valid = self.test
+
+	@staticmethod
+	def name():
+		return 'imagenet'
+
+	@property
+	def data_shape(self):
+		return 3, self.active_img_size, self.active_img_size  # C, H, W
+
+	@property
+	def n_classes(self):
+		return 1000
+
+	@property
+	def save_path(self):
+		if self._save_path is None:
+			self._save_path = self.DEFAULT_PATH
+			if not os.path.exists(self._save_path):
+				self._save_path = os.path.expanduser('~/dataset/imagenet')
+		return self._save_path
+
+	@property
+	def data_url(self):
+		raise ValueError('unable to download %s' % self.name())
+
+	def train_dataset(self, _transforms):
+		return datasets.ImageFolder(self.train_path, _transforms)
+
+	def test_dataset(self, _transforms):
+		return datasets.ImageFolder(self.valid_path, _transforms)
+
+	@property
+	def train_path(self):
+		return os.path.join(self.save_path, 'train')
+
+	@property
+	def valid_path(self):
+		return os.path.join(self.save_path, 'val')
+
+	@property
+	def normalize(self):
+		return transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
+
+	def build_train_transform(self, image_size=None, print_log=True):
+		if image_size is None:
+			image_size = self.image_size
+		if print_log:
+			print('Color jitter: %s, resize_scale: %s, img_size: %s' %
+			      (self.distort_color, self.resize_scale, image_size))
+
+		if isinstance(image_size, list):
+			resize_transform_class = MyRandomResizedCrop
+			print('Use MyRandomResizedCrop: %s, \t %s' % MyRandomResizedCrop.get_candidate_image_size(),
+			      'sync=%s, continuous=%s' % (MyRandomResizedCrop.SYNC_DISTRIBUTED, MyRandomResizedCrop.CONTINUOUS))
+		else:
+			resize_transform_class = transforms.RandomResizedCrop
+
+		# random_resize_crop -> random_horizontal_flip
+		train_transforms = [
+			resize_transform_class(image_size, scale=(self.resize_scale, 1.0)),
+			transforms.RandomHorizontalFlip(),
+		]
+
+		# color augmentation (optional)
+		color_transform = None
+		if self.distort_color == 'torch':
+			color_transform = transforms.ColorJitter(brightness=0.4, contrast=0.4, saturation=0.4, hue=0.1)
+		elif self.distort_color == 'tf':
+			color_transform = transforms.ColorJitter(brightness=32. / 255., saturation=0.5)
+		if color_transform is not None:
+			train_transforms.append(color_transform)
+
+		train_transforms += [
+			transforms.ToTensor(),
+			self.normalize,
+		]
+
+		train_transforms = transforms.Compose(train_transforms)
+		return train_transforms
+
+	def build_valid_transform(self, image_size=None):
+		if image_size is None:
+			image_size = self.active_img_size
+		return transforms.Compose([
+			transforms.Resize(int(math.ceil(image_size / 0.875))),
+			transforms.CenterCrop(image_size),
+			transforms.ToTensor(),
+			self.normalize,
+		])
+
+	def assign_active_img_size(self, new_img_size):
+		self.active_img_size = new_img_size
+		if self.active_img_size not in self._valid_transform_dict:
+			self._valid_transform_dict[self.active_img_size] = self.build_valid_transform()
+		# change the transform of the valid and test set
+		self.valid.dataset.transform = self._valid_transform_dict[self.active_img_size]
+		self.test.dataset.transform = self._valid_transform_dict[self.active_img_size]
+
+	def build_sub_train_loader(self, n_images, batch_size, num_worker=None, num_replicas=None, rank=None):
+		# used for resetting BN running statistics
+		if self.__dict__.get('sub_train_%d' % self.active_img_size, None) is None:
+			if num_worker is None:
+				num_worker = self.train.num_workers
+
+			n_samples = len(self.train.dataset)
+			g = torch.Generator()
+			g.manual_seed(DataProvider.SUB_SEED)
+			rand_indexes = torch.randperm(n_samples, generator=g).tolist()
+
+			new_train_dataset = self.train_dataset(
+				self.build_train_transform(image_size=self.active_img_size, print_log=False))
+			chosen_indexes = rand_indexes[:n_images]
+			if num_replicas is not None:
+				sub_sampler = MyDistributedSampler(new_train_dataset, num_replicas, rank, True, np.array(chosen_indexes))
+			else:
+				sub_sampler = torch.utils.data.sampler.SubsetRandomSampler(chosen_indexes)
+			sub_data_loader = torch.utils.data.DataLoader(
+				new_train_dataset, batch_size=batch_size, sampler=sub_sampler,
+				num_workers=num_worker, pin_memory=True,
+			)
+			self.__dict__['sub_train_%d' % self.active_img_size] = []
+			for images, labels in sub_data_loader:
+				self.__dict__['sub_train_%d' % self.active_img_size].append((images, labels))
+		return self.__dict__['sub_train_%d' % self.active_img_size]
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/elastic_nn/init.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/elastic_nn/init.py
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/elastic_nn/modules/init.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/elastic_nn/modules/init.py
@@ -0,0 +1,6 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+from .dynamic_layers import *
+from .dynamic_op import *
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/elastic_nn/modules/dynamic_layers.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/elastic_nn/modules/dynamic_layers.py
@@ -0,0 +1,632 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+import copy
+import torch
+import torch.nn as nn
+from collections import OrderedDict
+
+from ofa_local.utils.layers import MBConvLayer, ConvLayer, IdentityLayer, set_layer_from_config
+from ofa_local.utils.layers import ResNetBottleneckBlock, LinearLayer
+from ofa_local.utils import MyModule, val2list, get_net_device, build_activation, make_divisible, SEModule, MyNetwork
+from .dynamic_op import DynamicSeparableConv2d, DynamicConv2d, DynamicBatchNorm2d, DynamicSE, DynamicGroupNorm
+from .dynamic_op import DynamicLinear
+
+__all__ = [
+    'adjust_bn_according_to_idx', 'copy_bn',
+    'DynamicMBConvLayer', 'DynamicConvLayer', 'DynamicLinearLayer', 'DynamicResNetBottleneckBlock'
+]
+
+
+def adjust_bn_according_to_idx(bn, idx):
+    bn.weight.data = torch.index_select(bn.weight.data, 0, idx)
+    bn.bias.data = torch.index_select(bn.bias.data, 0, idx)
+    if type(bn) in [nn.BatchNorm1d, nn.BatchNorm2d]:
+        bn.running_mean.data = torch.index_select(bn.running_mean.data, 0, idx)
+        bn.running_var.data = torch.index_select(bn.running_var.data, 0, idx)
+
+
+def copy_bn(target_bn, src_bn):
+    feature_dim = target_bn.num_channels if isinstance(target_bn, nn.GroupNorm) else target_bn.num_features
+
+    target_bn.weight.data.copy_(src_bn.weight.data[:feature_dim])
+    target_bn.bias.data.copy_(src_bn.bias.data[:feature_dim])
+    if type(src_bn) in [nn.BatchNorm1d, nn.BatchNorm2d]:
+        target_bn.running_mean.data.copy_(src_bn.running_mean.data[:feature_dim])
+        target_bn.running_var.data.copy_(src_bn.running_var.data[:feature_dim])
+
+
+class DynamicLinearLayer(MyModule):
+
+    def __init__(self, in_features_list, out_features, bias=True, dropout_rate=0):
+        super(DynamicLinearLayer, self).__init__()
+
+        self.in_features_list = in_features_list
+        self.out_features = out_features
+        self.bias = bias
+        self.dropout_rate = dropout_rate
+
+        if self.dropout_rate > 0:
+            self.dropout = nn.Dropout(self.dropout_rate, inplace=True)
+        else:
+            self.dropout = None
+        self.linear = DynamicLinear(
+            max_in_features=max(self.in_features_list), max_out_features=self.out_features, bias=self.bias
+        )
+
+    def forward(self, x):
+        if self.dropout is not None:
+            x = self.dropout(x)
+        return self.linear(x)
+
+    @property
+    def module_str(self):
+        return 'DyLinear(%d, %d)' % (max(self.in_features_list), self.out_features)
+
+    @property
+    def config(self):
+        return {
+            'name': DynamicLinear.__name__,
+            'in_features_list': self.in_features_list,
+            'out_features': self.out_features,
+            'bias': self.bias,
+            'dropout_rate': self.dropout_rate,
+        }
+
+    @staticmethod
+    def build_from_config(config):
+        return DynamicLinearLayer(**config)
+
+    def get_active_subnet(self, in_features, preserve_weight=True):
+        sub_layer = LinearLayer(in_features, self.out_features, self.bias, dropout_rate=self.dropout_rate)
+        sub_layer = sub_layer.to(get_net_device(self))
+        if not preserve_weight:
+            return sub_layer
+
+        sub_layer.linear.weight.data.copy_(
+            self.linear.get_active_weight(self.out_features, in_features).data
+        )
+        if self.bias:
+            sub_layer.linear.bias.data.copy_(
+                self.linear.get_active_bias(self.out_features).data
+            )
+        return sub_layer
+
+    def get_active_subnet_config(self, in_features):
+        return {
+            'name': LinearLayer.__name__,
+            'in_features': in_features,
+            'out_features': self.out_features,
+            'bias': self.bias,
+            'dropout_rate': self.dropout_rate,
+        }
+
+
+class DynamicMBConvLayer(MyModule):
+
+    def __init__(self, in_channel_list, out_channel_list,
+                 kernel_size_list=3, expand_ratio_list=6, stride=1, act_func='relu6', use_se=False):
+        super(DynamicMBConvLayer, self).__init__()
+
+        self.in_channel_list = in_channel_list
+        self.out_channel_list = out_channel_list
+
+        self.kernel_size_list = val2list(kernel_size_list)
+        self.expand_ratio_list = val2list(expand_ratio_list)
+
+        self.stride = stride
+        self.act_func = act_func
+        self.use_se = use_se
+
+        # build modules
+        max_middle_channel = make_divisible(
+            round(max(self.in_channel_list) * max(self.expand_ratio_list)), MyNetwork.CHANNEL_DIVISIBLE)
+        if max(self.expand_ratio_list) == 1:
+            self.inverted_bottleneck = None
+        else:
+            self.inverted_bottleneck = nn.Sequential(OrderedDict([
+                ('conv', DynamicConv2d(max(self.in_channel_list), max_middle_channel)),
+                ('bn', DynamicBatchNorm2d(max_middle_channel)),
+                ('act', build_activation(self.act_func)),
+            ]))
+
+        self.depth_conv = nn.Sequential(OrderedDict([
+            ('conv', DynamicSeparableConv2d(max_middle_channel, self.kernel_size_list, self.stride)),
+            ('bn', DynamicBatchNorm2d(max_middle_channel)),
+            ('act', build_activation(self.act_func))
+        ]))
+        if self.use_se:
+            self.depth_conv.add_module('se', DynamicSE(max_middle_channel))
+
+        self.point_linear = nn.Sequential(OrderedDict([
+            ('conv', DynamicConv2d(max_middle_channel, max(self.out_channel_list))),
+            ('bn', DynamicBatchNorm2d(max(self.out_channel_list))),
+        ]))
+
+        self.active_kernel_size = max(self.kernel_size_list)
+        self.active_expand_ratio = max(self.expand_ratio_list)
+        self.active_out_channel = max(self.out_channel_list)
+
+    def forward(self, x):
+        in_channel = x.size(1)
+
+        if self.inverted_bottleneck is not None:
+            self.inverted_bottleneck.conv.active_out_channel = \
+                make_divisible(round(in_channel * self.active_expand_ratio), MyNetwork.CHANNEL_DIVISIBLE)
+
+        self.depth_conv.conv.active_kernel_size = self.active_kernel_size
+        self.point_linear.conv.active_out_channel = self.active_out_channel
+
+        if self.inverted_bottleneck is not None:
+            x = self.inverted_bottleneck(x)
+        x = self.depth_conv(x)
+        x = self.point_linear(x)
+        return x
+
+    @property
+    def module_str(self):
+        if self.use_se:
+            return 'SE(O%d, E%.1f, K%d)' % (self.active_out_channel, self.active_expand_ratio, self.active_kernel_size)
+        else:
+            return '(O%d, E%.1f, K%d)' % (self.active_out_channel, self.active_expand_ratio, self.active_kernel_size)
+
+    @property
+    def config(self):
+        return {
+            'name': DynamicMBConvLayer.__name__,
+            'in_channel_list': self.in_channel_list,
+            'out_channel_list': self.out_channel_list,
+            'kernel_size_list': self.kernel_size_list,
+            'expand_ratio_list': self.expand_ratio_list,
+            'stride': self.stride,
+            'act_func': self.act_func,
+            'use_se': self.use_se,
+        }
+
+    @staticmethod
+    def build_from_config(config):
+        return DynamicMBConvLayer(**config)
+
+    ############################################################################################
+
+    @property
+    def in_channels(self):
+        return max(self.in_channel_list)
+
+    @property
+    def out_channels(self):
+        return max(self.out_channel_list)
+
+    def active_middle_channel(self, in_channel):
+        return make_divisible(round(in_channel * self.active_expand_ratio), MyNetwork.CHANNEL_DIVISIBLE)
+
+    ############################################################################################
+
+    def get_active_subnet(self, in_channel, preserve_weight=True):
+        # build the new layer
+        sub_layer = set_layer_from_config(self.get_active_subnet_config(in_channel))
+        sub_layer = sub_layer.to(get_net_device(self))
+        if not preserve_weight:
+            return sub_layer
+
+        middle_channel = self.active_middle_channel(in_channel)
+        # copy weight from current layer
+        if sub_layer.inverted_bottleneck is not None:
+            sub_layer.inverted_bottleneck.conv.weight.data.copy_(
+                self.inverted_bottleneck.conv.get_active_filter(middle_channel, in_channel).data,
+            )
+            copy_bn(sub_layer.inverted_bottleneck.bn, self.inverted_bottleneck.bn.bn)
+
+        sub_layer.depth_conv.conv.weight.data.copy_(
+            self.depth_conv.conv.get_active_filter(middle_channel, self.active_kernel_size).data
+        )
+        copy_bn(sub_layer.depth_conv.bn, self.depth_conv.bn.bn)
+
+        if self.use_se:
+            se_mid = make_divisible(middle_channel // SEModule.REDUCTION, divisor=MyNetwork.CHANNEL_DIVISIBLE)
+            sub_layer.depth_conv.se.fc.reduce.weight.data.copy_(
+                self.depth_conv.se.get_active_reduce_weight(se_mid, middle_channel).data
+            )
+            sub_layer.depth_conv.se.fc.reduce.bias.data.copy_(
+                self.depth_conv.se.get_active_reduce_bias(se_mid).data
+            )
+
+            sub_layer.depth_conv.se.fc.expand.weight.data.copy_(
+                self.depth_conv.se.get_active_expand_weight(se_mid, middle_channel).data
+            )
+            sub_layer.depth_conv.se.fc.expand.bias.data.copy_(
+                self.depth_conv.se.get_active_expand_bias(middle_channel).data
+            )
+
+        sub_layer.point_linear.conv.weight.data.copy_(
+            self.point_linear.conv.get_active_filter(self.active_out_channel, middle_channel).data
+        )
+        copy_bn(sub_layer.point_linear.bn, self.point_linear.bn.bn)
+
+        return sub_layer
+
+    def get_active_subnet_config(self, in_channel):
+        return {
+            'name': MBConvLayer.__name__,
+            'in_channels': in_channel,
+            'out_channels': self.active_out_channel,
+            'kernel_size': self.active_kernel_size,
+            'stride': self.stride,
+            'expand_ratio': self.active_expand_ratio,
+            'mid_channels': self.active_middle_channel(in_channel),
+            'act_func': self.act_func,
+            'use_se': self.use_se,
+        }
+
+    def re_organize_middle_weights(self, expand_ratio_stage=0):
+        importance = torch.sum(torch.abs(self.point_linear.conv.conv.weight.data), dim=(0, 2, 3))
+        if isinstance(self.depth_conv.bn, DynamicGroupNorm):
+            channel_per_group = self.depth_conv.bn.channel_per_group
+            importance_chunks = torch.split(importance, channel_per_group)
+            for chunk in importance_chunks:
+                chunk.data.fill_(torch.mean(chunk))
+            importance = torch.cat(importance_chunks, dim=0)
+        if expand_ratio_stage > 0:
+            sorted_expand_list = copy.deepcopy(self.expand_ratio_list)
+            sorted_expand_list.sort(reverse=True)
+            target_width_list = [
+                make_divisible(round(max(self.in_channel_list) * expand), MyNetwork.CHANNEL_DIVISIBLE)
+                for expand in sorted_expand_list
+            ]
+
+            right = len(importance)
+            base = - len(target_width_list) * 1e5
+            for i in range(expand_ratio_stage + 1):
+                left = target_width_list[i]
+                importance[left:right] += base
+                base += 1e5
+                right = left
+
+        sorted_importance, sorted_idx = torch.sort(importance, dim=0, descending=True)
+        self.point_linear.conv.conv.weight.data = torch.index_select(
+            self.point_linear.conv.conv.weight.data, 1, sorted_idx
+        )
+
+        adjust_bn_according_to_idx(self.depth_conv.bn.bn, sorted_idx)
+        self.depth_conv.conv.conv.weight.data = torch.index_select(
+            self.depth_conv.conv.conv.weight.data, 0, sorted_idx
+        )
+
+        if self.use_se:
+            # se expand: output dim 0 reorganize
+            se_expand = self.depth_conv.se.fc.expand
+            se_expand.weight.data = torch.index_select(se_expand.weight.data, 0, sorted_idx)
+            se_expand.bias.data = torch.index_select(se_expand.bias.data, 0, sorted_idx)
+            # se reduce: input dim 1 reorganize
+            se_reduce = self.depth_conv.se.fc.reduce
+            se_reduce.weight.data = torch.index_select(se_reduce.weight.data, 1, sorted_idx)
+            # middle weight reorganize
+            se_importance = torch.sum(torch.abs(se_expand.weight.data), dim=(0, 2, 3))
+            se_importance, se_idx = torch.sort(se_importance, dim=0, descending=True)
+
+            se_expand.weight.data = torch.index_select(se_expand.weight.data, 1, se_idx)
+            se_reduce.weight.data = torch.index_select(se_reduce.weight.data, 0, se_idx)
+            se_reduce.bias.data = torch.index_select(se_reduce.bias.data, 0, se_idx)
+
+        if self.inverted_bottleneck is not None:
+            adjust_bn_according_to_idx(self.inverted_bottleneck.bn.bn, sorted_idx)
+            self.inverted_bottleneck.conv.conv.weight.data = torch.index_select(
+                self.inverted_bottleneck.conv.conv.weight.data, 0, sorted_idx
+            )
+            return None
+        else:
+            return sorted_idx
+
+
+class DynamicConvLayer(MyModule):
+
+    def __init__(self, in_channel_list, out_channel_list, kernel_size=3, stride=1, dilation=1,
+                 use_bn=True, act_func='relu6'):
+        super(DynamicConvLayer, self).__init__()
+
+        self.in_channel_list = in_channel_list
+        self.out_channel_list = out_channel_list
+        self.kernel_size = kernel_size
+        self.stride = stride
+        self.dilation = dilation
+        self.use_bn = use_bn
+        self.act_func = act_func
+
+        self.conv = DynamicConv2d(
+            max_in_channels=max(self.in_channel_list), max_out_channels=max(self.out_channel_list),
+            kernel_size=self.kernel_size, stride=self.stride, dilation=self.dilation,
+        )
+        if self.use_bn:
+            self.bn = DynamicBatchNorm2d(max(self.out_channel_list))
+        self.act = build_activation(self.act_func)
+
+        self.active_out_channel = max(self.out_channel_list)
+
+    def forward(self, x):
+        self.conv.active_out_channel = self.active_out_channel
+
+        x = self.conv(x)
+        if self.use_bn:
+            x = self.bn(x)
+        x = self.act(x)
+        return x
+
+    @property
+    def module_str(self):
+        return 'DyConv(O%d, K%d, S%d)' % (self.active_out_channel, self.kernel_size, self.stride)
+
+    @property
+    def config(self):
+        return {
+            'name': DynamicConvLayer.__name__,
+            'in_channel_list': self.in_channel_list,
+            'out_channel_list': self.out_channel_list,
+            'kernel_size': self.kernel_size,
+            'stride': self.stride,
+            'dilation': self.dilation,
+            'use_bn': self.use_bn,
+            'act_func': self.act_func,
+        }
+
+    @staticmethod
+    def build_from_config(config):
+        return DynamicConvLayer(**config)
+
+    ############################################################################################
+
+    @property
+    def in_channels(self):
+        return max(self.in_channel_list)
+
+    @property
+    def out_channels(self):
+        return max(self.out_channel_list)
+
+    ############################################################################################
+
+    def get_active_subnet(self, in_channel, preserve_weight=True):
+        sub_layer = set_layer_from_config(self.get_active_subnet_config(in_channel))
+        sub_layer = sub_layer.to(get_net_device(self))
+
+        if not preserve_weight:
+            return sub_layer
+
+        sub_layer.conv.weight.data.copy_(self.conv.get_active_filter(self.active_out_channel, in_channel).data)
+        if self.use_bn:
+            copy_bn(sub_layer.bn, self.bn.bn)
+
+        return sub_layer
+
+    def get_active_subnet_config(self, in_channel):
+        return {
+            'name': ConvLayer.__name__,
+            'in_channels': in_channel,
+            'out_channels': self.active_out_channel,
+            'kernel_size': self.kernel_size,
+            'stride': self.stride,
+            'dilation': self.dilation,
+            'use_bn': self.use_bn,
+            'act_func': self.act_func,
+        }
+
+
+class DynamicResNetBottleneckBlock(MyModule):
+
+    def __init__(self, in_channel_list, out_channel_list, expand_ratio_list=0.25,
+                 kernel_size=3, stride=1, act_func='relu', downsample_mode='avgpool_conv'):
+        super(DynamicResNetBottleneckBlock, self).__init__()
+
+        self.in_channel_list = in_channel_list
+        self.out_channel_list = out_channel_list
+        self.expand_ratio_list = val2list(expand_ratio_list)
+
+        self.kernel_size = kernel_size
+        self.stride = stride
+        self.act_func = act_func
+        self.downsample_mode = downsample_mode
+
+        # build modules
+        max_middle_channel = make_divisible(
+            round(max(self.out_channel_list) * max(self.expand_ratio_list)), MyNetwork.CHANNEL_DIVISIBLE)
+
+        self.conv1 = nn.Sequential(OrderedDict([
+            ('conv', DynamicConv2d(max(self.in_channel_list), max_middle_channel)),
+            ('bn', DynamicBatchNorm2d(max_middle_channel)),
+            ('act', build_activation(self.act_func, inplace=True)),
+        ]))
+
+        self.conv2 = nn.Sequential(OrderedDict([
+            ('conv', DynamicConv2d(max_middle_channel, max_middle_channel, kernel_size, stride)),
+            ('bn', DynamicBatchNorm2d(max_middle_channel)),
+            ('act', build_activation(self.act_func, inplace=True))
+        ]))
+
+        self.conv3 = nn.Sequential(OrderedDict([
+            ('conv', DynamicConv2d(max_middle_channel, max(self.out_channel_list))),
+            ('bn', DynamicBatchNorm2d(max(self.out_channel_list))),
+        ]))
+
+        if self.stride == 1 and self.in_channel_list == self.out_channel_list:
+            self.downsample = IdentityLayer(max(self.in_channel_list), max(self.out_channel_list))
+        elif self.downsample_mode == 'conv':
+            self.downsample = nn.Sequential(OrderedDict([
+                ('conv', DynamicConv2d(max(self.in_channel_list), max(self.out_channel_list), stride=stride)),
+                ('bn', DynamicBatchNorm2d(max(self.out_channel_list))),
+            ]))
+        elif self.downsample_mode == 'avgpool_conv':
+            self.downsample = nn.Sequential(OrderedDict([
+                ('avg_pool', nn.AvgPool2d(kernel_size=stride, stride=stride, padding=0, ceil_mode=True)),
+                ('conv', DynamicConv2d(max(self.in_channel_list), max(self.out_channel_list))),
+                ('bn', DynamicBatchNorm2d(max(self.out_channel_list))),
+            ]))
+        else:
+            raise NotImplementedError
+
+        self.final_act = build_activation(self.act_func, inplace=True)
+
+        self.active_expand_ratio = max(self.expand_ratio_list)
+        self.active_out_channel = max(self.out_channel_list)
+
+    def forward(self, x):
+        feature_dim = self.active_middle_channels
+
+        self.conv1.conv.active_out_channel = feature_dim
+        self.conv2.conv.active_out_channel = feature_dim
+        self.conv3.conv.active_out_channel = self.active_out_channel
+        if not isinstance(self.downsample, IdentityLayer):
+            self.downsample.conv.active_out_channel = self.active_out_channel
+
+        residual = self.downsample(x)
+
+        x = self.conv1(x)
+        x = self.conv2(x)
+        x = self.conv3(x)
+
+        x = x + residual
+        x = self.final_act(x)
+        return x
+
+    @property
+    def module_str(self):
+        return '(%s, %s)' % (
+            '%dx%d_BottleneckConv_in->%d->%d_S%d' % (
+                self.kernel_size, self.kernel_size, self.active_middle_channels, self.active_out_channel, self.stride
+            ),
+            'Identity' if isinstance(self.downsample, IdentityLayer) else self.downsample_mode,
+        )
+
+    @property
+    def config(self):
+        return {
+            'name': DynamicResNetBottleneckBlock.__name__,
+            'in_channel_list': self.in_channel_list,
+            'out_channel_list': self.out_channel_list,
+            'expand_ratio_list': self.expand_ratio_list,
+            'kernel_size': self.kernel_size,
+            'stride': self.stride,
+            'act_func': self.act_func,
+            'downsample_mode': self.downsample_mode,
+        }
+
+    @staticmethod
+    def build_from_config(config):
+        return DynamicResNetBottleneckBlock(**config)
+
+    ############################################################################################
+
+    @property
+    def in_channels(self):
+        return max(self.in_channel_list)
+
+    @property
+    def out_channels(self):
+        return max(self.out_channel_list)
+
+    @property
+    def active_middle_channels(self):
+        feature_dim = round(self.active_out_channel * self.active_expand_ratio)
+        feature_dim = make_divisible(feature_dim, MyNetwork.CHANNEL_DIVISIBLE)
+        return feature_dim
+
+    ############################################################################################
+
+    def get_active_subnet(self, in_channel, preserve_weight=True):
+        # build the new layer
+        sub_layer = set_layer_from_config(self.get_active_subnet_config(in_channel))
+        sub_layer = sub_layer.to(get_net_device(self))
+        if not preserve_weight:
+            return sub_layer
+
+        # copy weight from current layer
+        sub_layer.conv1.conv.weight.data.copy_(
+            self.conv1.conv.get_active_filter(self.active_middle_channels, in_channel).data)
+        copy_bn(sub_layer.conv1.bn, self.conv1.bn.bn)
+
+        sub_layer.conv2.conv.weight.data.copy_(
+            self.conv2.conv.get_active_filter(self.active_middle_channels, self.active_middle_channels).data)
+        copy_bn(sub_layer.conv2.bn, self.conv2.bn.bn)
+
+        sub_layer.conv3.conv.weight.data.copy_(
+            self.conv3.conv.get_active_filter(self.active_out_channel, self.active_middle_channels).data)
+        copy_bn(sub_layer.conv3.bn, self.conv3.bn.bn)
+
+        if not isinstance(self.downsample, IdentityLayer):
+            sub_layer.downsample.conv.weight.data.copy_(
+                self.downsample.conv.get_active_filter(self.active_out_channel, in_channel).data)
+            copy_bn(sub_layer.downsample.bn, self.downsample.bn.bn)
+
+        return sub_layer
+
+    def get_active_subnet_config(self, in_channel):
+        return {
+            'name': ResNetBottleneckBlock.__name__,
+            'in_channels': in_channel,
+            'out_channels': self.active_out_channel,
+            'kernel_size': self.kernel_size,
+            'stride': self.stride,
+            'expand_ratio': self.active_expand_ratio,
+            'mid_channels': self.active_middle_channels,
+            'act_func': self.act_func,
+            'groups': 1,
+            'downsample_mode': self.downsample_mode,
+        }
+
+    def re_organize_middle_weights(self, expand_ratio_stage=0):
+        # conv3 -> conv2
+        importance = torch.sum(torch.abs(self.conv3.conv.conv.weight.data), dim=(0, 2, 3))
+        if isinstance(self.conv2.bn, DynamicGroupNorm):
+            channel_per_group = self.conv2.bn.channel_per_group
+            importance_chunks = torch.split(importance, channel_per_group)
+            for chunk in importance_chunks:
+                chunk.data.fill_(torch.mean(chunk))
+            importance = torch.cat(importance_chunks, dim=0)
+        if expand_ratio_stage > 0:
+            sorted_expand_list = copy.deepcopy(self.expand_ratio_list)
+            sorted_expand_list.sort(reverse=True)
+            target_width_list = [
+                make_divisible(round(max(self.out_channel_list) * expand), MyNetwork.CHANNEL_DIVISIBLE)
+                for expand in sorted_expand_list
+            ]
+            right = len(importance)
+            base = - len(target_width_list) * 1e5
+            for i in range(expand_ratio_stage + 1):
+                left = target_width_list[i]
+                importance[left:right] += base
+                base += 1e5
+                right = left
+
+        sorted_importance, sorted_idx = torch.sort(importance, dim=0, descending=True)
+        self.conv3.conv.conv.weight.data = torch.index_select(self.conv3.conv.conv.weight.data, 1, sorted_idx)
+        adjust_bn_according_to_idx(self.conv2.bn.bn, sorted_idx)
+        self.conv2.conv.conv.weight.data = torch.index_select(self.conv2.conv.conv.weight.data, 0, sorted_idx)
+
+        # conv2 -> conv1
+        importance = torch.sum(torch.abs(self.conv2.conv.conv.weight.data), dim=(0, 2, 3))
+        if isinstance(self.conv1.bn, DynamicGroupNorm):
+            channel_per_group = self.conv1.bn.channel_per_group
+            importance_chunks = torch.split(importance, channel_per_group)
+            for chunk in importance_chunks:
+                chunk.data.fill_(torch.mean(chunk))
+            importance = torch.cat(importance_chunks, dim=0)
+        if expand_ratio_stage > 0:
+            sorted_expand_list = copy.deepcopy(self.expand_ratio_list)
+            sorted_expand_list.sort(reverse=True)
+            target_width_list = [
+                make_divisible(round(max(self.out_channel_list) * expand), MyNetwork.CHANNEL_DIVISIBLE)
+                for expand in sorted_expand_list
+            ]
+            right = len(importance)
+            base = - len(target_width_list) * 1e5
+            for i in range(expand_ratio_stage + 1):
+                left = target_width_list[i]
+                importance[left:right] += base
+                base += 1e5
+                right = left
+        sorted_importance, sorted_idx = torch.sort(importance, dim=0, descending=True)
+
+        self.conv2.conv.conv.weight.data = torch.index_select(self.conv2.conv.conv.weight.data, 1, sorted_idx)
+        adjust_bn_according_to_idx(self.conv1.bn.bn, sorted_idx)
+        self.conv1.conv.conv.weight.data = torch.index_select(self.conv1.conv.conv.weight.data, 0, sorted_idx)
+
+        return None
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/elastic_nn/modules/dynamic_op.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/elastic_nn/modules/dynamic_op.py
@@ -0,0 +1,314 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+import torch.nn.functional as F
+import torch.nn as nn
+import torch
+from torch.nn.parameter import Parameter
+
+from ofa_local.utils import get_same_padding, sub_filter_start_end, make_divisible, SEModule, MyNetwork, MyConv2d
+
+__all__ = ['DynamicSeparableConv2d', 'DynamicConv2d', 'DynamicGroupConv2d',
+           'DynamicBatchNorm2d', 'DynamicGroupNorm', 'DynamicSE', 'DynamicLinear']
+
+
+class DynamicSeparableConv2d(nn.Module):
+	KERNEL_TRANSFORM_MODE = 1  # None or 1
+
+	def __init__(self, max_in_channels, kernel_size_list, stride=1, dilation=1):
+		super(DynamicSeparableConv2d, self).__init__()
+
+		self.max_in_channels = max_in_channels
+		self.kernel_size_list = kernel_size_list
+		self.stride = stride
+		self.dilation = dilation
+
+		self.conv = nn.Conv2d(
+			self.max_in_channels, self.max_in_channels, max(self.kernel_size_list), self.stride,
+			groups=self.max_in_channels, bias=False,
+		)
+
+		self._ks_set = list(set(self.kernel_size_list))
+		self._ks_set.sort()  # e.g., [3, 5, 7]
+		if self.KERNEL_TRANSFORM_MODE is not None:
+			# register scaling parameters
+			# 7to5_matrix, 5to3_matrix
+			scale_params = {}
+			for i in range(len(self._ks_set) - 1):
+				ks_small = self._ks_set[i]
+				ks_larger = self._ks_set[i + 1]
+				param_name = '%dto%d' % (ks_larger, ks_small)
+				# noinspection PyArgumentList
+				scale_params['%s_matrix' % param_name] = Parameter(torch.eye(ks_small ** 2))
+			for name, param in scale_params.items():
+				self.register_parameter(name, param)
+
+		self.active_kernel_size = max(self.kernel_size_list)
+
+	def get_active_filter(self, in_channel, kernel_size):
+		out_channel = in_channel
+		max_kernel_size = max(self.kernel_size_list)
+
+		start, end = sub_filter_start_end(max_kernel_size, kernel_size)
+		filters = self.conv.weight[:out_channel, :in_channel, start:end, start:end]
+		if self.KERNEL_TRANSFORM_MODE is not None and kernel_size < max_kernel_size:
+			start_filter = self.conv.weight[:out_channel, :in_channel, :, :]  # start with max kernel
+			for i in range(len(self._ks_set) - 1, 0, -1):
+				src_ks = self._ks_set[i]
+				if src_ks <= kernel_size:
+					break
+				target_ks = self._ks_set[i - 1]
+				start, end = sub_filter_start_end(src_ks, target_ks)
+				_input_filter = start_filter[:, :, start:end, start:end]
+				_input_filter = _input_filter.contiguous()
+				_input_filter = _input_filter.view(_input_filter.size(0), _input_filter.size(1), -1)
+				_input_filter = _input_filter.view(-1, _input_filter.size(2))
+				_input_filter = F.linear(
+					_input_filter, self.__getattr__('%dto%d_matrix' % (src_ks, target_ks)),
+				)
+				_input_filter = _input_filter.view(filters.size(0), filters.size(1), target_ks ** 2)
+				_input_filter = _input_filter.view(filters.size(0), filters.size(1), target_ks, target_ks)
+				start_filter = _input_filter
+			filters = start_filter
+		return filters
+
+	def forward(self, x, kernel_size=None):
+		if kernel_size is None:
+			kernel_size = self.active_kernel_size
+		in_channel = x.size(1)
+
+		filters = self.get_active_filter(in_channel, kernel_size).contiguous()
+
+		padding = get_same_padding(kernel_size)
+		filters = self.conv.weight_standardization(filters) if isinstance(self.conv, MyConv2d) else filters
+		y = F.conv2d(
+			x, filters, None, self.stride, padding, self.dilation, in_channel
+		)
+		return y
+
+
+class DynamicConv2d(nn.Module):
+
+	def __init__(self, max_in_channels, max_out_channels, kernel_size=1, stride=1, dilation=1):
+		super(DynamicConv2d, self).__init__()
+
+		self.max_in_channels = max_in_channels
+		self.max_out_channels = max_out_channels
+		self.kernel_size = kernel_size
+		self.stride = stride
+		self.dilation = dilation
+
+		self.conv = nn.Conv2d(
+			self.max_in_channels, self.max_out_channels, self.kernel_size, stride=self.stride, bias=False,
+		)
+
+		self.active_out_channel = self.max_out_channels
+
+	def get_active_filter(self, out_channel, in_channel):
+		return self.conv.weight[:out_channel, :in_channel, :, :]
+
+	def forward(self, x, out_channel=None):
+		if out_channel is None:
+			out_channel = self.active_out_channel
+		in_channel = x.size(1)
+		filters = self.get_active_filter(out_channel, in_channel).contiguous()
+
+		padding = get_same_padding(self.kernel_size)
+		filters = self.conv.weight_standardization(filters) if isinstance(self.conv, MyConv2d) else filters
+		y = F.conv2d(x, filters, None, self.stride, padding, self.dilation, 1)
+		return y
+
+
+class DynamicGroupConv2d(nn.Module):
+
+	def __init__(self, in_channels, out_channels, kernel_size_list, groups_list, stride=1, dilation=1):
+		super(DynamicGroupConv2d, self).__init__()
+
+		self.in_channels = in_channels
+		self.out_channels = out_channels
+		self.kernel_size_list = kernel_size_list
+		self.groups_list = groups_list
+		self.stride = stride
+		self.dilation = dilation
+
+		self.conv = nn.Conv2d(
+			self.in_channels, self.out_channels, max(self.kernel_size_list), self.stride,
+			groups=min(self.groups_list), bias=False,
+		)
+
+		self.active_kernel_size = max(self.kernel_size_list)
+		self.active_groups = min(self.groups_list)
+
+	def get_active_filter(self, kernel_size, groups):
+		start, end = sub_filter_start_end(max(self.kernel_size_list), kernel_size)
+		filters = self.conv.weight[:, :, start:end, start:end]
+
+		sub_filters = torch.chunk(filters, groups, dim=0)
+		sub_in_channels = self.in_channels // groups
+		sub_ratio = filters.size(1) // sub_in_channels
+
+		filter_crops = []
+		for i, sub_filter in enumerate(sub_filters):
+			part_id = i % sub_ratio
+			start = part_id * sub_in_channels
+			filter_crops.append(sub_filter[:, start:start + sub_in_channels, :, :])
+		filters = torch.cat(filter_crops, dim=0)
+		return filters
+
+	def forward(self, x, kernel_size=None, groups=None):
+		if kernel_size is None:
+			kernel_size = self.active_kernel_size
+		if groups is None:
+			groups = self.active_groups
+
+		filters = self.get_active_filter(kernel_size, groups).contiguous()
+		padding = get_same_padding(kernel_size)
+		filters = self.conv.weight_standardization(filters) if isinstance(self.conv, MyConv2d) else filters
+		y = F.conv2d(
+			x, filters, None, self.stride, padding, self.dilation, groups,
+		)
+		return y
+
+
+class DynamicBatchNorm2d(nn.Module):
+	SET_RUNNING_STATISTICS = False
+
+	def __init__(self, max_feature_dim):
+		super(DynamicBatchNorm2d, self).__init__()
+
+		self.max_feature_dim = max_feature_dim
+		self.bn = nn.BatchNorm2d(self.max_feature_dim)
+
+	@staticmethod
+	def bn_forward(x, bn: nn.BatchNorm2d, feature_dim):
+		if bn.num_features == feature_dim or DynamicBatchNorm2d.SET_RUNNING_STATISTICS:
+			return bn(x)
+		else:
+			exponential_average_factor = 0.0
+
+			if bn.training and bn.track_running_stats:
+				if bn.num_batches_tracked is not None:
+					bn.num_batches_tracked += 1
+					if bn.momentum is None:  # use cumulative moving average
+						exponential_average_factor = 1.0 / float(bn.num_batches_tracked)
+					else:  # use exponential moving average
+						exponential_average_factor = bn.momentum
+			return F.batch_norm(
+				x, bn.running_mean[:feature_dim], bn.running_var[:feature_dim], bn.weight[:feature_dim],
+				bn.bias[:feature_dim], bn.training or not bn.track_running_stats,
+				exponential_average_factor, bn.eps,
+			)
+
+	def forward(self, x):
+		feature_dim = x.size(1)
+		y = self.bn_forward(x, self.bn, feature_dim)
+		return y
+
+
+class DynamicGroupNorm(nn.GroupNorm):
+
+	def __init__(self, num_groups, num_channels, eps=1e-5, affine=True, channel_per_group=None):
+		super(DynamicGroupNorm, self).__init__(num_groups, num_channels, eps, affine)
+		self.channel_per_group = channel_per_group
+
+	def forward(self, x):
+		n_channels = x.size(1)
+		n_groups = n_channels // self.channel_per_group
+		return F.group_norm(x, n_groups, self.weight[:n_channels], self.bias[:n_channels], self.eps)
+
+	@property
+	def bn(self):
+		return self
+
+
+class DynamicSE(SEModule):
+
+	def __init__(self, max_channel):
+		super(DynamicSE, self).__init__(max_channel)
+
+	def get_active_reduce_weight(self, num_mid, in_channel, groups=None):
+		if groups is None or groups == 1:
+			return self.fc.reduce.weight[:num_mid, :in_channel, :, :]
+		else:
+			assert in_channel % groups == 0
+			sub_in_channels = in_channel // groups
+			sub_filters = torch.chunk(self.fc.reduce.weight[:num_mid, :, :, :], groups, dim=1)
+			return torch.cat([
+				sub_filter[:, :sub_in_channels, :, :] for sub_filter in sub_filters
+			], dim=1)
+
+	def get_active_reduce_bias(self, num_mid):
+		return self.fc.reduce.bias[:num_mid] if self.fc.reduce.bias is not None else None
+
+	def get_active_expand_weight(self, num_mid, in_channel, groups=None):
+		if groups is None or groups == 1:
+			return self.fc.expand.weight[:in_channel, :num_mid, :, :]
+		else:
+			assert in_channel % groups == 0
+			sub_in_channels = in_channel // groups
+			sub_filters = torch.chunk(self.fc.expand.weight[:, :num_mid, :, :], groups, dim=0)
+			return torch.cat([
+				sub_filter[:sub_in_channels, :, :, :] for sub_filter in sub_filters
+			], dim=0)
+
+	def get_active_expand_bias(self, in_channel, groups=None):
+		if groups is None or groups == 1:
+			return self.fc.expand.bias[:in_channel] if self.fc.expand.bias is not None else None
+		else:
+			assert in_channel % groups == 0
+			sub_in_channels = in_channel // groups
+			sub_bias_list = torch.chunk(self.fc.expand.bias, groups, dim=0)
+			return torch.cat([
+				sub_bias[:sub_in_channels] for sub_bias in sub_bias_list
+			], dim=0)
+
+	def forward(self, x, groups=None):
+		in_channel = x.size(1)
+		num_mid = make_divisible(in_channel // self.reduction, divisor=MyNetwork.CHANNEL_DIVISIBLE)
+
+		y = x.mean(3, keepdim=True).mean(2, keepdim=True)
+		# reduce
+		reduce_filter = self.get_active_reduce_weight(num_mid, in_channel, groups=groups).contiguous()
+		reduce_bias = self.get_active_reduce_bias(num_mid)
+		y = F.conv2d(y, reduce_filter, reduce_bias, 1, 0, 1, 1)
+		# relu
+		y = self.fc.relu(y)
+		# expand
+		expand_filter = self.get_active_expand_weight(num_mid, in_channel, groups=groups).contiguous()
+		expand_bias = self.get_active_expand_bias(in_channel, groups=groups)
+		y = F.conv2d(y, expand_filter, expand_bias, 1, 0, 1, 1)
+		# hard sigmoid
+		y = self.fc.h_sigmoid(y)
+
+		return x * y
+
+
+class DynamicLinear(nn.Module):
+
+	def __init__(self, max_in_features, max_out_features, bias=True):
+		super(DynamicLinear, self).__init__()
+
+		self.max_in_features = max_in_features
+		self.max_out_features = max_out_features
+		self.bias = bias
+
+		self.linear = nn.Linear(self.max_in_features, self.max_out_features, self.bias)
+
+		self.active_out_features = self.max_out_features
+
+	def get_active_weight(self, out_features, in_features):
+		return self.linear.weight[:out_features, :in_features]
+
+	def get_active_bias(self, out_features):
+		return self.linear.bias[:out_features] if self.bias else None
+
+	def forward(self, x, out_features=None):
+		if out_features is None:
+			out_features = self.active_out_features
+
+		in_features = x.size(1)
+		weight = self.get_active_weight(out_features, in_features).contiguous()
+		bias = self.get_active_bias(out_features)
+		y = F.linear(x, weight, bias)
+		return y
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/elastic_nn/networks/init.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/elastic_nn/networks/init.py
@@ -0,0 +1,7 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+from .ofa_proxyless import OFAProxylessNASNets
+from .ofa_mbv3 import OFAMobileNetV3
+from .ofa_resnets import OFAResNets
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/elastic_nn/networks/ofa_mbv3.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/elastic_nn/networks/ofa_mbv3.py
@@ -0,0 +1,336 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+import copy
+import random
+
+from ofa_local.imagenet_classification.elastic_nn.modules.dynamic_layers import DynamicMBConvLayer
+from ofa_local.utils.layers import ConvLayer, IdentityLayer, LinearLayer, MBConvLayer, ResidualBlock
+from ofa_local.imagenet_classification.networks import MobileNetV3
+from ofa_local.utils import make_divisible, val2list, MyNetwork
+from ofa_local.utils.layers import set_layer_from_config
+import gin
+
+__all__ = ['OFAMobileNetV3']
+
+@gin.configurable
+class OFAMobileNetV3(MobileNetV3):
+
+	def __init__(self, n_classes=1000, bn_param=(0.1, 1e-5), dropout_rate=0.1, base_stage_width=None, width_mult=1.0,
+	             ks_list=3, expand_ratio_list=6, depth_list=4, dropblock=False, block_size=0):
+
+		self.width_mult = width_mult
+		self.ks_list = val2list(ks_list, 1)
+		self.expand_ratio_list = val2list(expand_ratio_list, 1)
+		self.depth_list = val2list(depth_list, 1)
+
+		self.ks_list.sort()
+		self.expand_ratio_list.sort()
+		self.depth_list.sort()
+
+		base_stage_width = [16, 16, 24, 40, 80, 112, 160, 960, 1280]
+
+		final_expand_width = make_divisible(base_stage_width[-2] * self.width_mult, MyNetwork.CHANNEL_DIVISIBLE)
+		last_channel = make_divisible(base_stage_width[-1] * self.width_mult, MyNetwork.CHANNEL_DIVISIBLE)
+
+		stride_stages = [1, 2, 2, 2, 1, 2]
+		act_stages = ['relu', 'relu', 'relu', 'h_swish', 'h_swish', 'h_swish']
+		se_stages = [False, False, True, False, True, True]
+		n_block_list = [1] + [max(self.depth_list)] * 5
+		width_list = []
+		for base_width in base_stage_width[:-2]:
+			width = make_divisible(base_width * self.width_mult, MyNetwork.CHANNEL_DIVISIBLE)
+			width_list.append(width)
+
+		input_channel, first_block_dim = width_list[0], width_list[1]
+		# first conv layer
+		first_conv = ConvLayer(3, input_channel, kernel_size=3, stride=2, act_func='h_swish')
+		first_block_conv = MBConvLayer(
+			in_channels=input_channel, out_channels=first_block_dim, kernel_size=3, stride=stride_stages[0],
+			expand_ratio=1, act_func=act_stages[0], use_se=se_stages[0],
+		)
+		first_block = ResidualBlock(
+			first_block_conv,
+			IdentityLayer(first_block_dim, first_block_dim) if input_channel == first_block_dim else None,
+			dropout_rate, dropblock, block_size
+		)
+
+		# inverted residual blocks
+		self.block_group_info = []
+		blocks = [first_block]
+		_block_index = 1
+		feature_dim = first_block_dim
+
+		for width, n_block, s, act_func, use_se in zip(width_list[2:], n_block_list[1:],
+		                                               stride_stages[1:], act_stages[1:], se_stages[1:]):
+			self.block_group_info.append([_block_index + i for i in range(n_block)])
+			_block_index += n_block
+
+			output_channel = width
+			for i in range(n_block):
+				if i == 0:
+					stride = s
+				else:
+					stride = 1
+				mobile_inverted_conv = DynamicMBConvLayer(
+					in_channel_list=val2list(feature_dim), out_channel_list=val2list(output_channel),
+					kernel_size_list=ks_list, expand_ratio_list=expand_ratio_list,
+					stride=stride, act_func=act_func, use_se=use_se,
+				)
+				if stride == 1 and feature_dim == output_channel:
+					shortcut = IdentityLayer(feature_dim, feature_dim)
+				else:
+					shortcut = None
+				blocks.append(ResidualBlock(mobile_inverted_conv, shortcut,
+								dropout_rate, dropblock, block_size))
+				feature_dim = output_channel
+		# final expand layer, feature mix layer & classifier
+		final_expand_layer = ConvLayer(feature_dim, final_expand_width, kernel_size=1, act_func='h_swish')
+		feature_mix_layer = ConvLayer(
+			final_expand_width, last_channel, kernel_size=1, bias=False, use_bn=False, act_func='h_swish',
+		)
+
+		classifier = LinearLayer(last_channel, n_classes, dropout_rate=dropout_rate)
+
+		super(OFAMobileNetV3, self).__init__(first_conv, blocks, final_expand_layer, feature_mix_layer, classifier)
+
+		# set bn param
+		self.set_bn_param(momentum=bn_param[0], eps=bn_param[1])
+
+		# runtime_depth
+		self.runtime_depth = [len(block_idx) for block_idx in self.block_group_info]
+
+	""" MyNetwork required methods """
+
+	@staticmethod
+	def name():
+		return 'OFAMobileNetV3'
+
+	def forward(self, x):
+		# first conv
+		x = self.first_conv(x)
+		# first block
+		x = self.blocks[0](x)
+		# blocks
+		for stage_id, block_idx in enumerate(self.block_group_info):
+			depth = self.runtime_depth[stage_id]
+			active_idx = block_idx[:depth]
+			for idx in active_idx:
+				x = self.blocks[idx](x)
+		x = self.final_expand_layer(x)
+		x = x.mean(3, keepdim=True).mean(2, keepdim=True)  # global average pooling
+		x = self.feature_mix_layer(x)
+		x = x.view(x.size(0), -1)
+		x = self.classifier(x)
+		return x
+
+	@property
+	def module_str(self):
+		_str = self.first_conv.module_str + '\n'
+		_str += self.blocks[0].module_str + '\n'
+
+		for stage_id, block_idx in enumerate(self.block_group_info):
+			depth = self.runtime_depth[stage_id]
+			active_idx = block_idx[:depth]
+			for idx in active_idx:
+				_str += self.blocks[idx].module_str + '\n'
+
+		_str += self.final_expand_layer.module_str + '\n'
+		_str += self.feature_mix_layer.module_str + '\n'
+		_str += self.classifier.module_str + '\n'
+		return _str
+
+	@property
+	def config(self):
+		return {
+			'name': OFAMobileNetV3.__name__,
+			'bn': self.get_bn_param(),
+			'first_conv': self.first_conv.config,
+			'blocks': [
+				block.config for block in self.blocks
+			],
+			'final_expand_layer': self.final_expand_layer.config,
+			'feature_mix_layer': self.feature_mix_layer.config,
+			'classifier': self.classifier.config,
+		}
+
+	@staticmethod
+	def build_from_config(config):
+		raise ValueError('do not support this function')
+
+	@property
+	def grouped_block_index(self):
+		return self.block_group_info
+
+	def load_state_dict(self, state_dict, **kwargs):
+		model_dict = self.state_dict()
+		for key in state_dict:
+			if '.mobile_inverted_conv.' in key:
+				new_key = key.replace('.mobile_inverted_conv.', '.conv.')
+			else:
+				new_key = key
+			if new_key in model_dict:
+				pass
+			elif '.bn.bn.' in new_key:
+				new_key = new_key.replace('.bn.bn.', '.bn.')
+			elif '.conv.conv.weight' in new_key:
+				new_key = new_key.replace('.conv.conv.weight', '.conv.weight')
+			elif '.linear.linear.' in new_key:
+				new_key = new_key.replace('.linear.linear.', '.linear.')
+			##############################################################################
+			elif '.linear.' in new_key:
+				new_key = new_key.replace('.linear.', '.linear.linear.')
+			elif 'bn.' in new_key:
+				new_key = new_key.replace('bn.', 'bn.bn.')
+			elif 'conv.weight' in new_key:
+				new_key = new_key.replace('conv.weight', 'conv.conv.weight')
+			else:
+				raise ValueError(new_key)
+			assert new_key in model_dict, '%s' % new_key
+			model_dict[new_key] = state_dict[key]
+		super(OFAMobileNetV3, self).load_state_dict(model_dict)
+
+	""" set, sample and get active sub-networks """
+
+	def set_max_net(self):
+		self.set_active_subnet(ks=max(self.ks_list), e=max(self.expand_ratio_list), d=max(self.depth_list))
+
+	def set_active_subnet(self, ks=None, e=None, d=None, **kwargs):
+		ks = val2list(ks, len(self.blocks) - 1)
+		expand_ratio = val2list(e, len(self.blocks) - 1)
+		depth = val2list(d, len(self.block_group_info))
+
+		for block, k, e in zip(self.blocks[1:], ks, expand_ratio):
+			if k is not None:
+				block.conv.active_kernel_size = k
+			if e is not None:
+				block.conv.active_expand_ratio = e
+
+		for i, d in enumerate(depth):
+			if d is not None:
+				self.runtime_depth[i] = min(len(self.block_group_info[i]), d)
+
+	def set_constraint(self, include_list, constraint_type='depth'):
+		if constraint_type == 'depth':
+			self.__dict__['_depth_include_list'] = include_list.copy()
+		elif constraint_type == 'expand_ratio':
+			self.__dict__['_expand_include_list'] = include_list.copy()
+		elif constraint_type == 'kernel_size':
+			self.__dict__['_ks_include_list'] = include_list.copy()
+		else:
+			raise NotImplementedError
+
+	def clear_constraint(self):
+		self.__dict__['_depth_include_list'] = None
+		self.__dict__['_expand_include_list'] = None
+		self.__dict__['_ks_include_list'] = None
+
+	def sample_active_subnet(self):
+		ks_candidates = self.ks_list if self.__dict__.get('_ks_include_list', None) is None \
+			else self.__dict__['_ks_include_list']
+		expand_candidates = self.expand_ratio_list if self.__dict__.get('_expand_include_list', None) is None \
+			else self.__dict__['_expand_include_list']
+		depth_candidates = self.depth_list if self.__dict__.get('_depth_include_list', None) is None else \
+			self.__dict__['_depth_include_list']
+
+		# sample kernel size
+		ks_setting = []
+		if not isinstance(ks_candidates[0], list):
+			ks_candidates = [ks_candidates for _ in range(len(self.blocks) - 1)]
+		for k_set in ks_candidates:
+			k = random.choice(k_set)
+			ks_setting.append(k)
+
+		# sample expand ratio
+		expand_setting = []
+		if not isinstance(expand_candidates[0], list):
+			expand_candidates = [expand_candidates for _ in range(len(self.blocks) - 1)]
+		for e_set in expand_candidates:
+			e = random.choice(e_set)
+			expand_setting.append(e)
+
+		# sample depth
+		depth_setting = []
+		if not isinstance(depth_candidates[0], list):
+			depth_candidates = [depth_candidates for _ in range(len(self.block_group_info))]
+		for d_set in depth_candidates:
+			d = random.choice(d_set)
+			depth_setting.append(d)
+
+		import pdb; pdb.set_trace()
+		self.set_active_subnet(ks_setting, expand_setting, depth_setting)
+
+		return {
+			'ks': ks_setting,
+			'e': expand_setting,
+			'd': depth_setting,
+		}
+
+	def get_active_subnet(self, preserve_weight=True):
+		first_conv = copy.deepcopy(self.first_conv)
+		blocks = [copy.deepcopy(self.blocks[0])]
+
+		final_expand_layer = copy.deepcopy(self.final_expand_layer)
+		feature_mix_layer = copy.deepcopy(self.feature_mix_layer)
+		classifier = copy.deepcopy(self.classifier)
+
+		input_channel = blocks[0].conv.out_channels
+		# blocks
+		for stage_id, block_idx in enumerate(self.block_group_info):
+			depth = self.runtime_depth[stage_id]
+			active_idx = block_idx[:depth]
+			stage_blocks = []
+			for idx in active_idx:
+				stage_blocks.append(ResidualBlock(
+					self.blocks[idx].conv.get_active_subnet(input_channel, preserve_weight),
+					copy.deepcopy(self.blocks[idx].shortcut), 
+					copy.deepcopy(self.blocks[idx].dropout_rate),
+					copy.deepcopy(self.blocks[idx].dropblock),
+					copy.deepcopy(self.blocks[idx].block_size),
+				))
+				input_channel = stage_blocks[-1].conv.out_channels
+			blocks += stage_blocks
+
+		_subnet = MobileNetV3(first_conv, blocks, final_expand_layer, feature_mix_layer, classifier)
+		_subnet.set_bn_param(**self.get_bn_param())
+		return _subnet
+
+	def get_active_net_config(self):
+		# first conv
+		first_conv_config = self.first_conv.config
+		first_block_config = self.blocks[0].config
+		final_expand_config = self.final_expand_layer.config
+		feature_mix_layer_config = self.feature_mix_layer.config
+		classifier_config = self.classifier.config
+
+		block_config_list = [first_block_config]
+		input_channel = first_block_config['conv']['out_channels']
+		for stage_id, block_idx in enumerate(self.block_group_info):
+			depth = self.runtime_depth[stage_id]
+			active_idx = block_idx[:depth]
+			stage_blocks = []
+			for idx in active_idx:
+				stage_blocks.append({
+					'name': ResidualBlock.__name__,
+					'conv': self.blocks[idx].conv.get_active_subnet_config(input_channel),
+					'shortcut': self.blocks[idx].shortcut.config if self.blocks[idx].shortcut is not None else None,
+				})
+				input_channel = self.blocks[idx].conv.active_out_channel
+			block_config_list += stage_blocks
+
+		return {
+			'name': MobileNetV3.__name__,
+			'bn': self.get_bn_param(),
+			'first_conv': first_conv_config,
+			'blocks': block_config_list,
+			'final_expand_layer': final_expand_config,
+			'feature_mix_layer': feature_mix_layer_config,
+			'classifier': classifier_config,
+		}
+
+	""" Width Related Methods """
+
+	def re_organize_middle_weights(self, expand_ratio_stage=0):
+		for block in self.blocks[1:]:
+			block.conv.re_organize_middle_weights(expand_ratio_stage)
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/elastic_nn/networks/ofa_proxyless.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/elastic_nn/networks/ofa_proxyless.py
@@ -0,0 +1,331 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+import copy
+import random
+
+from ofa_local.utils import make_divisible, val2list, MyNetwork
+from ofa_local.imagenet_classification.elastic_nn.modules import DynamicMBConvLayer
+from ofa_local.utils.layers import ConvLayer, IdentityLayer, LinearLayer, MBConvLayer, ResidualBlock
+from ofa_local.imagenet_classification.networks.proxyless_nets import ProxylessNASNets
+
+__all__ = ['OFAProxylessNASNets']
+
+
+class OFAProxylessNASNets(ProxylessNASNets):
+
+	def __init__(self, n_classes=1000, bn_param=(0.1, 1e-3), dropout_rate=0.1, base_stage_width=None, width_mult=1.0,
+	             ks_list=3, expand_ratio_list=6, depth_list=4):
+
+		self.width_mult = width_mult
+		self.ks_list = val2list(ks_list, 1)
+		self.expand_ratio_list = val2list(expand_ratio_list, 1)
+		self.depth_list = val2list(depth_list, 1)
+
+		self.ks_list.sort()
+		self.expand_ratio_list.sort()
+		self.depth_list.sort()
+
+		if base_stage_width == 'google':
+			# MobileNetV2 Stage Width
+			base_stage_width = [32, 16, 24, 32, 64, 96, 160, 320, 1280]
+		else:
+			# ProxylessNAS Stage Width
+			base_stage_width = [32, 16, 24, 40, 80, 96, 192, 320, 1280]
+
+		input_channel = make_divisible(base_stage_width[0] * self.width_mult, MyNetwork.CHANNEL_DIVISIBLE)
+		first_block_width = make_divisible(base_stage_width[1] * self.width_mult, MyNetwork.CHANNEL_DIVISIBLE)
+		last_channel = make_divisible(base_stage_width[-1] * self.width_mult, MyNetwork.CHANNEL_DIVISIBLE)
+
+		# first conv layer
+		first_conv = ConvLayer(
+			3, input_channel, kernel_size=3, stride=2, use_bn=True, act_func='relu6', ops_order='weight_bn_act'
+		)
+		# first block
+		first_block_conv = MBConvLayer(
+			in_channels=input_channel, out_channels=first_block_width, kernel_size=3, stride=1,
+			expand_ratio=1, act_func='relu6',
+		)
+		first_block = ResidualBlock(first_block_conv, None)
+
+		input_channel = first_block_width
+		# inverted residual blocks
+		self.block_group_info = []
+		blocks = [first_block]
+		_block_index = 1
+
+		stride_stages = [2, 2, 2, 1, 2, 1]
+		n_block_list = [max(self.depth_list)] * 5 + [1]
+
+		width_list = []
+		for base_width in base_stage_width[2:-1]:
+			width = make_divisible(base_width * self.width_mult, MyNetwork.CHANNEL_DIVISIBLE)
+			width_list.append(width)
+
+		for width, n_block, s in zip(width_list, n_block_list, stride_stages):
+			self.block_group_info.append([_block_index + i for i in range(n_block)])
+			_block_index += n_block
+
+			output_channel = width
+			for i in range(n_block):
+				if i == 0:
+					stride = s
+				else:
+					stride = 1
+
+				mobile_inverted_conv = DynamicMBConvLayer(
+					in_channel_list=val2list(input_channel, 1), out_channel_list=val2list(output_channel, 1),
+					kernel_size_list=ks_list, expand_ratio_list=expand_ratio_list, stride=stride, act_func='relu6',
+				)
+
+				if stride == 1 and input_channel == output_channel:
+					shortcut = IdentityLayer(input_channel, input_channel)
+				else:
+					shortcut = None
+
+				mb_inverted_block = ResidualBlock(mobile_inverted_conv, shortcut)
+
+				blocks.append(mb_inverted_block)
+				input_channel = output_channel
+		# 1x1_conv before global average pooling
+		feature_mix_layer = ConvLayer(
+			input_channel, last_channel, kernel_size=1, use_bn=True, act_func='relu6',
+		)
+		classifier = LinearLayer(last_channel, n_classes, dropout_rate=dropout_rate)
+
+		super(OFAProxylessNASNets, self).__init__(first_conv, blocks, feature_mix_layer, classifier)
+
+		# set bn param
+		self.set_bn_param(momentum=bn_param[0], eps=bn_param[1])
+
+		# runtime_depth
+		self.runtime_depth = [len(block_idx) for block_idx in self.block_group_info]
+
+	""" MyNetwork required methods """
+
+	@staticmethod
+	def name():
+		return 'OFAProxylessNASNets'
+
+	def forward(self, x):
+		# first conv
+		x = self.first_conv(x)
+		# first block
+		x = self.blocks[0](x)
+
+		# blocks
+		for stage_id, block_idx in enumerate(self.block_group_info):
+			depth = self.runtime_depth[stage_id]
+			active_idx = block_idx[:depth]
+			for idx in active_idx:
+				x = self.blocks[idx](x)
+
+		# feature_mix_layer
+		x = self.feature_mix_layer(x)
+		x = x.mean(3).mean(2)
+
+		x = self.classifier(x)
+		return x
+
+	@property
+	def module_str(self):
+		_str = self.first_conv.module_str + '\n'
+		_str += self.blocks[0].module_str + '\n'
+
+		for stage_id, block_idx in enumerate(self.block_group_info):
+			depth = self.runtime_depth[stage_id]
+			active_idx = block_idx[:depth]
+			for idx in active_idx:
+				_str += self.blocks[idx].module_str + '\n'
+		_str += self.feature_mix_layer.module_str + '\n'
+		_str += self.classifier.module_str + '\n'
+		return _str
+
+	@property
+	def config(self):
+		return {
+			'name': OFAProxylessNASNets.__name__,
+			'bn': self.get_bn_param(),
+			'first_conv': self.first_conv.config,
+			'blocks': [
+				block.config for block in self.blocks
+			],
+			'feature_mix_layer': None if self.feature_mix_layer is None else self.feature_mix_layer.config,
+			'classifier': self.classifier.config,
+		}
+
+	@staticmethod
+	def build_from_config(config):
+		raise ValueError('do not support this function')
+
+	@property
+	def grouped_block_index(self):
+		return self.block_group_info
+
+	def load_state_dict(self, state_dict, **kwargs):
+		model_dict = self.state_dict()
+		for key in state_dict:
+			if '.mobile_inverted_conv.' in key:
+				new_key = key.replace('.mobile_inverted_conv.', '.conv.')
+			else:
+				new_key = key
+			if new_key in model_dict:
+				pass
+			elif '.bn.bn.' in new_key:
+				new_key = new_key.replace('.bn.bn.', '.bn.')
+			elif '.conv.conv.weight' in new_key:
+				new_key = new_key.replace('.conv.conv.weight', '.conv.weight')
+			elif '.linear.linear.' in new_key:
+				new_key = new_key.replace('.linear.linear.', '.linear.')
+			##############################################################################
+			elif '.linear.' in new_key:
+				new_key = new_key.replace('.linear.', '.linear.linear.')
+			elif 'bn.' in new_key:
+				new_key = new_key.replace('bn.', 'bn.bn.')
+			elif 'conv.weight' in new_key:
+				new_key = new_key.replace('conv.weight', 'conv.conv.weight')
+			else:
+				raise ValueError(new_key)
+			assert new_key in model_dict, '%s' % new_key
+			model_dict[new_key] = state_dict[key]
+		super(OFAProxylessNASNets, self).load_state_dict(model_dict)
+
+	""" set, sample and get active sub-networks """
+
+	def set_max_net(self):
+		self.set_active_subnet(ks=max(self.ks_list), e=max(self.expand_ratio_list), d=max(self.depth_list))
+
+	def set_active_subnet(self, ks=None, e=None, d=None, **kwargs):
+		ks = val2list(ks, len(self.blocks) - 1)
+		expand_ratio = val2list(e, len(self.blocks) - 1)
+		depth = val2list(d, len(self.block_group_info))
+
+		for block, k, e in zip(self.blocks[1:], ks, expand_ratio):
+			if k is not None:
+				block.conv.active_kernel_size = k
+			if e is not None:
+				block.conv.active_expand_ratio = e
+
+		for i, d in enumerate(depth):
+			if d is not None:
+				self.runtime_depth[i] = min(len(self.block_group_info[i]), d)
+
+	def set_constraint(self, include_list, constraint_type='depth'):
+		if constraint_type == 'depth':
+			self.__dict__['_depth_include_list'] = include_list.copy()
+		elif constraint_type == 'expand_ratio':
+			self.__dict__['_expand_include_list'] = include_list.copy()
+		elif constraint_type == 'kernel_size':
+			self.__dict__['_ks_include_list'] = include_list.copy()
+		else:
+			raise NotImplementedError
+
+	def clear_constraint(self):
+		self.__dict__['_depth_include_list'] = None
+		self.__dict__['_expand_include_list'] = None
+		self.__dict__['_ks_include_list'] = None
+
+	def sample_active_subnet(self):
+		ks_candidates = self.ks_list if self.__dict__.get('_ks_include_list', None) is None \
+			else self.__dict__['_ks_include_list']
+		expand_candidates = self.expand_ratio_list if self.__dict__.get('_expand_include_list', None) is None \
+			else self.__dict__['_expand_include_list']
+		depth_candidates = self.depth_list if self.__dict__.get('_depth_include_list', None) is None else \
+			self.__dict__['_depth_include_list']
+
+		# sample kernel size
+		ks_setting = []
+		if not isinstance(ks_candidates[0], list):
+			ks_candidates = [ks_candidates for _ in range(len(self.blocks) - 1)]
+		for k_set in ks_candidates:
+			k = random.choice(k_set)
+			ks_setting.append(k)
+
+		# sample expand ratio
+		expand_setting = []
+		if not isinstance(expand_candidates[0], list):
+			expand_candidates = [expand_candidates for _ in range(len(self.blocks) - 1)]
+		for e_set in expand_candidates:
+			e = random.choice(e_set)
+			expand_setting.append(e)
+
+		# sample depth
+		depth_setting = []
+		if not isinstance(depth_candidates[0], list):
+			depth_candidates = [depth_candidates for _ in range(len(self.block_group_info))]
+		for d_set in depth_candidates:
+			d = random.choice(d_set)
+			depth_setting.append(d)
+
+		depth_setting[-1] = 1
+		self.set_active_subnet(ks_setting, expand_setting, depth_setting)
+
+		return {
+			'ks': ks_setting,
+			'e': expand_setting,
+			'd': depth_setting,
+		}
+
+	def get_active_subnet(self, preserve_weight=True):
+		first_conv = copy.deepcopy(self.first_conv)
+		blocks = [copy.deepcopy(self.blocks[0])]
+		feature_mix_layer = copy.deepcopy(self.feature_mix_layer)
+		classifier = copy.deepcopy(self.classifier)
+
+		input_channel = blocks[0].conv.out_channels
+		# blocks
+		for stage_id, block_idx in enumerate(self.block_group_info):
+			depth = self.runtime_depth[stage_id]
+			active_idx = block_idx[:depth]
+			stage_blocks = []
+			for idx in active_idx:
+				stage_blocks.append(ResidualBlock(
+					self.blocks[idx].conv.get_active_subnet(input_channel, preserve_weight),
+					copy.deepcopy(self.blocks[idx].shortcut)
+				))
+				input_channel = stage_blocks[-1].conv.out_channels
+			blocks += stage_blocks
+
+		_subnet = ProxylessNASNets(first_conv, blocks, feature_mix_layer, classifier)
+		_subnet.set_bn_param(**self.get_bn_param())
+		return _subnet
+
+	def get_active_net_config(self):
+		first_conv_config = self.first_conv.config
+		first_block_config = self.blocks[0].config
+		feature_mix_layer_config = self.feature_mix_layer.config
+		classifier_config = self.classifier.config
+
+		block_config_list = [first_block_config]
+		input_channel = first_block_config['conv']['out_channels']
+		for stage_id, block_idx in enumerate(self.block_group_info):
+			depth = self.runtime_depth[stage_id]
+			active_idx = block_idx[:depth]
+			stage_blocks = []
+			for idx in active_idx:
+				stage_blocks.append({
+					'name': ResidualBlock.__name__,
+					'conv': self.blocks[idx].conv.get_active_subnet_config(input_channel),
+					'shortcut': self.blocks[idx].shortcut.config if self.blocks[idx].shortcut is not None else None,
+				})
+				try:
+					input_channel = self.blocks[idx].conv.active_out_channel
+				except Exception:
+					input_channel = self.blocks[idx].conv.out_channels
+			block_config_list += stage_blocks
+
+		return {
+			'name': ProxylessNASNets.__name__,
+			'bn': self.get_bn_param(),
+			'first_conv': first_conv_config,
+			'blocks': block_config_list,
+			'feature_mix_layer': feature_mix_layer_config,
+			'classifier': classifier_config,
+		}
+
+	""" Width Related Methods """
+
+	def re_organize_middle_weights(self, expand_ratio_stage=0):
+		for block in self.blocks[1:]:
+			block.conv.re_organize_middle_weights(expand_ratio_stage)
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/elastic_nn/networks/ofa_resnets.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/elastic_nn/networks/ofa_resnets.py
@@ -0,0 +1,267 @@
+import random
+
+from ofa_local.imagenet_classification.elastic_nn.modules.dynamic_layers import DynamicConvLayer, DynamicLinearLayer
+from ofa_local.imagenet_classification.elastic_nn.modules.dynamic_layers import DynamicResNetBottleneckBlock
+from ofa_local.utils.layers import IdentityLayer, ResidualBlock
+from ofa_local.imagenet_classification.networks import ResNets
+from ofa_local.utils import make_divisible, val2list, MyNetwork
+
+__all__ = ['OFAResNets']
+
+
+class OFAResNets(ResNets):
+
+	def __init__(self, n_classes=1000, bn_param=(0.1, 1e-5), dropout_rate=0,
+	             depth_list=2, expand_ratio_list=0.25, width_mult_list=1.0):
+
+		self.depth_list = val2list(depth_list)
+		self.expand_ratio_list = val2list(expand_ratio_list)
+		self.width_mult_list = val2list(width_mult_list)
+		# sort
+		self.depth_list.sort()
+		self.expand_ratio_list.sort()
+		self.width_mult_list.sort()
+
+		input_channel = [
+			make_divisible(64 * width_mult, MyNetwork.CHANNEL_DIVISIBLE) for width_mult in self.width_mult_list
+		]
+		mid_input_channel = [
+			make_divisible(channel // 2, MyNetwork.CHANNEL_DIVISIBLE) for channel in input_channel
+		]
+
+		stage_width_list = ResNets.STAGE_WIDTH_LIST.copy()
+		for i, width in enumerate(stage_width_list):
+			stage_width_list[i] = [
+				make_divisible(width * width_mult, MyNetwork.CHANNEL_DIVISIBLE) for width_mult in self.width_mult_list
+			]
+
+		n_block_list = [base_depth + max(self.depth_list) for base_depth in ResNets.BASE_DEPTH_LIST]
+		stride_list = [1, 2, 2, 2]
+
+		# build input stem
+		input_stem = [
+			DynamicConvLayer(val2list(3), mid_input_channel, 3, stride=2, use_bn=True, act_func='relu'),
+			ResidualBlock(
+				DynamicConvLayer(mid_input_channel, mid_input_channel, 3, stride=1, use_bn=True, act_func='relu'),
+				IdentityLayer(mid_input_channel, mid_input_channel)
+			),
+			DynamicConvLayer(mid_input_channel, input_channel, 3, stride=1, use_bn=True, act_func='relu')
+		]
+
+		# blocks
+		blocks = []
+		for d, width, s in zip(n_block_list, stage_width_list, stride_list):
+			for i in range(d):
+				stride = s if i == 0 else 1
+				bottleneck_block = DynamicResNetBottleneckBlock(
+					input_channel, width, expand_ratio_list=self.expand_ratio_list,
+					kernel_size=3, stride=stride, act_func='relu', downsample_mode='avgpool_conv',
+				)
+				blocks.append(bottleneck_block)
+				input_channel = width
+		# classifier
+		classifier = DynamicLinearLayer(input_channel, n_classes, dropout_rate=dropout_rate)
+
+		super(OFAResNets, self).__init__(input_stem, blocks, classifier)
+
+		# set bn param
+		self.set_bn_param(*bn_param)
+
+		# runtime_depth
+		self.input_stem_skipping = 0
+		self.runtime_depth = [0] * len(n_block_list)
+
+	@property
+	def ks_list(self):
+		return [3]
+
+	@staticmethod
+	def name():
+		return 'OFAResNets'
+
+	def forward(self, x):
+		for layer in self.input_stem:
+			if self.input_stem_skipping > 0 \
+					and isinstance(layer, ResidualBlock) and isinstance(layer.shortcut, IdentityLayer):
+				pass
+			else:
+				x = layer(x)
+		x = self.max_pooling(x)
+		for stage_id, block_idx in enumerate(self.grouped_block_index):
+			depth_param = self.runtime_depth[stage_id]
+			active_idx = block_idx[:len(block_idx) - depth_param]
+			for idx in active_idx:
+				x = self.blocks[idx](x)
+		x = self.global_avg_pool(x)
+		x = self.classifier(x)
+		return x
+
+	@property
+	def module_str(self):
+		_str = ''
+		for layer in self.input_stem:
+			if self.input_stem_skipping > 0 \
+					and isinstance(layer, ResidualBlock) and isinstance(layer.shortcut, IdentityLayer):
+				pass
+			else:
+				_str += layer.module_str + '\n'
+		_str += 'max_pooling(ks=3, stride=2)\n'
+		for stage_id, block_idx in enumerate(self.grouped_block_index):
+			depth_param = self.runtime_depth[stage_id]
+			active_idx = block_idx[:len(block_idx) - depth_param]
+			for idx in active_idx:
+				_str += self.blocks[idx].module_str + '\n'
+		_str += self.global_avg_pool.__repr__() + '\n'
+		_str += self.classifier.module_str
+		return _str
+
+	@property
+	def config(self):
+		return {
+			'name': OFAResNets.__name__,
+			'bn': self.get_bn_param(),
+			'input_stem': [
+				layer.config for layer in self.input_stem
+			],
+			'blocks': [
+				block.config for block in self.blocks
+			],
+			'classifier': self.classifier.config,
+		}
+
+	@staticmethod
+	def build_from_config(config):
+		raise ValueError('do not support this function')
+
+	def load_state_dict(self, state_dict, **kwargs):
+		model_dict = self.state_dict()
+		for key in state_dict:
+			new_key = key
+			if new_key in model_dict:
+				pass
+			elif '.linear.' in new_key:
+				new_key = new_key.replace('.linear.', '.linear.linear.')
+			elif 'bn.' in new_key:
+				new_key = new_key.replace('bn.', 'bn.bn.')
+			elif 'conv.weight' in new_key:
+				new_key = new_key.replace('conv.weight', 'conv.conv.weight')
+			else:
+				raise ValueError(new_key)
+			assert new_key in model_dict, '%s' % new_key
+			model_dict[new_key] = state_dict[key]
+		super(OFAResNets, self).load_state_dict(model_dict)
+
+	""" set, sample and get active sub-networks """
+
+	def set_max_net(self):
+		self.set_active_subnet(d=max(self.depth_list), e=max(self.expand_ratio_list), w=len(self.width_mult_list) - 1)
+
+	def set_active_subnet(self, d=None, e=None, w=None, **kwargs):
+		depth = val2list(d, len(ResNets.BASE_DEPTH_LIST) + 1)
+		expand_ratio = val2list(e, len(self.blocks))
+		width_mult = val2list(w, len(ResNets.BASE_DEPTH_LIST) + 2)
+
+		for block, e in zip(self.blocks, expand_ratio):
+			if e is not None:
+				block.active_expand_ratio = e
+
+		if width_mult[0] is not None:
+			self.input_stem[1].conv.active_out_channel = self.input_stem[0].active_out_channel = \
+				self.input_stem[0].out_channel_list[width_mult[0]]
+		if width_mult[1] is not None:
+			self.input_stem[2].active_out_channel = self.input_stem[2].out_channel_list[width_mult[1]]
+
+		if depth[0] is not None:
+			self.input_stem_skipping = (depth[0] != max(self.depth_list))
+		for stage_id, (block_idx, d, w) in enumerate(zip(self.grouped_block_index, depth[1:], width_mult[2:])):
+			if d is not None:
+				self.runtime_depth[stage_id] = max(self.depth_list) - d
+			if w is not None:
+				for idx in block_idx:
+					self.blocks[idx].active_out_channel = self.blocks[idx].out_channel_list[w]
+
+	def sample_active_subnet(self):
+		# sample expand ratio
+		expand_setting = []
+		for block in self.blocks:
+			expand_setting.append(random.choice(block.expand_ratio_list))
+
+		# sample depth
+		depth_setting = [random.choice([max(self.depth_list), min(self.depth_list)])]
+		for stage_id in range(len(ResNets.BASE_DEPTH_LIST)):
+			depth_setting.append(random.choice(self.depth_list))
+
+		# sample width_mult
+		width_mult_setting = [
+			random.choice(list(range(len(self.input_stem[0].out_channel_list)))),
+			random.choice(list(range(len(self.input_stem[2].out_channel_list)))),
+		]
+		for stage_id, block_idx in enumerate(self.grouped_block_index):
+			stage_first_block = self.blocks[block_idx[0]]
+			width_mult_setting.append(
+				random.choice(list(range(len(stage_first_block.out_channel_list))))
+			)
+
+		arch_config = {
+			'd': depth_setting,
+			'e': expand_setting,
+			'w': width_mult_setting
+		}
+		self.set_active_subnet(**arch_config)
+		return arch_config
+
+	def get_active_subnet(self, preserve_weight=True):
+		input_stem = [self.input_stem[0].get_active_subnet(3, preserve_weight)]
+		if self.input_stem_skipping <= 0:
+			input_stem.append(ResidualBlock(
+				self.input_stem[1].conv.get_active_subnet(self.input_stem[0].active_out_channel, preserve_weight),
+				IdentityLayer(self.input_stem[0].active_out_channel, self.input_stem[0].active_out_channel)
+			))
+		input_stem.append(self.input_stem[2].get_active_subnet(self.input_stem[0].active_out_channel, preserve_weight))
+		input_channel = self.input_stem[2].active_out_channel
+
+		blocks = []
+		for stage_id, block_idx in enumerate(self.grouped_block_index):
+			depth_param = self.runtime_depth[stage_id]
+			active_idx = block_idx[:len(block_idx) - depth_param]
+			for idx in active_idx:
+				blocks.append(self.blocks[idx].get_active_subnet(input_channel, preserve_weight))
+				input_channel = self.blocks[idx].active_out_channel
+		classifier = self.classifier.get_active_subnet(input_channel, preserve_weight)
+		subnet = ResNets(input_stem, blocks, classifier)
+
+		subnet.set_bn_param(**self.get_bn_param())
+		return subnet
+
+	def get_active_net_config(self):
+		input_stem_config = [self.input_stem[0].get_active_subnet_config(3)]
+		if self.input_stem_skipping <= 0:
+			input_stem_config.append({
+				'name': ResidualBlock.__name__,
+				'conv': self.input_stem[1].conv.get_active_subnet_config(self.input_stem[0].active_out_channel),
+				'shortcut': IdentityLayer(self.input_stem[0].active_out_channel, self.input_stem[0].active_out_channel),
+			})
+		input_stem_config.append(self.input_stem[2].get_active_subnet_config(self.input_stem[0].active_out_channel))
+		input_channel = self.input_stem[2].active_out_channel
+
+		blocks_config = []
+		for stage_id, block_idx in enumerate(self.grouped_block_index):
+			depth_param = self.runtime_depth[stage_id]
+			active_idx = block_idx[:len(block_idx) - depth_param]
+			for idx in active_idx:
+				blocks_config.append(self.blocks[idx].get_active_subnet_config(input_channel))
+				input_channel = self.blocks[idx].active_out_channel
+		classifier_config = self.classifier.get_active_subnet_config(input_channel)
+		return {
+			'name': ResNets.__name__,
+			'bn': self.get_bn_param(),
+			'input_stem': input_stem_config,
+			'blocks': blocks_config,
+			'classifier': classifier_config,
+		}
+
+	""" Width Related Methods """
+
+	def re_organize_middle_weights(self, expand_ratio_stage=0):
+		for block in self.blocks:
+			block.re_organize_middle_weights(expand_ratio_stage)
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/elastic_nn/training/init.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/elastic_nn/training/init.py
@@ -0,0 +1,5 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+from .progressive_shrinking import *
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/elastic_nn/training/progressive_shrinking.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/elastic_nn/training/progressive_shrinking.py
@@ -0,0 +1,320 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+import torch.nn as nn
+import random
+import time
+import torch
+import torch.nn.functional as F
+from tqdm import tqdm
+
+from ofa.utils import AverageMeter, cross_entropy_loss_with_soft_target
+from ofa.utils import DistributedMetric, list_mean, subset_mean, val2list, MyRandomResizedCrop
+from ofa.imagenet_classification.run_manager import DistributedRunManager
+
+__all__ = [
+	'validate', 'train_one_epoch', 'train', 'load_models',
+	'train_elastic_depth', 'train_elastic_expand', 'train_elastic_width_mult',
+]
+
+
+def validate(run_manager, epoch=0, is_test=False, image_size_list=None,
+             ks_list=None, expand_ratio_list=None, depth_list=None, width_mult_list=None, additional_setting=None):
+	dynamic_net = run_manager.net
+	if isinstance(dynamic_net, nn.DataParallel):
+		dynamic_net = dynamic_net.module
+
+	dynamic_net.eval()
+
+	if image_size_list is None:
+		image_size_list = val2list(run_manager.run_config.data_provider.image_size, 1)
+	if ks_list is None:
+		ks_list = dynamic_net.ks_list
+	if expand_ratio_list is None:
+		expand_ratio_list = dynamic_net.expand_ratio_list
+	if depth_list is None:
+		depth_list = dynamic_net.depth_list
+	if width_mult_list is None:
+		if 'width_mult_list' in dynamic_net.__dict__:
+			width_mult_list = list(range(len(dynamic_net.width_mult_list)))
+		else:
+			width_mult_list = [0]
+
+	subnet_settings = []
+	for d in depth_list:
+		for e in expand_ratio_list:
+			for k in ks_list:
+				for w in width_mult_list:
+					for img_size in image_size_list:
+						subnet_settings.append([{
+							'image_size': img_size,
+							'd': d,
+							'e': e,
+							'ks': k,
+							'w': w,
+						}, 'R%s-D%s-E%s-K%s-W%s' % (img_size, d, e, k, w)])
+	if additional_setting is not None:
+		subnet_settings += additional_setting
+
+	losses_of_subnets, top1_of_subnets, top5_of_subnets = [], [], []
+
+	valid_log = ''
+	for setting, name in subnet_settings:
+		run_manager.write_log('-' * 30 + ' Validate %s ' % name + '-' * 30, 'train', should_print=False)
+		run_manager.run_config.data_provider.assign_active_img_size(setting.pop('image_size'))
+		dynamic_net.set_active_subnet(**setting)
+		run_manager.write_log(dynamic_net.module_str, 'train', should_print=False)
+
+		run_manager.reset_running_statistics(dynamic_net)
+		loss, (top1, top5) = run_manager.validate(epoch=epoch, is_test=is_test, run_str=name, net=dynamic_net)
+		losses_of_subnets.append(loss)
+		top1_of_subnets.append(top1)
+		top5_of_subnets.append(top5)
+		valid_log += '%s (%.3f), ' % (name, top1)
+
+	return list_mean(losses_of_subnets), list_mean(top1_of_subnets), list_mean(top5_of_subnets), valid_log
+
+
+def train_one_epoch(run_manager, args, epoch, warmup_epochs=0, warmup_lr=0):
+	dynamic_net = run_manager.network
+	distributed = isinstance(run_manager, DistributedRunManager)
+
+	# switch to train mode
+	dynamic_net.train()
+	if distributed:
+		run_manager.run_config.train_loader.sampler.set_epoch(epoch)
+	MyRandomResizedCrop.EPOCH = epoch
+
+	nBatch = len(run_manager.run_config.train_loader)
+
+	data_time = AverageMeter()
+	losses = DistributedMetric('train_loss') if distributed else AverageMeter()
+	metric_dict = run_manager.get_metric_dict()
+
+	with tqdm(total=nBatch,
+	          desc='Train Epoch #{}'.format(epoch + 1),
+	          disable=distributed and not run_manager.is_root) as t:
+		end = time.time()
+		for i, (images, labels) in enumerate(run_manager.run_config.train_loader):
+			MyRandomResizedCrop.BATCH = i
+			data_time.update(time.time() - end)
+			if epoch < warmup_epochs:
+				new_lr = run_manager.run_config.warmup_adjust_learning_rate(
+					run_manager.optimizer, warmup_epochs * nBatch, nBatch, epoch, i, warmup_lr,
+				)
+			else:
+				new_lr = run_manager.run_config.adjust_learning_rate(
+					run_manager.optimizer, epoch - warmup_epochs, i, nBatch
+				)
+
+			images, labels = images.cuda(), labels.cuda()
+			target = labels
+
+			# soft target
+			if args.kd_ratio > 0:
+				args.teacher_model.train()
+				with torch.no_grad():
+					soft_logits = args.teacher_model(images).detach()
+					soft_label = F.softmax(soft_logits, dim=1)
+
+			# clean gradients
+			dynamic_net.zero_grad()
+
+			loss_of_subnets = []
+			# compute output
+			subnet_str = ''
+			for _ in range(args.dynamic_batch_size):
+				# set random seed before sampling
+				subnet_seed = int('%d%.3d%.3d' % (epoch * nBatch + i, _, 0))
+				random.seed(subnet_seed)
+				subnet_settings = dynamic_net.sample_active_subnet()
+				subnet_str += '%d: ' % _ + ','.join(['%s_%s' % (
+					key, '%.1f' % subset_mean(val, 0) if isinstance(val, list) else val
+				) for key, val in subnet_settings.items()]) + ' || '
+
+				output = run_manager.net(images)
+				if args.kd_ratio == 0:
+					loss = run_manager.train_criterion(output, labels)
+					loss_type = 'ce'
+				else:
+					if args.kd_type == 'ce':
+						kd_loss = cross_entropy_loss_with_soft_target(output, soft_label)
+					else:
+						kd_loss = F.mse_loss(output, soft_logits)
+					loss = args.kd_ratio * kd_loss + run_manager.train_criterion(output, labels)
+					loss_type = '%.1fkd-%s & ce' % (args.kd_ratio, args.kd_type)
+
+				# measure accuracy and record loss
+				loss_of_subnets.append(loss)
+				run_manager.update_metric(metric_dict, output, target)
+
+				loss.backward()
+			run_manager.optimizer.step()
+
+			losses.update(list_mean(loss_of_subnets), images.size(0))
+
+			t.set_postfix({
+				'loss': losses.avg.item(),
+				**run_manager.get_metric_vals(metric_dict, return_dict=True),
+				'R': images.size(2),
+				'lr': new_lr,
+				'loss_type': loss_type,
+				'seed': str(subnet_seed),
+				'str': subnet_str,
+				'data_time': data_time.avg,
+			})
+			t.update(1)
+			end = time.time()
+	return losses.avg.item(), run_manager.get_metric_vals(metric_dict)
+
+
+def train(run_manager, args, validate_func=None):
+	distributed = isinstance(run_manager, DistributedRunManager)
+	if validate_func is None:
+		validate_func = validate
+
+	for epoch in range(run_manager.start_epoch, run_manager.run_config.n_epochs + args.warmup_epochs):
+		train_loss, (train_top1, train_top5) = train_one_epoch(
+			run_manager, args, epoch, args.warmup_epochs, args.warmup_lr)
+
+		if (epoch + 1) % args.validation_frequency == 0:
+			val_loss, val_acc, val_acc5, _val_log = validate_func(run_manager, epoch=epoch, is_test=False)
+			# best_acc
+			is_best = val_acc > run_manager.best_acc
+			run_manager.best_acc = max(run_manager.best_acc, val_acc)
+			if not distributed or run_manager.is_root:
+				val_log = 'Valid [{0}/{1}] loss={2:.3f}, top-1={3:.3f} ({4:.3f})'. \
+					format(epoch + 1 - args.warmup_epochs, run_manager.run_config.n_epochs, val_loss, val_acc,
+				           run_manager.best_acc)
+				val_log += ', Train top-1 {top1:.3f}, Train loss {loss:.3f}\t'.format(top1=train_top1, loss=train_loss)
+				val_log += _val_log
+				run_manager.write_log(val_log, 'valid', should_print=False)
+
+				run_manager.save_model({
+					'epoch': epoch,
+					'best_acc': run_manager.best_acc,
+					'optimizer': run_manager.optimizer.state_dict(),
+					'state_dict': run_manager.network.state_dict(),
+				}, is_best=is_best)
+
+
+def load_models(run_manager, dynamic_net, model_path=None):
+	# specify init path
+	init = torch.load(model_path, map_location='cpu')['state_dict']
+	dynamic_net.load_state_dict(init)
+	run_manager.write_log('Loaded init from %s' % model_path, 'valid')
+
+
+def train_elastic_depth(train_func, run_manager, args, validate_func_dict):
+	dynamic_net = run_manager.net
+	if isinstance(dynamic_net, nn.DataParallel):
+		dynamic_net = dynamic_net.module
+
+	depth_stage_list = dynamic_net.depth_list.copy()
+	depth_stage_list.sort(reverse=True)
+	n_stages = len(depth_stage_list) - 1
+	current_stage = n_stages - 1
+
+	# load pretrained models
+	if run_manager.start_epoch == 0 and not args.resume:
+		validate_func_dict['depth_list'] = sorted(dynamic_net.depth_list)
+
+		load_models(run_manager, dynamic_net, model_path=args.ofa_checkpoint_path)
+		# validate after loading weights
+		run_manager.write_log('%.3f\t%.3f\t%.3f\t%s' %
+		                      validate(run_manager, is_test=True, **validate_func_dict), 'valid')
+	else:
+		assert args.resume
+
+	run_manager.write_log(
+		'-' * 30 + 'Supporting Elastic Depth: %s -> %s' %
+		(depth_stage_list[:current_stage + 1], depth_stage_list[:current_stage + 2]) + '-' * 30, 'valid'
+	)
+	# add depth list constraints
+	if len(set(dynamic_net.ks_list)) == 1 and len(set(dynamic_net.expand_ratio_list)) == 1:
+		validate_func_dict['depth_list'] = depth_stage_list
+	else:
+		validate_func_dict['depth_list'] = sorted({min(depth_stage_list), max(depth_stage_list)})
+
+	# train
+	train_func(
+		run_manager, args,
+		lambda _run_manager, epoch, is_test: validate(_run_manager, epoch, is_test, **validate_func_dict)
+	)
+
+
+def train_elastic_expand(train_func, run_manager, args, validate_func_dict):
+	dynamic_net = run_manager.net
+	if isinstance(dynamic_net, nn.DataParallel):
+		dynamic_net = dynamic_net.module
+
+	expand_stage_list = dynamic_net.expand_ratio_list.copy()
+	expand_stage_list.sort(reverse=True)
+	n_stages = len(expand_stage_list) - 1
+	current_stage = n_stages - 1
+
+	# load pretrained models
+	if run_manager.start_epoch == 0 and not args.resume:
+		validate_func_dict['expand_ratio_list'] = sorted(dynamic_net.expand_ratio_list)
+
+		load_models(run_manager, dynamic_net, model_path=args.ofa_checkpoint_path)
+		dynamic_net.re_organize_middle_weights(expand_ratio_stage=current_stage)
+		run_manager.write_log('%.3f\t%.3f\t%.3f\t%s' %
+		                      validate(run_manager, is_test=True, **validate_func_dict), 'valid')
+	else:
+		assert args.resume
+
+	run_manager.write_log(
+		'-' * 30 + 'Supporting Elastic Expand Ratio: %s -> %s' %
+		(expand_stage_list[:current_stage + 1], expand_stage_list[:current_stage + 2]) + '-' * 30, 'valid'
+	)
+	if len(set(dynamic_net.ks_list)) == 1 and len(set(dynamic_net.depth_list)) == 1:
+		validate_func_dict['expand_ratio_list'] = expand_stage_list
+	else:
+		validate_func_dict['expand_ratio_list'] = sorted({min(expand_stage_list), max(expand_stage_list)})
+
+	# train
+	train_func(
+		run_manager, args,
+		lambda _run_manager, epoch, is_test: validate(_run_manager, epoch, is_test, **validate_func_dict)
+	)
+
+
+def train_elastic_width_mult(train_func, run_manager, args, validate_func_dict):
+	dynamic_net = run_manager.net
+	if isinstance(dynamic_net, nn.DataParallel):
+		dynamic_net = dynamic_net.module
+
+	width_stage_list = dynamic_net.width_mult_list.copy()
+	width_stage_list.sort(reverse=True)
+	n_stages = len(width_stage_list) - 1
+	current_stage = n_stages - 1
+
+	if run_manager.start_epoch == 0 and not args.resume:
+		load_models(run_manager, dynamic_net, model_path=args.ofa_checkpoint_path)
+		if current_stage == 0:
+			dynamic_net.re_organize_middle_weights(expand_ratio_stage=len(dynamic_net.expand_ratio_list) - 1)
+			run_manager.write_log('reorganize_middle_weights (expand_ratio_stage=%d)'
+			                      % (len(dynamic_net.expand_ratio_list) - 1), 'valid')
+			try:
+				dynamic_net.re_organize_outer_weights()
+				run_manager.write_log('reorganize_outer_weights', 'valid')
+			except Exception:
+				pass
+		run_manager.write_log('%.3f\t%.3f\t%.3f\t%s' %
+		                      validate(run_manager, is_test=True, **validate_func_dict), 'valid')
+	else:
+		assert args.resume
+
+	run_manager.write_log(
+		'-' * 30 + 'Supporting Elastic Width Mult: %s -> %s' %
+		(width_stage_list[:current_stage + 1], width_stage_list[:current_stage + 2]) + '-' * 30, 'valid'
+	)
+	validate_func_dict['width_mult_list'] = sorted({0, len(width_stage_list) - 1})
+
+	# train
+	train_func(
+		run_manager, args,
+		lambda _run_manager, epoch, is_test: validate(_run_manager, epoch, is_test, **validate_func_dict)
+	)
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/elastic_nn/utils.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/elastic_nn/utils.py
@@ -0,0 +1,70 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+import copy
+import torch.nn.functional as F
+import torch.nn as nn
+import torch
+
+from ofa_local.utils import AverageMeter, get_net_device, DistributedTensor
+from ofa_local.imagenet_classification.elastic_nn.modules.dynamic_op import DynamicBatchNorm2d
+
+__all__ = ['set_running_statistics']
+
+
+def set_running_statistics(model, data_loader, distributed=False):
+	bn_mean = {}
+	bn_var = {}
+
+	forward_model = copy.deepcopy(model)
+	for name, m in forward_model.named_modules():
+		if isinstance(m, nn.BatchNorm2d):
+			if distributed:
+				bn_mean[name] = DistributedTensor(name + '#mean')
+				bn_var[name] = DistributedTensor(name + '#var')
+			else:
+				bn_mean[name] = AverageMeter()
+				bn_var[name] = AverageMeter()
+
+			def new_forward(bn, mean_est, var_est):
+				def lambda_forward(x):
+					batch_mean = x.mean(0, keepdim=True).mean(2, keepdim=True).mean(3, keepdim=True)  # 1, C, 1, 1
+					batch_var = (x - batch_mean) * (x - batch_mean)
+					batch_var = batch_var.mean(0, keepdim=True).mean(2, keepdim=True).mean(3, keepdim=True)
+
+					batch_mean = torch.squeeze(batch_mean)
+					batch_var = torch.squeeze(batch_var)
+
+					mean_est.update(batch_mean.data, x.size(0))
+					var_est.update(batch_var.data, x.size(0))
+
+					# bn forward using calculated mean & var
+					_feature_dim = batch_mean.size(0)
+					return F.batch_norm(
+						x, batch_mean, batch_var, bn.weight[:_feature_dim],
+						bn.bias[:_feature_dim], False,
+						0.0, bn.eps,
+					)
+
+				return lambda_forward
+
+			m.forward = new_forward(m, bn_mean[name], bn_var[name])
+
+	if len(bn_mean) == 0:
+		# skip if there is no batch normalization layers in the network
+		return
+
+	with torch.no_grad():
+		DynamicBatchNorm2d.SET_RUNNING_STATISTICS = True
+		for images, labels in data_loader:
+			images = images.to(get_net_device(forward_model))
+			forward_model(images)
+		DynamicBatchNorm2d.SET_RUNNING_STATISTICS = False
+
+	for name, m in model.named_modules():
+		if name in bn_mean and bn_mean[name].count > 0:
+			feature_dim = bn_mean[name].avg.size(0)
+			assert isinstance(m, nn.BatchNorm2d)
+			m.running_mean.data[:feature_dim].copy_(bn_mean[name].avg)
+			m.running_var.data[:feature_dim].copy_(bn_var[name].avg)
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/networks/init.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/networks/init.py
@@ -0,0 +1,18 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+from .proxyless_nets import *
+from .mobilenet_v3 import *
+from .resnets import *
+
+
+def get_net_by_name(name):
+	if name == ProxylessNASNets.__name__:
+		return ProxylessNASNets
+	elif name == MobileNetV3.__name__:
+		return MobileNetV3
+	elif name == ResNets.__name__:
+		return ResNets
+	else:
+		raise ValueError('unrecognized type of network: %s' % name)
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/networks/mobilenet_v3.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/networks/mobilenet_v3.py
@@ -0,0 +1,218 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+import copy
+import torch.nn as nn
+
+from ofa_local.utils.layers import set_layer_from_config, MBConvLayer, ConvLayer, IdentityLayer, LinearLayer, ResidualBlock
+from ofa_local.utils import MyNetwork, make_divisible, MyGlobalAvgPool2d
+
+__all__ = ['MobileNetV3', 'MobileNetV3Large']
+
+
+class MobileNetV3(MyNetwork):
+
+	def __init__(self, first_conv, blocks, final_expand_layer, feature_mix_layer, classifier):
+		super(MobileNetV3, self).__init__()
+
+		self.first_conv = first_conv
+		self.blocks = nn.ModuleList(blocks)
+		self.final_expand_layer = final_expand_layer
+		self.global_avg_pool = MyGlobalAvgPool2d(keep_dim=True)
+		self.feature_mix_layer = feature_mix_layer
+		self.classifier = classifier
+
+	def forward(self, x):
+		x = self.first_conv(x)
+		for block in self.blocks:
+			x = block(x)
+		x = self.final_expand_layer(x)
+		x = self.global_avg_pool(x)  # global average pooling
+		x = self.feature_mix_layer(x)
+		x = x.view(x.size(0), -1)
+		x = self.classifier(x)
+		return x
+
+	@property
+	def module_str(self):
+		_str = self.first_conv.module_str + '\n'
+		for block in self.blocks:
+			_str += block.module_str + '\n'
+		_str += self.final_expand_layer.module_str + '\n'
+		_str += self.global_avg_pool.__repr__() + '\n'
+		_str += self.feature_mix_layer.module_str + '\n'
+		_str += self.classifier.module_str
+		return _str
+
+	@property
+	def config(self):
+		return {
+			'name': MobileNetV3.__name__,
+			'bn': self.get_bn_param(),
+			'first_conv': self.first_conv.config,
+			'blocks': [
+				block.config for block in self.blocks
+			],
+			'final_expand_layer': self.final_expand_layer.config,
+			'feature_mix_layer': self.feature_mix_layer.config,
+			'classifier': self.classifier.config,
+		}
+
+	@staticmethod
+	def build_from_config(config):
+		first_conv = set_layer_from_config(config['first_conv'])
+		final_expand_layer = set_layer_from_config(config['final_expand_layer'])
+		feature_mix_layer = set_layer_from_config(config['feature_mix_layer'])
+		classifier = set_layer_from_config(config['classifier'])
+
+		blocks = []
+		for block_config in config['blocks']:
+			blocks.append(ResidualBlock.build_from_config(block_config))
+
+		net = MobileNetV3(first_conv, blocks, final_expand_layer, feature_mix_layer, classifier)
+		if 'bn' in config:
+			net.set_bn_param(**config['bn'])
+		else:
+			net.set_bn_param(momentum=0.1, eps=1e-5)
+
+		return net
+
+	def zero_last_gamma(self):
+		for m in self.modules():
+			if isinstance(m, ResidualBlock):
+				if isinstance(m.conv, MBConvLayer) and isinstance(m.shortcut, IdentityLayer):
+					m.conv.point_linear.bn.weight.data.zero_()
+
+	@property
+	def grouped_block_index(self):
+		info_list = []
+		block_index_list = []
+		for i, block in enumerate(self.blocks[1:], 1):
+			if block.shortcut is None and len(block_index_list) > 0:
+				info_list.append(block_index_list)
+				block_index_list = []
+			block_index_list.append(i)
+		if len(block_index_list) > 0:
+			info_list.append(block_index_list)
+		return info_list
+
+	@staticmethod
+	def build_net_via_cfg(cfg, input_channel, last_channel, n_classes, dropout_rate):
+		# first conv layer
+		first_conv = ConvLayer(
+			3, input_channel, kernel_size=3, stride=2, use_bn=True, act_func='h_swish', ops_order='weight_bn_act'
+		)
+		# build mobile blocks
+		feature_dim = input_channel
+		blocks = []
+		for stage_id, block_config_list in cfg.items():
+			for k, mid_channel, out_channel, use_se, act_func, stride, expand_ratio in block_config_list:
+				mb_conv = MBConvLayer(
+					feature_dim, out_channel, k, stride, expand_ratio, mid_channel, act_func, use_se
+				)
+				if stride == 1 and out_channel == feature_dim:
+					shortcut = IdentityLayer(out_channel, out_channel)
+				else:
+					shortcut = None
+				blocks.append(ResidualBlock(mb_conv, shortcut))
+				feature_dim = out_channel
+		# final expand layer
+		final_expand_layer = ConvLayer(
+			feature_dim, feature_dim * 6, kernel_size=1, use_bn=True, act_func='h_swish', ops_order='weight_bn_act',
+		)
+		# feature mix layer
+		feature_mix_layer = ConvLayer(
+			feature_dim * 6, last_channel, kernel_size=1, bias=False, use_bn=False, act_func='h_swish',
+		)
+		# classifier
+		classifier = LinearLayer(last_channel, n_classes, dropout_rate=dropout_rate)
+
+		return first_conv, blocks, final_expand_layer, feature_mix_layer, classifier
+
+	@staticmethod
+	def adjust_cfg(cfg, ks=None, expand_ratio=None, depth_param=None, stage_width_list=None):
+		for i, (stage_id, block_config_list) in enumerate(cfg.items()):
+			for block_config in block_config_list:
+				if ks is not None and stage_id != '0':
+					block_config[0] = ks
+				if expand_ratio is not None and stage_id != '0':
+					block_config[-1] = expand_ratio
+					block_config[1] = None
+					if stage_width_list is not None:
+						block_config[2] = stage_width_list[i]
+			if depth_param is not None and stage_id != '0':
+				new_block_config_list = [block_config_list[0]]
+				new_block_config_list += [copy.deepcopy(block_config_list[-1]) for _ in range(depth_param - 1)]
+				cfg[stage_id] = new_block_config_list
+		return cfg
+
+	def load_state_dict(self, state_dict, **kwargs):
+		current_state_dict = self.state_dict()
+
+		for key in state_dict:
+			if key not in current_state_dict:
+				assert '.mobile_inverted_conv.' in key
+				new_key = key.replace('.mobile_inverted_conv.', '.conv.')
+			else:
+				new_key = key
+			current_state_dict[new_key] = state_dict[key]
+		super(MobileNetV3, self).load_state_dict(current_state_dict)
+
+
+class MobileNetV3Large(MobileNetV3):
+
+	def __init__(self, n_classes=1000, width_mult=1.0, bn_param=(0.1, 1e-5), dropout_rate=0.2,
+	             ks=None, expand_ratio=None, depth_param=None, stage_width_list=None):
+		input_channel = 16
+		last_channel = 1280
+
+		input_channel = make_divisible(input_channel * width_mult, MyNetwork.CHANNEL_DIVISIBLE)
+		last_channel = make_divisible(last_channel * width_mult, MyNetwork.CHANNEL_DIVISIBLE) \
+			if width_mult > 1.0 else last_channel
+
+		cfg = {
+			#    k,     exp,    c,      se,         nl,         s,      e,
+			'0': [
+				[3, 16, 16, False, 'relu', 1, 1],
+			],
+			'1': [
+				[3, 64, 24, False, 'relu', 2, None],  # 4
+				[3, 72, 24, False, 'relu', 1, None],  # 3
+			],
+			'2': [
+				[5, 72, 40, True, 'relu', 2, None],  # 3
+				[5, 120, 40, True, 'relu', 1, None],  # 3
+				[5, 120, 40, True, 'relu', 1, None],  # 3
+			],
+			'3': [
+				[3, 240, 80, False, 'h_swish', 2, None],  # 6
+				[3, 200, 80, False, 'h_swish', 1, None],  # 2.5
+				[3, 184, 80, False, 'h_swish', 1, None],  # 2.3
+				[3, 184, 80, False, 'h_swish', 1, None],  # 2.3
+			],
+			'4': [
+				[3, 480, 112, True, 'h_swish', 1, None],  # 6
+				[3, 672, 112, True, 'h_swish', 1, None],  # 6
+			],
+			'5': [
+				[5, 672, 160, True, 'h_swish', 2, None],  # 6
+				[5, 960, 160, True, 'h_swish', 1, None],  # 6
+				[5, 960, 160, True, 'h_swish', 1, None],  # 6
+			]
+		}
+
+		cfg = self.adjust_cfg(cfg, ks, expand_ratio, depth_param, stage_width_list)
+		# width multiplier on mobile setting, change `exp: 1` and `c: 2`
+		for stage_id, block_config_list in cfg.items():
+			for block_config in block_config_list:
+				if block_config[1] is not None:
+					block_config[1] = make_divisible(block_config[1] * width_mult, MyNetwork.CHANNEL_DIVISIBLE)
+				block_config[2] = make_divisible(block_config[2] * width_mult, MyNetwork.CHANNEL_DIVISIBLE)
+
+		first_conv, blocks, final_expand_layer, feature_mix_layer, classifier = self.build_net_via_cfg(
+			cfg, input_channel, last_channel, n_classes, dropout_rate
+		)
+		super(MobileNetV3Large, self).__init__(first_conv, blocks, final_expand_layer, feature_mix_layer, classifier)
+		# set bn param
+		self.set_bn_param(*bn_param)
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/networks/proxyless_nets.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/networks/proxyless_nets.py
@@ -0,0 +1,210 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+import json
+import torch.nn as nn
+
+from ofa_local.utils.layers import set_layer_from_config, MBConvLayer, ConvLayer, IdentityLayer, LinearLayer, ResidualBlock
+from ofa_local.utils import download_url, make_divisible, val2list, MyNetwork, MyGlobalAvgPool2d
+
+__all__ = ['proxyless_base', 'ProxylessNASNets', 'MobileNetV2']
+
+
+def proxyless_base(net_config=None, n_classes=None, bn_param=None, dropout_rate=None,
+                   local_path='~/.torch/proxylessnas/'):
+	assert net_config is not None, 'Please input a network config'
+	if 'http' in net_config:
+		net_config_path = download_url(net_config, local_path)
+	else:
+		net_config_path = net_config
+	net_config_json = json.load(open(net_config_path, 'r'))
+
+	if n_classes is not None:
+		net_config_json['classifier']['out_features'] = n_classes
+	if dropout_rate is not None:
+		net_config_json['classifier']['dropout_rate'] = dropout_rate
+
+	net = ProxylessNASNets.build_from_config(net_config_json)
+	if bn_param is not None:
+		net.set_bn_param(*bn_param)
+
+	return net
+
+
+class ProxylessNASNets(MyNetwork):
+
+	def __init__(self, first_conv, blocks, feature_mix_layer, classifier):
+		super(ProxylessNASNets, self).__init__()
+
+		self.first_conv = first_conv
+		self.blocks = nn.ModuleList(blocks)
+		self.feature_mix_layer = feature_mix_layer
+		self.global_avg_pool = MyGlobalAvgPool2d(keep_dim=False)
+		self.classifier = classifier
+
+	def forward(self, x):
+		x = self.first_conv(x)
+		for block in self.blocks:
+			x = block(x)
+		if self.feature_mix_layer is not None:
+			x = self.feature_mix_layer(x)
+		x = self.global_avg_pool(x)
+		x = self.classifier(x)
+		return x
+
+	@property
+	def module_str(self):
+		_str = self.first_conv.module_str + '\n'
+		for block in self.blocks:
+			_str += block.module_str + '\n'
+		_str += self.feature_mix_layer.module_str + '\n'
+		_str += self.global_avg_pool.__repr__() + '\n'
+		_str += self.classifier.module_str
+		return _str
+
+	@property
+	def config(self):
+		return {
+			'name': ProxylessNASNets.__name__,
+			'bn': self.get_bn_param(),
+			'first_conv': self.first_conv.config,
+			'blocks': [
+				block.config for block in self.blocks
+			],
+			'feature_mix_layer': None if self.feature_mix_layer is None else self.feature_mix_layer.config,
+			'classifier': self.classifier.config,
+		}
+
+	@staticmethod
+	def build_from_config(config):
+		first_conv = set_layer_from_config(config['first_conv'])
+		feature_mix_layer = set_layer_from_config(config['feature_mix_layer'])
+		classifier = set_layer_from_config(config['classifier'])
+
+		blocks = []
+		for block_config in config['blocks']:
+			blocks.append(ResidualBlock.build_from_config(block_config))
+
+		net = ProxylessNASNets(first_conv, blocks, feature_mix_layer, classifier)
+		if 'bn' in config:
+			net.set_bn_param(**config['bn'])
+		else:
+			net.set_bn_param(momentum=0.1, eps=1e-3)
+
+		return net
+
+	def zero_last_gamma(self):
+		for m in self.modules():
+			if isinstance(m, ResidualBlock):
+				if isinstance(m.conv, MBConvLayer) and isinstance(m.shortcut, IdentityLayer):
+					m.conv.point_linear.bn.weight.data.zero_()
+
+	@property
+	def grouped_block_index(self):
+		info_list = []
+		block_index_list = []
+		for i, block in enumerate(self.blocks[1:], 1):
+			if block.shortcut is None and len(block_index_list) > 0:
+				info_list.append(block_index_list)
+				block_index_list = []
+			block_index_list.append(i)
+		if len(block_index_list) > 0:
+			info_list.append(block_index_list)
+		return info_list
+
+	def load_state_dict(self, state_dict, **kwargs):
+		current_state_dict = self.state_dict()
+
+		for key in state_dict:
+			if key not in current_state_dict:
+				assert '.mobile_inverted_conv.' in key
+				new_key = key.replace('.mobile_inverted_conv.', '.conv.')
+			else:
+				new_key = key
+			current_state_dict[new_key] = state_dict[key]
+		super(ProxylessNASNets, self).load_state_dict(current_state_dict)
+
+
+class MobileNetV2(ProxylessNASNets):
+
+	def __init__(self, n_classes=1000, width_mult=1.0, bn_param=(0.1, 1e-3), dropout_rate=0.2,
+	             ks=None, expand_ratio=None, depth_param=None, stage_width_list=None):
+
+		ks = 3 if ks is None else ks
+		expand_ratio = 6 if expand_ratio is None else expand_ratio
+
+		input_channel = 32
+		last_channel = 1280
+
+		input_channel = make_divisible(input_channel * width_mult, MyNetwork.CHANNEL_DIVISIBLE)
+		last_channel = make_divisible(last_channel * width_mult, MyNetwork.CHANNEL_DIVISIBLE) \
+			if width_mult > 1.0 else last_channel
+
+		inverted_residual_setting = [
+			# t, c, n, s
+			[1, 16, 1, 1],
+			[expand_ratio, 24, 2, 2],
+			[expand_ratio, 32, 3, 2],
+			[expand_ratio, 64, 4, 2],
+			[expand_ratio, 96, 3, 1],
+			[expand_ratio, 160, 3, 2],
+			[expand_ratio, 320, 1, 1],
+		]
+
+		if depth_param is not None:
+			assert isinstance(depth_param, int)
+			for i in range(1, len(inverted_residual_setting) - 1):
+				inverted_residual_setting[i][2] = depth_param
+
+		if stage_width_list is not None:
+			for i in range(len(inverted_residual_setting)):
+				inverted_residual_setting[i][1] = stage_width_list[i]
+
+		ks = val2list(ks, sum([n for _, _, n, _ in inverted_residual_setting]) - 1)
+		_pt = 0
+
+		# first conv layer
+		first_conv = ConvLayer(
+			3, input_channel, kernel_size=3, stride=2, use_bn=True, act_func='relu6', ops_order='weight_bn_act'
+		)
+		# inverted residual blocks
+		blocks = []
+		for t, c, n, s in inverted_residual_setting:
+			output_channel = make_divisible(c * width_mult, MyNetwork.CHANNEL_DIVISIBLE)
+			for i in range(n):
+				if i == 0:
+					stride = s
+				else:
+					stride = 1
+				if t == 1:
+					kernel_size = 3
+				else:
+					kernel_size = ks[_pt]
+					_pt += 1
+				mobile_inverted_conv = MBConvLayer(
+					in_channels=input_channel, out_channels=output_channel, kernel_size=kernel_size, stride=stride,
+					expand_ratio=t,
+				)
+				if stride == 1:
+					if input_channel == output_channel:
+						shortcut = IdentityLayer(input_channel, input_channel)
+					else:
+						shortcut = None
+				else:
+					shortcut = None
+				blocks.append(
+					ResidualBlock(mobile_inverted_conv, shortcut)
+				)
+				input_channel = output_channel
+		# 1x1_conv before global average pooling
+		feature_mix_layer = ConvLayer(
+			input_channel, last_channel, kernel_size=1, use_bn=True, act_func='relu6', ops_order='weight_bn_act',
+		)
+
+		classifier = LinearLayer(last_channel, n_classes, dropout_rate=dropout_rate)
+
+		super(MobileNetV2, self).__init__(first_conv, blocks, feature_mix_layer, classifier)
+
+		# set bn param
+		self.set_bn_param(*bn_param)
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/networks/resnets.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/networks/resnets.py
@@ -0,0 +1,192 @@
+import torch.nn as nn
+
+from ofa_local.utils.layers import set_layer_from_config, ConvLayer, IdentityLayer, LinearLayer
+from ofa_local.utils.layers import ResNetBottleneckBlock, ResidualBlock
+from ofa_local.utils import make_divisible, MyNetwork, MyGlobalAvgPool2d
+
+__all__ = ['ResNets', 'ResNet50', 'ResNet50D']
+
+
+class ResNets(MyNetwork):
+
+	BASE_DEPTH_LIST = [2, 2, 4, 2]
+	STAGE_WIDTH_LIST = [256, 512, 1024, 2048]
+
+	def __init__(self, input_stem, blocks, classifier):
+		super(ResNets, self).__init__()
+
+		self.input_stem = nn.ModuleList(input_stem)
+		self.max_pooling = nn.MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
+		self.blocks = nn.ModuleList(blocks)
+		self.global_avg_pool = MyGlobalAvgPool2d(keep_dim=False)
+		self.classifier = classifier
+
+	def forward(self, x):
+		for layer in self.input_stem:
+			x = layer(x)
+		x = self.max_pooling(x)
+		for block in self.blocks:
+			x = block(x)
+		x = self.global_avg_pool(x)
+		x = self.classifier(x)
+		return x
+
+	@property
+	def module_str(self):
+		_str = ''
+		for layer in self.input_stem:
+			_str += layer.module_str + '\n'
+		_str += 'max_pooling(ks=3, stride=2)\n'
+		for block in self.blocks:
+			_str += block.module_str + '\n'
+		_str += self.global_avg_pool.__repr__() + '\n'
+		_str += self.classifier.module_str
+		return _str
+
+	@property
+	def config(self):
+		return {
+			'name': ResNets.__name__,
+			'bn': self.get_bn_param(),
+			'input_stem': [
+				layer.config for layer in self.input_stem
+			],
+			'blocks': [
+				block.config for block in self.blocks
+			],
+			'classifier': self.classifier.config,
+		}
+
+	@staticmethod
+	def build_from_config(config):
+		classifier = set_layer_from_config(config['classifier'])
+
+		input_stem = []
+		for layer_config in config['input_stem']:
+			input_stem.append(set_layer_from_config(layer_config))
+		blocks = []
+		for block_config in config['blocks']:
+			blocks.append(set_layer_from_config(block_config))
+
+		net = ResNets(input_stem, blocks, classifier)
+		if 'bn' in config:
+			net.set_bn_param(**config['bn'])
+		else:
+			net.set_bn_param(momentum=0.1, eps=1e-5)
+
+		return net
+
+	def zero_last_gamma(self):
+		for m in self.modules():
+			if isinstance(m, ResNetBottleneckBlock) and isinstance(m.downsample, IdentityLayer):
+				m.conv3.bn.weight.data.zero_()
+
+	@property
+	def grouped_block_index(self):
+		info_list = []
+		block_index_list = []
+		for i, block in enumerate(self.blocks):
+			if not isinstance(block.downsample, IdentityLayer) and len(block_index_list) > 0:
+				info_list.append(block_index_list)
+				block_index_list = []
+			block_index_list.append(i)
+		if len(block_index_list) > 0:
+			info_list.append(block_index_list)
+		return info_list
+	
+	def load_state_dict(self, state_dict, **kwargs):
+		super(ResNets, self).load_state_dict(state_dict)
+
+
+class ResNet50(ResNets):
+
+	def __init__(self, n_classes=1000, width_mult=1.0, bn_param=(0.1, 1e-5), dropout_rate=0,
+	             expand_ratio=None, depth_param=None):
+
+		expand_ratio = 0.25 if expand_ratio is None else expand_ratio
+
+		input_channel = make_divisible(64 * width_mult, MyNetwork.CHANNEL_DIVISIBLE)
+		stage_width_list = ResNets.STAGE_WIDTH_LIST.copy()
+		for i, width in enumerate(stage_width_list):
+			stage_width_list[i] = make_divisible(width * width_mult, MyNetwork.CHANNEL_DIVISIBLE)
+
+		depth_list = [3, 4, 6, 3]
+		if depth_param is not None:
+			for i, depth in enumerate(ResNets.BASE_DEPTH_LIST):
+				depth_list[i] = depth + depth_param
+
+		stride_list = [1, 2, 2, 2]
+
+		# build input stem
+		input_stem = [ConvLayer(
+			3, input_channel, kernel_size=7, stride=2, use_bn=True, act_func='relu', ops_order='weight_bn_act',
+		)]
+
+		# blocks
+		blocks = []
+		for d, width, s in zip(depth_list, stage_width_list, stride_list):
+			for i in range(d):
+				stride = s if i == 0 else 1
+				bottleneck_block = ResNetBottleneckBlock(
+					input_channel, width, kernel_size=3, stride=stride, expand_ratio=expand_ratio,
+					act_func='relu', downsample_mode='conv',
+				)
+				blocks.append(bottleneck_block)
+				input_channel = width
+		# classifier
+		classifier = LinearLayer(input_channel, n_classes, dropout_rate=dropout_rate)
+		
+		super(ResNet50, self).__init__(input_stem, blocks, classifier)
+
+		# set bn param
+		self.set_bn_param(*bn_param)
+
+
+class ResNet50D(ResNets):
+
+	def __init__(self, n_classes=1000, width_mult=1.0, bn_param=(0.1, 1e-5), dropout_rate=0,
+	             expand_ratio=None, depth_param=None):
+
+		expand_ratio = 0.25 if expand_ratio is None else expand_ratio
+
+		input_channel = make_divisible(64 * width_mult, MyNetwork.CHANNEL_DIVISIBLE)
+		mid_input_channel = make_divisible(input_channel // 2, MyNetwork.CHANNEL_DIVISIBLE)
+		stage_width_list = ResNets.STAGE_WIDTH_LIST.copy()
+		for i, width in enumerate(stage_width_list):
+			stage_width_list[i] = make_divisible(width * width_mult, MyNetwork.CHANNEL_DIVISIBLE)
+
+		depth_list = [3, 4, 6, 3]
+		if depth_param is not None:
+			for i, depth in enumerate(ResNets.BASE_DEPTH_LIST):
+				depth_list[i] = depth + depth_param
+
+		stride_list = [1, 2, 2, 2]
+
+		# build input stem
+		input_stem = [
+			ConvLayer(3, mid_input_channel, 3, stride=2, use_bn=True, act_func='relu'),
+			ResidualBlock(
+				ConvLayer(mid_input_channel, mid_input_channel, 3, stride=1, use_bn=True, act_func='relu'),
+				IdentityLayer(mid_input_channel, mid_input_channel)
+			),
+			ConvLayer(mid_input_channel, input_channel, 3, stride=1, use_bn=True, act_func='relu')
+		]
+
+		# blocks
+		blocks = []
+		for d, width, s in zip(depth_list, stage_width_list, stride_list):
+			for i in range(d):
+				stride = s if i == 0 else 1
+				bottleneck_block = ResNetBottleneckBlock(
+					input_channel, width, kernel_size=3, stride=stride, expand_ratio=expand_ratio,
+					act_func='relu', downsample_mode='avgpool_conv',
+				)
+				blocks.append(bottleneck_block)
+				input_channel = width
+		# classifier
+		classifier = LinearLayer(input_channel, n_classes, dropout_rate=dropout_rate)
+
+		super(ResNet50D, self).__init__(input_stem, blocks, classifier)
+
+		# set bn param
+		self.set_bn_param(*bn_param)
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/run_manager/init.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/run_manager/init.py
@@ -0,0 +1,7 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+from .run_config import *
+from .run_manager import *
+from .distributed_run_manager import *
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/run_manager/distributed_run_manager.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/run_manager/distributed_run_manager.py
@@ -0,0 +1,381 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+import os
+import json
+import time
+import random
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import torch.backends.cudnn as cudnn
+from tqdm import tqdm
+
+from ofa_local.utils import cross_entropy_with_label_smoothing, cross_entropy_loss_with_soft_target, write_log, init_models
+from ofa_local.utils import DistributedMetric, list_mean, get_net_info, accuracy, AverageMeter, mix_labels, mix_images
+from ofa_local.utils import MyRandomResizedCrop
+
+__all__ = ['DistributedRunManager']
+
+
+class DistributedRunManager:
+
+	def __init__(self, path, net, run_config, hvd_compression, backward_steps=1, is_root=False, init=True):
+		import horovod.torch as hvd
+
+		self.path = path
+		self.net = net
+		self.run_config = run_config
+		self.is_root = is_root
+
+		self.best_acc = 0.0
+		self.start_epoch = 0
+
+		os.makedirs(self.path, exist_ok=True)
+
+		self.net.cuda()
+		cudnn.benchmark = True
+		if init and self.is_root:
+			init_models(self.net, self.run_config.model_init)
+		if self.is_root:
+			# print net info
+			net_info = get_net_info(self.net, self.run_config.data_provider.data_shape)
+			with open('%s/net_info.txt' % self.path, 'w') as fout:
+				fout.write(json.dumps(net_info, indent=4) + '\n')
+				try:
+					fout.write(self.net.module_str + '\n')
+				except Exception:
+					fout.write('%s do not support `module_str`' % type(self.net))
+				fout.write('%s\n' % self.run_config.data_provider.train.dataset.transform)
+				fout.write('%s\n' % self.run_config.data_provider.test.dataset.transform)
+				fout.write('%s\n' % self.net)
+
+		# criterion
+		if isinstance(self.run_config.mixup_alpha, float):
+			self.train_criterion = cross_entropy_loss_with_soft_target
+		elif self.run_config.label_smoothing > 0:
+			self.train_criterion = lambda pred, target: \
+				cross_entropy_with_label_smoothing(pred, target, self.run_config.label_smoothing)
+		else:
+			self.train_criterion = nn.CrossEntropyLoss()
+		self.test_criterion = nn.CrossEntropyLoss()
+
+		# optimizer
+		if self.run_config.no_decay_keys:
+			keys = self.run_config.no_decay_keys.split('#')
+			net_params = [
+				self.net.get_parameters(keys, mode='exclude'),  # parameters with weight decay
+				self.net.get_parameters(keys, mode='include'),  # parameters without weight decay
+			]
+		else:
+			# noinspection PyBroadException
+			try:
+				net_params = self.network.weight_parameters()
+			except Exception:
+				net_params = []
+				for param in self.network.parameters():
+					if param.requires_grad:
+						net_params.append(param)
+		self.optimizer = self.run_config.build_optimizer(net_params)
+		self.optimizer = hvd.DistributedOptimizer(
+			self.optimizer, named_parameters=self.net.named_parameters(), compression=hvd_compression,
+			backward_passes_per_step=backward_steps,
+		)
+
+	""" save path and log path """
+
+	@property
+	def save_path(self):
+		if self.__dict__.get('_save_path', None) is None:
+			save_path = os.path.join(self.path, 'checkpoint')
+			os.makedirs(save_path, exist_ok=True)
+			self.__dict__['_save_path'] = save_path
+		return self.__dict__['_save_path']
+
+	@property
+	def logs_path(self):
+		if self.__dict__.get('_logs_path', None) is None:
+			logs_path = os.path.join(self.path, 'logs')
+			os.makedirs(logs_path, exist_ok=True)
+			self.__dict__['_logs_path'] = logs_path
+		return self.__dict__['_logs_path']
+
+	@property
+	def network(self):
+		return self.net
+
+	@network.setter
+	def network(self, new_val):
+		self.net = new_val
+
+	def write_log(self, log_str, prefix='valid', should_print=True, mode='a'):
+		if self.is_root:
+			write_log(self.logs_path, log_str, prefix, should_print, mode)
+
+	""" save & load model & save_config & broadcast """
+
+	def save_config(self, extra_run_config=None, extra_net_config=None):
+		if self.is_root:
+			run_save_path = os.path.join(self.path, 'run.config')
+			if not os.path.isfile(run_save_path):
+				run_config = self.run_config.config
+				if extra_run_config is not None:
+					run_config.update(extra_run_config)
+				json.dump(run_config, open(run_save_path, 'w'), indent=4)
+				print('Run configs dump to %s' % run_save_path)
+
+			try:
+				net_save_path = os.path.join(self.path, 'net.config')
+				net_config = self.net.config
+				if extra_net_config is not None:
+					net_config.update(extra_net_config)
+				json.dump(net_config, open(net_save_path, 'w'), indent=4)
+				print('Network configs dump to %s' % net_save_path)
+			except Exception:
+				print('%s do not support net config' % type(self.net))
+
+	def save_model(self, checkpoint=None, is_best=False, model_name=None):
+		if self.is_root:
+			if checkpoint is None:
+				checkpoint = {'state_dict': self.net.state_dict()}
+
+			if model_name is None:
+				model_name = 'checkpoint.pth.tar'
+
+			latest_fname = os.path.join(self.save_path, 'latest.txt')
+			model_path = os.path.join(self.save_path, model_name)
+			with open(latest_fname, 'w') as _fout:
+				_fout.write(model_path + '\n')
+			torch.save(checkpoint, model_path)
+
+			if is_best:
+				best_path = os.path.join(self.save_path, 'model_best.pth.tar')
+				torch.save({'state_dict': checkpoint['state_dict']}, best_path)
+
+	def load_model(self, model_fname=None):
+		if self.is_root:
+			latest_fname = os.path.join(self.save_path, 'latest.txt')
+			if model_fname is None and os.path.exists(latest_fname):
+				with open(latest_fname, 'r') as fin:
+					model_fname = fin.readline()
+					if model_fname[-1] == '\n':
+						model_fname = model_fname[:-1]
+			# noinspection PyBroadException
+			try:
+				if model_fname is None or not os.path.exists(model_fname):
+					model_fname = '%s/checkpoint.pth.tar' % self.save_path
+					with open(latest_fname, 'w') as fout:
+						fout.write(model_fname + '\n')
+				print("=> loading checkpoint '{}'".format(model_fname))
+				checkpoint = torch.load(model_fname, map_location='cpu')
+			except Exception:
+				self.write_log('fail to load checkpoint from %s' % self.save_path, 'valid')
+				return
+
+			self.net.load_state_dict(checkpoint['state_dict'])
+			if 'epoch' in checkpoint:
+				self.start_epoch = checkpoint['epoch'] + 1
+			if 'best_acc' in checkpoint:
+				self.best_acc = checkpoint['best_acc']
+			if 'optimizer' in checkpoint:
+				self.optimizer.load_state_dict(checkpoint['optimizer'])
+
+			self.write_log("=> loaded checkpoint '{}'".format(model_fname), 'valid')
+
+	# noinspection PyArgumentList
+	def broadcast(self):
+		import horovod.torch as hvd
+		self.start_epoch = hvd.broadcast(torch.LongTensor(1).fill_(self.start_epoch)[0], 0, name='start_epoch').item()
+		self.best_acc = hvd.broadcast(torch.Tensor(1).fill_(self.best_acc)[0], 0, name='best_acc').item()
+		hvd.broadcast_parameters(self.net.state_dict(), 0)
+		hvd.broadcast_optimizer_state(self.optimizer, 0)
+
+	""" metric related """
+
+	def get_metric_dict(self):
+		return {
+			'top1': DistributedMetric('top1'),
+			'top5': DistributedMetric('top5'),
+		}
+
+	def update_metric(self, metric_dict, output, labels):
+		acc1, acc5 = accuracy(output, labels, topk=(1, 5))
+		metric_dict['top1'].update(acc1[0], output.size(0))
+		metric_dict['top5'].update(acc5[0], output.size(0))
+
+	def get_metric_vals(self, metric_dict, return_dict=False):
+		if return_dict:
+			return {
+				key: metric_dict[key].avg.item() for key in metric_dict
+			}
+		else:
+			return [metric_dict[key].avg.item() for key in metric_dict]
+
+	def get_metric_names(self):
+		return 'top1', 'top5'
+
+	""" train & validate """
+
+	def validate(self, epoch=0, is_test=False, run_str='', net=None, data_loader=None, no_logs=False):
+		if net is None:
+			net = self.net
+		if data_loader is None:
+			if is_test:
+				data_loader = self.run_config.test_loader
+			else:
+				data_loader = self.run_config.valid_loader
+
+		net.eval()
+
+		losses = DistributedMetric('val_loss')
+		metric_dict = self.get_metric_dict()
+
+		with torch.no_grad():
+			with tqdm(total=len(data_loader),
+			          desc='Validate Epoch #{} {}'.format(epoch + 1, run_str),
+			          disable=no_logs or not self.is_root) as t:
+				for i, (images, labels) in enumerate(data_loader):
+					images, labels = images.cuda(), labels.cuda()
+					# compute output
+					output = net(images)
+					loss = self.test_criterion(output, labels)
+					# measure accuracy and record loss
+					losses.update(loss, images.size(0))
+					self.update_metric(metric_dict, output, labels)
+					t.set_postfix({
+						'loss': losses.avg.item(),
+						**self.get_metric_vals(metric_dict, return_dict=True),
+						'img_size': images.size(2),
+					})
+					t.update(1)
+		return losses.avg.item(), self.get_metric_vals(metric_dict)
+
+	def validate_all_resolution(self, epoch=0, is_test=False, net=None):
+		if net is None:
+			net = self.net
+		if isinstance(self.run_config.data_provider.image_size, list):
+			img_size_list, loss_list, top1_list, top5_list = [], [], [], []
+			for img_size in self.run_config.data_provider.image_size:
+				img_size_list.append(img_size)
+				self.run_config.data_provider.assign_active_img_size(img_size)
+				self.reset_running_statistics(net=net)
+				loss, (top1, top5) = self.validate(epoch, is_test, net=net)
+				loss_list.append(loss)
+				top1_list.append(top1)
+				top5_list.append(top5)
+			return img_size_list, loss_list, top1_list, top5_list
+		else:
+			loss, (top1, top5) = self.validate(epoch, is_test, net=net)
+			return [self.run_config.data_provider.active_img_size], [loss], [top1], [top5]
+
+	def train_one_epoch(self, args, epoch, warmup_epochs=5, warmup_lr=0):
+		self.net.train()
+		self.run_config.train_loader.sampler.set_epoch(epoch)  # required by distributed sampler
+		MyRandomResizedCrop.EPOCH = epoch  # required by elastic resolution
+
+		nBatch = len(self.run_config.train_loader)
+
+		losses = DistributedMetric('train_loss')
+		metric_dict = self.get_metric_dict()
+		data_time = AverageMeter()
+
+		with tqdm(total=nBatch,
+		          desc='Train Epoch #{}'.format(epoch + 1),
+		          disable=not self.is_root) as t:
+			end = time.time()
+			for i, (images, labels) in enumerate(self.run_config.train_loader):
+				MyRandomResizedCrop.BATCH = i
+				data_time.update(time.time() - end)
+				if epoch < warmup_epochs:
+					new_lr = self.run_config.warmup_adjust_learning_rate(
+						self.optimizer, warmup_epochs * nBatch, nBatch, epoch, i, warmup_lr,
+					)
+				else:
+					new_lr = self.run_config.adjust_learning_rate(self.optimizer, epoch - warmup_epochs, i, nBatch)
+
+				images, labels = images.cuda(), labels.cuda()
+				target = labels
+				if isinstance(self.run_config.mixup_alpha, float):
+					# transform data
+					random.seed(int('%d%.3d' % (i, epoch)))
+					lam = random.betavariate(self.run_config.mixup_alpha, self.run_config.mixup_alpha)
+					images = mix_images(images, lam)
+					labels = mix_labels(
+						labels, lam, self.run_config.data_provider.n_classes, self.run_config.label_smoothing
+					)
+
+				# soft target
+				if args.teacher_model is not None:
+					args.teacher_model.train()
+					with torch.no_grad():
+						soft_logits = args.teacher_model(images).detach()
+						soft_label = F.softmax(soft_logits, dim=1)
+
+				# compute output
+				output = self.net(images)
+
+				if args.teacher_model is None:
+					loss = self.train_criterion(output, labels)
+					loss_type = 'ce'
+				else:
+					if args.kd_type == 'ce':
+						kd_loss = cross_entropy_loss_with_soft_target(output, soft_label)
+					else:
+						kd_loss = F.mse_loss(output, soft_logits)
+					loss = args.kd_ratio * kd_loss + self.train_criterion(output, labels)
+					loss_type = '%.1fkd+ce' % args.kd_ratio
+
+				# update
+				self.optimizer.zero_grad()
+				loss.backward()
+				self.optimizer.step()
+
+				# measure accuracy and record loss
+				losses.update(loss, images.size(0))
+				self.update_metric(metric_dict, output, target)
+
+				t.set_postfix({
+					'loss': losses.avg.item(),
+					**self.get_metric_vals(metric_dict, return_dict=True),
+					'img_size': images.size(2),
+					'lr': new_lr,
+					'loss_type': loss_type,
+					'data_time': data_time.avg,
+				})
+				t.update(1)
+				end = time.time()
+
+		return losses.avg.item(), self.get_metric_vals(metric_dict)
+
+	def train(self, args, warmup_epochs=5, warmup_lr=0):
+		for epoch in range(self.start_epoch, self.run_config.n_epochs + warmup_epochs):
+			train_loss, (train_top1, train_top5) = self.train_one_epoch(args, epoch, warmup_epochs, warmup_lr)
+			img_size, val_loss, val_top1, val_top5 = self.validate_all_resolution(epoch, is_test=False)
+
+			is_best = list_mean(val_top1) > self.best_acc
+			self.best_acc = max(self.best_acc, list_mean(val_top1))
+			if self.is_root:
+				val_log = '[{0}/{1}]\tloss {2:.3f}\t{6} acc {3:.3f} ({4:.3f})\t{7} acc {5:.3f}\t' \
+				          'Train {6} {top1:.3f}\tloss {train_loss:.3f}\t'. \
+					format(epoch + 1 - warmup_epochs, self.run_config.n_epochs, list_mean(val_loss),
+				           list_mean(val_top1), self.best_acc, list_mean(val_top5), *self.get_metric_names(),
+				           top1=train_top1, train_loss=train_loss)
+				for i_s, v_a in zip(img_size, val_top1):
+					val_log += '(%d, %.3f), ' % (i_s, v_a)
+				self.write_log(val_log, prefix='valid', should_print=False)
+
+				self.save_model({
+					'epoch': epoch,
+					'best_acc': self.best_acc,
+					'optimizer': self.optimizer.state_dict(),
+					'state_dict': self.net.state_dict(),
+				}, is_best=is_best)
+
+	def reset_running_statistics(self, net=None, subset_size=2000, subset_batch_size=200, data_loader=None):
+		from ofa.imagenet_classification.elastic_nn.utils import set_running_statistics
+		if net is None:
+			net = self.net
+		if data_loader is None:
+			data_loader = self.run_config.random_sub_train_loader(subset_size, subset_batch_size)
+		set_running_statistics(net, data_loader)
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/run_manager/run_config.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/run_manager/run_config.py
@@ -0,0 +1,161 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+from ofa_local.utils import calc_learning_rate, build_optimizer
+from ofa_local.imagenet_classification.data_providers import ImagenetDataProvider
+
+__all__ = ['RunConfig', 'ImagenetRunConfig', 'DistributedImageNetRunConfig']
+
+
+class RunConfig:
+
+	def __init__(self, n_epochs, init_lr, lr_schedule_type, lr_schedule_param,
+	             dataset, train_batch_size, test_batch_size, valid_size,
+	             opt_type, opt_param, weight_decay, label_smoothing, no_decay_keys,
+	             mixup_alpha, model_init, validation_frequency, print_frequency):
+		self.n_epochs = n_epochs
+		self.init_lr = init_lr
+		self.lr_schedule_type = lr_schedule_type
+		self.lr_schedule_param = lr_schedule_param
+
+		self.dataset = dataset
+		self.train_batch_size = train_batch_size
+		self.test_batch_size = test_batch_size
+		self.valid_size = valid_size
+
+		self.opt_type = opt_type
+		self.opt_param = opt_param
+		self.weight_decay = weight_decay
+		self.label_smoothing = label_smoothing
+		self.no_decay_keys = no_decay_keys
+
+		self.mixup_alpha = mixup_alpha
+
+		self.model_init = model_init
+		self.validation_frequency = validation_frequency
+		self.print_frequency = print_frequency
+
+	@property
+	def config(self):
+		config = {}
+		for key in self.__dict__:
+			if not key.startswith('_'):
+				config[key] = self.__dict__[key]
+		return config
+
+	def copy(self):
+		return RunConfig(**self.config)
+
+	""" learning rate """
+
+	def adjust_learning_rate(self, optimizer, epoch, batch=0, nBatch=None):
+		""" adjust learning of a given optimizer and return the new learning rate """
+		new_lr = calc_learning_rate(epoch, self.init_lr, self.n_epochs, batch, nBatch, self.lr_schedule_type)
+		for param_group in optimizer.param_groups:
+			param_group['lr'] = new_lr
+		return new_lr
+
+	def warmup_adjust_learning_rate(self, optimizer, T_total, nBatch, epoch, batch=0, warmup_lr=0):
+		T_cur = epoch * nBatch + batch + 1
+		new_lr = T_cur / T_total * (self.init_lr - warmup_lr) + warmup_lr
+		for param_group in optimizer.param_groups:
+			param_group['lr'] = new_lr
+		return new_lr
+
+	""" data provider """
+
+	@property
+	def data_provider(self):
+		raise NotImplementedError
+
+	@property
+	def train_loader(self):
+		return self.data_provider.train
+
+	@property
+	def valid_loader(self):
+		return self.data_provider.valid
+
+	@property
+	def test_loader(self):
+		return self.data_provider.test
+
+	def random_sub_train_loader(self, n_images, batch_size, num_worker=None, num_replicas=None, rank=None):
+		return self.data_provider.build_sub_train_loader(n_images, batch_size, num_worker, num_replicas, rank)
+
+	""" optimizer """
+
+	def build_optimizer(self, net_params):
+		return build_optimizer(net_params,
+		                       self.opt_type, self.opt_param, self.init_lr, self.weight_decay, self.no_decay_keys)
+
+
+class ImagenetRunConfig(RunConfig):
+
+	def __init__(self, n_epochs=150, init_lr=0.05, lr_schedule_type='cosine', lr_schedule_param=None,
+	             dataset='imagenet', train_batch_size=256, test_batch_size=500, valid_size=None,
+	             opt_type='sgd', opt_param=None, weight_decay=4e-5, label_smoothing=0.1, no_decay_keys=None,
+	             mixup_alpha=None, model_init='he_fout', validation_frequency=1, print_frequency=10,
+	             n_worker=32, resize_scale=0.08, distort_color='tf', image_size=224, **kwargs):
+		super(ImagenetRunConfig, self).__init__(
+			n_epochs, init_lr, lr_schedule_type, lr_schedule_param,
+			dataset, train_batch_size, test_batch_size, valid_size,
+			opt_type, opt_param, weight_decay, label_smoothing, no_decay_keys,
+			mixup_alpha,
+			model_init, validation_frequency, print_frequency
+		)
+
+		self.n_worker = n_worker
+		self.resize_scale = resize_scale
+		self.distort_color = distort_color
+		self.image_size = image_size
+
+	@property
+	def data_provider(self):
+		if self.__dict__.get('_data_provider', None) is None:
+			if self.dataset == ImagenetDataProvider.name():
+				DataProviderClass = ImagenetDataProvider
+			else:
+				raise NotImplementedError
+			self.__dict__['_data_provider'] = DataProviderClass(
+				train_batch_size=self.train_batch_size, test_batch_size=self.test_batch_size,
+				valid_size=self.valid_size, n_worker=self.n_worker, resize_scale=self.resize_scale,
+				distort_color=self.distort_color, image_size=self.image_size,
+			)
+		return self.__dict__['_data_provider']
+
+
+class DistributedImageNetRunConfig(ImagenetRunConfig):
+
+	def __init__(self, n_epochs=150, init_lr=0.05, lr_schedule_type='cosine', lr_schedule_param=None,
+	             dataset='imagenet', train_batch_size=64, test_batch_size=64, valid_size=None,
+	             opt_type='sgd', opt_param=None, weight_decay=4e-5, label_smoothing=0.1, no_decay_keys=None,
+	             mixup_alpha=None, model_init='he_fout', validation_frequency=1, print_frequency=10,
+	             n_worker=8, resize_scale=0.08, distort_color='tf', image_size=224,
+	             **kwargs):
+		super(DistributedImageNetRunConfig, self).__init__(
+			n_epochs, init_lr, lr_schedule_type, lr_schedule_param,
+			dataset, train_batch_size, test_batch_size, valid_size,
+			opt_type, opt_param, weight_decay, label_smoothing, no_decay_keys,
+			mixup_alpha, model_init, validation_frequency, print_frequency, n_worker, resize_scale, distort_color,
+			image_size, **kwargs
+		)
+
+		self._num_replicas = kwargs['num_replicas']
+		self._rank = kwargs['rank']
+
+	@property
+	def data_provider(self):
+		if self.__dict__.get('_data_provider', None) is None:
+			if self.dataset == ImagenetDataProvider.name():
+				DataProviderClass = ImagenetDataProvider
+			else:
+				raise NotImplementedError
+			self.__dict__['_data_provider'] = DataProviderClass(
+				train_batch_size=self.train_batch_size, test_batch_size=self.test_batch_size,
+				valid_size=self.valid_size, n_worker=self.n_worker, resize_scale=self.resize_scale,
+				distort_color=self.distort_color, image_size=self.image_size,
+				num_replicas=self._num_replicas, rank=self._rank,
+			)
+		return self.__dict__['_data_provider']
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/run_manager/run_manager.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/imagenet_classification/run_manager/run_manager.py
@@ -0,0 +1,375 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+import os
+import random
+import time
+import json
+import numpy as np
+import torch.nn as nn
+import torch.nn.functional as F
+import torch.nn.parallel
+import torch.backends.cudnn as cudnn
+import torch.optim
+from tqdm import tqdm
+
+from ofa_local.utils import get_net_info, cross_entropy_loss_with_soft_target, cross_entropy_with_label_smoothing
+from ofa_local.utils import AverageMeter, accuracy, write_log, mix_images, mix_labels, init_models
+from ofa_local.utils import MyRandomResizedCrop
+
+__all__ = ['RunManager']
+
+
+class RunManager:
+
+    def __init__(self, path, net, run_config, init=True, measure_latency=None, no_gpu=False):
+        self.path = path
+        self.net = net
+        self.run_config = run_config
+
+        self.best_acc = 0
+        self.start_epoch = 0
+
+        os.makedirs(self.path, exist_ok=True)
+
+        # move network to GPU if available
+        if torch.cuda.is_available() and (not no_gpu):
+            self.device = torch.device('cuda:0')
+            self.net = self.net.to(self.device)
+            cudnn.benchmark = True
+        else:
+            self.device = torch.device('cpu')
+        # initialize model (default)
+        if init:
+            init_models(run_config.model_init)
+
+        # net info
+        net_info = get_net_info(self.net, self.run_config.data_provider.data_shape, measure_latency, True)
+        with open('%s/net_info.txt' % self.path, 'w') as fout:
+            fout.write(json.dumps(net_info, indent=4) + '\n')
+            # noinspection PyBroadException
+            try:
+                fout.write(self.network.module_str + '\n')
+            except Exception:
+                pass
+            fout.write('%s\n' % self.run_config.data_provider.train.dataset.transform)
+            fout.write('%s\n' % self.run_config.data_provider.test.dataset.transform)
+            fout.write('%s\n' % self.network)
+
+        # criterion
+        if isinstance(self.run_config.mixup_alpha, float):
+            self.train_criterion = cross_entropy_loss_with_soft_target
+        elif self.run_config.label_smoothing > 0:
+            self.train_criterion = \
+                lambda pred, target: cross_entropy_with_label_smoothing(pred, target, self.run_config.label_smoothing)
+        else:
+            self.train_criterion = nn.CrossEntropyLoss()
+        self.test_criterion = nn.CrossEntropyLoss()
+
+        # optimizer
+        if self.run_config.no_decay_keys:
+            keys = self.run_config.no_decay_keys.split('#')
+            net_params = [
+                self.network.get_parameters(keys, mode='exclude'),  # parameters with weight decay
+                self.network.get_parameters(keys, mode='include'),  # parameters without weight decay
+            ]
+        else:
+            # noinspection PyBroadException
+            try:
+                net_params = self.network.weight_parameters()
+            except Exception:
+                net_params = []
+                for param in self.network.parameters():
+                    if param.requires_grad:
+                        net_params.append(param)
+        self.optimizer = self.run_config.build_optimizer(net_params)
+
+        self.net = torch.nn.DataParallel(self.net)
+
+    """ save path and log path """
+
+    @property
+    def save_path(self):
+        if self.__dict__.get('_save_path', None) is None:
+            save_path = os.path.join(self.path, 'checkpoint')
+            os.makedirs(save_path, exist_ok=True)
+            self.__dict__['_save_path'] = save_path
+        return self.__dict__['_save_path']
+
+    @property
+    def logs_path(self):
+        if self.__dict__.get('_logs_path', None) is None:
+            logs_path = os.path.join(self.path, 'logs')
+            os.makedirs(logs_path, exist_ok=True)
+            self.__dict__['_logs_path'] = logs_path
+        return self.__dict__['_logs_path']
+
+    @property
+    def network(self):
+        return self.net.module if isinstance(self.net, nn.DataParallel) else self.net
+
+    def write_log(self, log_str, prefix='valid', should_print=True, mode='a'):
+        write_log(self.logs_path, log_str, prefix, should_print, mode)
+
+    """ save and load models """
+
+    def save_model(self, checkpoint=None, is_best=False, model_name=None):
+        if checkpoint is None:
+            checkpoint = {'state_dict': self.network.state_dict()}
+
+        if model_name is None:
+            model_name = 'checkpoint.pth.tar'
+
+        checkpoint['dataset'] = self.run_config.dataset  # add `dataset` info to the checkpoint
+        latest_fname = os.path.join(self.save_path, 'latest.txt')
+        model_path = os.path.join(self.save_path, model_name)
+        with open(latest_fname, 'w') as fout:
+            fout.write(model_path + '\n')
+        torch.save(checkpoint, model_path)
+
+        if is_best:
+            best_path = os.path.join(self.save_path, 'model_best.pth.tar')
+            torch.save({'state_dict': checkpoint['state_dict']}, best_path)
+
+    def load_model(self, model_fname=None):
+        latest_fname = os.path.join(self.save_path, 'latest.txt')
+        if model_fname is None and os.path.exists(latest_fname):
+            with open(latest_fname, 'r') as fin:
+                model_fname = fin.readline()
+                if model_fname[-1] == '\n':
+                    model_fname = model_fname[:-1]
+        # noinspection PyBroadException
+        try:
+            if model_fname is None or not os.path.exists(model_fname):
+                model_fname = '%s/checkpoint.pth.tar' % self.save_path
+                with open(latest_fname, 'w') as fout:
+                    fout.write(model_fname + '\n')
+            print("=> loading checkpoint '{}'".format(model_fname))
+            checkpoint = torch.load(model_fname, map_location='cpu')
+        except Exception:
+            print('fail to load checkpoint from %s' % self.save_path)
+            return {}
+
+        self.network.load_state_dict(checkpoint['state_dict'])
+        if 'epoch' in checkpoint:
+            self.start_epoch = checkpoint['epoch'] + 1
+        if 'best_acc' in checkpoint:
+            self.best_acc = checkpoint['best_acc']
+        if 'optimizer' in checkpoint:
+            self.optimizer.load_state_dict(checkpoint['optimizer'])
+
+        print("=> loaded checkpoint '{}'".format(model_fname))
+        return checkpoint
+
+    def save_config(self, extra_run_config=None, extra_net_config=None):
+        """ dump run_config and net_config to the model_folder """
+        run_save_path = os.path.join(self.path, 'run.config')
+        if not os.path.isfile(run_save_path):
+            run_config = self.run_config.config
+            if extra_run_config is not None:
+                run_config.update(extra_run_config)
+            json.dump(run_config, open(run_save_path, 'w'), indent=4)
+            print('Run configs dump to %s' % run_save_path)
+
+        try:
+            net_save_path = os.path.join(self.path, 'net.config')
+            net_config = self.network.config
+            if extra_net_config is not None:
+                net_config.update(extra_net_config)
+            json.dump(net_config, open(net_save_path, 'w'), indent=4)
+            print('Network configs dump to %s' % net_save_path)
+        except Exception:
+            print('%s do not support net config' % type(self.network))
+
+    """ metric related """
+
+    def get_metric_dict(self):
+        return {
+            'top1': AverageMeter(),
+            'top5': AverageMeter(),
+        }
+
+    def update_metric(self, metric_dict, output, labels):
+        acc1, acc5 = accuracy(output, labels, topk=(1, 5))
+        metric_dict['top1'].update(acc1[0].item(), output.size(0))
+        metric_dict['top5'].update(acc5[0].item(), output.size(0))
+
+    def get_metric_vals(self, metric_dict, return_dict=False):
+        if return_dict:
+            return {
+                key: metric_dict[key].avg for key in metric_dict
+            }
+        else:
+            return [metric_dict[key].avg for key in metric_dict]
+
+    def get_metric_names(self):
+        return 'top1', 'top5'
+
+    """ train and test """
+
+    def validate(self, epoch=0, is_test=False, run_str='', net=None, data_loader=None, no_logs=False, train_mode=False):
+        if net is None:
+            net = self.net
+        if not isinstance(net, nn.DataParallel):
+            net = nn.DataParallel(net)
+
+        if data_loader is None:
+            data_loader = self.run_config.test_loader if is_test else self.run_config.valid_loader
+
+        if train_mode:
+            net.train()
+        else:
+            net.eval()
+
+        losses = AverageMeter()
+        metric_dict = self.get_metric_dict()
+
+        with torch.no_grad():
+            with tqdm(total=len(data_loader),
+                      desc='Validate Epoch #{} {}'.format(epoch + 1, run_str), disable=no_logs) as t:
+                for i, (images, labels) in enumerate(data_loader):
+                    images, labels = images.to(self.device), labels.to(self.device)
+                    # compute output
+                    output = net(images)
+                    loss = self.test_criterion(output, labels)
+                    # measure accuracy and record loss
+                    self.update_metric(metric_dict, output, labels)
+
+                    losses.update(loss.item(), images.size(0))
+                    t.set_postfix({
+                        'loss': losses.avg,
+                        **self.get_metric_vals(metric_dict, return_dict=True),
+                        'img_size': images.size(2),
+                    })
+                    t.update(1)
+        return losses.avg, self.get_metric_vals(metric_dict)
+
+    def validate_all_resolution(self, epoch=0, is_test=False, net=None):
+        if net is None:
+            net = self.network
+        if isinstance(self.run_config.data_provider.image_size, list):
+            img_size_list, loss_list, top1_list, top5_list = [], [], [], []
+            for img_size in self.run_config.data_provider.image_size:
+                img_size_list.append(img_size)
+                self.run_config.data_provider.assign_active_img_size(img_size)
+                self.reset_running_statistics(net=net)
+                loss, (top1, top5) = self.validate(epoch, is_test, net=net)
+                loss_list.append(loss)
+                top1_list.append(top1)
+                top5_list.append(top5)
+            return img_size_list, loss_list, top1_list, top5_list
+        else:
+            loss, (top1, top5) = self.validate(epoch, is_test, net=net)
+            return [self.run_config.data_provider.active_img_size], [loss], [top1], [top5]
+
+    def train_one_epoch(self, args, epoch, warmup_epochs=0, warmup_lr=0):
+        # switch to train mode
+        self.net.train()
+        MyRandomResizedCrop.EPOCH = epoch  # required by elastic resolution
+
+        nBatch = len(self.run_config.train_loader)
+
+        losses = AverageMeter()
+        metric_dict = self.get_metric_dict()
+        data_time = AverageMeter()
+
+        with tqdm(total=nBatch,
+                  desc='{} Train Epoch #{}'.format(self.run_config.dataset, epoch + 1)) as t:
+            end = time.time()
+            for i, (images, labels) in enumerate(self.run_config.train_loader):
+                MyRandomResizedCrop.BATCH = i
+                data_time.update(time.time() - end)
+                if epoch < warmup_epochs:
+                    new_lr = self.run_config.warmup_adjust_learning_rate(
+                        self.optimizer, warmup_epochs * nBatch, nBatch, epoch, i, warmup_lr,
+                    )
+                else:
+                    new_lr = self.run_config.adjust_learning_rate(self.optimizer, epoch - warmup_epochs, i, nBatch)
+
+                images, labels = images.to(self.device), labels.to(self.device)
+                target = labels
+                if isinstance(self.run_config.mixup_alpha, float):
+                    # transform data
+                    lam = random.betavariate(self.run_config.mixup_alpha, self.run_config.mixup_alpha)
+                    images = mix_images(images, lam)
+                    labels = mix_labels(
+                        labels, lam, self.run_config.data_provider.n_classes, self.run_config.label_smoothing
+                    )
+
+                # soft target
+                if args.teacher_model is not None:
+                    args.teacher_model.train()
+                    with torch.no_grad():
+                        soft_logits = args.teacher_model(images).detach()
+                        soft_label = F.softmax(soft_logits, dim=1)
+
+                # compute output
+                output = self.net(images)
+                loss = self.train_criterion(output, labels)
+
+                if args.teacher_model is None:
+                    loss_type = 'ce'
+                else:
+                    if args.kd_type == 'ce':
+                        kd_loss = cross_entropy_loss_with_soft_target(output, soft_label)
+                    else:
+                        kd_loss = F.mse_loss(output, soft_logits)
+                    loss = args.kd_ratio * kd_loss + loss
+                    loss_type = '%.1fkd+ce' % args.kd_ratio
+
+                # compute gradient and do SGD step
+                self.net.zero_grad()  # or self.optimizer.zero_grad()
+                loss.backward()
+                self.optimizer.step()
+
+                # measure accuracy and record loss
+                losses.update(loss.item(), images.size(0))
+                self.update_metric(metric_dict, output, target)
+
+                t.set_postfix({
+                    'loss': losses.avg,
+                    **self.get_metric_vals(metric_dict, return_dict=True),
+                    'img_size': images.size(2),
+                    'lr': new_lr,
+                    'loss_type': loss_type,
+                    'data_time': data_time.avg,
+                })
+                t.update(1)
+                end = time.time()
+        return losses.avg, self.get_metric_vals(metric_dict)
+
+    def train(self, args, warmup_epoch=0, warmup_lr=0):
+        for epoch in range(self.start_epoch, self.run_config.n_epochs + warmup_epoch):
+            train_loss, (train_top1, train_top5) = self.train_one_epoch(args, epoch, warmup_epoch, warmup_lr)
+
+            if (epoch + 1) % self.run_config.validation_frequency == 0:
+                img_size, val_loss, val_acc, val_acc5 = self.validate_all_resolution(epoch=epoch, is_test=False)
+
+                is_best = np.mean(val_acc) > self.best_acc
+                self.best_acc = max(self.best_acc, np.mean(val_acc))
+                val_log = 'Valid [{0}/{1}]\tloss {2:.3f}\t{5} {3:.3f} ({4:.3f})'. \
+                    format(epoch + 1 - warmup_epoch, self.run_config.n_epochs,
+                           np.mean(val_loss), np.mean(val_acc), self.best_acc, self.get_metric_names()[0])
+                val_log += '\t{2} {0:.3f}\tTrain {1} {top1:.3f}\tloss {train_loss:.3f}\t'. \
+                    format(np.mean(val_acc5), *self.get_metric_names(), top1=train_top1, train_loss=train_loss)
+                for i_s, v_a in zip(img_size, val_acc):
+                    val_log += '(%d, %.3f), ' % (i_s, v_a)
+                self.write_log(val_log, prefix='valid', should_print=False)
+            else:
+                is_best = False
+
+            self.save_model({
+                'epoch': epoch,
+                'best_acc': self.best_acc,
+                'optimizer': self.optimizer.state_dict(),
+                'state_dict': self.network.state_dict(),
+            }, is_best=is_best)
+
+    def reset_running_statistics(self, net=None, subset_size=2000, subset_batch_size=200, data_loader=None):
+        from ofa.imagenet_classification.elastic_nn.utils import set_running_statistics
+        if net is None:
+            net = self.network
+        if data_loader is None:
+            data_loader = self.run_config.random_sub_train_loader(subset_size, subset_batch_size)
+        set_running_statistics(net, data_loader)
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/model_zoo.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/model_zoo.py
@@ -0,0 +1,87 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+import json
+import torch
+
+from ofa_local.utils import download_url
+from ofa_local.imagenet_classification.networks import get_net_by_name, proxyless_base
+from ofa_local.imagenet_classification.elastic_nn.networks import OFAMobileNetV3, OFAProxylessNASNets, OFAResNets
+
+__all__ = [
+	'ofa_specialized', 'ofa_net',
+	'proxylessnas_net', 'proxylessnas_mobile', 'proxylessnas_cpu', 'proxylessnas_gpu',
+]
+
+
+def ofa_specialized(net_id, pretrained=True):
+	url_base = 'https://hanlab.mit.edu/files/OnceForAll/ofa_specialized/'
+	net_config = json.load(open(
+		download_url(url_base + net_id + '/net.config', model_dir='.torch/ofa_specialized/%s/' % net_id)
+	))
+	net = get_net_by_name(net_config['name']).build_from_config(net_config)
+
+	image_size = json.load(open(
+		download_url(url_base + net_id + '/run.config', model_dir='.torch/ofa_specialized/%s/' % net_id)
+	))['image_size']
+
+	if pretrained:
+		init = torch.load(
+			download_url(url_base + net_id + '/init', model_dir='.torch/ofa_specialized/%s/' % net_id),
+			map_location='cpu'
+		)['state_dict']
+		net.load_state_dict(init)
+	return net, image_size
+
+
+def ofa_net(net_id, pretrained=True):
+	if net_id == 'ofa_proxyless_d234_e346_k357_w1.3':
+		net = OFAProxylessNASNets(
+			dropout_rate=0, width_mult=1.3, ks_list=[3, 5, 7], expand_ratio_list=[3, 4, 6], depth_list=[2, 3, 4],
+		)
+	elif net_id == 'ofa_mbv3_d234_e346_k357_w1.0':
+		net = OFAMobileNetV3(
+			dropout_rate=0, width_mult=1.0, ks_list=[3, 5, 7], expand_ratio_list=[3, 4, 6], depth_list=[2, 3, 4],
+		)
+	elif net_id == 'ofa_mbv3_d234_e346_k357_w1.2':
+		net = OFAMobileNetV3(
+			dropout_rate=0, width_mult=1.2, ks_list=[3, 5, 7], expand_ratio_list=[3, 4, 6], depth_list=[2, 3, 4],
+		)
+	elif net_id == 'ofa_resnet50':
+		net = OFAResNets(
+			dropout_rate=0, depth_list=[0, 1, 2], expand_ratio_list=[0.2, 0.25, 0.35], width_mult_list=[0.65, 0.8, 1.0]
+		)
+		net_id = 'ofa_resnet50_d=0+1+2_e=0.2+0.25+0.35_w=0.65+0.8+1.0'
+	else:
+		raise ValueError('Not supported: %s' % net_id)
+
+	if pretrained:
+		url_base = 'https://hanlab.mit.edu/files/OnceForAll/ofa_nets/'
+		init = torch.load(
+			download_url(url_base + net_id, model_dir='.torch/ofa_nets'),
+			map_location='cpu')['state_dict']
+		net.load_state_dict(init)
+	return net
+
+
+def proxylessnas_net(net_id, pretrained=True):
+	net = proxyless_base(
+		net_config='https://hanlab.mit.edu/files/proxylessNAS/%s.config' % net_id,
+	)
+	if pretrained:
+		net.load_state_dict(torch.load(
+			download_url('https://hanlab.mit.edu/files/proxylessNAS/%s.pth' % net_id), map_location='cpu'
+		)['state_dict'])
+
+
+def proxylessnas_mobile(pretrained=True):
+	return proxylessnas_net('proxyless_mobile', pretrained)
+
+
+def proxylessnas_cpu(pretrained=True):
+	return proxylessnas_net('proxyless_cpu', pretrained)
+
+
+def proxylessnas_gpu(pretrained=True):
+	return proxylessnas_net('proxyless_gpu', pretrained)
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/nas/init.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/nas/init.py
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/nas/accuracy_predictor/init.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/nas/accuracy_predictor/init.py
@@ -0,0 +1,7 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+from .acc_dataset import *
+from .acc_predictor import *
+from .arch_encoder import *
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/nas/accuracy_predictor/acc_dataset.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/nas/accuracy_predictor/acc_dataset.py
@@ -0,0 +1,181 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+import os
+import json
+import numpy as np
+from tqdm import tqdm
+import torch
+import torch.utils.data
+
+from ofa.utils import list_mean
+
+__all__ = ['net_setting2id', 'net_id2setting', 'AccuracyDataset']
+
+
+def net_setting2id(net_setting):
+	return json.dumps(net_setting)
+
+
+def net_id2setting(net_id):
+	return json.loads(net_id)
+
+
+class RegDataset(torch.utils.data.Dataset):
+
+	def __init__(self, inputs, targets):
+		super(RegDataset, self).__init__()
+		self.inputs = inputs
+		self.targets = targets
+
+	def __getitem__(self, index):
+		return self.inputs[index], self.targets[index]
+
+	def __len__(self):
+		return self.inputs.size(0)
+
+
+class AccuracyDataset:
+
+	def __init__(self, path):
+		self.path = path
+		os.makedirs(self.path, exist_ok=True)
+
+	@property
+	def net_id_path(self):
+		return os.path.join(self.path, 'net_id.dict')
+
+	@property
+	def acc_src_folder(self):
+		return os.path.join(self.path, 'src')
+
+	@property
+	def acc_dict_path(self):
+		return os.path.join(self.path, 'acc.dict')
+
+	# TODO: support parallel building
+	def build_acc_dataset(self, run_manager, ofa_network, n_arch=1000, image_size_list=None):
+		# load net_id_list, random sample if not exist
+		if os.path.isfile(self.net_id_path):
+			net_id_list = json.load(open(self.net_id_path))
+		else:
+			net_id_list = set()
+			while len(net_id_list) < n_arch:
+				net_setting = ofa_network.sample_active_subnet()
+				net_id = net_setting2id(net_setting)
+				net_id_list.add(net_id)
+			net_id_list = list(net_id_list)
+			net_id_list.sort()
+			json.dump(net_id_list, open(self.net_id_path, 'w'), indent=4)
+
+		image_size_list = [128, 160, 192, 224] if image_size_list is None else image_size_list
+
+		with tqdm(total=len(net_id_list) * len(image_size_list), desc='Building Acc Dataset') as t:
+			for image_size in image_size_list:
+				# load val dataset into memory
+				val_dataset = []
+				run_manager.run_config.data_provider.assign_active_img_size(image_size)
+				for images, labels in run_manager.run_config.valid_loader:
+					val_dataset.append((images, labels))
+				# save path
+				os.makedirs(self.acc_src_folder, exist_ok=True)
+				acc_save_path = os.path.join(self.acc_src_folder, '%d.dict' % image_size)
+				acc_dict = {}
+				# load existing acc dict
+				if os.path.isfile(acc_save_path):
+					existing_acc_dict = json.load(open(acc_save_path, 'r'))
+				else:
+					existing_acc_dict = {}
+				for net_id in net_id_list:
+					net_setting = net_id2setting(net_id)
+					key = net_setting2id({**net_setting, 'image_size': image_size})
+					if key in existing_acc_dict:
+						acc_dict[key] = existing_acc_dict[key]
+						t.set_postfix({
+							'net_id': net_id,
+							'image_size': image_size,
+							'info_val': acc_dict[key],
+							'status': 'loading',
+						})
+						t.update()
+						continue
+					ofa_network.set_active_subnet(**net_setting)
+					run_manager.reset_running_statistics(ofa_network)
+					net_setting_str = ','.join(['%s_%s' % (
+						key, '%.1f' % list_mean(val) if isinstance(val, list) else val
+					) for key, val in net_setting.items()])
+					loss, (top1, top5) = run_manager.validate(
+						run_str=net_setting_str, net=ofa_network, data_loader=val_dataset, no_logs=True,
+					)
+					info_val = top1
+
+					t.set_postfix({
+						'net_id': net_id,
+						'image_size': image_size,
+						'info_val': info_val,
+					})
+					t.update()
+
+					acc_dict.update({
+						key: info_val
+					})
+					json.dump(acc_dict, open(acc_save_path, 'w'), indent=4)
+
+	def merge_acc_dataset(self, image_size_list=None):
+		# load existing data
+		merged_acc_dict = {}
+		for fname in os.listdir(self.acc_src_folder):
+			if '.dict' not in fname:
+				continue
+			image_size = int(fname.split('.dict')[0])
+			if image_size_list is not None and image_size not in image_size_list:
+				print('Skip ', fname)
+				continue
+			full_path = os.path.join(self.acc_src_folder, fname)
+			partial_acc_dict = json.load(open(full_path))
+			merged_acc_dict.update(partial_acc_dict)
+			print('loaded %s' % full_path)
+		json.dump(merged_acc_dict, open(self.acc_dict_path, 'w'), indent=4)
+		return merged_acc_dict
+
+	def build_acc_data_loader(self, arch_encoder, n_training_sample=None, batch_size=256, n_workers=16):
+		# load data
+		acc_dict = json.load(open(self.acc_dict_path))
+		X_all = []
+		Y_all = []
+		with tqdm(total=len(acc_dict), desc='Loading data') as t:
+			for k, v in acc_dict.items():
+				dic = json.loads(k)
+				X_all.append(arch_encoder.arch2feature(dic))
+				Y_all.append(v / 100.)  # range: 0 - 1
+				t.update()
+		base_acc = np.mean(Y_all)
+		# convert to torch tensor
+		X_all = torch.tensor(X_all, dtype=torch.float)
+		Y_all = torch.tensor(Y_all)
+
+		# random shuffle
+		shuffle_idx = torch.randperm(len(X_all))
+		X_all = X_all[shuffle_idx]
+		Y_all = Y_all[shuffle_idx]
+
+		# split data
+		idx = X_all.size(0) // 5 * 4 if n_training_sample is None else n_training_sample
+		val_idx = X_all.size(0) // 5 * 4
+		X_train, Y_train = X_all[:idx], Y_all[:idx]
+		X_test, Y_test = X_all[val_idx:], Y_all[val_idx:]
+		print('Train Size: %d,' % len(X_train), 'Valid Size: %d' % len(X_test))
+
+		# build data loader
+		train_dataset = RegDataset(X_train, Y_train)
+		val_dataset = RegDataset(X_test, Y_test)
+
+		train_loader = torch.utils.data.DataLoader(
+			train_dataset, batch_size=batch_size, shuffle=True, pin_memory=False, num_workers=n_workers
+		)
+		valid_loader = torch.utils.data.DataLoader(
+			val_dataset, batch_size=batch_size, shuffle=False, pin_memory=False, num_workers=n_workers
+		)
+
+		return train_loader, valid_loader, base_acc
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/nas/accuracy_predictor/acc_predictor.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/nas/accuracy_predictor/acc_predictor.py
@@ -0,0 +1,50 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+import os
+import numpy as np
+import torch
+import torch.nn as nn
+
+__all__ = ['AccuracyPredictor']
+
+
+class AccuracyPredictor(nn.Module):
+
+	def __init__(self, arch_encoder, hidden_size=400, n_layers=3,
+	             checkpoint_path=None, device='cuda:0'):
+		super(AccuracyPredictor, self).__init__()
+		self.arch_encoder = arch_encoder
+		self.hidden_size = hidden_size
+		self.n_layers = n_layers
+		self.device = device
+
+		# build layers
+		layers = []
+		for i in range(self.n_layers):
+			layers.append(nn.Sequential(
+				nn.Linear(self.arch_encoder.n_dim if i == 0 else self.hidden_size, self.hidden_size),
+				nn.ReLU(inplace=True),
+			))
+		layers.append(nn.Linear(self.hidden_size, 1, bias=False))
+		self.layers = nn.Sequential(*layers)
+		self.base_acc = nn.Parameter(torch.zeros(1, device=self.device), requires_grad=False)
+
+		if checkpoint_path is not None and os.path.exists(checkpoint_path):
+			checkpoint = torch.load(checkpoint_path, map_location='cpu')
+			if 'state_dict' in checkpoint:
+				checkpoint = checkpoint['state_dict']
+			self.load_state_dict(checkpoint)
+			print('Loaded checkpoint from %s' % checkpoint_path)
+
+		self.layers = self.layers.to(self.device)
+
+	def forward(self, x):
+		y = self.layers(x).squeeze()
+		return y + self.base_acc
+
+	def predict_acc(self, arch_dict_list):
+		X = [self.arch_encoder.arch2feature(arch_dict) for arch_dict in arch_dict_list]
+		X = torch.tensor(np.array(X)).float().to(self.device)
+		return self.forward(X)
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/nas/accuracy_predictor/arch_encoder.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/nas/accuracy_predictor/arch_encoder.py
@@ -0,0 +1,315 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+
+import random
+import numpy as np
+from ofa.imagenet_classification.networks import ResNets
+
+__all__ = ['MobileNetArchEncoder', 'ResNetArchEncoder']
+
+
+class MobileNetArchEncoder:
+	SPACE_TYPE = 'mbv3'
+
+	def __init__(self, image_size_list=None, ks_list=None, expand_list=None, depth_list=None, n_stage=None):
+		self.image_size_list = [224] if image_size_list is None else image_size_list
+		self.ks_list = [3, 5, 7] if ks_list is None else ks_list
+		self.expand_list = [3, 4, 6] if expand_list is None else [int(expand) for expand in expand_list]
+		self.depth_list = [2, 3, 4] if depth_list is None else depth_list
+		if n_stage is not None:
+			self.n_stage = n_stage
+		elif self.SPACE_TYPE == 'mbv2':
+			self.n_stage = 6
+		elif self.SPACE_TYPE == 'mbv3':
+			self.n_stage = 5
+		else:
+			raise NotImplementedError
+
+		# build info dict
+		self.n_dim = 0
+		self.r_info = dict(id2val={}, val2id={}, L=[], R=[])
+		self._build_info_dict(target='r')
+
+		self.k_info = dict(id2val=[], val2id=[], L=[], R=[])
+		self.e_info = dict(id2val=[], val2id=[], L=[], R=[])
+		self._build_info_dict(target='k')
+		self._build_info_dict(target='e')
+
+	@property
+	def max_n_blocks(self):
+		if self.SPACE_TYPE == 'mbv3':
+			return self.n_stage * max(self.depth_list)
+		elif self.SPACE_TYPE == 'mbv2':
+			return (self.n_stage - 1) * max(self.depth_list) + 1
+		else:
+			raise NotImplementedError
+
+	def _build_info_dict(self, target):
+		if target == 'r':
+			target_dict = self.r_info
+			target_dict['L'].append(self.n_dim)
+			for img_size in self.image_size_list:
+				target_dict['val2id'][img_size] = self.n_dim
+				target_dict['id2val'][self.n_dim] = img_size
+				self.n_dim += 1
+			target_dict['R'].append(self.n_dim)
+		else:
+			if target == 'k':
+				target_dict = self.k_info
+				choices = self.ks_list
+			elif target == 'e':
+				target_dict = self.e_info
+				choices = self.expand_list
+			else:
+				raise NotImplementedError
+			for i in range(self.max_n_blocks):
+				target_dict['val2id'].append({})
+				target_dict['id2val'].append({})
+				target_dict['L'].append(self.n_dim)
+				for k in choices:
+					target_dict['val2id'][i][k] = self.n_dim
+					target_dict['id2val'][i][self.n_dim] = k
+					self.n_dim += 1
+				target_dict['R'].append(self.n_dim)
+
+	def arch2feature(self, arch_dict):
+		ks, e, d, r = arch_dict['ks'], arch_dict['e'], arch_dict['d'], arch_dict['image_size']
+
+		feature = np.zeros(self.n_dim)
+		for i in range(self.max_n_blocks):
+			nowd = i % max(self.depth_list)
+			stg = i // max(self.depth_list)
+			if nowd < d[stg]:
+				feature[self.k_info['val2id'][i][ks[i]]] = 1
+				feature[self.e_info['val2id'][i][e[i]]] = 1
+		feature[self.r_info['val2id'][r]] = 1
+		return feature
+
+	def feature2arch(self, feature):
+		img_sz = self.r_info['id2val'][
+			int(np.argmax(feature[self.r_info['L'][0]:self.r_info['R'][0]])) + self.r_info['L'][0]
+			]
+		assert img_sz in self.image_size_list
+		arch_dict = {'ks': [], 'e': [], 'd': [], 'image_size': img_sz}
+
+		d = 0
+		for i in range(self.max_n_blocks):
+			skip = True
+			for j in range(self.k_info['L'][i], self.k_info['R'][i]):
+				if feature[j] == 1:
+					arch_dict['ks'].append(self.k_info['id2val'][i][j])
+					skip = False
+					break
+
+			for j in range(self.e_info['L'][i], self.e_info['R'][i]):
+				if feature[j] == 1:
+					arch_dict['e'].append(self.e_info['id2val'][i][j])
+					assert not skip
+					skip = False
+					break
+
+			if skip:
+				arch_dict['e'].append(0)
+				arch_dict['ks'].append(0)
+			else:
+				d += 1
+
+			if (i + 1) % max(self.depth_list) == 0 or (i + 1) == self.max_n_blocks:
+				arch_dict['d'].append(d)
+				d = 0
+		return arch_dict
+
+	def random_sample_arch(self):
+		return {
+			'ks': random.choices(self.ks_list, k=self.max_n_blocks),
+			'e': random.choices(self.expand_list, k=self.max_n_blocks),
+			'd': random.choices(self.depth_list, k=self.n_stage),
+			'image_size': random.choice(self.image_size_list)
+		}
+
+	def mutate_resolution(self, arch_dict, mutate_prob):
+		if random.random() < mutate_prob:
+			arch_dict['image_size'] = random.choice(self.image_size_list)
+		return arch_dict
+
+	def mutate_arch(self, arch_dict, mutate_prob):
+		for i in range(self.max_n_blocks):
+			if random.random() < mutate_prob:
+				arch_dict['ks'][i] = random.choice(self.ks_list)
+				arch_dict['e'][i] = random.choice(self.expand_list)
+
+		for i in range(self.n_stage):
+			if random.random() < mutate_prob:
+				arch_dict['d'][i] = random.choice(self.depth_list)
+		return arch_dict
+
+
+class ResNetArchEncoder:
+
+	def __init__(self, image_size_list=None, depth_list=None, expand_list=None, width_mult_list=None,
+	             base_depth_list=None):
+		self.image_size_list = [224] if image_size_list is None else image_size_list
+		self.expand_list = [0.2, 0.25, 0.35] if expand_list is None else expand_list
+		self.depth_list = [0, 1, 2] if depth_list is None else depth_list
+		self.width_mult_list = [0.65, 0.8, 1.0] if width_mult_list is None else width_mult_list
+
+		self.base_depth_list = ResNets.BASE_DEPTH_LIST if base_depth_list is None else base_depth_list
+
+		"""" build info dict """
+		self.n_dim = 0
+		# resolution
+		self.r_info = dict(id2val={}, val2id={}, L=[], R=[])
+		self._build_info_dict(target='r')
+		# input stem skip
+		self.input_stem_d_info = dict(id2val={}, val2id={}, L=[], R=[])
+		self._build_info_dict(target='input_stem_d')
+		# width_mult
+		self.width_mult_info = dict(id2val=[], val2id=[], L=[], R=[])
+		self._build_info_dict(target='width_mult')
+		# expand ratio
+		self.e_info = dict(id2val=[], val2id=[], L=[], R=[])
+		self._build_info_dict(target='e')
+
+	@property
+	def n_stage(self):
+		return len(self.base_depth_list)
+
+	@property
+	def max_n_blocks(self):
+		return sum(self.base_depth_list) + self.n_stage * max(self.depth_list)
+
+	def _build_info_dict(self, target):
+		if target == 'r':
+			target_dict = self.r_info
+			target_dict['L'].append(self.n_dim)
+			for img_size in self.image_size_list:
+				target_dict['val2id'][img_size] = self.n_dim
+				target_dict['id2val'][self.n_dim] = img_size
+				self.n_dim += 1
+			target_dict['R'].append(self.n_dim)
+		elif target == 'input_stem_d':
+			target_dict = self.input_stem_d_info
+			target_dict['L'].append(self.n_dim)
+			for skip in [0, 1]:
+				target_dict['val2id'][skip] = self.n_dim
+				target_dict['id2val'][self.n_dim] = skip
+				self.n_dim += 1
+			target_dict['R'].append(self.n_dim)
+		elif target == 'e':
+			target_dict = self.e_info
+			choices = self.expand_list
+			for i in range(self.max_n_blocks):
+				target_dict['val2id'].append({})
+				target_dict['id2val'].append({})
+				target_dict['L'].append(self.n_dim)
+				for e in choices:
+					target_dict['val2id'][i][e] = self.n_dim
+					target_dict['id2val'][i][self.n_dim] = e
+					self.n_dim += 1
+				target_dict['R'].append(self.n_dim)
+		elif target == 'width_mult':
+			target_dict = self.width_mult_info
+			choices = list(range(len(self.width_mult_list)))
+			for i in range(self.n_stage + 2):
+				target_dict['val2id'].append({})
+				target_dict['id2val'].append({})
+				target_dict['L'].append(self.n_dim)
+				for w in choices:
+					target_dict['val2id'][i][w] = self.n_dim
+					target_dict['id2val'][i][self.n_dim] = w
+					self.n_dim += 1
+				target_dict['R'].append(self.n_dim)
+
+	def arch2feature(self, arch_dict):
+		d, e, w, r = arch_dict['d'], arch_dict['e'], arch_dict['w'], arch_dict['image_size']
+		input_stem_skip = 1 if d[0] > 0 else 0
+		d = d[1:]
+
+		feature = np.zeros(self.n_dim)
+		feature[self.r_info['val2id'][r]] = 1
+		feature[self.input_stem_d_info['val2id'][input_stem_skip]] = 1
+		for i in range(self.n_stage + 2):
+			feature[self.width_mult_info['val2id'][i][w[i]]] = 1
+
+		start_pt = 0
+		for i, base_depth in enumerate(self.base_depth_list):
+			depth = base_depth + d[i]
+			for j in range(start_pt, start_pt + depth):
+				feature[self.e_info['val2id'][j][e[j]]] = 1
+			start_pt += max(self.depth_list) + base_depth
+
+		return feature
+
+	def feature2arch(self, feature):
+		img_sz = self.r_info['id2val'][
+			int(np.argmax(feature[self.r_info['L'][0]:self.r_info['R'][0]])) + self.r_info['L'][0]
+		]
+		input_stem_skip = self.input_stem_d_info['id2val'][
+			int(np.argmax(feature[self.input_stem_d_info['L'][0]:self.input_stem_d_info['R'][0]])) +
+			self.input_stem_d_info['L'][0]
+		] * 2
+		assert img_sz in self.image_size_list
+		arch_dict = {'d': [input_stem_skip], 'e': [], 'w': [], 'image_size': img_sz}
+
+		for i in range(self.n_stage + 2):
+			arch_dict['w'].append(
+				self.width_mult_info['id2val'][i][
+					int(np.argmax(feature[self.width_mult_info['L'][i]:self.width_mult_info['R'][i]])) +
+					self.width_mult_info['L'][i]
+				]
+			)
+
+		d = 0
+		skipped = 0
+		stage_id = 0
+		for i in range(self.max_n_blocks):
+			skip = True
+			for j in range(self.e_info['L'][i], self.e_info['R'][i]):
+				if feature[j] == 1:
+					arch_dict['e'].append(self.e_info['id2val'][i][j])
+					skip = False
+					break
+			if skip:
+				arch_dict['e'].append(0)
+				skipped += 1
+			else:
+				d += 1
+
+			if i + 1 == self.max_n_blocks or (skipped + d) % \
+					(max(self.depth_list) + self.base_depth_list[stage_id]) == 0:
+				arch_dict['d'].append(d - self.base_depth_list[stage_id])
+				d, skipped = 0, 0
+				stage_id += 1
+		return arch_dict
+
+	def random_sample_arch(self):
+		return {
+			'd': [random.choice([0, 2])] + random.choices(self.depth_list, k=self.n_stage),
+			'e': random.choices(self.expand_list, k=self.max_n_blocks),
+			'w': random.choices(list(range(len(self.width_mult_list))), k=self.n_stage + 2),
+			'image_size': random.choice(self.image_size_list)
+		}
+
+	def mutate_resolution(self, arch_dict, mutate_prob):
+		if random.random() < mutate_prob:
+			arch_dict['image_size'] = random.choice(self.image_size_list)
+		return arch_dict
+
+	def mutate_arch(self, arch_dict, mutate_prob):
+		# input stem skip
+		if random.random() < mutate_prob:
+			arch_dict['d'][0] = random.choice([0, 2])
+		# depth
+		for i in range(1, len(arch_dict['d'])):
+			if random.random() < mutate_prob:
+				arch_dict['d'][i] = random.choice(self.depth_list)
+		# width_mult
+		for i in range(len(arch_dict['w'])):
+			if random.random() < mutate_prob:
+				arch_dict['w'][i] = random.choice(list(range(len(self.width_mult_list))))
+		# expand ratio
+		for i in range(len(arch_dict['e'])):
+			if random.random() < mutate_prob:
+				arch_dict['e'][i] = random.choice(self.expand_list)
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/nas/efficiency_predictor/init.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/nas/efficiency_predictor/init.py
@@ -0,0 +1,71 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+import os
+import copy
+from .latency_lookup_table import *
+
+
+class BaseEfficiencyModel:
+
+	def __init__(self, ofa_net):
+		self.ofa_net = ofa_net
+
+	def get_active_subnet_config(self, arch_dict):
+		arch_dict = copy.deepcopy(arch_dict)
+		image_size = arch_dict.pop('image_size')
+		self.ofa_net.set_active_subnet(**arch_dict)
+		active_net_config = self.ofa_net.get_active_net_config()
+		return active_net_config, image_size
+
+	def get_efficiency(self, arch_dict):
+		raise NotImplementedError
+
+
+class ProxylessNASFLOPsModel(BaseEfficiencyModel):
+
+	def get_efficiency(self, arch_dict):
+		active_net_config, image_size = self.get_active_subnet_config(arch_dict)
+		return ProxylessNASLatencyTable.count_flops_given_config(active_net_config, image_size)
+
+
+class Mbv3FLOPsModel(BaseEfficiencyModel):
+
+	def get_efficiency(self, arch_dict):
+		active_net_config, image_size = self.get_active_subnet_config(arch_dict)
+		return MBv3LatencyTable.count_flops_given_config(active_net_config, image_size)
+
+
+class ResNet50FLOPsModel(BaseEfficiencyModel):
+
+	def get_efficiency(self, arch_dict):
+		active_net_config, image_size = self.get_active_subnet_config(arch_dict)
+		return ResNet50LatencyTable.count_flops_given_config(active_net_config, image_size)
+
+class ProxylessNASLatencyModel(BaseEfficiencyModel):
+
+	def __init__(self, ofa_net, lookup_table_path_dict):
+		super(ProxylessNASLatencyModel, self).__init__(ofa_net)
+		self.latency_tables = {}
+		for image_size, path in lookup_table_path_dict.items():
+			self.latency_tables[image_size] = ProxylessNASLatencyTable(
+				local_dir='/tmp/.ofa_latency_tools/', url=os.path.join(path, '%d_lookup_table.yaml' % image_size))
+
+	def get_efficiency(self, arch_dict):
+		active_net_config, image_size = self.get_active_subnet_config(arch_dict)
+		return self.latency_tables[image_size].predict_network_latency_given_config(active_net_config, image_size)
+
+
+class Mbv3LatencyModel(BaseEfficiencyModel):
+
+	def __init__(self, ofa_net, lookup_table_path_dict):
+		super(Mbv3LatencyModel, self).__init__(ofa_net)
+		self.latency_tables = {}
+		for image_size, path in lookup_table_path_dict.items():
+			self.latency_tables[image_size] = MBv3LatencyTable(
+				local_dir='/tmp/.ofa_latency_tools/', url=os.path.join(path, '%d_lookup_table.yaml' % image_size))
+
+	def get_efficiency(self, arch_dict):
+		active_net_config, image_size = self.get_active_subnet_config(arch_dict)
+		return self.latency_tables[image_size].predict_network_latency_given_config(active_net_config, image_size)
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/nas/efficiency_predictor/latency_lookup_table.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/nas/efficiency_predictor/latency_lookup_table.py
@@ -0,0 +1,387 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+import yaml
+from ofa.utils import download_url, make_divisible, MyNetwork
+
+__all__ = ['count_conv_flop', 'ProxylessNASLatencyTable', 'MBv3LatencyTable', 'ResNet50LatencyTable']
+
+
+def count_conv_flop(out_size, in_channels, out_channels, kernel_size, groups):
+	out_h = out_w = out_size
+	delta_ops = in_channels * out_channels * kernel_size * kernel_size * out_h * out_w / groups
+	return delta_ops
+
+
+class LatencyTable(object):
+
+	def __init__(self, local_dir='~/.ofa/latency_tools/',
+	             url='https://hanlab.mit.edu/files/proxylessNAS/LatencyTools/mobile_trim.yaml'):
+		if url.startswith('http'):
+			fname = download_url(url, local_dir, overwrite=True)
+		else:
+			fname = url
+		with open(fname, 'r') as fp:
+			self.lut = yaml.load(fp)
+
+	@staticmethod
+	def repr_shape(shape):
+		if isinstance(shape, (list, tuple)):
+			return 'x'.join(str(_) for _ in shape)
+		elif isinstance(shape, str):
+			return shape
+		else:
+			return TypeError
+
+	def query(self, **kwargs):
+		raise NotImplementedError
+
+	def predict_network_latency(self, net, image_size):
+		raise NotImplementedError
+
+	def predict_network_latency_given_config(self, net_config, image_size):
+		raise NotImplementedError
+
+	@staticmethod
+	def count_flops_given_config(net_config, image_size=224):
+		raise NotImplementedError
+
+
+class ProxylessNASLatencyTable(LatencyTable):
+
+	def query(self, l_type: str, input_shape, output_shape, expand=None, ks=None, stride=None, id_skip=None):
+		"""
+		:param l_type:
+			Layer type must be one of the followings
+			1. `Conv`: The initial 3x3 conv with stride 2.
+			2. `Conv_1`: feature_mix_layer
+			3. `Logits`: All operations after `Conv_1`.
+			4. `expanded_conv`: MobileInvertedResidual
+		:param input_shape: input shape (h, w, #channels)
+		:param output_shape: output shape (h, w, #channels)
+		:param expand: expansion ratio
+		:param ks: kernel size
+		:param stride:
+		:param id_skip: indicate whether has the residual connection
+		"""
+		infos = [l_type, 'input:%s' % self.repr_shape(input_shape), 'output:%s' % self.repr_shape(output_shape), ]
+
+		if l_type in ('expanded_conv',):
+			assert None not in (expand, ks, stride, id_skip)
+			infos += ['expand:%d' % expand, 'kernel:%d' % ks, 'stride:%d' % stride, 'idskip:%d' % id_skip]
+		key = '-'.join(infos)
+		return self.lut[key]['mean']
+
+	def predict_network_latency(self, net, image_size=224):
+		predicted_latency = 0
+		# first conv
+		predicted_latency += self.query(
+			'Conv', [image_size, image_size, 3],
+			[(image_size + 1) // 2, (image_size + 1) // 2, net.first_conv.out_channels]
+		)
+		# blocks
+		fsize = (image_size + 1) // 2
+		for block in net.blocks:
+			mb_conv = block.conv
+			shortcut = block.shortcut
+
+			if mb_conv is None:
+				continue
+			if shortcut is None:
+				idskip = 0
+			else:
+				idskip = 1
+			out_fz = int((fsize - 1) / mb_conv.stride + 1)  # fsize // mb_conv.stride
+			block_latency = self.query(
+				'expanded_conv', [fsize, fsize, mb_conv.in_channels], [out_fz, out_fz, mb_conv.out_channels],
+				expand=mb_conv.expand_ratio, ks=mb_conv.kernel_size, stride=mb_conv.stride, id_skip=idskip
+			)
+			predicted_latency += block_latency
+			fsize = out_fz
+		# feature mix layer
+		predicted_latency += self.query(
+			'Conv_1', [fsize, fsize, net.feature_mix_layer.in_channels],
+			[fsize, fsize, net.feature_mix_layer.out_channels]
+		)
+		# classifier
+		predicted_latency += self.query(
+			'Logits', [fsize, fsize, net.classifier.in_features], [net.classifier.out_features]  # 1000
+		)
+		return predicted_latency
+
+	def predict_network_latency_given_config(self, net_config, image_size=224):
+		predicted_latency = 0
+		# first conv
+		predicted_latency += self.query(
+			'Conv', [image_size, image_size, 3],
+			[(image_size + 1) // 2, (image_size + 1) // 2, net_config['first_conv']['out_channels']]
+		)
+		# blocks
+		fsize = (image_size + 1) // 2
+		for block in net_config['blocks']:
+			mb_conv = block['mobile_inverted_conv'] if 'mobile_inverted_conv' in block else block['conv']
+			shortcut = block['shortcut']
+
+			if mb_conv is None:
+				continue
+			if shortcut is None:
+				idskip = 0
+			else:
+				idskip = 1
+			out_fz = int((fsize - 1) / mb_conv['stride'] + 1)
+			block_latency = self.query(
+				'expanded_conv', [fsize, fsize, mb_conv['in_channels']], [out_fz, out_fz, mb_conv['out_channels']],
+				expand=mb_conv['expand_ratio'], ks=mb_conv['kernel_size'], stride=mb_conv['stride'], id_skip=idskip
+			)
+			predicted_latency += block_latency
+			fsize = out_fz
+		# feature mix layer
+		predicted_latency += self.query(
+			'Conv_1', [fsize, fsize, net_config['feature_mix_layer']['in_channels']],
+			[fsize, fsize, net_config['feature_mix_layer']['out_channels']]
+		)
+		# classifier
+		predicted_latency += self.query(
+			'Logits', [fsize, fsize, net_config['classifier']['in_features']],
+			[net_config['classifier']['out_features']]  # 1000
+		)
+		return predicted_latency
+
+	@staticmethod
+	def count_flops_given_config(net_config, image_size=224):
+		flops = 0
+		# first conv
+		flops += count_conv_flop((image_size + 1) // 2, 3, net_config['first_conv']['out_channels'], 3, 1)
+		# blocks
+		fsize = (image_size + 1) // 2
+		for block in net_config['blocks']:
+			mb_conv = block['mobile_inverted_conv'] if 'mobile_inverted_conv' in block else block['conv']
+			if mb_conv is None:
+				continue
+			out_fz = int((fsize - 1) / mb_conv['stride'] + 1)
+			if mb_conv['mid_channels'] is None:
+				mb_conv['mid_channels'] = round(mb_conv['in_channels'] * mb_conv['expand_ratio'])
+			if mb_conv['expand_ratio'] != 1:
+				# inverted bottleneck
+				flops += count_conv_flop(fsize, mb_conv['in_channels'], mb_conv['mid_channels'], 1, 1)
+			# depth conv
+			flops += count_conv_flop(out_fz, mb_conv['mid_channels'], mb_conv['mid_channels'],
+			                         mb_conv['kernel_size'], mb_conv['mid_channels'])
+			# point linear
+			flops += count_conv_flop(out_fz, mb_conv['mid_channels'], mb_conv['out_channels'], 1, 1)
+			fsize = out_fz
+		# feature mix layer
+		flops += count_conv_flop(fsize, net_config['feature_mix_layer']['in_channels'],
+		                         net_config['feature_mix_layer']['out_channels'], 1, 1)
+		# classifier
+		flops += count_conv_flop(1, net_config['classifier']['in_features'],
+		                         net_config['classifier']['out_features'], 1, 1)
+		return flops / 1e6  # MFLOPs
+
+
+class MBv3LatencyTable(LatencyTable):
+
+	def query(self, l_type: str, input_shape, output_shape, mid=None, ks=None, stride=None, id_skip=None,
+	          se=None, h_swish=None):
+		infos = [l_type, 'input:%s' % self.repr_shape(input_shape), 'output:%s' % self.repr_shape(output_shape), ]
+
+		if l_type in ('expanded_conv',):
+			assert None not in (mid, ks, stride, id_skip, se, h_swish)
+			infos += ['expand:%d' % mid, 'kernel:%d' % ks, 'stride:%d' % stride, 'idskip:%d' % id_skip,
+			          'se:%d' % se, 'hs:%d' % h_swish]
+		key = '-'.join(infos)
+		return self.lut[key]['mean']
+
+	def predict_network_latency(self, net, image_size=224):
+		predicted_latency = 0
+		# first conv
+		predicted_latency += self.query(
+			'Conv', [image_size, image_size, 3],
+			[(image_size + 1) // 2, (image_size + 1) // 2, net.first_conv.out_channels]
+		)
+		# blocks
+		fsize = (image_size + 1) // 2
+		for block in net.blocks:
+			mb_conv = block.conv
+			shortcut = block.shortcut
+
+			if mb_conv is None:
+				continue
+			if shortcut is None:
+				idskip = 0
+			else:
+				idskip = 1
+			out_fz = int((fsize - 1) / mb_conv.stride + 1)
+			block_latency = self.query(
+				'expanded_conv', [fsize, fsize, mb_conv.in_channels], [out_fz, out_fz, mb_conv.out_channels],
+				mid=mb_conv.depth_conv.conv.in_channels, ks=mb_conv.kernel_size, stride=mb_conv.stride, id_skip=idskip,
+				se=1 if mb_conv.use_se else 0, h_swish=1 if mb_conv.act_func == 'h_swish' else 0,
+			)
+			predicted_latency += block_latency
+			fsize = out_fz
+		# final expand layer
+		predicted_latency += self.query(
+			'Conv_1', [fsize, fsize, net.final_expand_layer.in_channels],
+			[fsize, fsize, net.final_expand_layer.out_channels],
+		)
+		# global average pooling
+		predicted_latency += self.query(
+			'AvgPool2D', [fsize, fsize, net.final_expand_layer.out_channels],
+			[1, 1, net.final_expand_layer.out_channels],
+		)
+		# feature mix layer
+		predicted_latency += self.query(
+			'Conv_2', [1, 1, net.feature_mix_layer.in_channels],
+			[1, 1, net.feature_mix_layer.out_channels]
+		)
+		# classifier
+		predicted_latency += self.query(
+			'Logits', [1, 1, net.classifier.in_features], [net.classifier.out_features]
+		)
+		return predicted_latency
+
+	def predict_network_latency_given_config(self, net_config, image_size=224):
+		predicted_latency = 0
+		# first conv
+		predicted_latency += self.query(
+			'Conv', [image_size, image_size, 3],
+			[(image_size + 1) // 2, (image_size + 1) // 2, net_config['first_conv']['out_channels']]
+		)
+		# blocks
+		fsize = (image_size + 1) // 2
+		for block in net_config['blocks']:
+			mb_conv = block['mobile_inverted_conv'] if 'mobile_inverted_conv' in block else block['conv']
+			shortcut = block['shortcut']
+
+			if mb_conv is None:
+				continue
+			if shortcut is None:
+				idskip = 0
+			else:
+				idskip = 1
+			out_fz = int((fsize - 1) / mb_conv['stride'] + 1)
+			if mb_conv['mid_channels'] is None:
+				mb_conv['mid_channels'] = round(mb_conv['in_channels'] * mb_conv['expand_ratio'])
+			block_latency = self.query(
+				'expanded_conv', [fsize, fsize, mb_conv['in_channels']], [out_fz, out_fz, mb_conv['out_channels']],
+				mid=mb_conv['mid_channels'], ks=mb_conv['kernel_size'], stride=mb_conv['stride'], id_skip=idskip,
+				se=1 if mb_conv['use_se'] else 0, h_swish=1 if mb_conv['act_func'] == 'h_swish' else 0,
+			)
+			predicted_latency += block_latency
+			fsize = out_fz
+		# final expand layer
+		predicted_latency += self.query(
+			'Conv_1', [fsize, fsize, net_config['final_expand_layer']['in_channels']],
+			[fsize, fsize, net_config['final_expand_layer']['out_channels']],
+		)
+		# global average pooling
+		predicted_latency += self.query(
+			'AvgPool2D', [fsize, fsize, net_config['final_expand_layer']['out_channels']],
+			[1, 1, net_config['final_expand_layer']['out_channels']],
+		)
+		# feature mix layer
+		predicted_latency += self.query(
+			'Conv_2', [1, 1, net_config['feature_mix_layer']['in_channels']],
+			[1, 1, net_config['feature_mix_layer']['out_channels']]
+		)
+		# classifier
+		predicted_latency += self.query(
+			'Logits', [1, 1, net_config['classifier']['in_features']], [net_config['classifier']['out_features']]
+		)
+		return predicted_latency
+
+	@staticmethod
+	def count_flops_given_config(net_config, image_size=224):
+		flops = 0
+		# first conv
+		flops += count_conv_flop((image_size + 1) // 2, 3, net_config['first_conv']['out_channels'], 3, 1)
+		# blocks
+		fsize = (image_size + 1) // 2
+		for block in net_config['blocks']:
+			mb_conv = block['mobile_inverted_conv'] if 'mobile_inverted_conv' in block else block['conv']
+			if mb_conv is None:
+				continue
+			out_fz = int((fsize - 1) / mb_conv['stride'] + 1)
+			if mb_conv['mid_channels'] is None:
+				mb_conv['mid_channels'] = round(mb_conv['in_channels'] * mb_conv['expand_ratio'])
+			if mb_conv['expand_ratio'] != 1:
+				# inverted bottleneck
+				flops += count_conv_flop(fsize, mb_conv['in_channels'], mb_conv['mid_channels'], 1, 1)
+			# depth conv
+			flops += count_conv_flop(out_fz, mb_conv['mid_channels'], mb_conv['mid_channels'],
+			                         mb_conv['kernel_size'], mb_conv['mid_channels'])
+			if mb_conv['use_se']:
+				# SE layer
+				se_mid = make_divisible(mb_conv['mid_channels'] // 4, divisor=MyNetwork.CHANNEL_DIVISIBLE)
+				flops += count_conv_flop(1, mb_conv['mid_channels'], se_mid, 1, 1)
+				flops += count_conv_flop(1, se_mid, mb_conv['mid_channels'], 1, 1)
+			# point linear
+			flops += count_conv_flop(out_fz, mb_conv['mid_channels'], mb_conv['out_channels'], 1, 1)
+			fsize = out_fz
+		# final expand layer
+		flops += count_conv_flop(fsize, net_config['final_expand_layer']['in_channels'],
+		                         net_config['final_expand_layer']['out_channels'], 1, 1)
+		# feature mix layer
+		flops += count_conv_flop(1, net_config['feature_mix_layer']['in_channels'],
+		                         net_config['feature_mix_layer']['out_channels'], 1, 1)
+		# classifier
+		flops += count_conv_flop(1, net_config['classifier']['in_features'],
+		                         net_config['classifier']['out_features'], 1, 1)
+		return flops / 1e6  # MFLOPs
+
+
+class ResNet50LatencyTable(LatencyTable):
+
+	def query(self, **kwargs):
+		raise NotImplementedError
+
+	def predict_network_latency(self, net, image_size):
+		raise NotImplementedError
+
+	def predict_network_latency_given_config(self, net_config, image_size):
+		raise NotImplementedError
+
+	@staticmethod
+	def count_flops_given_config(net_config, image_size=224):
+		flops = 0
+		# input stem
+		for layer_config in net_config['input_stem']:
+			if layer_config['name'] != 'ConvLayer':
+				layer_config = layer_config['conv']
+			in_channel = layer_config['in_channels']
+			out_channel = layer_config['out_channels']
+			out_image_size = int((image_size - 1) / layer_config['stride'] + 1)
+
+			flops += count_conv_flop(out_image_size, in_channel, out_channel,
+			                         layer_config['kernel_size'], layer_config.get('groups', 1))
+			image_size = out_image_size
+		# max pooling
+		image_size = int((image_size - 1) / 2 + 1)
+		# ResNetBottleneckBlocks
+		for block_config in net_config['blocks']:
+			in_channel = block_config['in_channels']
+			out_channel = block_config['out_channels']
+
+			out_image_size = int((image_size - 1) / block_config['stride'] + 1)
+			mid_channel = block_config['mid_channels'] if block_config['mid_channels'] is not None \
+				else round(out_channel * block_config['expand_ratio'])
+			mid_channel = make_divisible(mid_channel, MyNetwork.CHANNEL_DIVISIBLE)
+
+			# conv1
+			flops += count_conv_flop(image_size, in_channel, mid_channel, 1, 1)
+			# conv2
+			flops += count_conv_flop(out_image_size, mid_channel, mid_channel,
+			                         block_config['kernel_size'], block_config['groups'])
+			# conv3
+			flops += count_conv_flop(out_image_size, mid_channel, out_channel, 1, 1)
+			# downsample
+			if block_config['stride'] == 1 and in_channel == out_channel:
+				pass
+			else:
+				flops += count_conv_flop(out_image_size, in_channel, out_channel, 1, 1)
+			image_size = out_image_size
+		# final classifier
+		flops += count_conv_flop(1, net_config['classifier']['in_features'],
+		                         net_config['classifier']['out_features'], 1, 1)
+		return flops / 1e6  # MFLOPs
--- a/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/nas/search_algorithm/init.py
+++ b/MobileNetV3/main_exp/transfer_nag_lib/MetaD2A_mobilenetV3/ofa_local/nas/search_algorithm/init.py
@@ -0,0 +1,5 @@
+# Once for All: Train One Network and Specialize it for Efficient Deployment
+# Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, Song Han
+# International Conference on Learning Representations (ICLR), 2020.
+
+from .evolution import *
--- a/Show More
+++ b/Show More
				`@@ -0,0 +1 @@`
				`from .evaluator import get_stats_eval, get_nn_eval`