Initial Unit Test for the Bruteforce CSA utilities

CesarAugusto14 · CesarAugusto14 · commit 9cf224177c13 · 2025-02-07T12:14:41.000-08:00
diff --git a/.github/workflows/bruteforce_csa_workflow.yml b/.github/workflows/bruteforce_csa_workflow.yml
@@ -0,0 +1,15 @@
+name: IMPROVE UnitTest Bruteforce CSA workflow
+on: [push]
+jobs:
+  test:
+    runs-on: ubuntu-latest
+    steps:
+      - uses: actions/checkout@v4
+      - name: Install and check
+        run: |
+          pip install -e .
+          python -c "import improvelib; print(improvelib.__version__)"
+          export PYTHONPATH=$PYTHONPATH:.
+          cd tests
+          wget --cut-dirs=8 -P ./ -nH -np -m https://web.cels.anl.gov/projects/IMPROVE_FTP/candle/public/improve/benchmarks/single_drug_drp/benchmark-data-pilot1/csa_data/
+          python test_bruteforce_csa.py
diff --git a/.vscode/settings.json b/.vscode/settings.json
@@ -0,0 +1,11 @@
+{
+    "python.testing.unittestArgs": [
+        "-v",
+        "-s",
+        "./tests",
+        "-p",
+        "test_*.py"
+    ],
+    "python.testing.pytestEnabled": false,
+    "python.testing.unittestEnabled": true
+}
diff --git a/param_log_file.txt b/param_log_file.txt
@@ -0,0 +1 @@
+{'input_dir': './', 'output_dir': './', 'log_level': 'WARNING', 'config_file': None, 'param_log_file': 'param_log_file.txt', 'data_format': '.parquet', 'model_file_name': 'test_model', 'model_file_format': '.pt', 'epochs': 7, 'learning_rate': 7, 'batch_size': 7, 'val_batch': 64, 'loss': 'mse', 'early_stop_metric': 'mse', 'patience': 20, 'metric_type': 'regression', 'y_col_name': 'auc', 'train_test_var': 10, 'split': [0], 'only_cross_study': False, 'study_number': 1, 'train_percent': 0.8, 'variable_name': ''}
diff --git a/tests/csa_bruteforce_params.ini b/tests/csa_bruteforce_params.ini
@@ -0,0 +1,49 @@
+[DEFAULT]
+input_dir = ./csa_data/raw_data
+y_col_name = auc
+only_cross_study = False
+uses_cuda_name = True
+model_name = GraphDRP
+model_scripts_dir = ../../GraphDRP
+epochs = 5
+
+; # Optional parameters, uncomment if your script requires these
+; cuda_name = cuda:7
+; input_supp_data_dir = ./author_data
+
+
+# Full-scale CSA
+; output_dir = ./parsl_csa_exp
+; source_datasets = ["CCLE","CTRPv2","gCSI","GDSCv1","GDSCv2"]
+; target_datasets = ["CCLE","CTRPv2","gCSI","GDSCv1","GDSCv2"]
+; split = ["0","1","2","3","4","5","6","7","8","9"]
+
+# Exp 1a
+csa_outdir = ./run_csa_full
+source_datasets = ["CCLE", "gCSI"]
+target_datasets = ["CCLE", "gCSI"]
+split_nums = ["0","1","2","3"]
+
+; # Exp 1b
+; csa_outdir = ./bruteforce_exp_1b
+; source_datasets = ["gCSI", "CCLE"]
+; target_datasets = ["gCSI", "CCLE"]
+; split_nums = ["0","1","2","3"]
+
+; # Exp 2
+; csa_outdir = ./bruteforce_exp_2
+; source_datasets = ["CCLE", "gCSI", "GDSCv2"]
+; target_datasets = ["CCLE", "gCSI", "GDSCv2"]
+; split_nums = ["0","1"]
+
+# Exp full-scale
+; csa_outdir = ./bruteforce_exp_fullscale
+; source_datasets = ["CCLE", "CTRPv2", "gCSI", "GDSCv1", "GDSCv2"]
+; target_datasets = ["CCLE", "CTRPv2", "gCSI", "GDSCv1", "GDSCv2"]
+; split_nums = ["0","1","2","3","4","5","6","7","8","9"]
+
+[Preprocess]
+
+[Train]
+
+[Infer]
diff --git a/tests/csa_bruteforce_params_def.py b/tests/csa_bruteforce_params_def.py
@@ -0,0 +1,64 @@
+import sys
+from pathlib import Path
+
+from improvelib.utils import str2bool
+
+# Global variables
+filepath = Path(__file__).resolve().parent  # [Req]
+
+csa_bruteforce_params = [
+    {"name": "cuda_name",
+     "type": str,
+     "default": "cuda:0",
+     "help": "Cuda device name.",
+    },
+    {"name": "csa_outdir",
+     "type": str,
+     "default": "./run.csa.full",
+     "help": "Outdir for workflow.",
+    },
+    {"name": "source_datasets",
+     "nargs" : "+",
+     "type": str,
+     "default": ['CCLE'],
+     "help": "source_datasets for cross study analysis"
+    },
+    {"name": "target_datasets",
+     "nargs" : "+",
+     "type": str,
+     "default": ["CCLE", "gCSI"],
+     "help": "target_datasets for cross study analysis"
+    },
+    {"name": "split_nums",
+     "nargs" : "+",
+     "type": str,
+     "default": ['0'],
+     "help": "Split of the source datasets for CSA"
+    },
+    {"name": "only_cross_study",
+     "type": str2bool,
+     "default": False,
+     "help": "If only cross study analysis is needed"
+    },
+    {"name": "model_name",
+     "type": str,
+     "default": 'graphdrp', ## Change the default to LGBM??
+     "help": "Name of the deep learning model"
+    },
+    {"name": "epochs",
+     "type": int,
+     "default": 10,
+     "help": "Number of epochs"
+    },
+    {"name": "uses_cuda_name",
+     "type": str2bool,
+     "default": True,
+     "help": "Change to false if the model doesn't have a cuda_name parameter."
+    },
+    {"name": "model_scripts_dir",
+     "type": str,
+     "default": './', 
+     "help": "Path to the model repository"
+    },
+    
+]
diff --git a/tests/csa_test.py b/tests/csa_test.py
@@ -0,0 +1,42 @@
+"""
+Unit tests for the bruteforce_csa workflow. 
+
+"""
+
+import unittest
+import sys
+import os
+
+# Importing params definitions:
+from csa_bruteforce_params_def import csa_bruteforce_params
+from improvelib.applications.drug_response_prediction.config import DRPPreprocessConfig
+from pathlib import Path
+filepath = Path(__file__).resolve().parent
+
+csa_bruteforce_params = csa_bruteforce_params
+config_file = 'csa_bruteforce_params.ini'
+
+# Load config csa_bruteforce_params.ini
+cfg = DRPPreprocessConfig()
+params = cfg.initialize_parameters(
+    pathToModelDir=filepath,
+    default_config="csa_bruteforce_params.ini",
+    additional_definitions=csa_bruteforce_params,
+    required=None
+)
+
+class Bruteforce_CSA_test(unittest.TestCase):
+    def test_params(self):
+        self.assertEqual(params['cuda_name'], 'cuda:0')
+        self.assertEqual(params['csa_outdir'], './run_csa_full')
+        self.assertEqual(params['source_datasets'], ['CCLE', 'gCSI'])
+        self.assertEqual(params['target_datasets'], ['CCLE', 'gCSI'])
+        self.assertEqual(params['split_nums'], ["0","1","2","3"])
+        self.assertEqual(params['only_cross_study'], False)
+        self.assertEqual(params['model_name'], 'GraphDRP')
+        self.assertEqual(params['epochs'], 5)
+        self.assertEqual(params['uses_cuda_name'], True)
+        # self.assertEqual(params['model_scripts_dir'], './')
+        
+if __name__ == '__main__':
+    unittest.main()
diff --git a/tests/param_log_file.txt b/tests/param_log_file.txt
@@ -0,0 +1 @@
+{'input_dir': './csa_data/raw_data', 'output_dir': './', 'log_level': 'WARNING', 'config_file': None, 'param_log_file': 'param_log_file.txt', 'data_format': '.parquet', 'x_data_dir': 'x_data', 'y_data_dir': 'y_data', 'splits_dir': 'splits', 'train_split_file': 'fake', 'val_split_file': 'fake', 'test_split_file': 'fake', 'y_data_files': "[['response.tsv']]", 'x_data_canc_files': "[['cancer_gene_expression.tsv', ['Gene_Symbol']]]", 'x_data_drug_files': "[['drug_SMILES.tsv']]", 'canc_col_name': 'improve_sample_id', 'drug_col_name': 'improve_chem_id', 'y_col_name': 'auc', 'cuda_name': 'cuda:0', 'csa_outdir': './run_csa_full', 'source_datasets': ['CCLE', 'gCSI'], 'target_datasets': ['CCLE', 'gCSI'], 'split_nums': ['0', '1', '2', '3'], 'only_cross_study': False, 'model_name': 'GraphDRP', 'epochs': 5, 'uses_cuda_name': True, 'model_scripts_dir': '../../GraphDRP'}
diff --git a/workflows/bruteforce_csa/csa_bruteforce_params_def.py b/workflows/bruteforce_csa/csa_bruteforce_params_def.py
@@ -1,5 +1,11 @@
+import sys
+from pathlib import Path
+
 from improvelib.utils import str2bool
 
+# Global variables
+filepath = Path(__file__).resolve().parent  # [Req]
+
 csa_bruteforce_params = [
     {"name": "cuda_name",
      "type": str,
diff --git a/workflows/bruteforce_csa/param_log_file.txt b/workflows/bruteforce_csa/param_log_file.txt
@@ -0,0 +1 @@
+{'input_dir': './csa_data/raw_data', 'output_dir': './', 'log_level': 'WARNING', 'config_file': None, 'param_log_file': 'param_log_file.txt', 'data_format': '.parquet', 'x_data_dir': 'x_data', 'y_data_dir': 'y_data', 'splits_dir': 'splits', 'train_split_file': 'fake', 'val_split_file': 'fake', 'test_split_file': 'fake', 'y_data_files': "[['response.tsv']]", 'x_data_canc_files': "[['cancer_gene_expression.tsv', ['Gene_Symbol']]]", 'x_data_drug_files': "[['drug_SMILES.tsv']]", 'canc_col_name': 'improve_sample_id', 'drug_col_name': 'improve_chem_id', 'y_col_name': 'auc', 'cuda_name': 'cuda:0', 'csa_outdir': './bruteforce_exp_1a', 'source_datasets': ['CCLE', 'gCSI'], 'target_datasets': ['CCLE', 'gCSI'], 'split_nums': ['0', '1', '2', '3'], 'only_cross_study': False, 'model_name': 'your_model_name', 'epochs': 200, 'uses_cuda_name': False, 'model_scripts_dir': 'path_to_your_model_directory_containing_scripts'}
diff --git a/workflows/deephyper_hpo/hpo_deephyper_params_DeepCDR.ini b/workflows/deephyper_hpo/hpo_deephyper_params_DeepCDR.ini
@@ -0,0 +1,9 @@
+[HPO]
+model_scripts_dir = ../../../DeepCDR
+input_dir = exp_data/
+model_name = DeepCDR
+model_environment = deepcdr_parsl_env
+epochs = 3
+output_dir = ./test_DeepCDR
+max_evals = 5
+interactive_session = True

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	+{'input_dir': './', 'output_dir': './', 'log_level': 'WARNING', 'config_file': None, 'param_log_file': 'param_log_file.txt', 'data_format': '.parquet', 'model_file_name': 'test_model', 'model_file_format': '.pt', 'epochs': 7, 'learning_rate': 7, 'batch_size': 7, 'val_batch': 64, 'loss': 'mse', 'early_stop_metric': 'mse', 'patience': 20, 'metric_type': 'regression', 'y_col_name': 'auc', 'train_test_var': 10, 'split': [0], 'only_cross_study': False, 'study_number': 1, 'train_percent': 0.8, 'variable_name': ''}
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	+{'input_dir': './csa_data/raw_data', 'output_dir': './', 'log_level': 'WARNING', 'config_file': None, 'param_log_file': 'param_log_file.txt', 'data_format': '.parquet', 'x_data_dir': 'x_data', 'y_data_dir': 'y_data', 'splits_dir': 'splits', 'train_split_file': 'fake', 'val_split_file': 'fake', 'test_split_file': 'fake', 'y_data_files': "[['response.tsv']]", 'x_data_canc_files': "[['cancer_gene_expression.tsv', ['Gene_Symbol']]]", 'x_data_drug_files': "[['drug_SMILES.tsv']]", 'canc_col_name': 'improve_sample_id', 'drug_col_name': 'improve_chem_id', 'y_col_name': 'auc', 'cuda_name': 'cuda:0', 'csa_outdir': './run_csa_full', 'source_datasets': ['CCLE', 'gCSI'], 'target_datasets': ['CCLE', 'gCSI'], 'split_nums': ['0', '1', '2', '3'], 'only_cross_study': False, 'model_name': 'GraphDRP', 'epochs': 5, 'uses_cuda_name': True, 'model_scripts_dir': '../../GraphDRP'}