Add baselines

2021-03-17 03:32:47 +00:00
parent f6cbac706f
commit e04f17116d
7 changed files with 172 additions and 22 deletions
--- a/lib/trade_models/naive_v1_model.py
+++ b/lib/trade_models/naive_v1_model.py
@@ -0,0 +1,88 @@
+##################################################
+# Copyright (c) Xuanyi Dong [GitHub D-X-Y], 2021 #
+##################################################
+from __future__ import division
+from __future__ import print_function
+
+import random
+import numpy as np
+import pandas as pd
+
+from qlib.log import get_module_logger
+
+from qlib.model.base import Model
+from qlib.data.dataset import DatasetH
+from qlib.data.dataset.handler import DataHandlerLP
+
+
+class NAIVE_V1(Model):
+    """NAIVE Version 1 Quant Model"""
+
+    def __init__(self, d_feat=6, seed=None, **kwargs):
+        # Set logger.
+        self.logger = get_module_logger("NAIVE")
+        self.logger.info("NAIVE 1st version: random noise ...")
+
+        # set hyper-parameters.
+        self.d_feat = d_feat
+        self.seed = seed
+
+        self.logger.info("NAIVE-V1 parameters setting: d_feat={:}, seed={:}".format(self.d_feat, self.seed))
+
+        if self.seed is not None:
+            random.seed(self.seed)
+            np.random.seed(self.seed)
+        self._mean = None
+        self._std = None
+        self.fitted = False
+
+    def process_data(self, features):
+        features = features.reshape(len(features), self.d_feat, -1)
+        features = features.transpose((0, 2, 1))
+        return features[:, :59, 0]
+
+    def mse(self, preds, labels):
+        masks = ~np.isnan(labels)
+        masked_preds = preds[masks]
+        masked_labels = labels[masks]
+        return np.square(masked_preds - masked_labels).mean()
+
+    def model(self, x):
+        num = len(x)
+        return np.random.normal(loc=self._mean, scale=self._std, size=num).astype(x.dtype)
+
+    def fit(self, dataset: DatasetH):
+        def _prepare_dataset(df_data):
+            features = df_data["feature"].values
+            features = self.process_data(features)
+            labels = df_data["label"].values.squeeze()
+            return dict(features=features, labels=labels)
+
+        df_train, df_valid, df_test = dataset.prepare(
+            ["train", "valid", "test"],
+            col_set=["feature", "label"],
+            data_key=DataHandlerLP.DK_L,
+        )
+        train_dataset, valid_dataset, test_dataset = (
+            _prepare_dataset(df_train),
+            _prepare_dataset(df_valid),
+            _prepare_dataset(df_test),
+        )
+        # df_train['feature']['CLOSE1'].values
+        # train_dataset['features'][:, -1]
+        masks = ~np.isnan(train_dataset["labels"])
+        self._mean, self._std = np.mean(train_dataset["labels"][masks]), np.std(train_dataset["labels"][masks])
+        train_mse_loss = self.mse(self.model(train_dataset["features"]), train_dataset["labels"])
+        valid_mse_loss = self.mse(self.model(valid_dataset["features"]), valid_dataset["labels"])
+        self.logger.info("Training MSE loss: {:}".format(train_mse_loss))
+        self.logger.info("Validation MSE loss: {:}".format(valid_mse_loss))
+        self.fitted = True
+
+    def predict(self, dataset):
+        if not self.fitted:
+            raise ValueError("The model is not fitted yet!")
+        x_test = dataset.prepare("test", col_set="feature")
+        index = x_test.index
+
+        preds = self.model(self.process_data(x_test.values))
+        return pd.Series(preds, index=index)
--- a/lib/trade_models/naive_v2_model.py
+++ b/lib/trade_models/naive_v2_model.py
@@ -17,8 +17,8 @@ from qlib.data.dataset import DatasetH
 from qlib.data.dataset.handler import DataHandlerLP


-class NAIVE(Model):
-    """NAIVE Quant Model"""
+class NAIVE_V2(Model):
+    """NAIVE Version 2 Quant Model"""

    def __init__(self, d_feat=6, seed=None, **kwargs):
        # Set logger.
@@ -29,8 +29,7 @@ class NAIVE(Model):
        self.d_feat = d_feat
        self.seed = seed

-        self.logger.info(
-            "NAIVE parameters setting: d_feat={:}, seed={:}".format(self.d_feat, self.seed))
+        self.logger.info("NAIVE parameters setting: d_feat={:}, seed={:}".format(self.d_feat, self.seed))

        if self.seed is not None:
            random.seed(self.seed)
@@ -46,7 +45,7 @@ class NAIVE(Model):
    def mse(self, preds, labels):
        masks = ~np.isnan(labels)
        masked_preds = preds[masks]
-        masked_labels= labels[masks]
+        masked_labels = labels[masks]
        return np.square(masked_preds - masked_labels).mean()

    def model(self, x):
@@ -54,17 +53,14 @@ class NAIVE(Model):
        masks = ~np.isnan(x)
        results = []
        for rowd, rowm in zip(x, masks):
-          temp = rowd[rowm]
-          if rowm.any():
-            results.append(float(rowd[rowm][-1]))
-          else:
-            results.append(0)
+            temp = rowd[rowm]
+            if rowm.any():
+                results.append(float(rowd[rowm][-1]))
+            else:
+                results.append(0)
        return np.array(results, dtype=x.dtype)

-    def fit(
-        self,
-        dataset: DatasetH
-    ):
+    def fit(self, dataset: DatasetH):
        def _prepare_dataset(df_data):
            features = df_data["feature"].values
            features = self.process_data(features)
@@ -83,8 +79,8 @@ class NAIVE(Model):
        )
        # df_train['feature']['CLOSE1'].values
        # train_dataset['features'][:, -1]
-        train_mse_loss = self.mse(self.model(train_dataset['features']), train_dataset['labels'])
-        valid_mse_loss = self.mse(self.model(valid_dataset['features']), valid_dataset['labels'])
+        train_mse_loss = self.mse(self.model(train_dataset["features"]), train_dataset["labels"])
+        valid_mse_loss = self.mse(self.model(valid_dataset["features"]), valid_dataset["labels"])
        self.logger.info("Training MSE loss: {:}".format(train_mse_loss))
        self.logger.info("Validation MSE loss: {:}".format(valid_mse_loss))
        self.fitted = True