Writing Custom Cross-Validation Methods For Grid Search in Scikit-learn

Recently I was interested in applying Blocking Time Series Split following this lovely post in a Grid Search hyper-parameter tuning setting using scikit-learn library to maintain the time order and prevent information leakage. In this post, I will try to document some knowledge that I build while reading through the articles, documentation, and blog posts about custom cross-validation generators in Python.

It is great that scikit-learn provides a class called TimeSeriesSplit, and by using that we can generate fixed time interval training and test sets. Here is a basic example using scikit-learn data generators. I generate a regression dataset with 5 features and 30 samples. Then I generate 3 splits. For those 3 splits, we obtain 10 training examples and n_samples//(n_splits + 1) test examples:


<span>import</span> <span>numpy</span> <span>as</span> <span>np</span>
<span>from</span> <span>sklearn.datasets</span> <span>import</span> <span>make_regression</span>
<span>from</span> <span>sklearn.model_selection</span> <span>import</span> <span>TimeSeriesSplit</span>
<span>X_experiment</span><span>,</span> <span>y_experiment</span> <span>=</span> <span>make_regression</span><span>(</span>
    <span>n_samples</span><span>=</span><span>30</span><span>,</span> <span>n_features</span><span>=</span><span>5</span><span>,</span> <span>noise</span><span>=</span><span>0.2</span><span>)</span>
<span>tscv</span> <span>=</span> <span>TimeSeriesSplit</span><span>(</span><span>max_train_size</span><span>=</span><span>10</span><span>,</span> <span>n_splits</span><span>=</span><span>3</span><span>)</span>
<span>for</span> <span>idx</span><span>,</span> <span>(</span><span>x</span><span>,</span> <span>y</span><span>)</span> <span>in</span> <span>enumerate</span><span>(</span><span>tscv</span><span>.</span><span>split</span><span>(</span><span>X_experiment</span><span>)):</span>
    <span>print</span><span>(</span><span>f</span><span>"</span><span>Split number: </span><span>{</span><span>idx</span><span>}</span><span>"</span><span>)</span>
    <span>print</span><span>(</span><span>f</span><span>"</span><span>Training indices: </span><span>{</span><span>x</span><span>}</span><span>"</span><span>)</span>
    <span>print</span><span>(</span><span>f</span><span>"</span><span>Test indices: </span><span>{</span><span>y</span><span>}</span><span>\n</span><span>"</span><span>)</span>
<span>import</span> <span>numpy</span> <span>as</span> <span>np</span>
<span>from</span> <span>sklearn.datasets</span> <span>import</span> <span>make_regression</span>
<span>from</span> <span>sklearn.model_selection</span> <span>import</span> <span>TimeSeriesSplit</span>

<span>X_experiment</span><span>,</span> <span>y_experiment</span> <span>=</span> <span>make_regression</span><span>(</span>
    <span>n_samples</span><span>=</span><span>30</span><span>,</span> <span>n_features</span><span>=</span><span>5</span><span>,</span> <span>noise</span><span>=</span><span>0.2</span><span>)</span>

<span>tscv</span> <span>=</span> <span>TimeSeriesSplit</span><span>(</span><span>max_train_size</span><span>=</span><span>10</span><span>,</span> <span>n_splits</span><span>=</span><span>3</span><span>)</span>

<span>for</span> <span>idx</span><span>,</span> <span>(</span><span>x</span><span>,</span> <span>y</span><span>)</span> <span>in</span> <span>enumerate</span><span>(</span><span>tscv</span><span>.</span><span>split</span><span>(</span><span>X_experiment</span><span>)):</span>
    <span>print</span><span>(</span><span>f</span><span>"</span><span>Split number: </span><span>{</span><span>idx</span><span>}</span><span>"</span><span>)</span>
    <span>print</span><span>(</span><span>f</span><span>"</span><span>Training indices: </span><span>{</span><span>x</span><span>}</span><span>"</span><span>)</span>
    <span>print</span><span>(</span><span>f</span><span>"</span><span>Test indices: </span><span>{</span><span>y</span><span>}</span><span>\n</span><span>"</span><span>)</span>
import numpy as np
from sklearn.datasets import make_regression
from sklearn.model_selection import TimeSeriesSplit

X_experiment, y_experiment = make_regression(
    n_samples=30, n_features=5, noise=0.2)

tscv = TimeSeriesSplit(max_train_size=10, n_splits=3)

for idx, (x, y) in enumerate(tscv.split(X_experiment)):
    print(f"Split number: {idx}")
    print(f"Training indices: {x}")
    print(f"Test indices: {y}\n")