BackOrders MachineLearning: From A to Z

`Majin Buu - Sept 2017`

1 First Step
- 1.1 Load libraries and helper functions
- 1.2 Load data
- 1.3 Check the Memory Usage
- 1.4 DataType Converting
- 1.5 DateTime Parsing
2 Univariable Analysis
- 2.1 Categorical Analysis
- 2.2 Target Value analysis
  - A Review on Imbalanced Learning Methods
- 2.3 Missing Values Analysis
  - Impute Missing Values
- 2.4 Imputation
3 Model selection using evaluation metrics
- 3.1 Hierarchy of sampling-based methods
- 3.2 Cross-validation

Let’s get started.

NOTE - Please UPVOTING if you like all your support is my motivation to update the notebook.

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import plotly
import plotly.tools as tls
import plotly.plotly as py
from plotly.offline import download_plotlyjs, init_notebook_mode, plot,iplot
import plotly.graph_objs as go
init_notebook_mode(connected=True)


from sklearn.manifold import TSNE
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn import neighbors
from sklearn.neighbors import KNeighborsRegressor


import warnings
warnings.filterwarnings('ignore')

train = pd.read_csv('../input/Kaggle_Training_Dataset_v2.csv')
test = pd.read_csv('../input/Kaggle_Test_Dataset_v2.csv')

train.info(verbose=False)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1687861 entries, 0 to 1687860
Columns: 23 entries, sku to went_on_backorder
dtypes: float64(15), object(8)
memory usage: 296.2+ MB

To Reduce Memory Usage, It's necessary to do DataType Converting