sql-machine-learning
diff --git a/‎go/codegen/pai/template_tf.go
Lines changed: 1 addition & 0 deletions b/‎go/codegen/pai/template_tf.go
Lines changed: 1 addition & 0 deletions
diff --git a/‎python/runtime/alisa/submitter.py
Lines changed: 3 additions & 3 deletions b/‎python/runtime/alisa/submitter.py
Lines changed: 3 additions & 3 deletions
diff --git a/‎python/runtime/local/submitter.py
Lines changed: 40 additions & 3 deletions b/‎python/runtime/local/submitter.py
Lines changed: 40 additions & 3 deletions
diff --git a/‎python/runtime/local/submitter_test.py
Lines changed: 35 additions & 8 deletions b/‎python/runtime/local/submitter_test.py
Lines changed: 35 additions & 8 deletions
diff --git a/‎python/runtime/pai/create_result_table.py
Lines changed: 0 additions & 56 deletions b/‎python/runtime/pai/create_result_table.py
Lines changed: 0 additions & 56 deletions
diff --git a/‎python/runtime/pai/submitter_evaluate.py
Lines changed: 13 additions & 1 deletion b/‎python/runtime/pai/submitter_evaluate.py
Lines changed: 13 additions & 1 deletion
diff --git a/‎python/runtime/pai/submitter_explain.py
Lines changed: 16 additions & 3 deletions b/‎python/runtime/pai/submitter_explain.py
Lines changed: 16 additions & 3 deletions
diff --git a/‎python/runtime/pai/submitter_predict.py
Lines changed: 12 additions & 1 deletion b/‎python/runtime/pai/submitter_predict.py
Lines changed: 12 additions & 1 deletion
@@ -93,6 +93,7 @@ oss.load_dir("{{.OSSModelDir}}/model_save")
 // install sklearn-pandas==1.8.0 to fix deps for sklearn2pmml with Python2 on PAI.
 const paiRequirementsTmplText = `
 adanet==0.8.0
+dill==0.3.0
 numpy==1.16.2
 pandas==0.24.2
 plotille==3.7
 
@@ -22,7 +22,6 @@
 from runtime.pai.submitter import (ENTRY_FILE, JOB_ARCHIVE_FILE, PARAMS_FILE,
                                    clean_oss_model_path,
                                    create_evaluate_result_table,
-                                   create_explain_result_table,
                                    create_predict_result_table,
                                    create_tmp_table_from_select,
                                    create_train_and_eval_tmp_table,
@@ -303,8 +302,9 @@ def submit_alisa_explain(datasource, select, result_table, model_name,
 
     label_column = model_params.get("label_col")
     params["label_column"] = label_column
-    create_explain_result_table(datasource, data_table, result_table,
-                                model_type, estimator, label_column)
+    # FIXME(typhoonzero): Add this back using runtime.step.create_result_table
+    # create_explain_result_table(datasource, data_table, result_table,
+    #                             model_type, estimator, label_column)
 
     setup_explain_entry(params, model_type)
     prepare_archive(cwd, estimator, oss_model_path, params)
 
@@ -13,11 +13,16 @@
 
 from runtime import db
 from runtime.dbapi import table_writer
-from runtime.feature.derivation import infer_feature_columns
+from runtime.feature.derivation import (get_ordered_field_descs,
+                                        infer_feature_columns)
 from runtime.model.db import read_metadata_from_db
 from runtime.model.model import EstimatorType, Model
+from runtime.step.create_result_table import (create_evaluate_table,
+                                              create_explain_table,
+                                              create_predict_table)
 from runtime.step.tensorflow.evaluate import evaluate_step as tf_evaluate
 from runtime.step.tensorflow.explain import explain_step as tf_explain
+from runtime.step.tensorflow.explain import print_image_as_base64_html
 from runtime.step.tensorflow.predict import predict_step as tf_pred
 from runtime.step.tensorflow.train import train_step as tf_train
 from runtime.step.xgboost.evaluate import evaluate as xgboost_evaluate
@@ -114,10 +119,20 @@ def submit_local_pred(datasource,
     else:
         pred_func = tf_pred
 
+    conn = db.connect_with_data_source(datasource)
+    if model.get_meta("label") is None:
+        train_label_desc = None
+    else:
+        train_label_desc = model.get_meta("label").get_field_desc()[0]
+    result_column_names, train_label_idx = create_predict_table(
+        conn, select, result_table, train_label_desc, label_name)
+    conn.close()
+
     pred_func(datasource=datasource,
               select=select,
               result_table=result_table,
-              label_name=label_name,
+              result_column_names=result_column_names,
+              train_label_idx=train_label_idx,
               model=model)
 
 
@@ -132,15 +147,25 @@ def submit_local_evaluate(datasource,
     model = Model.load_from_db(datasource, model)
     if model.get_type() == EstimatorType.XGBOOST:
         evaluate_func = xgboost_evaluate
+        validation_metrics = model_params.get("validation.metrics",
+                                              "accuracy_score")
     else:
         evaluate_func = tf_evaluate
+        validation_metrics = model_params.get("validation.metrics", "Accuracy")
+
+    conn = db.connect_with_data_source(datasource)
+    validation_metrics = [m.strip() for m in validation_metrics.split(",")]
+    result_column_names = create_evaluate_table(conn, result_table,
+                                                validation_metrics)
+    conn.close()
 
     evaluate_func(datasource=datasource,
                   select=select,
                   result_table=result_table,
                   model=model,
                   label_name=label_name,
-                  model_params=model_params)
+                  model_params=model_params,
+                  result_column_names=result_column_names)
 
 
 def submit_local_explain(datasource,
@@ -157,12 +182,24 @@ def submit_local_explain(datasource,
     else:
         explain_func = tf_explain
 
+    if result_table:
+        feature_columns = model.get_meta("features")
+        estimator_string = model.get_meta("class_name")
+        field_descs = get_ordered_field_descs(feature_columns)
+        feature_column_names = [fd.name for fd in field_descs]
+        with db.connect_with_data_source(datasource) as conn:
+            create_explain_table(conn, model.get_type(), explainer,
+                                 estimator_string, result_table,
+                                 feature_column_names)
+
     explain_func(datasource=datasource,
                  select=select,
                  explainer=explainer,
                  model_params=model_params,
                  result_table=result_table,
                  model=model)
+    if not result_table:
+        print_image_as_base64_html("summary.png")
 
 
 def submit_local_run(datasource, select, image_name, params, into):
 
@@ -13,10 +13,11 @@
 
 import unittest
 
+import runtime.temp_file as temp_file
 import runtime.testing as testing
 from runtime.feature.column import NumericColumn
 from runtime.feature.field_desc import FieldDesc
-from runtime.local import train
+from runtime.local import evaluate, explain, pred, train
 
 
 class TestXGBoostTrain(unittest.TestCase):
@@ -39,13 +40,39 @@ def test_train(self):
             "num_boost_round": 20,
         }
         model_params = {"num_class": 3, "objective": "multi:softmax"}
-        eval_result = train(ds, original_sql, select, val_select,
-                            "xgboost.gbtree", "", None,
-                            NumericColumn(FieldDesc(name="class")),
-                            model_params, train_params, None,
-                            "iris.xgboost_train_model_test", None)
-        self.assertLess(eval_result['train']['merror'][-1], 0.01)
-        self.assertLess(eval_result['validate']['merror'][-1], 0.01)
+        with temp_file.TemporaryDirectory(as_cwd=True):
+            eval_result = train(ds, original_sql, select, val_select,
+                                "xgboost.gbtree", "", None,
+                                NumericColumn(FieldDesc(name="class")),
+                                model_params, train_params, None,
+                                "iris.xgboost_train_model_test", None)
+            self.assertLess(eval_result['train']['merror'][-1], 0.01)
+            self.assertLess(eval_result['validate']['merror'][-1], 0.01)
+
+        with temp_file.TemporaryDirectory(as_cwd=True):
+            pred_original_sql = """SELECT * FROM iris.test
+            TO PREDICT iris.xgboost_pred_result.pred_val
+            USING iris.xgboost_train_model_test;"""
+            pred(ds, pred_original_sql, "SELECT * FROM iris.test",
+                 "iris.xgboost_train_model_test", "pred_val", model_params,
+                 "iris.xgboost_pred_result")
+
+        with temp_file.TemporaryDirectory(as_cwd=True):
+            explain_original_sql = """SELECT * FROM iris.test
+            TO EXPLAIN iris.xgboost_train_model_test
+            INTO iris.xgboost_explain_result;"""
+            explain(ds, explain_original_sql, "SELECT * FROM iris.test",
+                    "iris.xgboost_train_model_test", model_params,
+                    "iris.xgboost_explain_result")
+
+        with temp_file.TemporaryDirectory(as_cwd=True):
+            evaluate_original_sql = """SELECT * FROM iris.test
+            TO EVALUATE iris.xgboost_train_model_test
+            WITH label_col=class
+            INTO iris.xgboost_evaluate_result;"""
+            evaluate(ds, evaluate_original_sql, "SELECT * FROM iris.test",
+                     "class", "iris.xgboost_train_model_test", model_params,
+                     "iris.xgboost_evaluate_result")
 
 
 if __name__ == '__main__':
 
@@ -12,7 +12,6 @@
 # limitations under the License.
 
 from runtime import db
-from runtime.diagnostics import SQLFlowDiagnostic
 from runtime.model import EstimatorType
 from runtime.pai import table_ops
 
@@ -58,61 +57,6 @@ def create_predict_result_table(datasource, select, result_table, label_column,
             (result_table, train_label_column))
 
 
-# (TODO: lhw) This function is a common tool for prediction
-# on all platforms, we need to move it to a new file
-def create_explain_result_table(datasource, data_table, result_table,
-                                model_type, estimator, label_column):
-    """Create explain result table from given datasource
-
-    Args:
-        datasource: current datasource
-        data_table: input data table name
-        result_table: table name to store the result
-        model_type: type of the model to use
-        estimator: estimator class if the model is TensorFlow estimator
-        label_column: column name of the predict label
-    """
-    conn = db.connect_with_data_source(datasource)
-    drop_stmt = "DROP TABLE IF EXISTS %s" % result_table
-    conn.execute(drop_stmt)
-
-    create_stmt = ""
-    if model_type == EstimatorType.PAIML:
-        return
-    elif model_type == EstimatorType.TENSORFLOW:
-        if estimator.startswith("BoostedTrees"):
-            column_def = ""
-            if conn.driver == "mysql":
-                column_def = "(feature VARCHAR(255), dfc FLOAT, gain FLOAT)"
-            else:
-                # Hive & MaxCompute
-                column_def = "(feature STRING, dfc STRING, gain STRING)"
-            create_stmt = "CREATE TABLE IF NOT EXISTS %s %s;" % (result_table,
-                                                                 column_def)
-        else:
-            if not label_column:
-                raise SQLFlowDiagnostic(
-                    "need to specify WITH label_col=lable_col_name "
-                    "when explaining deep models")
-            create_stmt = get_create_shap_result_sql(conn, data_table,
-                                                     result_table,
-                                                     label_column)
-    elif model_type == EstimatorType.XGBOOST:
-        if not label_column:
-            raise SQLFlowDiagnostic(
-                "need to specify WITH label_col=lable_col_name "
-                "when explaining xgboost models")
-        create_stmt = get_create_shap_result_sql(conn, data_table,
-                                                 result_table, label_column)
-    else:
-        raise SQLFlowDiagnostic(
-            "not supported modelType %d for creating Explain result table" %
-            model_type)
-
-    if not conn.execute(create_stmt):
-        raise SQLFlowDiagnostic("Can't create explain result table")
-
-
 def get_create_shap_result_sql(conn, data_table, result_table, label_column):
     """Get a sql statement which create a result table for SHAP
 
 
@@ -14,6 +14,7 @@
 import os
 
 import runtime.temp_file as temp_file
+from runtime import db
 from runtime.diagnostics import SQLFlowDiagnostic
 from runtime.model import EstimatorType
 from runtime.pai import cluster_conf, pai_model, table_ops
@@ -22,6 +23,7 @@
 from runtime.pai.prepare_archive import prepare_archive
 from runtime.pai.submit_pai_task import submit_pai_task
 from runtime.pai_local.try_run import try_pai_local_run
+from runtime.step.create_result_table import create_evaluate_table
 
 
 def submit_pai_evaluate(datasource,
@@ -72,12 +74,22 @@ def submit_pai_evaluate(datasource,
 
     if model_type == EstimatorType.XGBOOST:
         params["entry_type"] = "evaluate_xgb"
+        validation_metrics = model_params.get("validation.metrics",
+                                              "accuracy_score")
     else:
         params["entry_type"] = "evaluate_tf"
+        validation_metrics = model_params.get("validation.metrics", "Accuracy")
+
+    conn = db.connect_with_data_source(datasource)
+    validation_metrics = [m.strip() for m in validation_metrics.split(",")]
+    result_column_names = create_evaluate_table(conn, result_table,
+                                                validation_metrics)
+    conn.close()
 
-    # create_evaluate_result_table(datasource, result_table, metrics)
     with table_ops.create_tmp_tables_guard(select, datasource) as data_table:
         params["pai_table"] = data_table
+        params["oss_model_path"] = oss_model_path
+        params["result_column_names"] = result_column_names
 
         if try_pai_local_run(params, oss_model_path):
             return
 
@@ -18,6 +18,7 @@
 import runtime.temp_file as temp_file
 from runtime import db
 from runtime.diagnostics import SQLFlowDiagnostic
+from runtime.feature.derivation import get_ordered_field_descs
 from runtime.model import EstimatorType
 from runtime.model.model import Model
 from runtime.pai import cluster_conf, pai_model, table_ops
@@ -26,6 +27,7 @@
 from runtime.pai.prepare_archive import prepare_archive
 from runtime.pai.submit_pai_task import submit_pai_task
 from runtime.pai_local.try_run import try_pai_local_run
+from runtime.step.create_result_table import create_explain_table
 from runtime.step.tensorflow.explain import print_image_as_base64_html
 
 
@@ -192,19 +194,30 @@ def submit_pai_explain(datasource,
     # is like: "SELECT fields,... FROM table"
     with table_ops.create_tmp_tables_guard(select, datasource) as data_table:
         params["pai_table"] = data_table
+        params["oss_model_path"] = oss_model_path
+
+        # Create explain result table
+        if result_table:
+            conn = db.connect_with_data_source(datasource)
+            feature_columns = meta.get_meta("features")
+            estimator_string = meta.get_meta("class_name")
+            field_descs = get_ordered_field_descs(feature_columns)
+            feature_column_names = [fd.name for fd in field_descs]
+            create_explain_table(conn, meta.get_type(), explainer,
+                                 estimator_string, result_table,
+                                 feature_column_names)
+            conn.close()
 
         if not try_pai_local_run(params, oss_model_path):
             with temp_file.TemporaryDirectory(prefix="sqlflow",
                                               dir="/tmp") as cwd:
                 prepare_archive(cwd, estimator, oss_model_path, params)
-
                 cmd = get_pai_explain_cmd(
                     datasource, project, oss_model_path, model, data_table,
                     result_table, model_type, model_params,
                     "file://" + os.path.join(cwd, JOB_ARCHIVE_FILE),
                     "file://" + os.path.join(cwd, PARAMS_FILE), label_name)
-
-            submit_pai_task(cmd, datasource)
+                submit_pai_task(cmd, datasource)
 
     print_oss_image(params["oss_dest"], params["oss_ak"], params["oss_sk"],
                     params["oss_endpoint"], params["oss_bucket_name"])
@@ -16,13 +16,14 @@
 import runtime.temp_file as temp_file
 from runtime import db
 from runtime.diagnostics import SQLFlowDiagnostic
-from runtime.model import EstimatorType
+from runtime.model import EstimatorType, oss
 from runtime.pai import cluster_conf, pai_model, table_ops
 from runtime.pai.get_pai_tf_cmd import (ENTRY_FILE, JOB_ARCHIVE_FILE,
                                         PARAMS_FILE, get_pai_tf_cmd)
 from runtime.pai.prepare_archive import prepare_archive
 from runtime.pai.submit_pai_task import submit_pai_task
 from runtime.pai_local.try_run import try_pai_local_run
+from runtime.step.create_result_table import create_predict_table
 
 
 def get_pai_predict_cmd(datasource, project, oss_model_path, model_name,
@@ -122,16 +123,26 @@ def submit_pai_predict(datasource,
             datasource, model)
     setup_predict_entry(params, model_type)
 
+    # TODO(typhoonzero): load model meta from database.
     oss_model_path = pai_model.get_oss_model_save_path(datasource,
                                                        model,
                                                        user=user)
+    model_metas = oss.load_metas(oss_model_path, "xgboost_model_desc")
+    train_label_desc = model_metas[5].get_field_desc()[0]
+    conn = db.connect_with_data_source(datasource)
+    result_column_names, train_label_idx = create_predict_table(
+        conn, select, result_table, train_label_desc, label_name)
+    conn.close()
 
     # TODO(typhoonzero): Do **NOT** create tmp table when the select statement
     # is like: "SELECT fields,... FROM table"
     with table_ops.create_tmp_tables_guard(select, datasource) as data_table:
+        del params["label_name"]
         params["pai_table"] = data_table
         params["oss_model_path"] = oss_model_path
         params["model"] = ""
+        params["result_column_names"] = result_column_names
+        params["train_label_idx"] = train_label_idx
 
         if try_pai_local_run(params, oss_model_path):
             return