Trending: use 2*stdev

[csit.git] / resources / tools / presentation / generator_CPTA.py
diff --git a/resources/tools/presentation/generator_CPTA.py b/resources/tools/presentation/generator_CPTA.py

index 54679a2..d72be3d 100644 (file)
--- a/resources/tools/presentation/generator_CPTA.py
+++ b/resources/tools/presentation/generator_CPTA.py
@@ -25,7 +25,7 @@ import numpy as np
  import pandas as pd
  
  from collections import OrderedDict
-from utils import find_outliers, archive_input_data, execute_command
+from utils import split_outliers, archive_input_data, execute_command
  
  
  # Command to build the html format of the report
@@ -144,51 +144,53 @@ def _select_data(in_data, period, fill_missing=False, use_first=False):
      return OrderedDict(sorted(data_dict.items(), key=lambda t: t[0]))
  
  
-def _evaluate_results(in_data, trimmed_data, window=10):
+def _evaluate_results(trimmed_data, window=10):
      """Evaluates if the sample value is regress, normal or progress compared to
      previous data within the window.
      We use the intervals defined as:
-    - regress: less than median - 3 * stdev
-    - normal: between median - 3 * stdev and median + 3 * stdev
-    - progress: more than median + 3 * stdev
+    - regress: less than trimmed moving median - 3 * stdev
+    - normal: between trimmed moving median - 3 * stdev and median + 3 * stdev
+    - progress: more than trimmed moving median + 3 * stdev
+    where stdev is trimmed moving standard deviation.
  
-    :param in_data: Full data set.
-    :param trimmed_data: Full data set without the outliers.
-    :param window: Window size used to calculate moving median and moving stdev.
-    :type in_data: pandas.Series
+    :param trimmed_data: Full data set with the outliers replaced by nan.
+    :param window: Window size used to calculate moving average and moving stdev.
      :type trimmed_data: pandas.Series
      :type window: int
      :returns: Evaluated results.
      :rtype: list
      """
  
-    if len(in_data) > 2:
-        win_size = in_data.size if in_data.size < window else window
-        results = [0.0, ] * win_size
-        median = in_data.rolling(window=win_size).median()
-        stdev_t = trimmed_data.rolling(window=win_size, min_periods=2).std()
-        m_vals = median.values
-        s_vals = stdev_t.values
-        d_vals = in_data.values
-        for day in range(win_size, in_data.size):
-            if np.isnan(m_vals[day - 1]) or np.isnan(s_vals[day - 1]):
+    if len(trimmed_data) > 2:
+        win_size = trimmed_data.size if trimmed_data.size < window else window
+        results = [0.66, ]
+        tmm = trimmed_data.rolling(window=win_size, min_periods=2).median()
+        tmstd = trimmed_data.rolling(window=win_size, min_periods=2).std()
+
+        first = True
+        for build_nr, value in trimmed_data.iteritems():
+            if first:
+                first = False
+                continue
+            if (np.isnan(value)
+                    or np.isnan(tmm[build_nr])
+                    or np.isnan(tmstd[build_nr])):
                  results.append(0.0)
-            elif d_vals[day] < (m_vals[day - 1] - 3 * s_vals[day - 1]):
+            elif value < (tmm[build_nr] - 2 * tmstd[build_nr]):
                  results.append(0.33)
-            elif (m_vals[day - 1] - 3 * s_vals[day - 1]) <= d_vals[day] <= \
-                    (m_vals[day - 1] + 3 * s_vals[day - 1]):
-                results.append(0.66)
-            else:
+            elif value > (tmm[build_nr] + 2 * tmstd[build_nr]):
                  results.append(1.0)
+            else:
+                results.append(0.66)
      else:
          results = [0.0, ]
          try:
-            median = np.median(in_data)
-            stdev = np.std(in_data)
-            if in_data.values[-1] < (median - 3 * stdev):
+            tmm = np.median(trimmed_data)
+            tmstd = np.std(trimmed_data)
+            if trimmed_data.values[-1] < (tmm - 2 * tmstd):
                  results.append(0.33)
-            elif (median - 3 * stdev) <= in_data.values[-1] <= (
-                    median + 3 * stdev):
+            elif (tmm - 2 * tmstd) <= trimmed_data.values[-1] <= (
+                    tmm + 2 * tmstd):
                  results.append(0.66)
              else:
                  results.append(1.0)
@@ -199,10 +201,10 @@ def _evaluate_results(in_data, trimmed_data, window=10):
  
  def _generate_trending_traces(in_data, build_info, period, moving_win_size=10,
                                fill_missing=True, use_first=False,
-                              show_moving_median=True, name="", color=""):
+                              show_trend_line=True, name="", color=""):
      """Generate the trending traces:
       - samples,
-     - moving median (trending plot)
+     - trimmed moving median (trending line)
       - outliers, regress, progress
  
      :param in_data: Full data set.
@@ -210,9 +212,9 @@ def _generate_trending_traces(in_data, build_info, period, moving_win_size=10,
      :param period: Sampling period.
      :param moving_win_size: Window size.
      :param fill_missing: If the chosen sample is missing in the full set, its
-    nearest neighbour is used.
+        nearest neighbour is used.
      :param use_first: Use the first sample even though it is not chosen.
-    :param show_moving_median: Show moving median (trending plot).
+    :param show_trend_line: Show moving median (trending plot).
      :param name: Name of the plot
      :param color: Name of the color for the plot.
      :type in_data: OrderedDict
@@ -221,7 +223,7 @@ def _generate_trending_traces(in_data, build_info, period, moving_win_size=10,
      :type moving_win_size: int
      :type fill_missing: bool
      :type use_first: bool
-    :type show_moving_median: bool
+    :type show_trend_line: bool
      :type name: str
      :type color: str
      :returns: Generated traces (list) and the evaluated result (float).
@@ -232,31 +234,25 @@ def _generate_trending_traces(in_data, build_info, period, moving_win_size=10,
          in_data = _select_data(in_data, period,
                                 fill_missing=fill_missing,
                                 use_first=use_first)
-    try:
-        data_x = ["{0}/{1}".format(key, build_info[str(key)][1].split("~")[-1])
-                  for key in in_data.keys()]
-    except KeyError:
-        data_x = [key for key in in_data.keys()]
-    # hover_text = ["vpp-build: {0}".format(x[1].split("~")[-1])
-    #               for x in build_info.values()]
-    # data_x = [key for key in in_data.keys()]
-
-    data_y = [val for val in in_data.values()]
-    data_pd = pd.Series(data_y, index=data_x)
  
-    t_data, outliers = find_outliers(data_pd)
+    data_x = list(in_data.keys())
+    data_y = list(in_data.values())
+
+    hover_text = list()
+    for idx in data_x:
+        hover_text.append("vpp-build: {0}".
+                          format(build_info[str(idx)][1].split("~")[-1]))
+
+    data_pd = pd.Series(data_y, index=data_x)
  
-    results = _evaluate_results(data_pd, t_data, window=moving_win_size)
+    t_data, outliers = split_outliers(data_pd, outlier_const=1.5,
+                                      window=moving_win_size)
+    results = _evaluate_results(t_data, window=moving_win_size)
  
      anomalies = pd.Series()
      anomalies_res = list()
      for idx, item in enumerate(in_data.items()):
-        item_pd = pd.Series([item[1], ],
-                            index=["{0}/{1}".
-                            format(item[0],
-                                   build_info[str(item[0])][1].split("~")[-1]),
-                                   ])
-        #item_pd = pd.Series([item[1], ], index=[item[0], ])
+        item_pd = pd.Series([item[1], ], index=[item[0], ])
          if item[0] in outliers.keys():
              anomalies = anomalies.append(item_pd)
              anomalies_res.append(0.0)
@@ -288,8 +284,8 @@ def _generate_trending_traces(in_data, build_info, period, moving_win_size=10,
              "color": color,
              "symbol": "circle",
          },
-        # text=hover_text,
-        # hoverinfo="x+y+text+name"
+        text=hover_text,
+        hoverinfo="x+y+text+name"
      )
      traces = [trace_samples, ]
  
@@ -298,9 +294,9 @@ def _generate_trending_traces(in_data, build_info, period, moving_win_size=10,
          y=anomalies.values,
          mode='markers',
          hoverinfo="none",
-        showlegend=False,
+        showlegend=True,
          legendgroup=name,
-        name="{name}: outliers".format(name=name),
+        name="{name}-anomalies".format(name=name),
          marker={
              "size": 15,
              "symbol": "circle-open",
@@ -330,12 +326,12 @@ def _generate_trending_traces(in_data, build_info, period, moving_win_size=10,
      )
      traces.append(trace_anomalies)
  
-    if show_moving_median:
-        data_mean_y = pd.Series(data_y).rolling(
-            window=moving_win_size, min_periods=2).median()
-        trace_median = plgo.Scatter(
-            x=data_x,
-            y=data_mean_y,
+    if show_trend_line:
+        data_trend = t_data.rolling(window=moving_win_size,
+                                    min_periods=2).median()
+        trace_trend = plgo.Scatter(
+            x=data_trend.keys(),
+            y=data_trend.tolist(),
              mode='lines',
              line={
                  "shape": "spline",
@@ -344,7 +340,7 @@ def _generate_trending_traces(in_data, build_info, period, moving_win_size=10,
              },
              name='{name}-trend'.format(name=name)
          )
-        traces.append(trace_median)
+        traces.append(trace_trend)
  
      return traces, results[-1]
  
@@ -387,7 +383,7 @@ def _generate_all_charts(spec, input_data):
              builds_lst.append(str(build["build"]))
  
      # Get "build ID": "date" dict:
-    build_info = dict()
+    build_info = OrderedDict()
      for build in builds_lst:
          try:
              build_info[build] = (
@@ -396,6 +392,9 @@ def _generate_all_charts(spec, input_data):
              )
          except KeyError:
              build_info[build] = ("", "")
+        logging.info("{}: {}, {}".format(build,
+                                         build_info[build][0],
+                                         build_info[build][1]))
  
      # Create the header:
      csv_table = list()
@@ -436,13 +435,14 @@ def _generate_all_charts(spec, input_data):
              tst_lst = list()
              for build in builds_lst:
                  item = tst_data.get(int(build), '')
-                tst_lst.append(str(item) if item else '')
+                tst_lst.append(str(item))
+                # tst_lst.append(str(item) if item else '')
              csv_table.append("{0},".format(tst_name) + ",".join(tst_lst) + '\n')
  
          for period in chart["periods"]:
              # Generate traces:
              traces = list()
-            win_size = 10 if period == 1 else 5 if period < 20 else 3
+            win_size = 14 if period == 1 else 5 if period < 20 else 3
              idx = 0
              for test_name, test_data in chart_data.items():
                  if not test_data: