bonding: fix non-null-terminated C-string
[vpp.git] / src / vnet / bonding / cli.c
index 14c52f7..604cb80 100644 (file)
@@ -20,6 +20,7 @@
 #include <vlib/unix/unix.h>
 #include <vnet/ethernet/ethernet.h>
 #include <vnet/bonding/node.h>
+#include <vpp/stats/stat_segment.h>
 
 void
 bond_disable_collecting_distributing (vlib_main_t * vm, slave_if_t * sif)
@@ -37,22 +38,101 @@ bond_disable_collecting_distributing (vlib_main_t * vm, slave_if_t * sif)
     p = *vec_elt_at_index (bif->active_slaves, i);
     if (p == sif->sw_if_index)
       {
-       /* Are we disabling the very 1st slave? */
-       if (sif->sw_if_index == *vec_elt_at_index (bif->active_slaves, 0))
+       if ((bif->mode == BOND_MODE_ACTIVE_BACKUP) && (i == 0) &&
+           (vec_len (bif->active_slaves) > 1))
+         /* deleting the active slave for active-backup */
          switching_active = 1;
-
        vec_del1 (bif->active_slaves, i);
        hash_unset (bif->active_slave_by_sw_if_index, sif->sw_if_index);
-
-       /* We got a new slave just becoming active? */
-       if ((vec_len (bif->active_slaves) >= 1) &&
-           (bif->mode == BOND_MODE_ACTIVE_BACKUP) && switching_active)
-         vlib_process_signal_event (bm->vlib_main, bond_process_node.index,
-                                    BOND_SEND_GARP_NA, bif->hw_if_index);
+       if (sif->lacp_enabled && bif->numa_only)
+         {
+           /* For lacp mode, if we check it is a slave on local numa node,
+              bif->n_numa_slaves should be decreased by 1 becasue the first
+              bif->n_numa_slaves are all slaves on local numa node */
+           if (i < bif->n_numa_slaves)
+             {
+               bif->n_numa_slaves--;
+               ASSERT (bif->n_numa_slaves >= 0);
+             }
+         }
        break;
       }
   }
+
+  /* We get a new slave just becoming active */
+  if (switching_active)
+    vlib_process_signal_event (bm->vlib_main, bond_process_node.index,
+                              BOND_SEND_GARP_NA, bif->hw_if_index);
   clib_spinlock_unlock_if_init (&bif->lockp);
+
+  if (bif->mode == BOND_MODE_LACP)
+    stat_segment_set_state_counter (bm->stats[bif->sw_if_index]
+                                   [sif->sw_if_index], sif->actor.state);
+}
+
+/*
+ * return 1 if s2 is preferred.
+ * return -1 if s1 is preferred.
+ */
+static int
+bond_slave_sort (void *a1, void *a2)
+{
+  u32 *s1 = a1;
+  u32 *s2 = a2;
+  slave_if_t *sif1 = bond_get_slave_by_sw_if_index (*s1);
+  slave_if_t *sif2 = bond_get_slave_by_sw_if_index (*s2);
+  bond_if_t *bif;
+
+  ASSERT (sif1);
+  ASSERT (sif2);
+  /*
+   * sort entries according to preference rules:
+   * 1. biggest weight
+   * 2. numa-node
+   * 3. current active slave (to prevent churning)
+   * 4. lowest sw_if_index (for deterministic behavior)
+   *
+   */
+  if (sif2->weight > sif1->weight)
+    return 1;
+  if (sif2->weight < sif1->weight)
+    return -1;
+  else
+    {
+      if (sif2->is_local_numa > sif1->is_local_numa)
+       return 1;
+      if (sif2->is_local_numa < sif1->is_local_numa)
+       return -1;
+      else
+       {
+         bif = bond_get_master_by_dev_instance (sif1->bif_dev_instance);
+         /* Favor the current active slave to avoid churning */
+         if (bif->active_slaves[0] == sif2->sw_if_index)
+           return 1;
+         if (bif->active_slaves[0] == sif1->sw_if_index)
+           return -1;
+         /* go for the tiebreaker as the last resort */
+         if (sif1->sw_if_index > sif2->sw_if_index)
+           return 1;
+         if (sif1->sw_if_index < sif2->sw_if_index)
+           return -1;
+         else
+           ASSERT (0);
+       }
+    }
+  return 0;
+}
+
+static void
+bond_sort_slaves (bond_if_t * bif)
+{
+  bond_main_t *bm = &bond_main;
+  u32 old_active = bif->active_slaves[0];
+
+  vec_sort_with_function (bif->active_slaves, bond_slave_sort);
+  if (old_active != bif->active_slaves[0])
+    vlib_process_signal_event (bm->vlib_main, bond_process_node.index,
+                              BOND_SEND_GARP_NA, bif->hw_if_index);
 }
 
 void
@@ -60,6 +140,8 @@ bond_enable_collecting_distributing (vlib_main_t * vm, slave_if_t * sif)
 {
   bond_if_t *bif;
   bond_main_t *bm = &bond_main;
+  vnet_main_t *vnm = vnet_get_main ();
+  vnet_hw_interface_t *hw = vnet_get_sup_hw_interface (vnm, sif->sw_if_index);
 
   bif = bond_get_master_by_dev_instance (sif->bif_dev_instance);
   clib_spinlock_lock_if_init (&bif->lockp);
@@ -67,15 +149,33 @@ bond_enable_collecting_distributing (vlib_main_t * vm, slave_if_t * sif)
     {
       hash_set (bif->active_slave_by_sw_if_index, sif->sw_if_index,
                sif->sw_if_index);
-      vec_add1 (bif->active_slaves, sif->sw_if_index);
 
-      /* First slave becomes active? */
-      if ((vec_len (bif->active_slaves) == 1) &&
-         (bif->mode == BOND_MODE_ACTIVE_BACKUP))
-       vlib_process_signal_event (bm->vlib_main, bond_process_node.index,
-                                  BOND_SEND_GARP_NA, bif->hw_if_index);
+      if ((sif->lacp_enabled && bif->numa_only)
+         && (vm->numa_node == hw->numa_node))
+       {
+         vec_insert_elts (bif->active_slaves, &sif->sw_if_index, 1,
+                          bif->n_numa_slaves);
+         bif->n_numa_slaves++;
+       }
+      else
+       vec_add1 (bif->active_slaves, sif->sw_if_index);
+
+      sif->is_local_numa = (vm->numa_node == hw->numa_node) ? 1 : 0;
+      if (bif->mode == BOND_MODE_ACTIVE_BACKUP)
+       {
+         if (vec_len (bif->active_slaves) == 1)
+           /* First slave becomes active? */
+           vlib_process_signal_event (bm->vlib_main, bond_process_node.index,
+                                      BOND_SEND_GARP_NA, bif->hw_if_index);
+         else
+           bond_sort_slaves (bif);
+       }
     }
   clib_spinlock_unlock_if_init (&bif->lockp);
+
+  if (bif->mode == BOND_MODE_LACP)
+    stat_segment_set_state_counter (bm->stats[bif->sw_if_index]
+                                   [sif->sw_if_index], sif->actor.state);
 }
 
 int
@@ -92,13 +192,17 @@ bond_dump_ifs (bond_interface_details_t ** out_bondifs)
   pool_foreach (bif, bm->interfaces,
     vec_add2(r_bondifs, bondif, 1);
     clib_memset (bondif, 0, sizeof (*bondif));
+    bondif->id = bif->id;
     bondif->sw_if_index = bif->sw_if_index;
     hi = vnet_get_hw_interface (vnm, bif->hw_if_index);
     clib_memcpy(bondif->interface_name, hi->name,
                 MIN (ARRAY_LEN (bondif->interface_name) - 1,
-                     strlen ((const char *) hi->name)));
+                     vec_len ((const char *) hi->name)));
+    /* enforce by memset() above */
+    ASSERT(0 == bondif->interface_name[ARRAY_LEN (bondif->interface_name) - 1]);
     bondif->mode = bif->mode;
     bondif->lb = bif->lb;
+    bondif->numa_only = bif->numa_only;
     bondif->active_slaves = vec_len (bif->active_slaves);
     bondif->slaves = vec_len (bif->slaves);
   );
@@ -137,10 +241,16 @@ bond_dump_slave_ifs (slave_interface_details_t ** out_slaveifs,
        hi = vnet_get_hw_interface (vnm, sw->hw_if_index);
        clib_memcpy (slaveif->interface_name, hi->name,
                     MIN (ARRAY_LEN (slaveif->interface_name) - 1,
-                         strlen ((const char *) hi->name)));
+                         vec_len ((const char *) hi->name)));
+       /* enforce by memset() above */
+       ASSERT (0 ==
+               slaveif->interface_name[ARRAY_LEN (slaveif->interface_name) -
+                                       1]);
        slaveif->sw_if_index = sif->sw_if_index;
        slaveif->is_passive = sif->is_passive;
        slaveif->is_long_timeout = sif->is_long_timeout;
+       slaveif->is_local_numa = sif->is_local_numa;
+       slaveif->weight = sif->weight;
       }
   }
   *out_slaveifs = r_slaveifs;
@@ -186,6 +296,10 @@ bond_delete_neighbor (vlib_main_t * vm, bond_if_t * bif, slave_if_t * sif)
   if ((bif->mode == BOND_MODE_LACP) && bm->lacp_enable_disable)
     (*bm->lacp_enable_disable) (vm, bif, sif, 0);
 
+  if (bif->mode == BOND_MODE_LACP)
+    stat_segment_deregister_state_counter
+      (bm->stats[bif->sw_if_index][sif->sw_if_index]);
+
   pool_put (bm->neighbors, sif);
 }
 
@@ -231,6 +345,7 @@ bond_delete_if (vlib_main_t * vm, u32 sw_if_index)
 
   clib_bitmap_free (bif->port_number_bitmap);
   hash_unset (bm->bond_by_sw_if_index, bif->sw_if_index);
+  hash_unset (bm->id_used, bif->id);
   clib_memset (bif, 0, sizeof (*bif));
   pool_put (bm->interfaces, bif);
 
@@ -266,9 +381,21 @@ bond_create_if (vlib_main_t * vm, bond_create_if_args_t * args)
   pool_get (bm->interfaces, bif);
   clib_memset (bif, 0, sizeof (*bif));
   bif->dev_instance = bif - bm->interfaces;
+  bif->id = args->id;
   bif->lb = args->lb;
   bif->mode = args->mode;
 
+  // Adjust requested interface id
+  if (bif->id == ~0)
+    bif->id = bif->dev_instance;
+  if (hash_get (bm->id_used, bif->id))
+    {
+      args->rv = VNET_API_ERROR_INSTANCE_IN_USE;
+      pool_put (bm->interfaces, bif);
+      return;
+    }
+  hash_set (bm->id_used, bif->id, 1);
+
   // Special load-balance mode used for rr and bc
   if (bif->mode == BOND_MODE_ROUND_ROBIN)
     bif->lb = BOND_LB_RR;
@@ -291,13 +418,14 @@ bond_create_if (vlib_main_t * vm, bond_create_if_args_t * args)
     }
   memcpy (bif->hw_address, args->hw_addr, 6);
   args->error = ethernet_register_interface
-    (vnm, bond_dev_class.index, bif - bm->interfaces /* device instance */ ,
+    (vnm, bond_dev_class.index, bif->dev_instance /* device instance */ ,
      bif->hw_address /* ethernet address */ ,
      &bif->hw_if_index, 0 /* flag change */ );
 
   if (args->error)
     {
       args->rv = VNET_API_ERROR_INVALID_REGISTRATION;
+      hash_unset (bm->id_used, bif->id);
       pool_put (bm->interfaces, bif);
       return;
     }
@@ -305,6 +433,7 @@ bond_create_if (vlib_main_t * vm, bond_create_if_args_t * args)
   sw = vnet_get_hw_sw_interface (vnm, bif->hw_if_index);
   bif->sw_if_index = sw->sw_if_index;
   bif->group = bif->sw_if_index;
+  bif->numa_only = args->numa_only;
   if (vlib_get_thread_main ()->n_vlib_mains > 1)
     clib_spinlock_init (&bif->lockp);
 
@@ -315,6 +444,7 @@ bond_create_if (vlib_main_t * vm, bond_create_if_args_t * args)
 
   // for return
   args->sw_if_index = bif->sw_if_index;
+  args->rv = 0;
 }
 
 static clib_error_t *
@@ -329,8 +459,10 @@ bond_create_command_fn (vlib_main_t * vm, unformat_input_t * input,
   if (!unformat_user (input, unformat_line_input, line_input))
     return clib_error_return (0, "Missing required arguments.");
 
+  args.id = ~0;
   args.mode = -1;
   args.lb = BOND_LB_L2;
+  args.rv = -1;
   while (unformat_check_input (line_input) != UNFORMAT_END_OF_INPUT)
     {
       if (unformat (line_input, "mode %U", unformat_bond_mode, &args.mode))
@@ -342,6 +474,16 @@ bond_create_command_fn (vlib_main_t * vm, unformat_input_t * input,
       else if (unformat (line_input, "hw-addr %U",
                         unformat_ethernet_address, args.hw_addr))
        args.hw_addr_set = 1;
+      else if (unformat (line_input, "id %u", &args.id))
+       ;
+      else if (unformat (line_input, "numa-only"))
+       {
+         if (args.mode == BOND_MODE_LACP)
+           args.numa_only = 1;
+         else
+           return clib_error_return (0,
+                                     "Only lacp mode supports numa-only so far!");
+       }
       else
        return clib_error_return (0, "unknown input `%U'",
                                  format_unformat_error, input);
@@ -353,6 +495,10 @@ bond_create_command_fn (vlib_main_t * vm, unformat_input_t * input,
 
   bond_create_if (vm, &args);
 
+  if (!args.rv)
+    vlib_cli_output (vm, "%U\n", format_vnet_sw_if_index_name,
+                    vnet_get_main (), args.sw_if_index);
+
   return args.error;
 }
 
@@ -360,7 +506,8 @@ bond_create_command_fn (vlib_main_t * vm, unformat_input_t * input,
 VLIB_CLI_COMMAND (bond_create_command, static) = {
   .path = "create bond",
   .short_help = "create bond mode {round-robin | active-backup | broadcast | "
-    "{lacp | xor} [load-balance { l2 | l23 | l34 }]} [hw-addr <mac-address>]",
+    "{lacp | xor} [load-balance { l2 | l23 | l34 } [numa-only]]} [hw-addr <mac-address>] "
+    "[id <if-id>]",
   .function = bond_create_command_fn,
 };
 /* *INDENT-ON* */
@@ -448,10 +595,29 @@ bond_enslave (vlib_main_t * vm, bond_enslave_args_t * args)
        clib_error_return (0, "bond interface cannot be enslaved");
       return;
     }
+  if (bif->mode == BOND_MODE_LACP)
+    {
+      u8 *name = format (0, "/if/lacp/%u/%u/state", bif->sw_if_index,
+                        args->slave);
+
+      vec_validate (bm->stats, bif->sw_if_index);
+      vec_validate (bm->stats[bif->sw_if_index], args->slave);
+
+      args->error = stat_segment_register_state_counter
+       (name, &bm->stats[bif->sw_if_index][args->slave]);
+      vec_free (name);
+      if (args->error != 0)
+       {
+         args->rv = VNET_API_ERROR_INVALID_INTERFACE;
+         return;
+       }
+    }
+
   pool_get (bm->neighbors, sif);
   clib_memset (sif, 0, sizeof (*sif));
   sw = pool_elt_at_index (im->sw_interfaces, args->slave);
-  sif->port_enabled = sw->flags & VNET_SW_INTERFACE_FLAG_ADMIN_UP;
+  /* port_enabled is both admin up and hw link up */
+  sif->port_enabled = vnet_sw_interface_is_up (vnm, sw->sw_if_index);
   sif->sw_if_index = sw->sw_if_index;
   sif->hw_if_index = sw->hw_if_index;
   sif->packet_template_index = (u8) ~ 0;
@@ -512,11 +678,12 @@ bond_enslave (vlib_main_t * vm, bond_enslave_args_t * args)
       ethernet_set_rx_redirect (vnm, sif_hw, 1);
     }
 
-  if ((bif->mode == BOND_MODE_LACP) && bm->lacp_enable_disable)
+  if (bif->mode == BOND_MODE_LACP)
     {
-      (*bm->lacp_enable_disable) (vm, bif, sif, 1);
+      if (bm->lacp_enable_disable)
+       (*bm->lacp_enable_disable) (vm, bif, sif, 1);
     }
-  else
+  else if (sif->port_enabled)
     {
       bond_enable_collecting_distributing (vm, sif);
     }
@@ -708,6 +875,14 @@ show_bond_details (vlib_main_t * vm)
       {
         vlib_cli_output (vm, "    %U", format_vnet_sw_if_index_name,
                         vnet_get_main (), *sw_if_index);
+       if (bif->mode == BOND_MODE_ACTIVE_BACKUP)
+         {
+           slave_if_t *sif = bond_get_slave_by_sw_if_index (*sw_if_index);
+           if (sif)
+             vlib_cli_output (vm, "      weight: %u, is_local_numa: %u, "
+                              "sw_if_index: %u", sif->weight,
+                              sif->is_local_numa, sif->sw_if_index);
+         }
       }
     vlib_cli_output (vm, "  number of slaves: %d", vec_len (bif->slaves));
     vec_foreach (sw_if_index, bif->slaves)
@@ -716,6 +891,7 @@ show_bond_details (vlib_main_t * vm)
                         vnet_get_main (), *sw_if_index);
       }
     vlib_cli_output (vm, "  device instance: %d", bif->dev_instance);
+    vlib_cli_output (vm, "  interface id: %d", bif->id);
     vlib_cli_output (vm, "  sw_if_index: %d", bif->sw_if_index);
     vlib_cli_output (vm, "  hw_if_index: %d", bif->hw_if_index);
   }));
@@ -755,6 +931,113 @@ VLIB_CLI_COMMAND (show_bond_command, static) = {
 };
 /* *INDENT-ON* */
 
+void
+bond_set_intf_weight (vlib_main_t * vm, bond_set_intf_weight_args_t * args)
+{
+  slave_if_t *sif;
+  bond_if_t *bif;
+  vnet_main_t *vnm;
+  u32 old_weight;
+
+  sif = bond_get_slave_by_sw_if_index (args->sw_if_index);
+  if (!sif)
+    {
+      args->rv = VNET_API_ERROR_INVALID_INTERFACE;
+      args->error = clib_error_return (0, "Interface not enslaved");
+      return;
+    }
+  bif = bond_get_master_by_dev_instance (sif->bif_dev_instance);
+  if (!bif)
+    {
+      args->rv = VNET_API_ERROR_INVALID_INTERFACE;
+      args->error = clib_error_return (0, "bond interface not found");
+      return;
+    }
+  if (bif->mode != BOND_MODE_ACTIVE_BACKUP)
+    {
+      args->rv = VNET_API_ERROR_INVALID_ARGUMENT;
+      args->error =
+       clib_error_return (0, "Weight valid for active-backup only");
+      return;
+    }
+
+  old_weight = sif->weight;
+  sif->weight = args->weight;
+  vnm = vnet_get_main ();
+  /*
+   * No need to sort the list if the affected slave is not up (not in active
+   * slave set), active slave count is 1, or the current slave is already the
+   * primary slave and new weight > old weight.
+   */
+  if (!vnet_sw_interface_is_up (vnm, sif->sw_if_index) ||
+      (vec_len (bif->active_slaves) == 1) ||
+      ((bif->active_slaves[0] == sif->sw_if_index) &&
+       (sif->weight >= old_weight)))
+    return;
+
+  bond_sort_slaves (bif);
+}
+
+static clib_error_t *
+bond_set_intf_cmd (vlib_main_t * vm, unformat_input_t * input,
+                  vlib_cli_command_t * cmd)
+{
+  bond_set_intf_weight_args_t args = { 0 };
+  u32 sw_if_index = (u32) ~ 0;
+  unformat_input_t _line_input, *line_input = &_line_input;
+  vnet_main_t *vnm = vnet_get_main ();
+  u8 weight_enter = 0;
+  u32 weight = 0;
+
+  /* Get a line of input. */
+  if (!unformat_user (input, unformat_line_input, line_input))
+    return clib_error_return (0, "Missing required arguments.");
+
+  while (unformat_check_input (line_input) != UNFORMAT_END_OF_INPUT)
+    {
+      if (unformat (line_input, "sw_if_index %d", &sw_if_index))
+       ;
+      else if (unformat (line_input, "%U", unformat_vnet_sw_interface, vnm,
+                        &sw_if_index))
+       ;
+      else if (unformat (line_input, "weight %u", &weight))
+       weight_enter = 1;
+      else
+       {
+         clib_error_return (0, "unknown input `%U'", format_unformat_error,
+                            input);
+         break;
+       }
+    }
+
+  unformat_free (line_input);
+  if (sw_if_index == (u32) ~ 0)
+    {
+      args.rv = VNET_API_ERROR_INVALID_INTERFACE;
+      clib_error_return (0, "Interface name is invalid!");
+    }
+  if (weight_enter == 0)
+    {
+      args.rv = VNET_API_ERROR_INVALID_ARGUMENT;
+      clib_error_return (0, "weight missing");
+    }
+
+  args.sw_if_index = sw_if_index;
+  args.weight = weight;
+  bond_set_intf_weight (vm, &args);
+
+  return args.error;
+}
+
+/* *INDENT-OFF* */
+VLIB_CLI_COMMAND(set_interface_bond_cmd, static) = {
+  .path = "set interface bond",
+  .short_help = "set interface bond <interface> | sw_if_index <idx>"
+                " weight <value>",
+  .function = bond_set_intf_cmd,
+};
+/* *INDENT-ON* */
+
 clib_error_t *
 bond_cli_init (vlib_main_t * vm)
 {