misc: move to new pool_foreach macros
[vpp.git] / src / vnet / devices / virtio / vhost_user.c
index d13ea3b..45897b6 100644 (file)
@@ -33,8 +33,6 @@
 #include <vlib/vlib.h>
 #include <vlib/unix/unix.h>
 
-#include <vnet/ip/ip.h>
-
 #include <vnet/ethernet/ethernet.h>
 #include <vnet/devices/devices.h>
 #include <vnet/feature/feature.h>
@@ -116,12 +114,13 @@ unmap_all_mem_regions (vhost_user_intf_t * vui)
     }
 }
 
-static void
+static_always_inline void
 vhost_user_tx_thread_placement (vhost_user_intf_t * vui)
 {
   //Let's try to assign one queue to each thread
-  u32 qid = 0;
+  u32 qid;
   u32 thread_index = 0;
+
   vui->use_tx_spinlock = 0;
   while (1)
     {
@@ -156,67 +155,27 @@ vhost_user_tx_thread_placement (vhost_user_intf_t * vui)
  * @brief Unassign existing interface/queue to thread mappings and re-assign
  * new interface/queue to thread mappings
  */
-static void
-vhost_user_rx_thread_placement ()
+static_always_inline void
+vhost_user_rx_thread_placement (vhost_user_intf_t * vui, u32 qid)
 {
-  vhost_user_main_t *vum = &vhost_user_main;
-  vhost_user_intf_t *vui;
-  vhost_user_vring_t *txvq;
+  vhost_user_vring_t *txvq = &vui->vrings[qid];
   vnet_main_t *vnm = vnet_get_main ();
-  u32 qid;
   int rv;
-  u16 *queue;
-
-  // Scrap all existing mappings for all interfaces/queues
-  /* *INDENT-OFF* */
-  pool_foreach (vui, vum->vhost_user_interfaces, {
-      vec_foreach (queue, vui->rx_queues)
-       {
-         rv = vnet_hw_interface_unassign_rx_thread (vnm, vui->hw_if_index,
-                                                    *queue);
-         if (rv)
-           vu_log_warn (vui, "unable to unassign interface %d, "
-                        "queue %d: rc=%d", vui->hw_if_index, *queue, rv);
-       }
-      vec_reset_length (vui->rx_queues);
-  });
-  /* *INDENT-ON* */
-
-  // Create the rx_queues for all interfaces
-  /* *INDENT-OFF* */
-  pool_foreach (vui, vum->vhost_user_interfaces, {
-      for (qid = 0; qid < VHOST_VRING_MAX_N / 2; qid++)
-       {
-         txvq = &vui->vrings[VHOST_VRING_IDX_TX (qid)];
-         if (txvq->started)
-           {
-             if (txvq->mode == VNET_HW_INTERFACE_RX_MODE_UNKNOWN)
-               /* Set polling as the default */
-               txvq->mode = VNET_HW_INTERFACE_RX_MODE_POLLING;
-             vec_add1 (vui->rx_queues, qid);
-           }
-       }
-  });
-  /* *INDENT-ON* */
-
-  // Assign new mappings for all interfaces/queues
-  /* *INDENT-OFF* */
-  pool_foreach (vui, vum->vhost_user_interfaces, {
-      vnet_hw_interface_set_input_node (vnm, vui->hw_if_index,
-                                       vhost_user_input_node.index);
-      vec_foreach (queue, vui->rx_queues)
-       {
-         vnet_hw_interface_assign_rx_thread (vnm, vui->hw_if_index, *queue,
-                                             ~0);
-         txvq = &vui->vrings[VHOST_VRING_IDX_TX (*queue)];
-         rv = vnet_hw_interface_set_rx_mode (vnm, vui->hw_if_index, *queue,
-                                             txvq->mode);
-         if (rv)
-           vu_log_warn (vui, "unable to set rx mode for interface %d, "
-                        "queue %d: rc=%d", vui->hw_if_index, *queue, rv);
-       }
-  });
-  /* *INDENT-ON* */
+  u32 q = qid >> 1;
+
+  ASSERT ((qid & 1) == 1);     // should be odd
+  // Assign new queue mappings for the interface
+  vnet_hw_interface_set_input_node (vnm, vui->hw_if_index,
+                                   vhost_user_input_node.index);
+  vnet_hw_interface_assign_rx_thread (vnm, vui->hw_if_index, q, ~0);
+  if (txvq->mode == VNET_HW_IF_RX_MODE_UNKNOWN)
+    /* Set polling as the default */
+    txvq->mode = VNET_HW_IF_RX_MODE_POLLING;
+  txvq->qid = q;
+  rv = vnet_hw_interface_set_rx_mode (vnm, vui->hw_if_index, q, txvq->mode);
+  if (rv)
+    vu_log_warn (vui, "unable to set rx mode for interface %d, "
+                "queue %d: rc=%d", vui->hw_if_index, q, rv);
 }
 
 /** @brief Returns whether at least one TX and one RX vring are enabled */
@@ -232,7 +191,7 @@ vhost_user_intf_ready (vhost_user_intf_t * vui)
   return found[0] && found[1];
 }
 
-static void
+static_always_inline void
 vhost_user_update_iface_state (vhost_user_intf_t * vui)
 {
   /* if we have pointers to descriptor table, go up */
@@ -247,8 +206,6 @@ vhost_user_update_iface_state (vhost_user_intf_t * vui)
                                     : 0);
       vui->is_ready = is_ready;
     }
-  vhost_user_rx_thread_placement ();
-  vhost_user_tx_thread_placement (vui);
 }
 
 static void
@@ -278,6 +235,18 @@ vhost_user_callfd_read_ready (clib_file_t * uf)
   return 0;
 }
 
+static_always_inline void
+vhost_user_thread_placement (vhost_user_intf_t * vui, u32 qid)
+{
+  if (qid & 1)                 // RX is odd, TX is even
+    {
+      if (vui->vrings[qid].qid == -1)
+       vhost_user_rx_thread_placement (vui, qid);
+    }
+  else
+    vhost_user_tx_thread_placement (vui);
+}
+
 static clib_error_t *
 vhost_user_kickfd_read_ready (clib_file_t * uf)
 {
@@ -293,10 +262,12 @@ vhost_user_kickfd_read_ready (clib_file_t * uf)
   if (!vui->vrings[qid].started ||
       (vhost_user_intf_ready (vui) != vui->is_ready))
     {
-      vlib_worker_thread_barrier_sync (vlib_get_main ());
-      vui->vrings[qid].started = 1;
-      vhost_user_update_iface_state (vui);
-      vlib_worker_thread_barrier_release (vlib_get_main ());
+      if (vui->vrings[qid].started == 0)
+       {
+         vui->vrings[qid].started = 1;
+         vhost_user_thread_placement (vui, qid);
+         vhost_user_update_iface_state (vui);
+       }
     }
 
   vhost_user_set_interrupt_pending (vui, uf->private_data);
@@ -311,6 +282,7 @@ vhost_user_vring_init (vhost_user_intf_t * vui, u32 qid)
   vring->kickfd_idx = ~0;
   vring->callfd_idx = ~0;
   vring->errfd = -1;
+  vring->qid = -1;
 
   /*
    * We have a bug with some qemu 2.5, and this may be a fix.
@@ -329,6 +301,7 @@ static_always_inline void
 vhost_user_vring_close (vhost_user_intf_t * vui, u32 qid)
 {
   vhost_user_vring_t *vring = &vui->vrings[qid];
+
   if (vring->kickfd_idx != ~0)
     {
       clib_file_t *uf = pool_elt_at_index (file_main.file_pool,
@@ -348,7 +321,12 @@ vhost_user_vring_close (vhost_user_intf_t * vui, u32 qid)
       close (vring->errfd);
       vring->errfd = -1;
     }
+
+  // save the qid so that we don't need to unassign and assign_rx_thread
+  // when the interface comes back up. They are expensive calls.
+  u16 q = vui->vrings[qid].qid;
   vhost_user_vring_init (vui, qid);
+  vui->vrings[qid].qid = q;
 }
 
 static_always_inline void
@@ -377,7 +355,7 @@ vhost_user_if_disconnect (vhost_user_intf_t * vui)
 static clib_error_t *
 vhost_user_socket_read (clib_file_t * uf)
 {
-  int n, i;
+  int n, i, j;
   int fd, number_of_fds = 0;
   int fds[VHOST_MEMORY_MAX_NREGIONS];
   vhost_user_msg_t msg;
@@ -389,6 +367,7 @@ vhost_user_socket_read (clib_file_t * uf)
   u8 q;
   clib_file_t template = { 0 };
   vnet_main_t *vnm = vnet_get_main ();
+  vlib_main_t *vm = vlib_get_main ();
 
   vui = pool_elt_at_index (vum->vhost_user_interfaces, uf->private_data);
 
@@ -411,9 +390,6 @@ vhost_user_socket_read (clib_file_t * uf)
 
   n = recvmsg (uf->file_descriptor, &mh, 0);
 
-  /* Stop workers to avoid end of the world */
-  vlib_worker_thread_barrier_sync (vlib_get_main ());
-
   if (n != VHOST_USER_MSG_HDR_SZ)
     {
       if (n == -1)
@@ -475,19 +451,32 @@ vhost_user_socket_read (clib_file_t * uf)
     {
     case VHOST_USER_GET_FEATURES:
       msg.flags |= 4;
-      msg.u64 = (1ULL << FEAT_VIRTIO_NET_F_MRG_RXBUF) |
-       (1ULL << FEAT_VIRTIO_NET_F_CTRL_VQ) |
-       (1ULL << FEAT_VIRTIO_F_ANY_LAYOUT) |
-       (1ULL << FEAT_VIRTIO_F_INDIRECT_DESC) |
-       (1ULL << FEAT_VHOST_F_LOG_ALL) |
-       (1ULL << FEAT_VIRTIO_NET_F_GUEST_ANNOUNCE) |
-       (1ULL << FEAT_VIRTIO_NET_F_MQ) |
-       (1ULL << FEAT_VHOST_USER_F_PROTOCOL_FEATURES) |
-       (1ULL << FEAT_VIRTIO_F_VERSION_1);
+      msg.u64 = VIRTIO_FEATURE (VIRTIO_NET_F_MRG_RXBUF) |
+       VIRTIO_FEATURE (VIRTIO_NET_F_CTRL_VQ) |
+       VIRTIO_FEATURE (VIRTIO_F_ANY_LAYOUT) |
+       VIRTIO_FEATURE (VIRTIO_RING_F_INDIRECT_DESC) |
+       VIRTIO_FEATURE (VHOST_F_LOG_ALL) |
+       VIRTIO_FEATURE (VIRTIO_NET_F_GUEST_ANNOUNCE) |
+       VIRTIO_FEATURE (VIRTIO_NET_F_MQ) |
+       VIRTIO_FEATURE (VHOST_USER_F_PROTOCOL_FEATURES) |
+       VIRTIO_FEATURE (VIRTIO_F_VERSION_1);
       msg.u64 &= vui->feature_mask;
+
+      if (vui->enable_gso)
+       msg.u64 |= FEATURE_VIRTIO_NET_F_HOST_GUEST_TSO_FEATURE_BITS;
+      if (vui->enable_packed)
+       msg.u64 |= VIRTIO_FEATURE (VIRTIO_F_RING_PACKED);
+
       msg.size = sizeof (msg.u64);
       vu_log_debug (vui, "if %d msg VHOST_USER_GET_FEATURES - reply "
                    "0x%016llx", vui->hw_if_index, msg.u64);
+      n =
+       send (uf->file_descriptor, &msg, VHOST_USER_MSG_HDR_SZ + msg.size, 0);
+      if (n != (msg.size + VHOST_USER_MSG_HDR_SZ))
+       {
+         vu_log_debug (vui, "could not send message response");
+         goto close_socket;
+       }
       break;
 
     case VHOST_USER_SET_FEATURES:
@@ -497,22 +486,29 @@ vhost_user_socket_read (clib_file_t * uf)
       vui->features = msg.u64;
 
       if (vui->features &
-         ((1 << FEAT_VIRTIO_NET_F_MRG_RXBUF) |
-          (1ULL << FEAT_VIRTIO_F_VERSION_1)))
+         (VIRTIO_FEATURE (VIRTIO_NET_F_MRG_RXBUF) |
+          VIRTIO_FEATURE (VIRTIO_F_VERSION_1)))
        vui->virtio_net_hdr_sz = 12;
       else
        vui->virtio_net_hdr_sz = 10;
 
       vui->is_any_layout =
-       (vui->features & (1 << FEAT_VIRTIO_F_ANY_LAYOUT)) ? 1 : 0;
+       (vui->features & VIRTIO_FEATURE (VIRTIO_F_ANY_LAYOUT)) ? 1 : 0;
 
       ASSERT (vui->virtio_net_hdr_sz < VLIB_BUFFER_PRE_DATA_SIZE);
+      vnet_hw_interface_t *hw = vnet_get_hw_interface (vnm, vui->hw_if_index);
+      if (vui->enable_gso &&
+         ((vui->features & FEATURE_VIRTIO_NET_F_HOST_GUEST_TSO_FEATURE_BITS)
+          == FEATURE_VIRTIO_NET_F_HOST_GUEST_TSO_FEATURE_BITS))
+       hw->flags |=
+         (VNET_HW_INTERFACE_FLAG_SUPPORTS_GSO |
+          VNET_HW_INTERFACE_FLAG_SUPPORTS_TX_L4_CKSUM_OFFLOAD);
+      else
+       hw->flags &= ~(VNET_HW_INTERFACE_FLAG_SUPPORTS_GSO |
+                      VNET_HW_INTERFACE_FLAG_SUPPORTS_TX_L4_CKSUM_OFFLOAD);
       vnet_hw_interface_set_flags (vnm, vui->hw_if_index, 0);
       vui->is_ready = 0;
-
-      /*for (q = 0; q < VHOST_VRING_MAX_N; q++)
-         vhost_user_vring_close(&vui->vrings[q]); */
-
+      vhost_user_update_iface_state (vui);
       break;
 
     case VHOST_USER_SET_MEM_TABLE:
@@ -522,10 +518,8 @@ vhost_user_socket_read (clib_file_t * uf)
       if ((msg.memory.nregions < 1) ||
          (msg.memory.nregions > VHOST_MEMORY_MAX_NREGIONS))
        {
-
          vu_log_debug (vui, "number of mem regions must be between 1 and %i",
                        VHOST_MEMORY_MAX_NREGIONS);
-
          goto close_socket;
        }
 
@@ -534,39 +528,68 @@ vhost_user_socket_read (clib_file_t * uf)
          vu_log_debug (vui, "each memory region must have FD");
          goto close_socket;
        }
-      unmap_all_mem_regions (vui);
+
+      /* Do the mmap without barrier sync */
+      void *region_mmap_addr[VHOST_MEMORY_MAX_NREGIONS];
       for (i = 0; i < msg.memory.nregions; i++)
        {
-         clib_memcpy_fast (&(vui->regions[i]), &msg.memory.regions[i],
-                           sizeof (vhost_user_memory_region_t));
-
          long page_sz = get_huge_page_size (fds[i]);
 
          /* align size to page */
-         ssize_t map_sz = (vui->regions[i].memory_size +
-                           vui->regions[i].mmap_offset +
+         ssize_t map_sz = (msg.memory.regions[i].memory_size +
+                           msg.memory.regions[i].mmap_offset +
                            page_sz - 1) & ~(page_sz - 1);
 
-         vui->region_mmap_addr[i] = mmap (0, map_sz, PROT_READ | PROT_WRITE,
-                                          MAP_SHARED, fds[i], 0);
-         vui->region_guest_addr_lo[i] = vui->regions[i].guest_phys_addr;
-         vui->region_guest_addr_hi[i] = vui->regions[i].guest_phys_addr +
-           vui->regions[i].memory_size;
-
-         vu_log_debug (vui, "map memory region %d addr 0 len 0x%lx fd %d "
-                       "mapped 0x%lx page_sz 0x%x", i, map_sz, fds[i],
-                       vui->region_mmap_addr[i], page_sz);
-
-         if (vui->region_mmap_addr[i] == MAP_FAILED)
+         region_mmap_addr[i] = mmap (0, map_sz, PROT_READ | PROT_WRITE,
+                                     MAP_SHARED, fds[i], 0);
+         if (region_mmap_addr[i] == MAP_FAILED)
            {
              vu_log_err (vui, "failed to map memory. errno is %d", errno);
+             for (j = 0; j < i; j++)
+               munmap (region_mmap_addr[j], map_sz);
              goto close_socket;
            }
+         vu_log_debug (vui, "map memory region %d addr 0 len 0x%lx fd %d "
+                       "mapped 0x%lx page_sz 0x%x", i, map_sz, fds[i],
+                       region_mmap_addr[i], page_sz);
+       }
+
+      vlib_worker_thread_barrier_sync (vm);
+      unmap_all_mem_regions (vui);
+      for (i = 0; i < msg.memory.nregions; i++)
+       {
+         clib_memcpy_fast (&(vui->regions[i]), &msg.memory.regions[i],
+                           sizeof (vhost_user_memory_region_t));
+
+         vui->region_mmap_addr[i] = region_mmap_addr[i];
+         vui->region_guest_addr_lo[i] = vui->regions[i].guest_phys_addr;
+         vui->region_guest_addr_hi[i] = vui->regions[i].guest_phys_addr +
+           vui->regions[i].memory_size;
+
          vui->region_mmap_addr[i] += vui->regions[i].mmap_offset;
          vui->region_mmap_fd[i] = fds[i];
 
          vui->nregions++;
        }
+
+      /*
+       * Re-compute desc, used, and avail descriptor table if vring address
+       * is set.
+       */
+      for (q = 0; q < VHOST_VRING_MAX_N; q++)
+       {
+         if (vui->vrings[q].desc_user_addr &&
+             vui->vrings[q].used_user_addr && vui->vrings[q].avail_user_addr)
+           {
+             vui->vrings[q].desc =
+               map_user_mem (vui, vui->vrings[q].desc_user_addr);
+             vui->vrings[q].used =
+               map_user_mem (vui, vui->vrings[q].used_user_addr);
+             vui->vrings[q].avail =
+               map_user_mem (vui, vui->vrings[q].avail_user_addr);
+           }
+       }
+      vlib_worker_thread_barrier_release (vm);
       break;
 
     case VHOST_USER_SET_VRING_NUM:
@@ -575,7 +598,8 @@ vhost_user_socket_read (clib_file_t * uf)
 
       if ((msg.state.num > 32768) ||   /* maximum ring size is 32768 */
          (msg.state.num == 0) ||       /* it cannot be zero */
-         ((msg.state.num - 1) & msg.state.num))        /* must be power of 2 */
+         ((msg.state.num - 1) & msg.state.num) ||      /* must be power of 2 */
+         (msg.state.index >= VHOST_VRING_MAX_N))
        goto close_socket;
       vui->vrings[msg.state.index].qsz_mask = msg.state.num - 1;
       break;
@@ -598,39 +622,47 @@ vhost_user_socket_read (clib_file_t * uf)
          goto close_socket;
        }
 
-      vui->vrings[msg.state.index].desc = (vring_desc_t *)
-       map_user_mem (vui, msg.addr.desc_user_addr);
-      vui->vrings[msg.state.index].used = (vring_used_t *)
-       map_user_mem (vui, msg.addr.used_user_addr);
-      vui->vrings[msg.state.index].avail = (vring_avail_t *)
-       map_user_mem (vui, msg.addr.avail_user_addr);
+      vring_desc_t *desc = map_user_mem (vui, msg.addr.desc_user_addr);
+      vring_used_t *used = map_user_mem (vui, msg.addr.used_user_addr);
+      vring_avail_t *avail = map_user_mem (vui, msg.addr.avail_user_addr);
 
-      if ((vui->vrings[msg.state.index].desc == NULL) ||
-         (vui->vrings[msg.state.index].used == NULL) ||
-         (vui->vrings[msg.state.index].avail == NULL))
+      if ((desc == NULL) || (used == NULL) || (avail == NULL))
        {
          vu_log_debug (vui, "failed to map user memory for hw_if_index %d",
                        vui->hw_if_index);
          goto close_socket;
        }
 
+      vui->vrings[msg.state.index].desc_user_addr = msg.addr.desc_user_addr;
+      vui->vrings[msg.state.index].used_user_addr = msg.addr.used_user_addr;
+      vui->vrings[msg.state.index].avail_user_addr = msg.addr.avail_user_addr;
+
+      vlib_worker_thread_barrier_sync (vm);
+      vui->vrings[msg.state.index].desc = desc;
+      vui->vrings[msg.state.index].used = used;
+      vui->vrings[msg.state.index].avail = avail;
+
       vui->vrings[msg.state.index].log_guest_addr = msg.addr.log_guest_addr;
       vui->vrings[msg.state.index].log_used =
        (msg.addr.flags & (1 << VHOST_VRING_F_LOG)) ? 1 : 0;
 
       /* Spec says: If VHOST_USER_F_PROTOCOL_FEATURES has not been negotiated,
          the ring is initialized in an enabled state. */
-      if (!(vui->features & (1 << FEAT_VHOST_USER_F_PROTOCOL_FEATURES)))
-       {
-         vui->vrings[msg.state.index].enabled = 1;
-       }
+      if (!(vui->features & VIRTIO_FEATURE (VHOST_USER_F_PROTOCOL_FEATURES)))
+       vui->vrings[msg.state.index].enabled = 1;
 
       vui->vrings[msg.state.index].last_used_idx =
        vui->vrings[msg.state.index].last_avail_idx =
        vui->vrings[msg.state.index].used->idx;
 
       /* tell driver that we don't want interrupts */
-      vui->vrings[msg.state.index].used->flags = VRING_USED_F_NO_NOTIFY;
+      if (vhost_user_is_packed_ring_supported (vui))
+       vui->vrings[msg.state.index].used_event->flags =
+         VRING_EVENT_F_DISABLE;
+      else
+       vui->vrings[msg.state.index].used->flags = VRING_USED_F_NO_NOTIFY;
+      vlib_worker_thread_barrier_release (vm);
+      vhost_user_update_iface_state (vui);
       break;
 
     case VHOST_USER_SET_OWNER:
@@ -647,6 +679,8 @@ vhost_user_socket_read (clib_file_t * uf)
                    vui->hw_if_index, msg.u64);
 
       q = (u8) (msg.u64 & 0xFF);
+      if (q >= VHOST_VRING_MAX_N)
+       goto close_socket;
 
       /* if there is old fd, delete and close it */
       if (vui->vrings[q].callfd_idx != ~0)
@@ -680,6 +714,8 @@ vhost_user_socket_read (clib_file_t * uf)
                    vui->hw_if_index, msg.u64);
 
       q = (u8) (msg.u64 & 0xFF);
+      if (q >= VHOST_VRING_MAX_N)
+       goto close_socket;
 
       if (vui->vrings[q].kickfd_idx != ~0)
        {
@@ -709,8 +745,9 @@ vhost_user_socket_read (clib_file_t * uf)
          //When no kickfd is set, the queue is initialized as started
          vui->vrings[q].kickfd_idx = ~0;
          vui->vrings[q].started = 1;
+         vhost_user_thread_placement (vui, q);
        }
-
+      vhost_user_update_iface_state (vui);
       break;
 
     case VHOST_USER_SET_VRING_ERR:
@@ -718,6 +755,8 @@ vhost_user_socket_read (clib_file_t * uf)
                    vui->hw_if_index, msg.u64);
 
       q = (u8) (msg.u64 & 0xFF);
+      if (q >= VHOST_VRING_MAX_N)
+       goto close_socket;
 
       if (vui->vrings[q].errfd != -1)
        close (vui->vrings[q].errfd);
@@ -731,14 +770,53 @@ vhost_user_socket_read (clib_file_t * uf)
        }
       else
        vui->vrings[q].errfd = -1;
-
       break;
 
     case VHOST_USER_SET_VRING_BASE:
-      vu_log_debug (vui, "if %d msg VHOST_USER_SET_VRING_BASE idx %d num %d",
+      vu_log_debug (vui,
+                   "if %d msg VHOST_USER_SET_VRING_BASE idx %d num 0x%x",
                    vui->hw_if_index, msg.state.index, msg.state.num);
-
+      if (msg.state.index >= VHOST_VRING_MAX_N)
+       goto close_socket;
+      vlib_worker_thread_barrier_sync (vm);
       vui->vrings[msg.state.index].last_avail_idx = msg.state.num;
+      if (vhost_user_is_packed_ring_supported (vui))
+       {
+         /*
+          *  0                   1                   2                   3
+          *  0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1
+          * +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
+          * |    last avail idx           | |     last used idx           | |
+          * +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
+          *                                ^                               ^
+          *                                |                               |
+          *                         avail wrap counter       used wrap counter
+          */
+         /* last avail idx at bit 0-14. */
+         vui->vrings[msg.state.index].last_avail_idx =
+           msg.state.num & 0x7fff;
+         /* avail wrap counter at bit 15 */
+         vui->vrings[msg.state.index].avail_wrap_counter =
+           ! !(msg.state.num & (1 << 15));
+
+         /*
+          * Although last_used_idx is passed in the upper 16 bits in qemu
+          * implementation, in practice, last_avail_idx and last_used_idx are
+          * usually the same. As a result, DPDK does not bother to pass us
+          * last_used_idx. The spec is not clear on thex coding. I figured it
+          * out by reading the qemu code. So let's just read last_avail_idx
+          * and set last_used_idx equals to last_avail_idx.
+          */
+         vui->vrings[msg.state.index].last_used_idx =
+           vui->vrings[msg.state.index].last_avail_idx;
+         vui->vrings[msg.state.index].used_wrap_counter =
+           vui->vrings[msg.state.index].avail_wrap_counter;
+
+         if (vui->vrings[msg.state.index].avail_wrap_counter == 1)
+           vui->vrings[msg.state.index].avail_wrap_counter =
+             VRING_DESC_F_AVAIL;
+       }
+      vlib_worker_thread_barrier_release (vm);
       break;
 
     case VHOST_USER_GET_VRING_BASE:
@@ -749,76 +827,104 @@ vhost_user_socket_read (clib_file_t * uf)
          goto close_socket;
        }
 
+      /* protection is needed to prevent rx/tx from changing last_avail_idx */
+      vlib_worker_thread_barrier_sync (vm);
       /*
        * Copy last_avail_idx from the vring before closing it because
        * closing the vring also initializes the vring last_avail_idx
        */
       msg.state.num = vui->vrings[msg.state.index].last_avail_idx;
+      if (vhost_user_is_packed_ring_supported (vui))
+       {
+         msg.state.num =
+           (vui->vrings[msg.state.index].last_avail_idx & 0x7fff) |
+           (! !vui->vrings[msg.state.index].avail_wrap_counter << 15);
+         msg.state.num |=
+           ((vui->vrings[msg.state.index].last_used_idx & 0x7fff) |
+            (! !vui->vrings[msg.state.index].used_wrap_counter << 15)) << 16;
+       }
       msg.flags |= 4;
       msg.size = sizeof (msg.state);
 
-      /* Spec says: Client must [...] stop ring upon receiving VHOST_USER_GET_VRING_BASE. */
+      /*
+       * Spec says: Client must [...] stop ring upon receiving
+       * VHOST_USER_GET_VRING_BASE
+       */
       vhost_user_vring_close (vui, msg.state.index);
-      vu_log_debug (vui, "if %d msg VHOST_USER_GET_VRING_BASE idx %d num %d",
+      vlib_worker_thread_barrier_release (vm);
+      vu_log_debug (vui,
+                   "if %d msg VHOST_USER_GET_VRING_BASE idx %d num 0x%x",
                    vui->hw_if_index, msg.state.index, msg.state.num);
+      n =
+       send (uf->file_descriptor, &msg, VHOST_USER_MSG_HDR_SZ + msg.size, 0);
+      if (n != (msg.size + VHOST_USER_MSG_HDR_SZ))
+       {
+         vu_log_debug (vui, "could not send message response");
+         goto close_socket;
+       }
+      vhost_user_update_iface_state (vui);
       break;
 
     case VHOST_USER_NONE:
       vu_log_debug (vui, "if %d msg VHOST_USER_NONE", vui->hw_if_index);
-
       break;
 
     case VHOST_USER_SET_LOG_BASE:
-      {
-       vu_log_debug (vui, "if %d msg VHOST_USER_SET_LOG_BASE",
-                     vui->hw_if_index);
-
-       if (msg.size != sizeof (msg.log))
-         {
-           vu_log_debug (vui, "invalid msg size for VHOST_USER_SET_LOG_BASE:"
-                         " %d instead of %d", msg.size, sizeof (msg.log));
-           goto close_socket;
-         }
+      vu_log_debug (vui, "if %d msg VHOST_USER_SET_LOG_BASE",
+                   vui->hw_if_index);
 
-       if (!
-           (vui->protocol_features & (1 << VHOST_USER_PROTOCOL_F_LOG_SHMFD)))
-         {
-           vu_log_debug (vui, "VHOST_USER_PROTOCOL_F_LOG_SHMFD not set but "
-                         "VHOST_USER_SET_LOG_BASE received");
-           goto close_socket;
-         }
+      if (msg.size != sizeof (msg.log))
+       {
+         vu_log_debug (vui, "invalid msg size for VHOST_USER_SET_LOG_BASE:"
+                       " %d instead of %d", msg.size, sizeof (msg.log));
+         goto close_socket;
+       }
 
-       fd = fds[0];
-       /* align size to page */
-       long page_sz = get_huge_page_size (fd);
-       ssize_t map_sz =
-         (msg.log.size + msg.log.offset + page_sz - 1) & ~(page_sz - 1);
+      if (!(vui->protocol_features & (1 << VHOST_USER_PROTOCOL_F_LOG_SHMFD)))
+       {
+         vu_log_debug (vui, "VHOST_USER_PROTOCOL_F_LOG_SHMFD not set but "
+                       "VHOST_USER_SET_LOG_BASE received");
+         goto close_socket;
+       }
 
-       vui->log_base_addr = mmap (0, map_sz, PROT_READ | PROT_WRITE,
-                                  MAP_SHARED, fd, 0);
+      fd = fds[0];
+      /* align size to page */
+      long page_sz = get_huge_page_size (fd);
+      ssize_t map_sz =
+       (msg.log.size + msg.log.offset + page_sz - 1) & ~(page_sz - 1);
 
-       vu_log_debug (vui, "map log region addr 0 len 0x%lx off 0x%lx fd %d "
-                     "mapped 0x%lx", map_sz, msg.log.offset, fd,
-                     vui->log_base_addr);
+      void *log_base_addr = mmap (0, map_sz, PROT_READ | PROT_WRITE,
+                                 MAP_SHARED, fd, 0);
 
-       if (vui->log_base_addr == MAP_FAILED)
-         {
-           vu_log_err (vui, "failed to map memory. errno is %d", errno);
-           goto close_socket;
-         }
+      vu_log_debug (vui, "map log region addr 0 len 0x%lx off 0x%lx fd %d "
+                   "mapped 0x%lx", map_sz, msg.log.offset, fd,
+                   log_base_addr);
 
-       vui->log_base_addr += msg.log.offset;
-       vui->log_size = msg.log.size;
+      if (log_base_addr == MAP_FAILED)
+       {
+         vu_log_err (vui, "failed to map memory. errno is %d", errno);
+         goto close_socket;
+       }
 
-       msg.flags |= 4;
-       msg.size = sizeof (msg.u64);
+      vlib_worker_thread_barrier_sync (vm);
+      vui->log_base_addr = log_base_addr;
+      vui->log_base_addr += msg.log.offset;
+      vui->log_size = msg.log.size;
+      vlib_worker_thread_barrier_release (vm);
 
-       break;
-      }
+      msg.flags |= 4;
+      msg.size = sizeof (msg.u64);
+      n =
+       send (uf->file_descriptor, &msg, VHOST_USER_MSG_HDR_SZ + msg.size, 0);
+      if (n != (msg.size + VHOST_USER_MSG_HDR_SZ))
+       {
+         vu_log_debug (vui, "could not send message response");
+         goto close_socket;
+       }
+      break;
 
     case VHOST_USER_SET_LOG_FD:
       vu_log_debug (vui, "if %d msg VHOST_USER_SET_LOG_FD", vui->hw_if_index);
-
       break;
 
     case VHOST_USER_GET_PROTOCOL_FEATURES:
@@ -828,14 +934,19 @@ vhost_user_socket_read (clib_file_t * uf)
       msg.size = sizeof (msg.u64);
       vu_log_debug (vui, "if %d msg VHOST_USER_GET_PROTOCOL_FEATURES - "
                    "reply 0x%016llx", vui->hw_if_index, msg.u64);
+      n =
+       send (uf->file_descriptor, &msg, VHOST_USER_MSG_HDR_SZ + msg.size, 0);
+      if (n != (msg.size + VHOST_USER_MSG_HDR_SZ))
+       {
+         vu_log_debug (vui, "could not send message response");
+         goto close_socket;
+       }
       break;
 
     case VHOST_USER_SET_PROTOCOL_FEATURES:
       vu_log_debug (vui, "if %d msg VHOST_USER_SET_PROTOCOL_FEATURES "
                    "features 0x%016llx", vui->hw_if_index, msg.u64);
-
       vui->protocol_features = msg.u64;
-
       break;
 
     case VHOST_USER_GET_QUEUE_NUM:
@@ -844,6 +955,13 @@ vhost_user_socket_read (clib_file_t * uf)
       msg.size = sizeof (msg.u64);
       vu_log_debug (vui, "if %d msg VHOST_USER_GET_QUEUE_NUM - reply %d",
                    vui->hw_if_index, msg.u64);
+      n =
+       send (uf->file_descriptor, &msg, VHOST_USER_MSG_HDR_SZ + msg.size, 0);
+      if (n != (msg.size + VHOST_USER_MSG_HDR_SZ))
+       {
+         vu_log_debug (vui, "could not send message response");
+         goto close_socket;
+       }
       break;
 
     case VHOST_USER_SET_VRING_ENABLE:
@@ -858,6 +976,8 @@ vhost_user_socket_read (clib_file_t * uf)
        }
 
       vui->vrings[msg.state.index].enabled = msg.state.num;
+      vhost_user_thread_placement (vui, msg.state.index);
+      vhost_user_update_iface_state (vui);
       break;
 
     default:
@@ -866,26 +986,13 @@ vhost_user_socket_read (clib_file_t * uf)
       goto close_socket;
     }
 
-  /* if we need to reply */
-  if (msg.flags & 4)
-    {
-      n =
-       send (uf->file_descriptor, &msg, VHOST_USER_MSG_HDR_SZ + msg.size, 0);
-      if (n != (msg.size + VHOST_USER_MSG_HDR_SZ))
-       {
-         vu_log_debug (vui, "could not send message response");
-         goto close_socket;
-       }
-    }
-
-  vhost_user_update_iface_state (vui);
-  vlib_worker_thread_barrier_release (vlib_get_main ());
   return 0;
 
 close_socket:
+  vlib_worker_thread_barrier_sync (vm);
   vhost_user_if_disconnect (vui);
+  vlib_worker_thread_barrier_release (vm);
   vhost_user_update_iface_state (vui);
-  vlib_worker_thread_barrier_release (vlib_get_main ());
   return 0;
 }
 
@@ -900,7 +1007,6 @@ vhost_user_socket_error (clib_file_t * uf)
   vu_log_debug (vui, "socket error on if %d", vui->sw_if_index);
   vlib_worker_thread_barrier_sync (vm);
   vhost_user_if_disconnect (vui);
-  vhost_user_rx_thread_placement ();
   vlib_worker_thread_barrier_release (vm);
   return 0;
 }
@@ -944,14 +1050,9 @@ vhost_user_socksvr_accept_ready (clib_file_t * uf)
 static clib_error_t *
 vhost_user_init (vlib_main_t * vm)
 {
-  clib_error_t *error;
   vhost_user_main_t *vum = &vhost_user_main;
   vlib_thread_main_t *tm = vlib_get_thread_main ();
 
-  error = vlib_call_init_function (vm, ip4_init);
-  if (error)
-    return error;
-
   vum->log_default = vlib_log_register_class ("vhost-user", 0);
 
   vum->coalesce_frames = 32;
@@ -974,7 +1075,12 @@ vhost_user_init (vlib_main_t * vm)
   return 0;
 }
 
-VLIB_INIT_FUNCTION (vhost_user_init);
+/* *INDENT-OFF* */
+VLIB_INIT_FUNCTION (vhost_user_init) =
+{
+  .runs_after = VLIB_INITS("ip4_init"),
+};
+/* *INDENT-ON* */
 
 static uword
 vhost_user_send_interrupt_process (vlib_main_t * vm,
@@ -984,7 +1090,7 @@ vhost_user_send_interrupt_process (vlib_main_t * vm,
   f64 timeout = 3153600000.0 /* 100 years */ ;
   uword event_type, *event_data = 0;
   vhost_user_main_t *vum = &vhost_user_main;
-  u16 *queue;
+  u16 qid;
   f64 now, poll_time_remaining;
   f64 next_timeout;
   u8 stop_timer = 0;
@@ -1020,15 +1126,15 @@ vhost_user_send_interrupt_process (vlib_main_t * vm,
 
        case ~0:
          /* *INDENT-OFF* */
-         pool_foreach (vui, vum->vhost_user_interfaces, {
+         pool_foreach (vui, vum->vhost_user_interfaces) {
              next_timeout = timeout;
-             vec_foreach (queue, vui->rx_queues)
+             for (qid = 0; qid < VHOST_VRING_MAX_N / 2; qid += 2)
                {
-                 vhost_user_vring_t *rxvq =
-                   &vui->vrings[VHOST_VRING_IDX_RX (*queue)];
-                 vhost_user_vring_t *txvq =
-                   &vui->vrings[VHOST_VRING_IDX_TX (*queue)];
+                 vhost_user_vring_t *rxvq = &vui->vrings[qid];
+                 vhost_user_vring_t *txvq = &vui->vrings[qid + 1];
 
+                 if (txvq->qid == -1)
+                   continue;
                  if (txvq->n_since_last_int)
                    {
                      if (now >= txvq->int_deadline)
@@ -1048,7 +1154,7 @@ vhost_user_send_interrupt_process (vlib_main_t * vm,
                  if ((next_timeout < timeout) && (next_timeout > 0.0))
                    timeout = next_timeout;
                }
-         });
+         }
           /* *INDENT-ON* */
          break;
 
@@ -1099,7 +1205,7 @@ vhost_user_process (vlib_main_t * vm,
       timeout = 3.0;
 
       /* *INDENT-OFF* */
-      pool_foreach (vui, vum->vhost_user_interfaces, {
+      pool_foreach (vui, vum->vhost_user_interfaces) {
 
          if (vui->unix_server_index == ~0) { //Nothing to do for server sockets
              if (vui->clib_file_index == ~0)
@@ -1124,6 +1230,7 @@ vhost_user_process (vlib_main_t * vm,
                  /* try to connect */
                  strncpy (sun.sun_path, (char *) vui->sock_filename,
                           sizeof (sun.sun_path) - 1);
+                 sun.sun_path[sizeof (sun.sun_path) - 1] = 0;
 
                  /* Avoid hanging VPP if the other end does not accept */
                  if (fcntl(sockfd, F_SETFL, O_NONBLOCK) < 0)
@@ -1166,7 +1273,7 @@ vhost_user_process (vlib_main_t * vm,
                    }
                }
          }
-      });
+      }
       /* *INDENT-ON* */
     }
   return 0;
@@ -1192,10 +1299,29 @@ vhost_user_term_if (vhost_user_intf_t * vui)
 
   // disconnect interface sockets
   vhost_user_if_disconnect (vui);
+  vhost_user_update_gso_interface_count (vui, 0 /* delete */ );
   vhost_user_update_iface_state (vui);
 
   for (q = 0; q < VHOST_VRING_MAX_N; q++)
     {
+      // Remove existing queue mapping for the interface
+      if (q & 1)
+       {
+         int rv;
+         vnet_main_t *vnm = vnet_get_main ();
+         vhost_user_vring_t *txvq = &vui->vrings[q];
+
+         if (txvq->qid != -1)
+           {
+             rv = vnet_hw_interface_unassign_rx_thread (vnm,
+                                                        vui->hw_if_index,
+                                                        q >> 1);
+             if (rv)
+               vu_log_warn (vui, "unable to unassign interface %d, "
+                            "queue %d: rc=%d", vui->hw_if_index, q >> 1, rv);
+           }
+       }
+
       clib_mem_free ((void *) vui->vring_locks[q]);
     }
 
@@ -1220,10 +1346,12 @@ vhost_user_delete_if (vnet_main_t * vnm, vlib_main_t * vm, u32 sw_if_index)
   vhost_user_intf_t *vui;
   int rv = 0;
   vnet_hw_interface_t *hwif;
-  u16 *queue;
+  u16 qid;
 
-  if (!(hwif = vnet_get_sup_hw_interface (vnm, sw_if_index)) ||
-      hwif->dev_class_index != vhost_user_device_class.index)
+  if (!
+      (hwif =
+       vnet_get_sup_hw_interface_api_visible_or_null (vnm, sw_if_index))
+      || hwif->dev_class_index != vhost_user_device_class.index)
     return VNET_API_ERROR_INVALID_SW_IF_INDEX;
 
   vui = pool_elt_at_index (vum->vhost_user_interfaces, hwif->dev_instance);
@@ -1231,27 +1359,28 @@ vhost_user_delete_if (vnet_main_t * vnm, vlib_main_t * vm, u32 sw_if_index)
   vu_log_debug (vui, "Deleting vhost-user interface %s (instance %d)",
                hwif->name, hwif->dev_instance);
 
-  vec_foreach (queue, vui->rx_queues)
-  {
-    vhost_user_vring_t *txvq;
+  for (qid = 1; qid < VHOST_VRING_MAX_N / 2; qid += 2)
+    {
+      vhost_user_vring_t *txvq = &vui->vrings[qid];
 
-    txvq = &vui->vrings[VHOST_VRING_IDX_TX (*queue)];
-    if ((vum->ifq_count > 0) &&
-       ((txvq->mode == VNET_HW_INTERFACE_RX_MODE_INTERRUPT) ||
-        (txvq->mode == VNET_HW_INTERFACE_RX_MODE_ADAPTIVE)))
-      {
-       vum->ifq_count--;
-       // Stop the timer if there is no more interrupt interface/queue
-       if ((vum->ifq_count == 0) &&
-           (vum->coalesce_time > 0.0) && (vum->coalesce_frames > 0))
-         {
-           vlib_process_signal_event (vm,
-                                      vhost_user_send_interrupt_node.index,
-                                      VHOST_USER_EVENT_STOP_TIMER, 0);
-           break;
-         }
-      }
-  }
+      if (txvq->qid == -1)
+       continue;
+      if ((vum->ifq_count > 0) &&
+         ((txvq->mode == VNET_HW_IF_RX_MODE_INTERRUPT) ||
+          (txvq->mode == VNET_HW_IF_RX_MODE_ADAPTIVE)))
+       {
+         vum->ifq_count--;
+         // Stop the timer if there is no more interrupt interface/queue
+         if ((vum->ifq_count == 0) &&
+             (vum->coalesce_time > 0.0) && (vum->coalesce_frames > 0))
+           {
+             vlib_process_signal_event (vm,
+                                        vhost_user_send_interrupt_node.index,
+                                        VHOST_USER_EVENT_STOP_TIMER, 0);
+             break;
+           }
+       }
+    }
 
   // Disable and reset interface
   vhost_user_term_if (vui);
@@ -1279,9 +1408,9 @@ vhost_user_exit (vlib_main_t * vm)
 
   vlib_worker_thread_barrier_sync (vlib_get_main ());
   /* *INDENT-OFF* */
-  pool_foreach (vui, vum->vhost_user_interfaces, {
+  pool_foreach (vui, vum->vhost_user_interfaces) {
       vhost_user_delete_if (vnm, vm, vui->sw_if_index);
-  });
+  }
   /* *INDENT-ON* */
   vlib_worker_thread_barrier_release (vlib_get_main ());
   return 0;
@@ -1372,7 +1501,8 @@ vhost_user_vui_init (vnet_main_t * vnm,
                     vhost_user_intf_t * vui,
                     int server_sock_fd,
                     const char *sock_filename,
-                    u64 feature_mask, u32 * sw_if_index)
+                    u64 feature_mask, u32 * sw_if_index, u8 enable_gso,
+                    u8 enable_packed)
 {
   vnet_sw_interface_t *sw;
   int q;
@@ -1403,6 +1533,24 @@ vhost_user_vui_init (vnet_main_t * vnm,
   vui->clib_file_index = ~0;
   vui->log_base_addr = 0;
   vui->if_index = vui - vum->vhost_user_interfaces;
+  vui->enable_gso = enable_gso;
+  vui->enable_packed = enable_packed;
+  /*
+   * enable_gso takes precedence over configurable feature mask if there
+   * is a clash.
+   *   if feature mask disables gso, but enable_gso is configured,
+   *     then gso is enable
+   *   if feature mask enables gso, but enable_gso is not configured,
+   *     then gso is enable
+   *
+   * if gso is enable via feature mask, it must enable both host and guest
+   * gso feature mask, we don't support one sided GSO or partial GSO.
+   */
+  if ((vui->enable_gso == 0) &&
+      ((feature_mask & FEATURE_VIRTIO_NET_F_HOST_GUEST_TSO_FEATURE_BITS) ==
+       (FEATURE_VIRTIO_NET_F_HOST_GUEST_TSO_FEATURE_BITS)))
+    vui->enable_gso = 1;
+  vhost_user_update_gso_interface_count (vui, 1 /* add */ );
   mhash_set_mem (&vum->if_index_by_sock_name, vui->sock_filename,
                 &vui->if_index, 0);
 
@@ -1433,7 +1581,8 @@ vhost_user_create_if (vnet_main_t * vnm, vlib_main_t * vm,
                      u8 is_server,
                      u32 * sw_if_index,
                      u64 feature_mask,
-                     u8 renumber, u32 custom_dev_instance, u8 * hwaddr)
+                     u8 renumber, u32 custom_dev_instance, u8 * hwaddr,
+                     u8 enable_gso, u8 enable_packed)
 {
   vhost_user_intf_t *vui = NULL;
   u32 sw_if_idx = ~0;
@@ -1467,12 +1616,16 @@ vhost_user_create_if (vnet_main_t * vnm, vlib_main_t * vm,
        }
     }
 
+  /* Protect the uninitialized vui from being dispatched by rx/tx */
+  vlib_worker_thread_barrier_sync (vm);
   pool_get (vhost_user_main.vhost_user_interfaces, vui);
-
   vhost_user_create_ethernet (vnm, vm, vui, hwaddr);
+  vlib_worker_thread_barrier_release (vm);
+
   vhost_user_vui_init (vnm, vui, server_sock_fd, sock_filename,
-                      feature_mask, &sw_if_idx);
+                      feature_mask, &sw_if_idx, enable_gso, enable_packed);
   vnet_sw_interface_set_mtu (vnm, vui->sw_if_index, 9000);
+  vhost_user_rx_thread_placement (vui, 1);
 
   if (renumber)
     vnet_interface_name_renumber (sw_if_idx, custom_dev_instance);
@@ -1491,7 +1644,8 @@ vhost_user_modify_if (vnet_main_t * vnm, vlib_main_t * vm,
                      const char *sock_filename,
                      u8 is_server,
                      u32 sw_if_index,
-                     u64 feature_mask, u8 renumber, u32 custom_dev_instance)
+                     u64 feature_mask, u8 renumber, u32 custom_dev_instance,
+                     u8 enable_gso, u8 enable_packed)
 {
   vhost_user_main_t *vum = &vhost_user_main;
   vhost_user_intf_t *vui = NULL;
@@ -1501,8 +1655,10 @@ vhost_user_modify_if (vnet_main_t * vnm, vlib_main_t * vm,
   vnet_hw_interface_t *hwif;
   uword *if_index;
 
-  if (!(hwif = vnet_get_sup_hw_interface (vnm, sw_if_index)) ||
-      hwif->dev_class_index != vhost_user_device_class.index)
+  if (!
+      (hwif =
+       vnet_get_sup_hw_interface_api_visible_or_null (vnm, sw_if_index))
+      || hwif->dev_class_index != vhost_user_device_class.index)
     return VNET_API_ERROR_INVALID_SW_IF_INDEX;
 
   if (sock_filename == NULL || !(strlen (sock_filename) > 0))
@@ -1526,7 +1682,8 @@ vhost_user_modify_if (vnet_main_t * vnm, vlib_main_t * vm,
 
   vhost_user_term_if (vui);
   vhost_user_vui_init (vnm, vui, server_sock_fd,
-                      sock_filename, feature_mask, &sw_if_idx);
+                      sock_filename, feature_mask, &sw_if_idx, enable_gso,
+                      enable_packed);
 
   if (renumber)
     vnet_interface_name_renumber (sw_if_idx, custom_dev_instance);
@@ -1552,17 +1709,26 @@ vhost_user_connect_command_fn (vlib_main_t * vm,
   u8 hwaddr[6];
   u8 *hw = NULL;
   clib_error_t *error = NULL;
+  u8 enable_gso = 0, enable_packed = 0;
 
   /* Get a line of input. */
   if (!unformat_user (input, unformat_line_input, line_input))
     return 0;
 
+  /* GSO feature is disable by default */
+  feature_mask &= ~FEATURE_VIRTIO_NET_F_HOST_GUEST_TSO_FEATURE_BITS;
+  /* packed-ring feature is disable by default */
+  feature_mask &= ~VIRTIO_FEATURE (VIRTIO_F_RING_PACKED);
   while (unformat_check_input (line_input) != UNFORMAT_END_OF_INPUT)
     {
       if (unformat (line_input, "socket %s", &sock_filename))
        ;
       else if (unformat (line_input, "server"))
        is_server = 1;
+      else if (unformat (line_input, "gso"))
+       enable_gso = 1;
+      else if (unformat (line_input, "packed"))
+       enable_packed = 1;
       else if (unformat (line_input, "feature-mask 0x%llx", &feature_mask))
        ;
       else
@@ -1586,7 +1752,8 @@ vhost_user_connect_command_fn (vlib_main_t * vm,
   int rv;
   if ((rv = vhost_user_create_if (vnm, vm, (char *) sock_filename,
                                  is_server, &sw_if_index, feature_mask,
-                                 renumber, custom_dev_instance, hw)))
+                                 renumber, custom_dev_instance, hw,
+                                 enable_gso, enable_packed)))
     {
       error = clib_error_return (0, "vhost_user_create_if returned %d", rv);
       goto done;
@@ -1625,7 +1792,7 @@ vhost_user_delete_command_fn (vlib_main_t * vm,
                &sw_if_index))
        {
          vnet_hw_interface_t *hwif =
-           vnet_get_sup_hw_interface (vnm, sw_if_index);
+           vnet_get_sup_hw_interface_api_visible_or_null (vnm, sw_if_index);
          if (hwif == NULL ||
              vhost_user_device_class.index != hwif->dev_class_index)
            {
@@ -1660,15 +1827,13 @@ vhost_user_dump_ifs (vnet_main_t * vnm, vlib_main_t * vm,
   vhost_user_intf_details_t *vuid = NULL;
   u32 *hw_if_indices = 0;
   vnet_hw_interface_t *hi;
-  u8 *s = NULL;
   int i;
 
   if (!out_vuids)
     return -1;
 
-  pool_foreach (vui, vum->vhost_user_interfaces,
-               vec_add1 (hw_if_indices, vui->hw_if_index);
-    );
+  pool_foreach (vui, vum->vhost_user_interfaces)
+    vec_add1 (hw_if_indices, vui->hw_if_index);
 
   for (i = 0; i < vec_len (hw_if_indices); i++)
     {
@@ -1682,17 +1847,13 @@ vhost_user_dump_ifs (vnet_main_t * vnm, vlib_main_t * vm,
       vuid->num_regions = vui->nregions;
       vuid->is_server = vui->unix_server_index != ~0;
       vuid->sock_errno = vui->sock_errno;
-      strncpy ((char *) vuid->sock_filename, (char *) vui->sock_filename,
-              sizeof (vuid->sock_filename));
-      vuid->sock_filename[ARRAY_LEN (vuid->sock_filename) - 1] = '\0';
-      s = format (s, "%v%c", hi->name, 0);
-
-      strncpy ((char *) vuid->if_name, (char *) s,
-              ARRAY_LEN (vuid->if_name) - 1);
-      _vec_len (s) = 0;
+      snprintf ((char *) vuid->sock_filename, sizeof (vuid->sock_filename),
+               "%s", vui->sock_filename);
+      memcpy_s (vuid->if_name, sizeof (vuid->if_name), hi->name,
+               clib_min (vec_len (hi->name), sizeof (vuid->if_name) - 1));
+      vuid->if_name[sizeof (vuid->if_name) - 1] = 0;
     }
 
-  vec_free (s);
   vec_free (hw_if_indices);
 
   *out_vuids = r_vuids;
@@ -1700,6 +1861,186 @@ vhost_user_dump_ifs (vnet_main_t * vnm, vlib_main_t * vm,
   return rv;
 }
 
+static u8 *
+format_vhost_user_desc (u8 * s, va_list * args)
+{
+  char *fmt = va_arg (*args, char *);
+  vhost_user_intf_t *vui = va_arg (*args, vhost_user_intf_t *);
+  vring_desc_t *desc_table = va_arg (*args, vring_desc_t *);
+  int idx = va_arg (*args, int);
+  u32 *mem_hint = va_arg (*args, u32 *);
+
+  s = format (s, fmt, idx, desc_table[idx].addr, desc_table[idx].len,
+             desc_table[idx].flags, desc_table[idx].next,
+             pointer_to_uword (map_guest_mem (vui, desc_table[idx].addr,
+                                              mem_hint)));
+  return s;
+}
+
+static u8 *
+format_vhost_user_vring (u8 * s, va_list * args)
+{
+  char *fmt = va_arg (*args, char *);
+  vhost_user_intf_t *vui = va_arg (*args, vhost_user_intf_t *);
+  int q = va_arg (*args, int);
+
+  s = format (s, fmt, vui->vrings[q].avail->flags, vui->vrings[q].avail->idx,
+             vui->vrings[q].used->flags, vui->vrings[q].used->idx);
+  return s;
+}
+
+static void
+vhost_user_show_fds (vlib_main_t * vm, vhost_user_intf_t * vui, int q)
+{
+  int kickfd = UNIX_GET_FD (vui->vrings[q].kickfd_idx);
+  int callfd = UNIX_GET_FD (vui->vrings[q].callfd_idx);
+
+  vlib_cli_output (vm, "  kickfd %d callfd %d errfd %d\n", kickfd, callfd,
+                  vui->vrings[q].errfd);
+}
+
+static void
+vhost_user_show_desc (vlib_main_t * vm, vhost_user_intf_t * vui, int q,
+                     int show_descr, int show_verbose)
+{
+  int j;
+  u32 mem_hint = 0;
+  u32 idx;
+  u32 n_entries;
+  vring_desc_t *desc_table;
+
+  if (vui->vrings[q].avail && vui->vrings[q].used)
+    vlib_cli_output (vm, "%U", format_vhost_user_vring,
+                    "  avail.flags %x avail.idx %d used.flags %x used.idx %d\n",
+                    vui, q);
+
+  vhost_user_show_fds (vm, vui, q);
+
+  if (show_descr)
+    {
+      vlib_cli_output (vm, "\n  descriptor table:\n");
+      vlib_cli_output (vm,
+                      "  slot         addr         len  flags  next      "
+                      "user_addr\n");
+      vlib_cli_output (vm,
+                      "  ===== ================== ===== ====== ===== "
+                      "==================\n");
+      for (j = 0; j < vui->vrings[q].qsz_mask + 1; j++)
+       {
+         desc_table = vui->vrings[q].desc;
+         vlib_cli_output (vm, "%U", format_vhost_user_desc,
+                          "  %-5d 0x%016lx %-5d 0x%04x %-5d 0x%016lx\n", vui,
+                          desc_table, j, &mem_hint);
+         if (show_verbose && (desc_table[j].flags & VRING_DESC_F_INDIRECT))
+           {
+             n_entries = desc_table[j].len / sizeof (vring_desc_t);
+             desc_table = map_guest_mem (vui, desc_table[j].addr, &mem_hint);
+             if (desc_table)
+               {
+                 for (idx = 0; idx < clib_min (20, n_entries); idx++)
+                   {
+                     vlib_cli_output
+                       (vm, "%U", format_vhost_user_desc,
+                        ">  %-4u 0x%016lx %-5u 0x%04x %-5u 0x%016lx\n", vui,
+                        desc_table, idx, &mem_hint);
+                   }
+                 if (n_entries >= 20)
+                   vlib_cli_output (vm, "Skip displaying entries 20...%u\n",
+                                    n_entries);
+               }
+           }
+       }
+    }
+}
+
+static u8 *
+format_vhost_user_packed_desc (u8 * s, va_list * args)
+{
+  char *fmt = va_arg (*args, char *);
+  vhost_user_intf_t *vui = va_arg (*args, vhost_user_intf_t *);
+  vring_packed_desc_t *desc_table = va_arg (*args, vring_packed_desc_t *);
+  int idx = va_arg (*args, int);
+  u32 *mem_hint = va_arg (*args, u32 *);
+
+  s = format (s, fmt, idx, desc_table[idx].addr, desc_table[idx].len,
+             desc_table[idx].flags, desc_table[idx].id,
+             pointer_to_uword (map_guest_mem (vui, desc_table[idx].addr,
+                                              mem_hint)));
+  return s;
+}
+
+static u8 *
+format_vhost_user_vring_packed (u8 * s, va_list * args)
+{
+  char *fmt = va_arg (*args, char *);
+  vhost_user_intf_t *vui = va_arg (*args, vhost_user_intf_t *);
+  int q = va_arg (*args, int);
+
+  s = format (s, fmt, vui->vrings[q].avail_event->flags,
+             vui->vrings[q].avail_event->off_wrap,
+             vui->vrings[q].used_event->flags,
+             vui->vrings[q].used_event->off_wrap,
+             vui->vrings[q].avail_wrap_counter,
+             vui->vrings[q].used_wrap_counter);
+  return s;
+}
+
+static void
+vhost_user_show_desc_packed (vlib_main_t * vm, vhost_user_intf_t * vui, int q,
+                            int show_descr, int show_verbose)
+{
+  int j;
+  u32 mem_hint = 0;
+  u32 idx;
+  u32 n_entries;
+  vring_packed_desc_t *desc_table;
+
+  if (vui->vrings[q].avail_event && vui->vrings[q].used_event)
+    vlib_cli_output (vm, "%U", format_vhost_user_vring_packed,
+                    "  avail_event.flags %x avail_event.off_wrap %u "
+                    "used_event.flags %x used_event.off_wrap %u\n"
+                    "  avail wrap counter %u, used wrap counter %u\n",
+                    vui, q);
+
+  vhost_user_show_fds (vm, vui, q);
+
+  if (show_descr)
+    {
+      vlib_cli_output (vm, "\n  descriptor table:\n");
+      vlib_cli_output (vm,
+                      "  slot         addr         len  flags  id    "
+                      "user_addr\n");
+      vlib_cli_output (vm,
+                      "  ===== ================== ===== ====== ===== "
+                      "==================\n");
+      for (j = 0; j < vui->vrings[q].qsz_mask + 1; j++)
+       {
+         desc_table = vui->vrings[q].packed_desc;
+         vlib_cli_output (vm, "%U", format_vhost_user_packed_desc,
+                          "  %-5u 0x%016lx %-5u 0x%04x %-5u 0x%016lx\n", vui,
+                          desc_table, j, &mem_hint);
+         if (show_verbose && (desc_table[j].flags & VRING_DESC_F_INDIRECT))
+           {
+             n_entries = desc_table[j].len >> 4;
+             desc_table = map_guest_mem (vui, desc_table[j].addr, &mem_hint);
+             if (desc_table)
+               {
+                 for (idx = 0; idx < clib_min (20, n_entries); idx++)
+                   {
+                     vlib_cli_output
+                       (vm, "%U", format_vhost_user_packed_desc,
+                        ">  %-4u 0x%016lx %-5u 0x%04x %-5u 0x%016lx\n", vui,
+                        desc_table, idx, &mem_hint);
+                   }
+                 if (n_entries >= 20)
+                   vlib_cli_output (vm, "Skip displaying entries 20...%u\n",
+                                    n_entries);
+               }
+           }
+       }
+    }
+}
+
 clib_error_t *
 show_vhost_user_command_fn (vlib_main_t * vm,
                            unformat_input_t * input,
@@ -1711,10 +2052,11 @@ show_vhost_user_command_fn (vlib_main_t * vm,
   vhost_user_intf_t *vui;
   u32 hw_if_index, *hw_if_indices = 0;
   vnet_hw_interface_t *hi;
-  u16 *queue;
+  u16 qid;
   u32 ci;
   int i, j, q;
   int show_descr = 0;
+  int show_verbose = 0;
   struct feat_struct
   {
     u8 bit;
@@ -1724,7 +2066,7 @@ show_vhost_user_command_fn (vlib_main_t * vm,
 
   static struct feat_struct feat_array[] = {
 #define _(s,b) { .str = #s, .bit = b, },
-    foreach_virtio_net_feature
+    foreach_virtio_net_features
 #undef _
     {.str = NULL}
   };
@@ -1756,6 +2098,8 @@ show_vhost_user_command_fn (vlib_main_t * vm,
        }
       else if (unformat (input, "descriptors") || unformat (input, "desc"))
        show_descr = 1;
+      else if (unformat (input, "verbose"))
+       show_verbose = 1;
       else
        {
          error = clib_error_return (0, "unknown input `%U'",
@@ -1765,15 +2109,15 @@ show_vhost_user_command_fn (vlib_main_t * vm,
     }
   if (vec_len (hw_if_indices) == 0)
     {
-      pool_foreach (vui, vum->vhost_user_interfaces,
-                   vec_add1 (hw_if_indices, vui->hw_if_index);
-       );
+      pool_foreach (vui, vum->vhost_user_interfaces)
+       vec_add1 (hw_if_indices, vui->hw_if_index);
     }
   vlib_cli_output (vm, "Virtio vhost-user interfaces");
   vlib_cli_output (vm, "Global:\n  coalesce frames %d time %e",
                   vum->coalesce_frames, vum->coalesce_time);
-  vlib_cli_output (vm, "  number of rx virtqueues in interrupt mode: %d",
+  vlib_cli_output (vm, "  Number of rx virtqueues in interrupt mode: %d",
                   vum->ifq_count);
+  vlib_cli_output (vm, "  Number of GSO interfaces: %d", vum->gso_count);
 
   for (i = 0; i < vec_len (hw_if_indices); i++)
     {
@@ -1782,6 +2126,10 @@ show_vhost_user_command_fn (vlib_main_t * vm,
       vlib_cli_output (vm, "Interface: %U (ifindex %d)",
                       format_vnet_hw_if_index_name, vnm, hw_if_indices[i],
                       hw_if_indices[i]);
+      if (vui->enable_gso)
+       vlib_cli_output (vm, "  GSO enable");
+      if (vui->enable_packed)
+       vlib_cli_output (vm, "  Packed ring enable");
 
       vlib_cli_output (vm, "virtio_net_hdr_sz %d\n"
                       " features mask (0x%llx): \n"
@@ -1818,20 +2166,24 @@ show_vhost_user_command_fn (vlib_main_t * vm,
 
       vlib_cli_output (vm, " rx placement: ");
 
-      vec_foreach (queue, vui->rx_queues)
-      {
-       vnet_main_t *vnm = vnet_get_main ();
-       uword thread_index;
-       vnet_hw_interface_rx_mode mode;
-
-       thread_index = vnet_get_device_input_thread_index (vnm,
-                                                          vui->hw_if_index,
-                                                          *queue);
-       vnet_hw_interface_get_rx_mode (vnm, vui->hw_if_index, *queue, &mode);
-       vlib_cli_output (vm, "   thread %d on vring %d, %U\n",
-                        thread_index, VHOST_VRING_IDX_TX (*queue),
-                        format_vnet_hw_interface_rx_mode, mode);
-      }
+      for (qid = 1; qid < VHOST_VRING_MAX_N / 2; qid += 2)
+       {
+         vnet_main_t *vnm = vnet_get_main ();
+         uword thread_index;
+         vnet_hw_if_rx_mode mode;
+         vhost_user_vring_t *txvq = &vui->vrings[qid];
+
+         if (txvq->qid == -1)
+           continue;
+         thread_index =
+           vnet_get_device_input_thread_index (vnm, vui->hw_if_index,
+                                               qid >> 1);
+         vnet_hw_interface_get_rx_mode (vnm, vui->hw_if_index, qid >> 1,
+                                        &mode);
+         vlib_cli_output (vm, "   thread %d on vring %d, %U\n",
+                          thread_index, qid,
+                          format_vnet_hw_if_rx_mode, mode);
+       }
 
       vlib_cli_output (vm, " tx placement: %s\n",
                       vui->use_tx_spinlock ? "spin-lock" : "lock-free");
@@ -1879,41 +2231,11 @@ show_vhost_user_command_fn (vlib_main_t * vm,
                           vui->vrings[q].last_avail_idx,
                           vui->vrings[q].last_used_idx);
 
-         if (vui->vrings[q].avail && vui->vrings[q].used)
-           vlib_cli_output (vm,
-                            "  avail.flags %x avail.idx %d used.flags %x used.idx %d\n",
-                            vui->vrings[q].avail->flags,
-                            vui->vrings[q].avail->idx,
-                            vui->vrings[q].used->flags,
-                            vui->vrings[q].used->idx);
-
-         int kickfd = UNIX_GET_FD (vui->vrings[q].kickfd_idx);
-         int callfd = UNIX_GET_FD (vui->vrings[q].callfd_idx);
-         vlib_cli_output (vm, "  kickfd %d callfd %d errfd %d\n",
-                          kickfd, callfd, vui->vrings[q].errfd);
-
-         if (show_descr)
-           {
-             vlib_cli_output (vm, "\n  descriptor table:\n");
-             vlib_cli_output (vm,
-                              "   id          addr         len  flags  next      user_addr\n");
-             vlib_cli_output (vm,
-                              "  ===== ================== ===== ====== ===== ==================\n");
-             for (j = 0; j < vui->vrings[q].qsz_mask + 1; j++)
-               {
-                 u32 mem_hint = 0;
-                 vlib_cli_output (vm,
-                                  "  %-5d 0x%016lx %-5d 0x%04x %-5d 0x%016lx\n",
-                                  j, vui->vrings[q].desc[j].addr,
-                                  vui->vrings[q].desc[j].len,
-                                  vui->vrings[q].desc[j].flags,
-                                  vui->vrings[q].desc[j].next,
-                                  pointer_to_uword (map_guest_mem
-                                                    (vui,
-                                                     vui->vrings[q].desc[j].
-                                                     addr, &mem_hint)));
-               }
-           }
+         if (vhost_user_is_packed_ring_supported (vui))
+           vhost_user_show_desc_packed (vm, vui, q, show_descr,
+                                        show_verbose);
+         else
+           vhost_user_show_desc (vm, vui, q, show_descr, show_verbose);
        }
       vlib_cli_output (vm, "\n");
     }
@@ -1984,8 +2306,10 @@ done:
 VLIB_CLI_COMMAND (vhost_user_connect_command, static) = {
     .path = "create vhost-user",
     .short_help = "create vhost-user socket <socket-filename> [server] "
-    "[feature-mask <hex>] [hwaddr <mac-addr>] [renumber <dev_instance>] ",
+    "[feature-mask <hex>] [hwaddr <mac-addr>] [renumber <dev_instance>] [gso] "
+    "[packed]",
     .function = vhost_user_connect_command_fn,
+    .is_mp_safe = 1,
 };
 /* *INDENT-ON* */
 
@@ -2144,7 +2468,8 @@ VLIB_CLI_COMMAND (vhost_user_delete_command, static) = {
 /* *INDENT-OFF* */
 VLIB_CLI_COMMAND (show_vhost_user_command, static) = {
     .path = "show vhost-user",
-    .short_help = "show vhost-user [<interface> [<interface> [..]]] [descriptors]",
+    .short_help = "show vhost-user [<interface> [<interface> [..]]] "
+    "[[descriptors] [verbose]]",
     .function = show_vhost_user_command_fn,
 };
 /* *INDENT-ON* */
@@ -2182,9 +2507,8 @@ vhost_user_unmap_all (void)
 
   if (vum->dont_dump_vhost_user_memory)
     {
-      pool_foreach (vui, vum->vhost_user_interfaces,
-                   unmap_all_mem_regions (vui);
-       );
+      pool_foreach (vui, vum->vhost_user_interfaces)
+       unmap_all_mem_regions (vui);
     }
 }