memif: try harder to transmit packets
[vpp.git] / src / plugins / memif / device.c
1 /*
2  *------------------------------------------------------------------
3  * Copyright (c) 2016 Cisco and/or its affiliates.
4  * Licensed under the Apache License, Version 2.0 (the "License");
5  * you may not use this file except in compliance with the License.
6  * You may obtain a copy of the License at:
7  *
8  *     http://www.apache.org/licenses/LICENSE-2.0
9  *
10  * Unless required by applicable law or agreed to in writing, software
11  * distributed under the License is distributed on an "AS IS" BASIS,
12  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13  * See the License for the specific language governing permissions and
14  * limitations under the License.
15  *------------------------------------------------------------------
16  */
17
18 #define _GNU_SOURCE
19 #include <stdint.h>
20 #include <net/if.h>
21 #include <sys/ioctl.h>
22 #include <sys/uio.h>
23
24 #include <vlib/vlib.h>
25 #include <vlib/unix/unix.h>
26 #include <vnet/ethernet/ethernet.h>
27
28 #include <memif/memif.h>
29 #include <memif/private.h>
30
31 #define foreach_memif_tx_func_error            \
32 _(NO_FREE_SLOTS, "no free tx slots")           \
33 _(TRUNC_PACKET, "packet > buffer size -- truncated in tx ring") \
34 _(PENDING_MSGS, "pending msgs in tx ring")
35
36 typedef enum
37 {
38 #define _(f,s) MEMIF_TX_ERROR_##f,
39   foreach_memif_tx_func_error
40 #undef _
41     MEMIF_TX_N_ERROR,
42 } memif_tx_func_error_t;
43
44 static __clib_unused char *memif_tx_func_error_strings[] = {
45 #define _(n,s) s,
46   foreach_memif_tx_func_error
47 #undef _
48 };
49
50 #ifndef CLIB_MULTIARCH_VARIANT
51 u8 *
52 format_memif_device_name (u8 * s, va_list * args)
53 {
54   u32 dev_instance = va_arg (*args, u32);
55   memif_main_t *mm = &memif_main;
56   memif_if_t *mif = pool_elt_at_index (mm->interfaces, dev_instance);
57
58   s = format (s, "memif%lu/%lu", mif->socket_file_index, mif->id);
59   return s;
60 }
61 #endif
62
63 static __clib_unused u8 *
64 format_memif_device (u8 * s, va_list * args)
65 {
66   u32 dev_instance = va_arg (*args, u32);
67   int verbose = va_arg (*args, int);
68   u32 indent = format_get_indent (s);
69
70   s = format (s, "MEMIF interface");
71   if (verbose)
72     {
73       s = format (s, "\n%U instance %u", format_white_space, indent + 2,
74                   dev_instance);
75     }
76   return s;
77 }
78
79 static __clib_unused u8 *
80 format_memif_tx_trace (u8 * s, va_list * args)
81 {
82   s = format (s, "Unimplemented...");
83   return s;
84 }
85
86 static_always_inline void
87 memif_prefetch_buffer_and_data (vlib_main_t * vm, u32 bi)
88 {
89   vlib_buffer_t *b = vlib_get_buffer (vm, bi);
90   vlib_prefetch_buffer_header (b, LOAD);
91   CLIB_PREFETCH (b->data, CLIB_CACHE_LINE_BYTES, LOAD);
92 }
93
94 /**
95  * @brief Copy buffer to tx ring
96  *
97  * @param * vm (in)
98  * @param * node (in)
99  * @param * mif (in) pointer to memif interface
100  * @param bi (in) vlib buffer index
101  * @param * ring (in) pointer to memif ring
102  * @param * head (in/out) ring head
103  * @param mask (in) ring size - 1
104  */
105 static_always_inline void
106 memif_copy_buffer_to_tx_ring (vlib_main_t * vm, vlib_node_runtime_t * node,
107                               memif_if_t * mif, u32 bi, memif_ring_t * ring,
108                               u16 * head, u16 mask)
109 {
110   vlib_buffer_t *b0;
111   void *mb0;
112   u32 total = 0, len;
113   u16 slot = (*head) & mask;
114
115   mb0 = memif_get_buffer (mif, ring, slot);
116   ring->desc[slot].flags = 0;
117   do
118     {
119       b0 = vlib_get_buffer (vm, bi);
120       len = b0->current_length;
121       if (PREDICT_FALSE (ring->desc[slot].buffer_length < (total + len)))
122         {
123           if (PREDICT_TRUE (total))
124             {
125               ring->desc[slot].length = total;
126               total = 0;
127               ring->desc[slot].flags |= MEMIF_DESC_FLAG_NEXT;
128               (*head)++;
129               slot = (*head) & mask;
130               mb0 = memif_get_buffer (mif, ring, slot);
131               ring->desc[slot].flags = 0;
132             }
133         }
134       if (PREDICT_TRUE (ring->desc[slot].buffer_length >= (total + len)))
135         {
136           clib_memcpy (mb0 + total, vlib_buffer_get_current (b0),
137                        CLIB_CACHE_LINE_BYTES);
138           if (len > CLIB_CACHE_LINE_BYTES)
139             clib_memcpy (mb0 + CLIB_CACHE_LINE_BYTES + total,
140                          vlib_buffer_get_current (b0) + CLIB_CACHE_LINE_BYTES,
141                          len - CLIB_CACHE_LINE_BYTES);
142           total += len;
143         }
144       else
145         {
146           vlib_error_count (vm, node->node_index, MEMIF_TX_ERROR_TRUNC_PACKET,
147                             1);
148           break;
149         }
150     }
151   while ((bi = (b0->flags & VLIB_BUFFER_NEXT_PRESENT) ? b0->next_buffer : 0));
152
153   if (PREDICT_TRUE (total))
154     {
155       ring->desc[slot].length = total;
156       (*head)++;
157     }
158 }
159
160 static_always_inline uword
161 memif_interface_tx_inline (vlib_main_t * vm, vlib_node_runtime_t * node,
162                            vlib_frame_t * frame, memif_if_t * mif,
163                            memif_ring_type_t type)
164 {
165   u8 qid;
166   memif_ring_t *ring;
167   u32 *buffers = vlib_frame_args (frame);
168   u32 n_left = frame->n_vectors;
169   u16 ring_size, mask;
170   u16 head, tail;
171   u16 free_slots;
172   u32 thread_index = vlib_get_thread_index ();
173   u8 tx_queues = vec_len (mif->tx_queues);
174   memif_queue_t *mq;
175   int n_retries = 5;
176
177   if (tx_queues < vec_len (vlib_mains))
178     {
179       qid = thread_index % tx_queues;
180       clib_spinlock_lock_if_init (&mif->lockp);
181     }
182   else
183     qid = thread_index;
184
185   mq = vec_elt_at_index (mif->tx_queues, qid);
186   ring = mq->ring;
187   ring_size = 1 << mq->log2_ring_size;
188   mask = ring_size - 1;
189 retry:
190
191   /* free consumed buffers */
192
193   head = ring->head;
194   tail = ring->tail;
195
196   free_slots = ring_size - head + tail;
197
198   while (n_left > 5 && free_slots > 1)
199     {
200       CLIB_PREFETCH (memif_get_buffer (mif, ring, (head + 2) & mask),
201                      CLIB_CACHE_LINE_BYTES, STORE);
202       CLIB_PREFETCH (memif_get_buffer (mif, ring, (head + 3) & mask),
203                      CLIB_CACHE_LINE_BYTES, STORE);
204       CLIB_PREFETCH (&ring->desc[(head + 4) & mask], CLIB_CACHE_LINE_BYTES,
205                      STORE);
206       CLIB_PREFETCH (&ring->desc[(head + 5) & mask], CLIB_CACHE_LINE_BYTES,
207                      STORE);
208       memif_prefetch_buffer_and_data (vm, buffers[2]);
209       memif_prefetch_buffer_and_data (vm, buffers[3]);
210
211       memif_copy_buffer_to_tx_ring (vm, node, mif, buffers[0], ring, &head,
212                                     mask);
213       memif_copy_buffer_to_tx_ring (vm, node, mif, buffers[1], ring, &head,
214                                     mask);
215
216       buffers += 2;
217       n_left -= 2;
218       free_slots -= 2;
219     }
220
221   while (n_left && free_slots)
222     {
223       memif_copy_buffer_to_tx_ring (vm, node, mif, buffers[0], ring, &head,
224                                     mask);
225       buffers++;
226       n_left--;
227       free_slots--;
228     }
229
230   CLIB_MEMORY_STORE_BARRIER ();
231   ring->head = head;
232
233   if (n_left && n_retries--)
234     goto retry;
235
236   clib_spinlock_unlock_if_init (&mif->lockp);
237
238   if (n_left)
239     {
240       vlib_error_count (vm, node->node_index, MEMIF_TX_ERROR_NO_FREE_SLOTS,
241                         n_left);
242     }
243
244   if ((ring->flags & MEMIF_RING_FLAG_MASK_INT) == 0 && mq->int_fd > -1)
245     {
246       u64 b = 1;
247       CLIB_UNUSED (int r) = write (mq->int_fd, &b, sizeof (b));
248       mq->int_count++;
249     }
250
251   vlib_buffer_free (vm, vlib_frame_args (frame), frame->n_vectors);
252
253   return frame->n_vectors;
254 }
255
256 uword
257 CLIB_MULTIARCH_FN (memif_interface_tx) (vlib_main_t * vm,
258                                         vlib_node_runtime_t * node,
259                                         vlib_frame_t * frame)
260 {
261   memif_main_t *nm = &memif_main;
262   vnet_interface_output_runtime_t *rund = (void *) node->runtime_data;
263   memif_if_t *mif = pool_elt_at_index (nm->interfaces, rund->dev_instance);
264
265   if (mif->flags & MEMIF_IF_FLAG_IS_SLAVE)
266     return memif_interface_tx_inline (vm, node, frame, mif, MEMIF_RING_S2M);
267   else
268     return memif_interface_tx_inline (vm, node, frame, mif, MEMIF_RING_M2S);
269 }
270
271 static __clib_unused void
272 memif_set_interface_next_node (vnet_main_t * vnm, u32 hw_if_index,
273                                u32 node_index)
274 {
275   memif_main_t *apm = &memif_main;
276   vnet_hw_interface_t *hw = vnet_get_hw_interface (vnm, hw_if_index);
277   memif_if_t *mif = pool_elt_at_index (apm->interfaces, hw->dev_instance);
278
279   /* Shut off redirection */
280   if (node_index == ~0)
281     {
282       mif->per_interface_next_index = node_index;
283       return;
284     }
285
286   mif->per_interface_next_index =
287     vlib_node_add_next (vlib_get_main (), memif_input_node.index, node_index);
288 }
289
290 static __clib_unused void
291 memif_clear_hw_interface_counters (u32 instance)
292 {
293   /* Nothing for now */
294 }
295
296 static __clib_unused clib_error_t *
297 memif_interface_rx_mode_change (vnet_main_t * vnm, u32 hw_if_index, u32 qid,
298                                 vnet_hw_interface_rx_mode mode)
299 {
300   memif_main_t *mm = &memif_main;
301   vnet_hw_interface_t *hw = vnet_get_hw_interface (vnm, hw_if_index);
302   memif_if_t *mif = pool_elt_at_index (mm->interfaces, hw->dev_instance);
303   memif_queue_t *mq = vec_elt_at_index (mif->rx_queues, qid);
304
305   if (mode == VNET_HW_INTERFACE_RX_MODE_POLLING)
306     mq->ring->flags |= MEMIF_RING_FLAG_MASK_INT;
307   else
308     mq->ring->flags &= ~MEMIF_RING_FLAG_MASK_INT;
309
310   return 0;
311 }
312
313 static __clib_unused clib_error_t *
314 memif_interface_admin_up_down (vnet_main_t * vnm, u32 hw_if_index, u32 flags)
315 {
316   memif_main_t *mm = &memif_main;
317   vnet_hw_interface_t *hw = vnet_get_hw_interface (vnm, hw_if_index);
318   memif_if_t *mif = pool_elt_at_index (mm->interfaces, hw->dev_instance);
319   static clib_error_t *error = 0;
320
321   if (flags & VNET_SW_INTERFACE_FLAG_ADMIN_UP)
322     mif->flags |= MEMIF_IF_FLAG_ADMIN_UP;
323   else
324     mif->flags &= ~MEMIF_IF_FLAG_ADMIN_UP;
325
326   return error;
327 }
328
329 static __clib_unused clib_error_t *
330 memif_subif_add_del_function (vnet_main_t * vnm,
331                               u32 hw_if_index,
332                               struct vnet_sw_interface_t *st, int is_add)
333 {
334   /* Nothing for now */
335   return 0;
336 }
337
338 #ifndef CLIB_MULTIARCH_VARIANT
339 /* *INDENT-OFF* */
340 VNET_DEVICE_CLASS (memif_device_class) = {
341   .name = "memif",
342   .tx_function = memif_interface_tx,
343   .format_device_name = format_memif_device_name,
344   .format_device = format_memif_device,
345   .format_tx_trace = format_memif_tx_trace,
346   .tx_function_n_errors = MEMIF_TX_N_ERROR,
347   .tx_function_error_strings = memif_tx_func_error_strings,
348   .rx_redirect_to_node = memif_set_interface_next_node,
349   .clear_counters = memif_clear_hw_interface_counters,
350   .admin_up_down_function = memif_interface_admin_up_down,
351   .subif_add_del_function = memif_subif_add_del_function,
352   .rx_mode_change_function = memif_interface_rx_mode_change,
353 };
354
355 #if __x86_64__
356 vlib_node_function_t __clib_weak memif_interface_tx_avx512;
357 vlib_node_function_t __clib_weak memif_interface_tx_avx2;
358 static void __clib_constructor
359 dpdk_interface_tx_multiarch_select (void)
360 {
361   if (memif_interface_tx_avx512 && clib_cpu_supports_avx512f ())
362     memif_device_class.tx_function = memif_interface_tx_avx512;
363   else if (memif_interface_tx_avx2 && clib_cpu_supports_avx2 ())
364     memif_device_class.tx_function = memif_interface_tx_avx2;
365 }
366 #endif
367 #endif
368
369 /* *INDENT-ON* */
370
371 /*
372  * fd.io coding-style-patch-verification: ON
373  *
374  * Local Variables:
375  * eval: (c-set-style "gnu")
376  * End:
377  */