vlib: refactor checksum offload support
[vpp.git] / src / vnet / devices / virtio / device.c
1 /*
2  *------------------------------------------------------------------
3  * Copyright (c) 2016 Cisco and/or its affiliates.
4  * Licensed under the Apache License, Version 2.0 (the "License");
5  * you may not use this file except in compliance with the License.
6  * You may obtain a copy of the License at:
7  *
8  *     http://www.apache.org/licenses/LICENSE-2.0
9  *
10  * Unless required by applicable law or agreed to in writing, software
11  * distributed under the License is distributed on an "AS IS" BASIS,
12  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13  * See the License for the specific language governing permissions and
14  * limitations under the License.
15  *------------------------------------------------------------------
16  */
17
18 #include <sys/types.h>
19 #include <sys/stat.h>
20 #include <fcntl.h>
21
22 #include <vlib/vlib.h>
23 #include <vlib/unix/unix.h>
24 #include <vnet/vnet.h>
25 #include <vnet/ethernet/ethernet.h>
26 #include <vnet/gso/gro_func.h>
27 #include <vnet/gso/hdr_offset_parser.h>
28 #include <vnet/ip/ip4_packet.h>
29 #include <vnet/ip/ip6_packet.h>
30 #include <vnet/tcp/tcp_packet.h>
31 #include <vnet/udp/udp_packet.h>
32 #include <vnet/devices/virtio/virtio.h>
33
34 #define foreach_virtio_tx_func_error           \
35 _(NO_FREE_SLOTS, "no free tx slots")           \
36 _(TRUNC_PACKET, "packet > buffer size -- truncated in tx ring") \
37 _(PENDING_MSGS, "pending msgs in tx ring") \
38 _(INDIRECT_DESC_ALLOC_FAILED, "indirect descriptor allocation failed - packet drop") \
39 _(OUT_OF_ORDER, "out-of-order buffers in used ring") \
40 _(GSO_PACKET_DROP, "gso disabled on itf  -- gso packet drop") \
41 _(CSUM_OFFLOAD_PACKET_DROP, "checksum offload disabled on itf -- csum offload packet drop")
42
43 typedef enum
44 {
45 #define _(f,s) VIRTIO_TX_ERROR_##f,
46   foreach_virtio_tx_func_error
47 #undef _
48     VIRTIO_TX_N_ERROR,
49 } virtio_tx_func_error_t;
50
51 static char *virtio_tx_func_error_strings[] = {
52 #define _(n,s) s,
53   foreach_virtio_tx_func_error
54 #undef _
55 };
56
57 static u8 *
58 format_virtio_device (u8 * s, va_list * args)
59 {
60   u32 dev_instance = va_arg (*args, u32);
61   int verbose = va_arg (*args, int);
62   u32 indent = format_get_indent (s);
63
64   s = format (s, "VIRTIO interface");
65   if (verbose)
66     {
67       s = format (s, "\n%U instance %u", format_white_space, indent + 2,
68                   dev_instance);
69     }
70   return s;
71 }
72
73 typedef struct
74 {
75   u32 buffer_index;
76   u32 sw_if_index;
77   generic_header_offset_t gho;
78   vlib_buffer_t buffer;
79 } virtio_tx_trace_t;
80
81 static u8 *
82 format_virtio_tx_trace (u8 * s, va_list * va)
83 {
84   CLIB_UNUSED (vlib_main_t * vm) = va_arg (*va, vlib_main_t *);
85   CLIB_UNUSED (vlib_node_t * node) = va_arg (*va, vlib_node_t *);
86   virtio_tx_trace_t *t = va_arg (*va, virtio_tx_trace_t *);
87   u32 indent = format_get_indent (s);
88
89   s = format (s, "%Ubuffer 0x%x: %U\n",
90               format_white_space, indent,
91               t->buffer_index, format_vnet_buffer, &t->buffer);
92   s =
93     format (s, "%U%U\n", format_white_space, indent,
94             format_generic_header_offset, &t->gho);
95   s =
96     format (s, "%U%U", format_white_space, indent,
97             format_ethernet_header_with_length, t->buffer.pre_data,
98             sizeof (t->buffer.pre_data));
99   return s;
100 }
101
102 static_always_inline void
103 virtio_tx_trace (vlib_main_t * vm, vlib_node_runtime_t * node,
104                  vlib_buffer_t * b0, u32 bi, int is_tun)
105 {
106   virtio_tx_trace_t *t;
107   t = vlib_add_trace (vm, node, b0, sizeof (t[0]));
108   t->sw_if_index = vnet_buffer (b0)->sw_if_index[VLIB_TX];
109   t->buffer_index = bi;
110   if (is_tun)
111     {
112       int is_ip4 = 0, is_ip6 = 0;
113
114       switch (((u8 *) vlib_buffer_get_current (b0))[0] & 0xf0)
115         {
116         case 0x40:
117           is_ip4 = 1;
118           break;
119         case 0x60:
120           is_ip6 = 1;
121           break;
122         default:
123           break;
124         }
125       vnet_generic_header_offset_parser (b0, &t->gho, 0, is_ip4, is_ip6);
126     }
127   else
128     vnet_generic_header_offset_parser (b0, &t->gho, 1,
129                                        b0->flags &
130                                        VNET_BUFFER_F_IS_IP4,
131                                        b0->flags & VNET_BUFFER_F_IS_IP6);
132
133   clib_memcpy_fast (&t->buffer, b0, sizeof (*b0) - sizeof (b0->pre_data));
134   clib_memcpy_fast (t->buffer.pre_data, vlib_buffer_get_current (b0),
135                     sizeof (t->buffer.pre_data));
136 }
137
138 static_always_inline void
139 virtio_interface_drop_inline (vlib_main_t * vm, uword node_index,
140                               u32 * buffers, u16 n,
141                               virtio_tx_func_error_t error)
142 {
143   vlib_error_count (vm, node_index, error, n);
144   vlib_buffer_free (vm, buffers, n);
145 }
146
147 static_always_inline void
148 virtio_memset_ring_u32 (u32 * ring, u32 start, u32 ring_size, u32 n_buffers)
149 {
150   ASSERT (n_buffers <= ring_size);
151
152   if (PREDICT_TRUE (start + n_buffers <= ring_size))
153     {
154       clib_memset_u32 (ring + start, ~0, n_buffers);
155     }
156   else
157     {
158       clib_memset_u32 (ring + start, ~0, ring_size - start);
159       clib_memset_u32 (ring, ~0, n_buffers - (ring_size - start));
160     }
161 }
162
163 static_always_inline void
164 virtio_free_used_device_desc_split (vlib_main_t * vm, virtio_vring_t * vring,
165                                     uword node_index)
166 {
167   u16 used = vring->desc_in_use;
168   u16 sz = vring->size;
169   u16 mask = sz - 1;
170   u16 last = vring->last_used_idx;
171   u16 n_left = vring->used->idx - last;
172   u16 out_of_order_count = 0;
173
174   if (n_left == 0)
175     return;
176
177   while (n_left)
178     {
179       vring_used_elem_t *e = &vring->used->ring[last & mask];
180       u16 slot, n_buffers;
181       slot = n_buffers = e->id;
182
183       while (e->id == (n_buffers & mask))
184         {
185           n_left--;
186           last++;
187           n_buffers++;
188           vring_desc_t *d = &vring->desc[e->id];
189           u16 next;
190           while (d->flags & VRING_DESC_F_NEXT)
191             {
192               n_buffers++;
193               next = d->next;
194               d = &vring->desc[next];
195             }
196           if (n_left == 0)
197             break;
198           e = &vring->used->ring[last & mask];
199         }
200       vlib_buffer_free_from_ring (vm, vring->buffers, slot,
201                                   sz, (n_buffers - slot));
202       virtio_memset_ring_u32 (vring->buffers, slot, sz, (n_buffers - slot));
203       used -= (n_buffers - slot);
204
205       if (n_left > 0)
206         {
207           vlib_buffer_free (vm, &vring->buffers[e->id], 1);
208           vring->buffers[e->id] = ~0;
209           used--;
210           last++;
211           n_left--;
212           out_of_order_count++;
213           vring->flags |= VRING_TX_OUT_OF_ORDER;
214         }
215     }
216
217   /*
218    * Some vhost-backends give buffers back in out-of-order fashion in used ring.
219    * It impacts the overall virtio-performance.
220    */
221   if (out_of_order_count)
222     vlib_error_count (vm, node_index, VIRTIO_TX_ERROR_OUT_OF_ORDER,
223                       out_of_order_count);
224
225   vring->desc_in_use = used;
226   vring->last_used_idx = last;
227 }
228
229 static_always_inline void
230 virtio_free_used_device_desc_packed (vlib_main_t * vm, virtio_vring_t * vring,
231                                      uword node_index)
232 {
233   vring_packed_desc_t *d;
234   u16 sz = vring->size;
235   u16 last = vring->last_used_idx;
236   u16 n_buffers = 0, start;
237   u16 flags;
238
239   if (vring->desc_in_use == 0)
240     return;
241
242   d = &vring->packed_desc[last];
243   flags = d->flags;
244   start = d->id;
245
246   while ((flags & VRING_DESC_F_AVAIL) == (vring->used_wrap_counter << 7) &&
247          (flags & VRING_DESC_F_USED) == (vring->used_wrap_counter << 15))
248     {
249       last++;
250       n_buffers++;
251
252       if (last >= sz)
253         {
254           last = 0;
255           vring->used_wrap_counter ^= 1;
256         }
257       d = &vring->packed_desc[last];
258       flags = d->flags;
259     }
260
261   if (n_buffers)
262     {
263       vlib_buffer_free_from_ring (vm, vring->buffers, start, sz, n_buffers);
264       virtio_memset_ring_u32 (vring->buffers, start, sz, n_buffers);
265       vring->desc_in_use -= n_buffers;
266       vring->last_used_idx = last;
267     }
268 }
269
270 static_always_inline void
271 virtio_free_used_device_desc (vlib_main_t * vm, virtio_vring_t * vring,
272                               uword node_index, int packed)
273 {
274   if (packed)
275     virtio_free_used_device_desc_packed (vm, vring, node_index);
276   else
277     virtio_free_used_device_desc_split (vm, vring, node_index);
278
279 }
280
281 static_always_inline void
282 set_checksum_offsets (vlib_buffer_t * b, virtio_net_hdr_v1_t * hdr,
283                       const int is_l2)
284 {
285   u32 oflags = vnet_buffer2 (b)->oflags;
286
287   if (b->flags & VNET_BUFFER_F_IS_IP4)
288     {
289       ip4_header_t *ip4;
290       generic_header_offset_t gho = { 0 };
291       vnet_generic_header_offset_parser (b, &gho, is_l2, 1 /* ip4 */ ,
292                                          0 /* ip6 */ );
293       hdr->flags = VIRTIO_NET_HDR_F_NEEDS_CSUM;
294       hdr->csum_start = gho.l4_hdr_offset;      // 0x22;
295       if (oflags & VNET_BUFFER_OFFLOAD_F_TCP_CKSUM)
296         {
297           hdr->csum_offset = STRUCT_OFFSET_OF (tcp_header_t, checksum);
298         }
299       else if (oflags & VNET_BUFFER_OFFLOAD_F_UDP_CKSUM)
300         {
301           hdr->csum_offset = STRUCT_OFFSET_OF (udp_header_t, checksum);
302         }
303
304       /*
305        * virtio devices do not support IP4 checksum offload. So driver takes care
306        * of it while doing tx.
307        */
308       ip4 =
309         (ip4_header_t *) (vlib_buffer_get_current (b) + gho.l3_hdr_offset);
310       if (oflags & VNET_BUFFER_OFFLOAD_F_IP_CKSUM)
311         ip4->checksum = ip4_header_checksum (ip4);
312     }
313   else if (b->flags & VNET_BUFFER_F_IS_IP6)
314     {
315       generic_header_offset_t gho = { 0 };
316       vnet_generic_header_offset_parser (b, &gho, is_l2, 0 /* ip4 */ ,
317                                          1 /* ip6 */ );
318       hdr->flags = VIRTIO_NET_HDR_F_NEEDS_CSUM;
319       hdr->csum_start = gho.l4_hdr_offset;      // 0x36;
320       if (oflags & VNET_BUFFER_OFFLOAD_F_TCP_CKSUM)
321         {
322           hdr->csum_offset = STRUCT_OFFSET_OF (tcp_header_t, checksum);
323         }
324       else if (oflags & VNET_BUFFER_OFFLOAD_F_UDP_CKSUM)
325         {
326           hdr->csum_offset = STRUCT_OFFSET_OF (udp_header_t, checksum);
327         }
328     }
329 }
330
331 static_always_inline void
332 set_gso_offsets (vlib_buffer_t * b, virtio_net_hdr_v1_t * hdr,
333                  const int is_l2)
334 {
335   u32 oflags = vnet_buffer2 (b)->oflags;
336
337   if (b->flags & VNET_BUFFER_F_IS_IP4)
338     {
339       ip4_header_t *ip4;
340       generic_header_offset_t gho = { 0 };
341       vnet_generic_header_offset_parser (b, &gho, is_l2, 1 /* ip4 */ ,
342                                          0 /* ip6 */ );
343       hdr->gso_type = VIRTIO_NET_HDR_GSO_TCPV4;
344       hdr->gso_size = vnet_buffer2 (b)->gso_size;
345       hdr->hdr_len = gho.hdr_sz;
346       hdr->flags = VIRTIO_NET_HDR_F_NEEDS_CSUM;
347       hdr->csum_start = gho.l4_hdr_offset;      // 0x22;
348       hdr->csum_offset = STRUCT_OFFSET_OF (tcp_header_t, checksum);
349       ip4 =
350         (ip4_header_t *) (vlib_buffer_get_current (b) + gho.l3_hdr_offset);
351       /*
352        * virtio devices do not support IP4 checksum offload. So driver takes care
353        * of it while doing tx.
354        */
355       if (oflags & VNET_BUFFER_OFFLOAD_F_IP_CKSUM)
356         ip4->checksum = ip4_header_checksum (ip4);
357     }
358   else if (b->flags & VNET_BUFFER_F_IS_IP6)
359     {
360       generic_header_offset_t gho = { 0 };
361       vnet_generic_header_offset_parser (b, &gho, is_l2, 0 /* ip4 */ ,
362                                          1 /* ip6 */ );
363       hdr->gso_type = VIRTIO_NET_HDR_GSO_TCPV6;
364       hdr->gso_size = vnet_buffer2 (b)->gso_size;
365       hdr->hdr_len = gho.hdr_sz;
366       hdr->flags = VIRTIO_NET_HDR_F_NEEDS_CSUM;
367       hdr->csum_start = gho.l4_hdr_offset;      // 0x36;
368       hdr->csum_offset = STRUCT_OFFSET_OF (tcp_header_t, checksum);
369     }
370 }
371
372 static_always_inline u16
373 add_buffer_to_slot (vlib_main_t * vm, vlib_node_runtime_t * node,
374                     virtio_vring_t * vring, u32 bi, u16 free_desc_count,
375                     u16 avail, u16 next, u16 mask, int hdr_sz, int do_gso,
376                     int csum_offload, int is_pci, int is_tun, int is_indirect,
377                     int is_any_layout)
378 {
379   u16 n_added = 0;
380   vring_desc_t *d;
381   int is_l2 = !is_tun;
382   d = &vring->desc[next];
383   vlib_buffer_t *b = vlib_get_buffer (vm, bi);
384   virtio_net_hdr_v1_t *hdr = vlib_buffer_get_current (b) - hdr_sz;
385   u32 drop_inline = ~0;
386
387   clib_memset_u8 (hdr, 0, hdr_sz);
388
389   if (b->flags & VNET_BUFFER_F_GSO)
390     {
391       if (do_gso)
392         set_gso_offsets (b, hdr, is_l2);
393       else
394         {
395           drop_inline = VIRTIO_TX_ERROR_GSO_PACKET_DROP;
396           goto done;
397         }
398     }
399   else if (b->flags & VNET_BUFFER_F_OFFLOAD)
400     {
401       if (csum_offload)
402         set_checksum_offsets (b, hdr, is_l2);
403       else
404         {
405           drop_inline = VIRTIO_TX_ERROR_CSUM_OFFLOAD_PACKET_DROP;
406           goto done;
407         }
408     }
409
410   if (PREDICT_FALSE (b->flags & VLIB_BUFFER_IS_TRACED))
411     {
412       virtio_tx_trace (vm, node, b, bi, is_tun);
413     }
414
415   if (PREDICT_TRUE ((b->flags & VLIB_BUFFER_NEXT_PRESENT) == 0))
416     {
417       d->addr = ((is_pci) ? vlib_buffer_get_current_pa (vm, b) :
418                  pointer_to_uword (vlib_buffer_get_current (b))) - hdr_sz;
419       d->len = b->current_length + hdr_sz;
420       d->flags = 0;
421     }
422   else if (is_indirect)
423     {
424       /*
425        * We are using single vlib_buffer_t for indirect descriptor(s)
426        * chain. Single descriptor is 16 bytes and vlib_buffer_t
427        * has 2048 bytes space. So maximum long chain can have 128
428        * (=2048/16) indirect descriptors.
429        * It can easily support 65535 bytes of Jumbo frames with
430        * each data buffer size of 512 bytes minimum.
431        */
432       u32 indirect_buffer = 0;
433       if (PREDICT_FALSE (vlib_buffer_alloc (vm, &indirect_buffer, 1) == 0))
434         {
435           drop_inline = VIRTIO_TX_ERROR_INDIRECT_DESC_ALLOC_FAILED;
436           goto done;
437         }
438
439       vlib_buffer_t *indirect_desc = vlib_get_buffer (vm, indirect_buffer);
440       indirect_desc->current_data = 0;
441       indirect_desc->flags |= VLIB_BUFFER_NEXT_PRESENT;
442       indirect_desc->next_buffer = bi;
443       bi = indirect_buffer;
444
445       vring_desc_t *id =
446         (vring_desc_t *) vlib_buffer_get_current (indirect_desc);
447       u32 count = 1;
448       if (is_pci)
449         {
450           d->addr = vlib_physmem_get_pa (vm, id);
451           id->addr = vlib_buffer_get_current_pa (vm, b) - hdr_sz;
452
453           /*
454            * If VIRTIO_F_ANY_LAYOUT is not negotiated, then virtio_net_hdr
455            * should be presented in separate descriptor and data will start
456            * from next descriptor.
457            */
458           if (is_any_layout)
459             id->len = b->current_length + hdr_sz;
460           else
461             {
462               id->len = hdr_sz;
463               id->flags = VRING_DESC_F_NEXT;
464               id->next = count;
465               count++;
466               id++;
467               id->addr = vlib_buffer_get_current_pa (vm, b);
468               id->len = b->current_length;
469             }
470           while (b->flags & VLIB_BUFFER_NEXT_PRESENT)
471             {
472               id->flags = VRING_DESC_F_NEXT;
473               id->next = count;
474               count++;
475               id++;
476               b = vlib_get_buffer (vm, b->next_buffer);
477               id->addr = vlib_buffer_get_current_pa (vm, b);
478               id->len = b->current_length;
479             }
480         }
481       else                      /* VIRTIO_IF_TYPE_[TAP | TUN] */
482         {
483           d->addr = pointer_to_uword (id);
484           /* first buffer in chain */
485           id->addr = pointer_to_uword (vlib_buffer_get_current (b)) - hdr_sz;
486           id->len = b->current_length + hdr_sz;
487
488           while (b->flags & VLIB_BUFFER_NEXT_PRESENT)
489             {
490               id->flags = VRING_DESC_F_NEXT;
491               id->next = count;
492               count++;
493               id++;
494               b = vlib_get_buffer (vm, b->next_buffer);
495               id->addr = pointer_to_uword (vlib_buffer_get_current (b));
496               id->len = b->current_length;
497             }
498         }
499       id->flags = 0;
500       id->next = 0;
501       d->len = count * sizeof (vring_desc_t);
502       d->flags = VRING_DESC_F_INDIRECT;
503     }
504   else if (is_pci)
505     {
506       u16 count = next;
507       vlib_buffer_t *b_temp = b;
508       u16 n_buffers_in_chain = 1;
509
510       /*
511        * Check the length of the chain for the required number of
512        * descriptors. Return from here, retry to get more descriptors,
513        * if chain length is greater than available descriptors.
514        */
515       while (b_temp->flags & VLIB_BUFFER_NEXT_PRESENT)
516         {
517           n_buffers_in_chain++;
518           b_temp = vlib_get_buffer (vm, b_temp->next_buffer);
519         }
520
521       if (n_buffers_in_chain > free_desc_count)
522         return n_buffers_in_chain;
523
524       d->addr = vlib_buffer_get_current_pa (vm, b) - hdr_sz;
525       d->len = b->current_length + hdr_sz;
526
527       while (b->flags & VLIB_BUFFER_NEXT_PRESENT)
528         {
529           d->flags = VRING_DESC_F_NEXT;
530           vring->buffers[count] = bi;
531           b->flags &=
532             ~(VLIB_BUFFER_NEXT_PRESENT | VLIB_BUFFER_TOTAL_LENGTH_VALID);
533           bi = b->next_buffer;
534           b->next_buffer = 0;
535           n_added++;
536           count = (count + 1) & mask;
537           d->next = count;
538           d = &vring->desc[count];
539           b = vlib_get_buffer (vm, bi);
540           d->addr = vlib_buffer_get_current_pa (vm, b);
541           d->len = b->current_length;
542         }
543       d->flags = 0;
544       vring->buffers[count] = bi;
545       vring->avail->ring[avail & mask] = next;
546       n_added++;
547       return n_added;
548     }
549   else
550     {
551       ASSERT (0);
552     }
553   vring->buffers[next] = bi;
554   vring->avail->ring[avail & mask] = next;
555   n_added++;
556
557 done:
558   if (drop_inline != ~0)
559     virtio_interface_drop_inline (vm, node->node_index, &bi, 1, drop_inline);
560
561   return n_added;
562 }
563
564 static_always_inline u16
565 add_buffer_to_slot_packed (vlib_main_t * vm, vlib_node_runtime_t * node,
566                            virtio_vring_t * vring, u32 bi, u16 next,
567                            int hdr_sz, int do_gso, int csum_offload,
568                            int is_pci, int is_tun, int is_indirect,
569                            int is_any_layout)
570 {
571   u16 n_added = 0, flags = 0;
572   int is_l2 = !is_tun;
573   vring_packed_desc_t *d = &vring->packed_desc[next];
574   vlib_buffer_t *b = vlib_get_buffer (vm, bi);
575   virtio_net_hdr_v1_t *hdr = vlib_buffer_get_current (b) - hdr_sz;
576   u32 drop_inline = ~0;
577
578   clib_memset (hdr, 0, hdr_sz);
579
580   if (b->flags & VNET_BUFFER_F_GSO)
581     {
582       if (do_gso)
583         set_gso_offsets (b, hdr, is_l2);
584       else
585         {
586           drop_inline = VIRTIO_TX_ERROR_GSO_PACKET_DROP;
587           goto done;
588         }
589     }
590   else if (b->flags & VNET_BUFFER_F_OFFLOAD)
591     {
592       if (csum_offload)
593         set_checksum_offsets (b, hdr, is_l2);
594       else
595         {
596           drop_inline = VIRTIO_TX_ERROR_CSUM_OFFLOAD_PACKET_DROP;
597           goto done;
598         }
599     }
600   if (PREDICT_FALSE (b->flags & VLIB_BUFFER_IS_TRACED))
601     {
602       virtio_tx_trace (vm, node, b, bi, is_tun);
603     }
604
605   if (PREDICT_TRUE ((b->flags & VLIB_BUFFER_NEXT_PRESENT) == 0))
606     {
607       d->addr =
608         ((is_pci) ? vlib_buffer_get_current_pa (vm,
609                                                 b) :
610          pointer_to_uword (vlib_buffer_get_current (b))) - hdr_sz;
611       d->len = b->current_length + hdr_sz;
612     }
613   else if (is_indirect)
614     {
615       /*
616        * We are using single vlib_buffer_t for indirect descriptor(s)
617        * chain. Single descriptor is 16 bytes and vlib_buffer_t
618        * has 2048 bytes space. So maximum long chain can have 128
619        * (=2048/16) indirect descriptors.
620        * It can easily support 65535 bytes of Jumbo frames with
621        * each data buffer size of 512 bytes minimum.
622        */
623       u32 indirect_buffer = 0;
624       if (PREDICT_FALSE (vlib_buffer_alloc (vm, &indirect_buffer, 1) == 0))
625         {
626           drop_inline = VIRTIO_TX_ERROR_INDIRECT_DESC_ALLOC_FAILED;
627           goto done;
628         }
629
630       vlib_buffer_t *indirect_desc = vlib_get_buffer (vm, indirect_buffer);
631       indirect_desc->current_data = 0;
632       indirect_desc->flags |= VLIB_BUFFER_NEXT_PRESENT;
633       indirect_desc->next_buffer = bi;
634       bi = indirect_buffer;
635
636       vring_packed_desc_t *id =
637         (vring_packed_desc_t *) vlib_buffer_get_current (indirect_desc);
638       u32 count = 1;
639       if (is_pci)
640         {
641           d->addr = vlib_physmem_get_pa (vm, id);
642           id->addr = vlib_buffer_get_current_pa (vm, b) - hdr_sz;
643
644           /*
645            * If VIRTIO_F_ANY_LAYOUT is not negotiated, then virtio_net_hdr
646            * should be presented in separate descriptor and data will start
647            * from next descriptor.
648            */
649           if (is_any_layout)
650             id->len = b->current_length + hdr_sz;
651           else
652             {
653               id->len = hdr_sz;
654               id->flags = 0;
655               id->id = 0;
656               count++;
657               id++;
658               id->addr = vlib_buffer_get_current_pa (vm, b);
659               id->len = b->current_length;
660             }
661           while (b->flags & VLIB_BUFFER_NEXT_PRESENT)
662             {
663               id->flags = 0;
664               id->id = 0;
665               count++;
666               id++;
667               b = vlib_get_buffer (vm, b->next_buffer);
668               id->addr = vlib_buffer_get_current_pa (vm, b);
669               id->len = b->current_length;
670             }
671         }
672       id->flags = 0;
673       id->id = 0;
674       d->len = count * sizeof (vring_packed_desc_t);
675       flags = VRING_DESC_F_INDIRECT;
676     }
677   else
678     {
679       ASSERT (0);
680     }
681   if (vring->avail_wrap_counter)
682     {
683       flags |= VRING_DESC_F_AVAIL;
684       flags &= ~VRING_DESC_F_USED;
685     }
686   else
687     {
688       flags &= ~VRING_DESC_F_AVAIL;
689       flags |= VRING_DESC_F_USED;
690     }
691
692   d->id = next;
693   d->flags = flags;
694   vring->buffers[next] = bi;
695   n_added++;
696
697 done:
698   if (drop_inline != ~0)
699     virtio_interface_drop_inline (vm, node->node_index, &bi, 1, drop_inline);
700
701   return n_added;
702 }
703
704 static_always_inline uword
705 virtio_interface_tx_packed_gso_inline (vlib_main_t * vm,
706                                        vlib_node_runtime_t * node,
707                                        virtio_if_t * vif,
708                                        virtio_if_type_t type,
709                                        virtio_vring_t * vring,
710                                        u32 * buffers, u16 n_left,
711                                        const int do_gso,
712                                        const int csum_offload)
713 {
714   int is_pci = (type == VIRTIO_IF_TYPE_PCI);
715   int is_tun = (type == VIRTIO_IF_TYPE_TUN);
716   int is_indirect =
717     ((vif->features & VIRTIO_FEATURE (VIRTIO_RING_F_INDIRECT_DESC)) != 0);
718   int is_any_layout =
719     ((vif->features & VIRTIO_FEATURE (VIRTIO_F_ANY_LAYOUT)) != 0);
720   const int hdr_sz = vif->virtio_net_hdr_sz;
721   u16 sz = vring->size;
722   u16 used, next, n_buffers = 0, n_buffers_left = 0;
723   u16 n_vectors = n_left;
724
725
726   used = vring->desc_in_use;
727   next = vring->desc_next;
728
729   if (vif->packet_buffering)
730     {
731       n_buffers = n_buffers_left = virtio_vring_n_buffers (vring->buffering);
732
733       while (n_buffers_left && used < sz)
734         {
735           u16 n_added = 0;
736
737           u32 bi = virtio_vring_buffering_read_from_front (vring->buffering);
738           if (bi == ~0)
739             break;
740           n_added = add_buffer_to_slot_packed (vm, node,
741                                                vring, bi, next,
742                                                hdr_sz, do_gso, csum_offload,
743                                                is_pci, is_tun, is_indirect,
744                                                is_any_layout);
745           n_buffers_left--;
746           if (PREDICT_FALSE (n_added == 0))
747             continue;
748
749           used++;
750           next++;
751           if (next >= sz)
752             {
753               next = 0;
754               vring->avail_wrap_counter ^= 1;
755             }
756         }
757     }
758
759   while (n_left && used < sz)
760     {
761       u16 n_added = 0;
762
763       n_added = add_buffer_to_slot_packed (vm, node,
764                                            vring, buffers[0], next,
765                                            hdr_sz, do_gso, csum_offload,
766                                            is_pci, is_tun, is_indirect,
767                                            is_any_layout);
768       buffers++;
769       n_left--;
770       if (PREDICT_FALSE (n_added == 0))
771         continue;
772
773       used++;
774       next++;
775       if (next >= sz)
776         {
777           next = 0;
778           vring->avail_wrap_counter ^= 1;
779         }
780     }
781
782   if (n_left != n_vectors || n_buffers != n_buffers_left)
783     {
784       CLIB_MEMORY_STORE_BARRIER ();
785       vring->desc_next = next;
786       vring->desc_in_use = used;
787       CLIB_MEMORY_BARRIER ();
788       if (vring->device_event->flags != VRING_EVENT_F_DISABLE)
789         virtio_kick (vm, vring, vif);
790     }
791
792   return n_left;
793 }
794
795 static_always_inline void
796 virtio_find_free_desc (virtio_vring_t * vring, u16 size, u16 mask,
797                        u16 req, u16 next, u32 * first_free_desc_index,
798                        u16 * free_desc_count)
799 {
800   u16 start = 0;
801   /* next is used as hint: from where to start looking */
802   for (u16 i = 0; i < size; i++, next++)
803     {
804       if (vring->buffers[next & mask] == ~0)
805         {
806           if (*first_free_desc_index == ~0)
807             {
808               *first_free_desc_index = (next & mask);
809               start = i;
810               (*free_desc_count)++;
811               req--;
812               if (req == 0)
813                 break;
814             }
815           else
816             {
817               if (start + *free_desc_count == i)
818                 {
819                   (*free_desc_count)++;
820                   req--;
821                   if (req == 0)
822                     break;
823                 }
824               else
825                 break;
826             }
827         }
828     }
829 }
830
831 static_always_inline u16
832 virtio_interface_tx_split_gso_inline (vlib_main_t * vm,
833                                       vlib_node_runtime_t * node,
834                                       virtio_if_t * vif,
835                                       virtio_if_type_t type,
836                                       virtio_vring_t * vring, u32 * buffers,
837                                       u16 n_left, int do_gso,
838                                       int csum_offload)
839 {
840   u16 used, next, avail, n_buffers = 0, n_buffers_left = 0;
841   int is_pci = (type == VIRTIO_IF_TYPE_PCI);
842   int is_tun = (type == VIRTIO_IF_TYPE_TUN);
843   int is_indirect =
844     ((vif->features & VIRTIO_FEATURE (VIRTIO_RING_F_INDIRECT_DESC)) != 0);
845   int is_any_layout =
846     ((vif->features & VIRTIO_FEATURE (VIRTIO_F_ANY_LAYOUT)) != 0);
847   u16 sz = vring->size;
848   int hdr_sz = vif->virtio_net_hdr_sz;
849   u16 mask = sz - 1;
850   u16 n_vectors = n_left;
851
852   used = vring->desc_in_use;
853   next = vring->desc_next;
854   avail = vring->avail->idx;
855
856   u16 free_desc_count = 0;
857
858   if (PREDICT_FALSE (vring->flags & VRING_TX_OUT_OF_ORDER))
859     {
860       u32 first_free_desc_index = ~0;
861
862       virtio_find_free_desc (vring, sz, mask, n_left, next,
863                              &first_free_desc_index, &free_desc_count);
864
865       if (free_desc_count)
866         next = first_free_desc_index;
867     }
868   else
869     free_desc_count = sz - used;
870
871   if (vif->packet_buffering)
872     {
873       n_buffers = n_buffers_left = virtio_vring_n_buffers (vring->buffering);
874
875       while (n_buffers_left && free_desc_count)
876         {
877           u16 n_added = 0;
878
879           u32 bi = virtio_vring_buffering_read_from_front (vring->buffering);
880           if (bi == ~0)
881             break;
882
883           n_added = add_buffer_to_slot (vm, node, vring, bi, free_desc_count,
884                                         avail, next, mask, hdr_sz, do_gso,
885                                         csum_offload, is_pci, is_tun,
886                                         is_indirect, is_any_layout);
887           if (PREDICT_FALSE (n_added == 0))
888             {
889               n_buffers_left--;
890               continue;
891             }
892           else if (PREDICT_FALSE (n_added > free_desc_count))
893             break;
894
895           avail++;
896           next = (next + n_added) & mask;
897           used += n_added;
898           n_buffers_left--;
899           free_desc_count -= n_added;
900         }
901     }
902
903   while (n_left && free_desc_count)
904     {
905       u16 n_added = 0;
906
907       n_added = add_buffer_to_slot (vm, node, vring, buffers[0],
908                                     free_desc_count, avail, next, mask,
909                                     hdr_sz, do_gso, csum_offload, is_pci,
910                                     is_tun, is_indirect, is_any_layout);
911
912       if (PREDICT_FALSE (n_added == 0))
913         {
914           buffers++;
915           n_left--;
916           continue;
917         }
918       else if (PREDICT_FALSE (n_added > free_desc_count))
919         break;
920
921       avail++;
922       next = (next + n_added) & mask;
923       used += n_added;
924       buffers++;
925       n_left--;
926       free_desc_count -= n_added;
927     }
928
929   if (n_left != n_vectors || n_buffers != n_buffers_left)
930     {
931       clib_atomic_store_seq_cst (&vring->avail->idx, avail);
932       vring->desc_next = next;
933       vring->desc_in_use = used;
934       if ((clib_atomic_load_seq_cst (&vring->used->flags) &
935            VRING_USED_F_NO_NOTIFY) == 0)
936         virtio_kick (vm, vring, vif);
937     }
938
939   return n_left;
940 }
941
942 static_always_inline u16
943 virtio_interface_tx_gso_inline (vlib_main_t * vm, vlib_node_runtime_t * node,
944                                 virtio_if_t * vif,
945                                 virtio_if_type_t type, virtio_vring_t * vring,
946                                 u32 * buffers, u16 n_left, int packed,
947                                 int do_gso, int csum_offload)
948 {
949   if (packed)
950     return virtio_interface_tx_packed_gso_inline (vm, node, vif, type, vring,
951                                                   buffers, n_left,
952                                                   do_gso, csum_offload);
953   else
954     return virtio_interface_tx_split_gso_inline (vm, node, vif, type, vring,
955                                                  buffers, n_left,
956                                                  do_gso, csum_offload);
957 }
958
959 static_always_inline u16
960 virtio_interface_tx_inline (vlib_main_t * vm, vlib_node_runtime_t * node,
961                             virtio_if_t * vif,
962                             virtio_vring_t * vring, virtio_if_type_t type,
963                             u32 * buffers, u16 n_left, int packed)
964 {
965   vnet_main_t *vnm = vnet_get_main ();
966   vnet_hw_interface_t *hw = vnet_get_hw_interface (vnm, vif->hw_if_index);
967
968   if (hw->flags & VNET_HW_INTERFACE_FLAG_SUPPORTS_GSO)
969     return virtio_interface_tx_gso_inline (vm, node, vif, type, vring,
970                                            buffers, n_left, packed,
971                                            1 /* do_gso */ ,
972                                            1 /* checksum offload */ );
973   else if (hw->flags & VNET_HW_INTERFACE_FLAG_SUPPORTS_TX_L4_CKSUM_OFFLOAD)
974     return virtio_interface_tx_gso_inline (vm, node, vif, type, vring,
975                                            buffers, n_left, packed,
976                                            0 /* no do_gso */ ,
977                                            1 /* checksum offload */ );
978   else
979     return virtio_interface_tx_gso_inline (vm, node, vif, type, vring,
980                                            buffers, n_left, packed,
981                                            0 /* no do_gso */ ,
982                                            0 /* no checksum offload */ );
983 }
984
985 VNET_DEVICE_CLASS_TX_FN (virtio_device_class) (vlib_main_t * vm,
986                                                vlib_node_runtime_t * node,
987                                                vlib_frame_t * frame)
988 {
989   virtio_main_t *nm = &virtio_main;
990   vnet_interface_output_runtime_t *rund = (void *) node->runtime_data;
991   virtio_if_t *vif = pool_elt_at_index (nm->interfaces, rund->dev_instance);
992   u16 qid = vm->thread_index % vif->num_txqs;
993   virtio_vring_t *vring = vec_elt_at_index (vif->txq_vrings, qid);
994   u16 n_left = frame->n_vectors;
995   u32 *buffers = vlib_frame_vector_args (frame);
996   u32 to[GRO_TO_VECTOR_SIZE (n_left)];
997   int packed = vif->is_packed;
998   u16 n_vectors = frame->n_vectors;
999
1000   clib_spinlock_lock_if_init (&vring->lockp);
1001
1002   if (vif->packet_coalesce)
1003     {
1004       n_vectors = n_left =
1005         vnet_gro_inline (vm, vring->flow_table, buffers, n_left, to);
1006       buffers = to;
1007     }
1008
1009   u16 retry_count = 2;
1010
1011 retry:
1012   /* free consumed buffers */
1013   virtio_free_used_device_desc (vm, vring, node->node_index, packed);
1014
1015   if (vif->type == VIRTIO_IF_TYPE_TAP)
1016     n_left = virtio_interface_tx_inline (vm, node, vif, vring,
1017                                          VIRTIO_IF_TYPE_TAP,
1018                                          &buffers[n_vectors - n_left],
1019                                          n_left, packed);
1020   else if (vif->type == VIRTIO_IF_TYPE_PCI)
1021     n_left = virtio_interface_tx_inline (vm, node, vif, vring,
1022                                          VIRTIO_IF_TYPE_PCI,
1023                                          &buffers[n_vectors - n_left],
1024                                          n_left, packed);
1025   else if (vif->type == VIRTIO_IF_TYPE_TUN)
1026     n_left = virtio_interface_tx_inline (vm, node, vif, vring,
1027                                          VIRTIO_IF_TYPE_TUN,
1028                                          &buffers[n_vectors - n_left],
1029                                          n_left, packed);
1030   else
1031     ASSERT (0);
1032
1033   if (n_left && retry_count--)
1034     goto retry;
1035
1036   if (vif->packet_buffering && n_left)
1037     {
1038       u16 n_buffered = virtio_vring_buffering_store_packets (vring->buffering,
1039                                                              &buffers
1040                                                              [n_vectors
1041                                                               - n_left],
1042                                                              n_left);
1043       n_left -= n_buffered;
1044     }
1045   if (n_left)
1046     virtio_interface_drop_inline (vm, node->node_index,
1047                                   &buffers[n_vectors - n_left], n_left,
1048                                   VIRTIO_TX_ERROR_NO_FREE_SLOTS);
1049
1050   clib_spinlock_unlock_if_init (&vring->lockp);
1051
1052   return frame->n_vectors - n_left;
1053 }
1054
1055 static void
1056 virtio_set_interface_next_node (vnet_main_t * vnm, u32 hw_if_index,
1057                                 u32 node_index)
1058 {
1059   virtio_main_t *apm = &virtio_main;
1060   vnet_hw_interface_t *hw = vnet_get_hw_interface (vnm, hw_if_index);
1061   virtio_if_t *vif = pool_elt_at_index (apm->interfaces, hw->dev_instance);
1062
1063   /* Shut off redirection */
1064   if (node_index == ~0)
1065     {
1066       vif->per_interface_next_index = node_index;
1067       return;
1068     }
1069
1070   vif->per_interface_next_index =
1071     vlib_node_add_next (vlib_get_main (), virtio_input_node.index,
1072                         node_index);
1073 }
1074
1075 static void
1076 virtio_clear_hw_interface_counters (u32 instance)
1077 {
1078   /* Nothing for now */
1079 }
1080
1081 static_always_inline void
1082 virtio_set_rx_interrupt (virtio_if_t * vif, virtio_vring_t * vring)
1083 {
1084   if (vif->is_packed)
1085     vring->driver_event->flags &= ~VRING_EVENT_F_DISABLE;
1086   else
1087     vring->avail->flags &= ~VRING_AVAIL_F_NO_INTERRUPT;
1088 }
1089
1090 static_always_inline void
1091 virtio_set_rx_polling (virtio_if_t * vif, virtio_vring_t * vring)
1092 {
1093   if (vif->is_packed)
1094     vring->driver_event->flags |= VRING_EVENT_F_DISABLE;
1095   else
1096     vring->avail->flags |= VRING_AVAIL_F_NO_INTERRUPT;
1097 }
1098
1099 static clib_error_t *
1100 virtio_interface_rx_mode_change (vnet_main_t * vnm, u32 hw_if_index, u32 qid,
1101                                  vnet_hw_if_rx_mode mode)
1102 {
1103   vlib_main_t *vm = vnm->vlib_main;
1104   virtio_main_t *mm = &virtio_main;
1105   vnet_hw_interface_t *hw = vnet_get_hw_interface (vnm, hw_if_index);
1106   virtio_if_t *vif = pool_elt_at_index (mm->interfaces, hw->dev_instance);
1107   virtio_vring_t *rx_vring = vec_elt_at_index (vif->rxq_vrings, qid);
1108
1109   if (vif->type == VIRTIO_IF_TYPE_PCI && !(vif->support_int_mode))
1110     {
1111       virtio_set_rx_polling (vif, rx_vring);
1112       return clib_error_return (0, "interrupt mode is not supported");
1113     }
1114
1115   if (mode == VNET_HW_IF_RX_MODE_POLLING)
1116     {
1117       if (vif->packet_coalesce || vif->packet_buffering)
1118         {
1119           if (mm->interrupt_queues_count > 0)
1120             mm->interrupt_queues_count--;
1121           if (mm->interrupt_queues_count == 0)
1122             vlib_process_signal_event (vm,
1123                                        virtio_send_interrupt_node.index,
1124                                        VIRTIO_EVENT_STOP_TIMER, 0);
1125         }
1126       virtio_set_rx_polling (vif, rx_vring);
1127     }
1128   else
1129     {
1130       if (vif->packet_coalesce || vif->packet_buffering)
1131         {
1132           mm->interrupt_queues_count++;
1133           if (mm->interrupt_queues_count == 1)
1134             vlib_process_signal_event (vm,
1135                                        virtio_send_interrupt_node.index,
1136                                        VIRTIO_EVENT_START_TIMER, 0);
1137         }
1138       virtio_set_rx_interrupt (vif, rx_vring);
1139     }
1140
1141   rx_vring->mode = mode;
1142
1143   return 0;
1144 }
1145
1146 static clib_error_t *
1147 virtio_interface_admin_up_down (vnet_main_t * vnm, u32 hw_if_index, u32 flags)
1148 {
1149   virtio_main_t *mm = &virtio_main;
1150   vnet_hw_interface_t *hw = vnet_get_hw_interface (vnm, hw_if_index);
1151   virtio_if_t *vif = pool_elt_at_index (mm->interfaces, hw->dev_instance);
1152
1153   if (flags & VNET_SW_INTERFACE_FLAG_ADMIN_UP)
1154     {
1155       vif->flags |= VIRTIO_IF_FLAG_ADMIN_UP;
1156       vnet_hw_interface_set_flags (vnm, vif->hw_if_index,
1157                                    VNET_HW_INTERFACE_FLAG_LINK_UP);
1158     }
1159   else
1160     {
1161       vif->flags &= ~VIRTIO_IF_FLAG_ADMIN_UP;
1162       vnet_hw_interface_set_flags (vnm, vif->hw_if_index, 0);
1163     }
1164   return 0;
1165 }
1166
1167 static clib_error_t *
1168 virtio_subif_add_del_function (vnet_main_t * vnm,
1169                                u32 hw_if_index,
1170                                struct vnet_sw_interface_t *st, int is_add)
1171 {
1172   /* Nothing for now */
1173   return 0;
1174 }
1175
1176 /* *INDENT-OFF* */
1177 VNET_DEVICE_CLASS (virtio_device_class) = {
1178   .name = "virtio",
1179   .format_device_name = format_virtio_device_name,
1180   .format_device = format_virtio_device,
1181   .format_tx_trace = format_virtio_tx_trace,
1182   .tx_function_n_errors = VIRTIO_TX_N_ERROR,
1183   .tx_function_error_strings = virtio_tx_func_error_strings,
1184   .rx_redirect_to_node = virtio_set_interface_next_node,
1185   .clear_counters = virtio_clear_hw_interface_counters,
1186   .admin_up_down_function = virtio_interface_admin_up_down,
1187   .subif_add_del_function = virtio_subif_add_del_function,
1188   .rx_mode_change_function = virtio_interface_rx_mode_change,
1189 };
1190
1191 /* *INDENT-ON* */
1192
1193 /*
1194  * fd.io coding-style-patch-verification: ON
1195  *
1196  * Local Variables:
1197  * eval: (c-set-style "gnu")
1198  * End:
1199  */