314e280636a72d9c16395bda00e2681f4a6b43fe
[vpp.git] / vnet / vnet / devices / dpdk / dpdk_priv.h
1 /*
2  * Copyright (c) 2015 Cisco and/or its affiliates.
3  * Licensed under the Apache License, Version 2.0 (the "License");
4  * you may not use this file except in compliance with the License.
5  * You may obtain a copy of the License at:
6  *
7  *     http://www.apache.org/licenses/LICENSE-2.0
8  *
9  * Unless required by applicable law or agreed to in writing, software
10  * distributed under the License is distributed on an "AS IS" BASIS,
11  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
12  * See the License for the specific language governing permissions and
13  * limitations under the License.
14  */
15
16 #define DPDK_NB_RX_DESC_DEFAULT   512
17 #define DPDK_NB_TX_DESC_DEFAULT   512
18 #define DPDK_NB_RX_DESC_VIRTIO    256
19 #define DPDK_NB_TX_DESC_VIRTIO    256
20 #define DPDK_NB_RX_DESC_10GE    2048
21 #define DPDK_NB_TX_DESC_10GE    2048
22 #define DPDK_NB_RX_DESC_40GE    (4096-128)
23 #define DPDK_NB_TX_DESC_40GE    2048
24
25 #if RTE_VERSION >= RTE_VERSION_NUM(2, 2, 0, 0)
26 #define foreach_dpdk_counter                    \
27   _ (tx_frames_ok, opackets)                    \
28   _ (tx_bytes_ok, obytes)                       \
29   _ (tx_errors, oerrors)                        \
30   _ (tx_loopback_frames_ok, olbpackets)         \
31   _ (tx_loopback_bytes_ok, olbbytes)            \
32   _ (rx_frames_ok, ipackets)                    \
33   _ (rx_bytes_ok, ibytes)                       \
34   _ (rx_errors, ierrors)                        \
35   _ (rx_missed, imissed)                        \
36   _ (rx_multicast_frames_ok, imcasts)           \
37   _ (rx_no_bufs, rx_nombuf)                     \
38   _ (rx_loopback_frames_ok, ilbpackets)         \
39   _ (rx_loopback_bytes_ok, ilbbytes)
40 #else
41 #define foreach_dpdk_counter                    \
42   _ (tx_frames_ok, opackets)                    \
43   _ (tx_bytes_ok, obytes)                       \
44   _ (tx_errors, oerrors)                        \
45   _ (tx_loopback_frames_ok, olbpackets)         \
46   _ (tx_loopback_bytes_ok, olbbytes)            \
47   _ (rx_frames_ok, ipackets)                    \
48   _ (rx_bytes_ok, ibytes)                       \
49   _ (rx_errors, ierrors)                        \
50   _ (rx_missed, imissed)                        \
51   _ (rx_bad_crc, ibadcrc)                       \
52   _ (rx_bad_length, ibadlen)                    \
53   _ (rx_multicast_frames_ok, imcasts)           \
54   _ (rx_no_bufs, rx_nombuf)                     \
55   _ (rx_filter_match, fdirmatch)                \
56   _ (rx_filter_miss, fdirmiss)                  \
57   _ (tx_pause_xon, tx_pause_xon)                \
58   _ (rx_pause_xon, rx_pause_xon)                \
59   _ (tx_pause_xoff, tx_pause_xoff)              \
60   _ (rx_pause_xoff, rx_pause_xoff)              \
61   _ (rx_loopback_frames_ok, ilbpackets)         \
62   _ (rx_loopback_bytes_ok, ilbbytes)
63 #endif
64
65 #define foreach_dpdk_q_counter                  \
66   _ (rx_frames_ok, q_ipackets)                  \
67   _ (tx_frames_ok, q_opackets)                  \
68   _ (rx_bytes_ok, q_ibytes)                     \
69   _ (tx_bytes_ok, q_obytes)                     \
70   _ (rx_errors, q_errors)
71
72 #define foreach_dpdk_rss_hf                    \
73   _(ETH_RSS_IPV4,               "ipv4")        \
74   _(ETH_RSS_FRAG_IPV4,          "ipv4-frag")   \
75   _(ETH_RSS_NONFRAG_IPV4_TCP,   "ipv4-tcp")    \
76   _(ETH_RSS_NONFRAG_IPV4_UDP,   "ipv4-udp")    \
77   _(ETH_RSS_NONFRAG_IPV4_SCTP,  "ipv4-sctp")   \
78   _(ETH_RSS_NONFRAG_IPV4_OTHER, "ipv4-other")  \
79   _(ETH_RSS_IPV6,               "ipv6")        \
80   _(ETH_RSS_FRAG_IPV6,          "ipv6-frag")   \
81   _(ETH_RSS_NONFRAG_IPV6_TCP,   "ipv6-tcp")    \
82   _(ETH_RSS_NONFRAG_IPV6_UDP,   "ipv6-udp")    \
83   _(ETH_RSS_NONFRAG_IPV6_SCTP,  "ipv6-sctp")   \
84   _(ETH_RSS_NONFRAG_IPV6_OTHER, "ipv6-other")  \
85   _(ETH_RSS_L2_PAYLOAD,         "l2-payload")  \
86   _(ETH_RSS_IPV6_EX,            "ipv6-ex")     \
87   _(ETH_RSS_IPV6_TCP_EX,        "ipv6-tcp-ex") \
88   _(ETH_RSS_IPV6_UDP_EX,        "ipv6-udp-ex")
89
90 #define foreach_dpdk_rx_offload_caps            \
91   _(DEV_RX_OFFLOAD_VLAN_STRIP, "vlan-strip")    \
92   _(DEV_RX_OFFLOAD_IPV4_CKSUM, "ipv4-cksum")    \
93   _(DEV_RX_OFFLOAD_UDP_CKSUM , "udp-cksum")     \
94   _(DEV_RX_OFFLOAD_TCP_CKSUM , "tcp-cksum")     \
95   _(DEV_RX_OFFLOAD_TCP_LRO   , "rcp-lro")       \
96   _(DEV_RX_OFFLOAD_QINQ_STRIP, "qinq-strip")
97
98 #define foreach_dpdk_tx_offload_caps           \
99   _(DEV_TX_OFFLOAD_VLAN_INSERT, "vlan-insert") \
100   _(DEV_TX_OFFLOAD_IPV4_CKSUM,  "ipv4-cksum")  \
101   _(DEV_TX_OFFLOAD_UDP_CKSUM  , "udp-cksum")   \
102   _(DEV_TX_OFFLOAD_TCP_CKSUM  , "tcp-cksum")   \
103   _(DEV_TX_OFFLOAD_SCTP_CKSUM , "sctp-cksum")  \
104   _(DEV_TX_OFFLOAD_TCP_TSO    , "tcp-tso")     \
105   _(DEV_TX_OFFLOAD_UDP_TSO    , "udp-tso")     \
106   _(DEV_TX_OFFLOAD_OUTER_IPV4_CKSUM, "outer-ipv4-cksum") \
107   _(DEV_TX_OFFLOAD_QINQ_INSERT, "qinq-insert")
108
109 #if RTE_VERSION >= RTE_VERSION_NUM(2, 1, 0, 0)
110
111 #define foreach_dpdk_pkt_rx_offload_flag                                \
112   _ (PKT_RX_VLAN_PKT, "RX packet is a 802.1q VLAN packet")              \
113   _ (PKT_RX_RSS_HASH, "RX packet with RSS hash result")                 \
114   _ (PKT_RX_FDIR, "RX packet with FDIR infos")                          \
115   _ (PKT_RX_L4_CKSUM_BAD, "L4 cksum of RX pkt. is not OK")              \
116   _ (PKT_RX_IP_CKSUM_BAD, "IP cksum of RX pkt. is not OK")              \
117   _ (PKT_RX_IEEE1588_PTP, "RX IEEE1588 L2 Ethernet PT Packet")          \
118   _ (PKT_RX_IEEE1588_TMST, "RX IEEE1588 L2/L4 timestamped packet")
119
120 #define foreach_dpdk_pkt_type                                   \
121   _ (RTE_PTYPE_L3_IPV4, "Packet with IPv4 header")              \
122   _ (RTE_PTYPE_L3_IPV4_EXT, "Packet with extended IPv4 header") \
123   _ (RTE_PTYPE_L3_IPV6, "Packet with IPv6 header")              \
124   _ (RTE_PTYPE_L3_IPV6_EXT, "Packet with extended IPv6 header")
125 #else
126 #define foreach_dpdk_pkt_rx_offload_flag                                \
127   _ (PKT_RX_VLAN_PKT, "RX packet is a 802.1q VLAN packet")              \
128   _ (PKT_RX_RSS_HASH, "RX packet with RSS hash result")                 \
129   _ (PKT_RX_FDIR, "RX packet with FDIR infos")                          \
130   _ (PKT_RX_L4_CKSUM_BAD, "L4 cksum of RX pkt. is not OK")              \
131   _ (PKT_RX_IP_CKSUM_BAD, "IP cksum of RX pkt. is not OK")              \
132   _ (PKT_RX_IPV4_HDR, "RX packet with IPv4 header")                     \
133   _ (PKT_RX_IPV4_HDR_EXT, "RX packet with extended IPv4 header")        \
134   _ (PKT_RX_IPV6_HDR, "RX packet with IPv6 header")                     \
135   _ (PKT_RX_IPV6_HDR_EXT, "RX packet with extended IPv6 header")        \
136   _ (PKT_RX_IEEE1588_PTP, "RX IEEE1588 L2 Ethernet PT Packet")          \
137   _ (PKT_RX_IEEE1588_TMST, "RX IEEE1588 L2/L4 timestamped packet")
138
139 #define foreach_dpdk_pkt_type /* Dummy */
140 #endif /* RTE_VERSION */
141
142 #define foreach_dpdk_pkt_tx_offload_flag                                \
143   _ (PKT_TX_VLAN_PKT, "TX packet is a 802.1q VLAN packet")              \
144   _ (PKT_TX_IP_CKSUM, "IP cksum of TX pkt. computed by NIC")            \
145   _ (PKT_TX_TCP_CKSUM, "TCP cksum of TX pkt. computed by NIC")          \
146   _ (PKT_TX_SCTP_CKSUM, "SCTP cksum of TX pkt. computed by NIC")        \
147   _ (PKT_TX_IEEE1588_TMST, "TX IEEE1588 packet to timestamp")
148
149 #define foreach_dpdk_pkt_offload_flag           \
150   foreach_dpdk_pkt_rx_offload_flag              \
151   foreach_dpdk_pkt_tx_offload_flag
152
153 static inline u8 * format_dpdk_pkt_types (u8 * s, va_list * va)
154 {
155   u32 *pkt_types = va_arg (*va, u32 *);
156   uword indent __attribute__((unused)) = format_get_indent (s) + 2;
157
158   if (!*pkt_types)
159     return s;
160
161   s = format (s, "Packet Types");
162
163 #define _(F, S)             \
164   if (*pkt_types & F)           \
165     {               \
166       s = format (s, "\n%U%s (0x%04x) %s",      \
167       format_white_space, indent, #F, F, S);  \
168     }
169   
170   foreach_dpdk_pkt_type
171
172 #undef _
173
174   return s;
175 }
176
177 static inline u8 * format_dpdk_pkt_offload_flags (u8 * s, va_list * va)
178 {
179   u16 *ol_flags = va_arg (*va, u16 *);
180   uword indent = format_get_indent (s) + 2;
181
182   if (!*ol_flags)
183     return s;
184
185   s = format (s, "Packet Offload Flags");
186
187 #define _(F, S)             \
188   if (*ol_flags & F)            \
189     {               \
190       s = format (s, "\n%U%s (0x%04x) %s",      \
191       format_white_space, indent, #F, F, S);  \
192     }
193   
194   foreach_dpdk_pkt_offload_flag
195
196 #undef _
197
198   return s;
199 }
200
201 static inline u8 * format_dpdk_rte_mbuf (u8 * s, va_list * va)
202 {
203   struct rte_mbuf * mb = va_arg (*va, struct rte_mbuf *);
204   uword indent = format_get_indent (s) + 2;
205
206   s = format (s, "PKT MBUF: port %d, nb_segs %d, pkt_len %d"
207               "\n%Ubuf_len %d, data_len %d, ol_flags 0x%x,"
208               "\n%Upacket_type 0x%x",
209               mb->port, mb->nb_segs, mb->pkt_len,
210               format_white_space, indent, 
211               mb->buf_len, mb->data_len, mb->ol_flags,
212               format_white_space, indent, 
213               mb->packet_type);
214
215   if (mb->ol_flags)
216     s = format (s, "\n%U%U", format_white_space, indent,
217                 format_dpdk_pkt_offload_flags, &mb->ol_flags);
218
219   if (mb->packet_type)
220     s = format (s, "\n%U%U", format_white_space, indent,
221                 format_dpdk_pkt_types, &mb->packet_type);
222   return s;
223 }
224
225 #ifdef RTE_LIBRTE_MBUF_EXT_RX_OLFLAGS
226 #define foreach_dpdk_pkt_ext_rx_offload_flag                    \
227   _ (PKT_EXT_RX_PKT_ERROR, "RX Packet Error")                   \
228   _ (PKT_EXT_RX_BAD_FCS, "RX Bad FCS checksum")                 \
229   _ (PKT_EXT_RX_UDP, "RX packet with UDP L4 header")            \
230   _ (PKT_EXT_RX_TCP, "RX packet with TCP L4 header")            \
231   _ (PKT_EXT_RX_IPV4_FRAGMENT, "RX packet IPv4 Fragment")
232
233 #define foreach_dpdk_pkt_ext_offload_flag \
234   foreach_dpdk_pkt_rx_offload_flag    \
235   foreach_dpdk_pkt_ext_rx_offload_flag
236
237 static inline u8 * format_dpdk_pkt_rx_offload_flags (u8 * s, va_list * va)
238 {
239   u16 *ol_flags = va_arg (*va, u16 *);
240   uword indent = format_get_indent (s) + 2;
241
242   if (!*ol_flags)
243     return s;
244
245   s = format (s, "Packet RX Offload Flags");
246
247 #define _(F, S)             \
248   if (*ol_flags & F)            \
249     {               \
250       s = format (s, "\n%U%s (0x%04x) %s",      \
251       format_white_space, indent, #F, F, S);  \
252     }
253   
254   foreach_dpdk_pkt_ext_offload_flag
255
256 #undef _
257
258   return s;
259 }
260
261 static inline u8 * format_dpdk_rx_rte_mbuf (u8 * s, va_list * va)
262 {
263   struct rte_mbuf * mb = va_arg (*va, struct rte_mbuf *);
264   uword indent = format_get_indent (s) + 2;
265
266   /*
267    * Note: Assumes mb is head of pkt chain -- port, nb_segs, & pkt_len
268    *       are only valid for the 1st mbuf segment.
269    */
270   s = format (s, "PKT MBUF: port %d, nb_segs %d, pkt_len %d"
271               "\n%Ubuf_len %d, data_len %d, ol_flags 0x%x"
272               "\n%Upacket_type 0x%x",
273               mb->port, mb->nb_segs, mb->pkt_len,
274               format_white_space, indent,
275               mb->buf_len, mb->data_len, mb->ol_flags,
276               format_white_space, indent,
277               mb->packet_type);
278
279   if (mb->ol_flags)
280     s = format (s, "\n%U%U", format_white_space, indent,
281                 format_dpdk_pkt_rx_offload_flags, &mb->ol_flags);
282
283   if (mb->packet_type)
284     s = format (s, "\n%U%U", format_white_space, indent,
285                 format_dpdk_pkt_types, &mb->packet_type);
286   return s;
287 }
288 #endif /* RTE_LIBRTE_MBUF_EXT_RX_OLFLAGS */
289
290 /* These args appear by themselves */
291 #define foreach_eal_double_hyphen_predicate_arg \
292 _(no-shconf)                                    \
293 _(no-hpet)                                      \
294 _(no-pci)                                       \
295 _(no-huge)                                      \
296 _(vmware-tsc-map)                               \
297 _(virtio-vhost)
298
299 #define foreach_eal_single_hyphen_mandatory_arg \
300 _(coremask, c)                                  \
301 _(nchannels, n)                                 \
302
303 #define foreach_eal_single_hyphen_arg           \
304 _(blacklist, b)                                 \
305 _(mem-alloc-request, m)                         \
306 _(force-ranks, r)
307
308 /* These args are preceeded by "--" and followed by a single string */
309 #define foreach_eal_double_hyphen_arg           \
310 _(huge-dir)                                     \
311 _(proc-type)                                    \
312 _(file-prefix)                                  \
313 _(socket-mem)                                   \
314 _(vdev)
315
316 static inline u32
317 dpdk_rx_burst ( dpdk_main_t * dm, dpdk_device_t * xd, u16 queue_id)
318 {
319   u32 n_buffers;
320   u32 n_left;
321   u32 n_this_chunk;
322
323   n_left = VLIB_FRAME_SIZE;
324   n_buffers = 0;
325
326   if (PREDICT_TRUE(xd->dev_type == VNET_DPDK_DEV_ETH))
327     {
328       while (n_left)
329         {
330           n_this_chunk = rte_eth_rx_burst (xd->device_index, queue_id,
331                                            xd->rx_vectors[queue_id] + n_buffers, n_left);
332           n_buffers += n_this_chunk;
333           n_left -= n_this_chunk;
334
335           /* Empirically, DPDK r1.8 produces vectors w/ 32 or fewer elts */
336           if (n_this_chunk < 32)
337             break;
338       }
339     }
340   else if (xd->dev_type == VNET_DPDK_DEV_VHOST_USER)
341     {
342       vlib_main_t * vm = vlib_get_main();
343       vlib_buffer_main_t * bm = vm->buffer_main;
344       unsigned socket_id = rte_socket_id();
345
346       if (PREDICT_FALSE(!xd->vu_is_running))
347         return 0;
348
349       n_buffers = rte_vhost_dequeue_burst(&xd->vu_vhost_dev, VIRTIO_TXQ,
350                                           bm->pktmbuf_pools[socket_id],
351                                           xd->rx_vectors[queue_id], VLIB_FRAME_SIZE);
352
353       f64 now = vlib_time_now (dm->vlib_main);
354
355       /* send pending interrupts if needed */
356       if (dpdk_vhost_user_want_interrupt(xd, VIRTIO_TXQ)) {
357           dpdk_vu_vring *vring = &(xd->vu_intf->vrings[VIRTIO_TXQ]);
358           vring->n_since_last_int += n_buffers;
359
360           if ((vring->n_since_last_int && (vring->int_deadline < now))
361               || (vring->n_since_last_int > dm->vhost_coalesce_frames))
362             dpdk_vhost_user_send_interrupt(dm->vlib_main, xd, VIRTIO_TXQ);
363       }
364
365       if (dpdk_vhost_user_want_interrupt(xd, VIRTIO_RXQ)) {
366           dpdk_vu_vring *vring = &(xd->vu_intf->vrings[VIRTIO_RXQ]);
367           if (vring->n_since_last_int && (vring->int_deadline < now))
368             dpdk_vhost_user_send_interrupt(dm->vlib_main, xd, VIRTIO_RXQ);
369       }
370
371     }
372   else if (xd->dev_type == VNET_DPDK_DEV_KNI)
373     {
374       n_buffers = rte_kni_rx_burst(xd->kni, xd->rx_vectors[queue_id], VLIB_FRAME_SIZE);
375       rte_kni_handle_request(xd->kni);
376     }
377   else
378     {
379       ASSERT(0);
380     }
381
382   return n_buffers;
383 }
384
385
386 static inline void
387 dpdk_update_counters (dpdk_device_t * xd, f64 now)
388 {
389   vlib_simple_counter_main_t * cm;
390   vnet_main_t * vnm = vnet_get_main();
391   u32 my_cpu = os_get_cpu_number();
392   u64 rxerrors, last_rxerrors;
393   int len;
394
395   /* only update counters for PMD interfaces */
396   if (xd->dev_type != VNET_DPDK_DEV_ETH)
397     return;
398
399   /*
400    * DAW-FIXME: VMXNET3 device stop/start doesn't work,
401    * therefore fake the stop in the dpdk driver by
402    * silently dropping all of the incoming pkts instead of
403    * stopping the driver / hardware.
404    */
405   if (xd->admin_up != 0xff)
406     {
407       xd->time_last_stats_update = now ? now : xd->time_last_stats_update;
408       memcpy (&xd->last_stats, &xd->stats, sizeof (xd->last_stats));
409       rte_eth_stats_get (xd->device_index, &xd->stats);
410
411       /* maybe bump interface rx no buffer counter */
412       if (PREDICT_FALSE (xd->stats.rx_nombuf != xd->last_stats.rx_nombuf))
413         {
414           cm = vec_elt_at_index (vnm->interface_main.sw_if_counters,
415                                  VNET_INTERFACE_COUNTER_RX_NO_BUF);
416
417           vlib_increment_simple_counter (cm, my_cpu, xd->vlib_sw_if_index,
418                                          xd->stats.rx_nombuf -
419                                          xd->last_stats.rx_nombuf);
420         }
421
422       /* missed pkt counter */
423       if (PREDICT_FALSE (xd->stats.imissed != xd->last_stats.imissed))
424         {
425           cm = vec_elt_at_index (vnm->interface_main.sw_if_counters,
426                                  VNET_INTERFACE_COUNTER_RX_MISS);
427
428           vlib_increment_simple_counter (cm, my_cpu, xd->vlib_sw_if_index,
429                                          xd->stats.imissed -
430                                          xd->last_stats.imissed);
431         }
432 #if RTE_VERSION >= RTE_VERSION_NUM(2, 2, 0, 0)
433       rxerrors = xd->stats.ierrors;
434       last_rxerrors = xd->last_stats.ierrors;
435 #else
436       rxerrors = xd->stats.ibadcrc
437         + xd->stats.ibadlen + xd->stats.ierrors;
438       last_rxerrors = xd->last_stats.ibadcrc
439         + xd->last_stats.ibadlen + xd->last_stats.ierrors;
440 #endif
441
442       if (PREDICT_FALSE (rxerrors != last_rxerrors))
443         {
444           cm = vec_elt_at_index (vnm->interface_main.sw_if_counters,
445                                  VNET_INTERFACE_COUNTER_RX_ERROR);
446
447           vlib_increment_simple_counter (cm, my_cpu, xd->vlib_sw_if_index,
448                                          rxerrors - last_rxerrors);
449         }
450     }
451
452   if ((len = rte_eth_xstats_get(xd->device_index, NULL, 0)) > 0)
453     {
454       vec_validate(xd->xstats, len - 1);
455       len = rte_eth_xstats_get(xd->device_index, xd->xstats, vec_len(xd->xstats));
456       ASSERT(vec_len(xd->xstats) == len);
457       _vec_len(xd->xstats) = len;
458     }
459 }