session: fix app name formatting
[vpp.git] / src / plugins / rdma / device.c
1 /*
2  *------------------------------------------------------------------
3  * Copyright (c) 2018 Cisco and/or its affiliates.
4  * Licensed under the Apache License, Version 2.0 (the "License");
5  * you may not use this file except in compliance with the License.
6  * You may obtain a copy of the License at:
7  *
8  *     http://www.apache.org/licenses/LICENSE-2.0
9  *
10  * Unless required by applicable law or agreed to in writing, software
11  * distributed under the License is distributed on an "AS IS" BASIS,
12  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13  * See the License for the specific language governing permissions and
14  * limitations under the License.
15  *------------------------------------------------------------------
16  */
17
18 #include <unistd.h>
19 #include <fcntl.h>
20 #include <net/if.h>
21 #include <linux/if_link.h>
22 #include <linux/if_ether.h>
23
24 #include <vppinfra/linux/sysfs.h>
25 #include <vlib/vlib.h>
26 #include <vlib/unix/unix.h>
27 #include <vlib/pci/pci.h>
28 #include <vnet/ethernet/ethernet.h>
29
30 #include <rdma/rdma.h>
31
32 rdma_main_t rdma_main;
33
34 #define rdma_log_debug(dev, f, ...) \
35 {                                                                   \
36   vlib_log(VLIB_LOG_LEVEL_DEBUG, rdma_main.log_class, "%U: " f,      \
37            format_vlib_pci_addr, &rd->pci_addr, ##__VA_ARGS__);     \
38 };
39
40 static u32
41 rdma_flag_change (vnet_main_t * vnm, vnet_hw_interface_t * hw, u32 flags)
42 {
43   rdma_main_t *rm = &rdma_main;
44   vlib_log_warn (rm->log_class, "TODO");
45   return 0;
46 }
47
48 static void
49 rdma_update_state (vnet_main_t * vnm, rdma_device_t * rd, int port)
50 {
51   struct ibv_port_attr attr;
52   u32 width = 0;
53   u32 speed = 0;
54
55   if (ibv_query_port (rd->ctx, port, &attr))
56     {
57       vnet_hw_interface_set_link_speed (vnm, rd->hw_if_index, 0);
58       vnet_hw_interface_set_flags (vnm, rd->hw_if_index, 0);
59       return;
60     }
61
62   /* update state */
63   switch (attr.state)
64     {
65     case IBV_PORT_ACTIVE:       /* fallthrough */
66     case IBV_PORT_ACTIVE_DEFER:
67       rd->flags |= RDMA_DEVICE_F_LINK_UP;
68       vnet_hw_interface_set_flags (vnm, rd->hw_if_index,
69                                    VNET_HW_INTERFACE_FLAG_LINK_UP);
70       break;
71     default:
72       rd->flags &= ~RDMA_DEVICE_F_LINK_UP;
73       vnet_hw_interface_set_flags (vnm, rd->hw_if_index, 0);
74       break;
75     }
76
77   /* update speed */
78   switch (attr.active_width)
79     {
80     case 1:
81       width = 1;
82       break;
83     case 2:
84       width = 4;
85       break;
86     case 4:
87       width = 8;
88       break;
89     case 8:
90       width = 12;
91       break;
92     }
93   switch (attr.active_speed)
94     {
95     case 1:
96       speed = 2500000;
97       break;
98     case 2:
99       speed = 5000000;
100       break;
101     case 4:                     /* fallthrough */
102     case 8:
103       speed = 10000000;
104       break;
105     case 16:
106       speed = 14000000;
107       break;
108     case 32:
109       speed = 25000000;
110       break;
111     }
112   vnet_hw_interface_set_link_speed (vnm, rd->hw_if_index, width * speed);
113 }
114
115 static clib_error_t *
116 rdma_async_event_error_ready (clib_file_t * f)
117 {
118   rdma_main_t *rm = &rdma_main;
119   rdma_device_t *rd = vec_elt_at_index (rm->devices, f->private_data);
120   return clib_error_return (0, "RDMA async event error for device %U",
121                             format_vlib_pci_addr, &rd->pci_addr);
122 }
123
124 static clib_error_t *
125 rdma_async_event_read_ready (clib_file_t * f)
126 {
127   vnet_main_t *vnm = vnet_get_main ();
128   rdma_main_t *rm = &rdma_main;
129   rdma_device_t *rd = vec_elt_at_index (rm->devices, f->private_data);
130   int ret;
131   struct ibv_async_event event;
132   ret = ibv_get_async_event (rd->ctx, &event);
133   if (ret < 0)
134     {
135       return clib_error_return_unix (0, "ibv_get_async_event() failed");
136     }
137
138   switch (event.event_type)
139     {
140     case IBV_EVENT_PORT_ACTIVE:
141       rdma_update_state (vnm, rd, event.element.port_num);
142       break;
143     case IBV_EVENT_PORT_ERR:
144       rdma_update_state (vnm, rd, event.element.port_num);
145       break;
146     case IBV_EVENT_DEVICE_FATAL:
147       rd->flags &= ~RDMA_DEVICE_F_LINK_UP;
148       vnet_hw_interface_set_flags (vnm, rd->hw_if_index, 0);
149       vlib_log_emerg (rm->log_class, "Fatal RDMA error for device %U",
150                       format_vlib_pci_addr, &rd->pci_addr);
151       break;
152     default:
153       vlib_log_warn (rm->log_class,
154                      "Unhandeld RDMA async event %i for device %U",
155                      event.event_type, format_vlib_pci_addr, &rd->pci_addr);
156       break;
157     }
158
159   ibv_ack_async_event (&event);
160   return 0;
161 }
162
163 static clib_error_t *
164 rdma_async_event_init (rdma_device_t * rd)
165 {
166   clib_file_t t = { 0 };
167   int ret;
168
169   /* make RDMA async event fd non-blocking */
170   ret = fcntl (rd->ctx->async_fd, F_GETFL);
171   if (ret < 0)
172     {
173       return clib_error_return_unix (0, "fcntl(F_GETFL) failed");
174     }
175   ret = fcntl (rd->ctx->async_fd, F_SETFL, ret | O_NONBLOCK);
176   if (ret < 0)
177     {
178       return clib_error_return_unix (0, "fcntl(F_SETFL, O_NONBLOCK) failed");
179     }
180
181   /* register RDMA async event fd */
182   t.read_function = rdma_async_event_read_ready;
183   t.file_descriptor = rd->ctx->async_fd;
184   t.error_function = rdma_async_event_error_ready;
185   t.private_data = rd->dev_instance;
186   t.description =
187     format (0, "RMDA %U async event", format_vlib_pci_addr, &rd->pci_addr);
188
189   rd->async_event_clib_file_index = clib_file_add (&file_main, &t);
190
191   return 0;
192 }
193
194 static void
195 rdma_async_event_cleanup (rdma_device_t * rd)
196 {
197   clib_file_del_by_index (&file_main, rd->async_event_clib_file_index);
198 }
199
200 static clib_error_t *
201 rdma_register_interface (vnet_main_t * vnm, rdma_device_t * rd)
202 {
203   return ethernet_register_interface (vnm, rdma_device_class.index,
204                                       rd->dev_instance, rd->hwaddr,
205                                       &rd->hw_if_index, rdma_flag_change);
206 }
207
208 static void
209 rdma_unregister_interface (vnet_main_t * vnm, rdma_device_t * rd)
210 {
211   vnet_hw_interface_set_flags (vnm, rd->hw_if_index, 0);
212   vnet_hw_interface_unassign_rx_thread (vnm, rd->hw_if_index, 0);
213   ethernet_delete_interface (vnm, rd->hw_if_index);
214 }
215
216 static void
217 rdma_dev_cleanup (rdma_device_t * rd)
218 {
219   rdma_main_t *rm = &rdma_main;
220   rdma_rxq_t *rxq;
221   rdma_txq_t *txq;
222
223 #define _(fn, arg) if (arg) \
224   { \
225     int rv; \
226     if ((rv = fn (arg))) \
227        rdma_log_debug (rd, #fn "() failed (rv = %d)", rv); \
228   }
229
230   _(ibv_destroy_flow, rd->flow_mcast);
231   _(ibv_destroy_flow, rd->flow_ucast);
232   _(ibv_dereg_mr, rd->mr);
233   vec_foreach (txq, rd->txqs)
234   {
235     _(ibv_destroy_qp, txq->qp);
236     _(ibv_destroy_cq, txq->cq);
237   }
238   vec_foreach (rxq, rd->rxqs)
239   {
240     _(ibv_destroy_qp, rxq->qp);
241     _(ibv_destroy_cq, rxq->cq);
242   }
243   _(ibv_dealloc_pd, rd->pd);
244   _(ibv_close_device, rd->ctx);
245 #undef _
246
247   clib_error_free (rd->error);
248
249   vec_free (rd->rxqs);
250   vec_free (rd->txqs);
251   vec_free (rd->name);
252   pool_put (rm->devices, rd);
253 }
254
255 static clib_error_t *
256 rdma_rxq_init (vlib_main_t * vm, rdma_device_t * rd, u16 qid, u32 n_desc)
257 {
258   rdma_rxq_t *rxq;
259   struct ibv_qp_init_attr qpia;
260   struct ibv_qp_attr qpa;
261   int qp_flags;
262
263   vec_validate_aligned (rd->rxqs, qid, CLIB_CACHE_LINE_BYTES);
264   rxq = vec_elt_at_index (rd->rxqs, qid);
265   rxq->size = n_desc;
266
267   if ((rxq->cq = ibv_create_cq (rd->ctx, n_desc, NULL, NULL, 0)) == 0)
268     return clib_error_return_unix (0, "Create CQ Failed");
269
270   memset (&qpia, 0, sizeof (qpia));
271   qpia.qp_type = IBV_QPT_RAW_PACKET;
272   qpia.send_cq = rxq->cq;
273   qpia.recv_cq = rxq->cq;
274   qpia.cap.max_recv_wr = n_desc;
275   qpia.cap.max_recv_sge = 1;
276
277   if ((rxq->qp = ibv_create_qp (rd->pd, &qpia)) == 0)
278     return clib_error_return_unix (0, "Queue Pair create failed");
279
280   memset (&qpa, 0, sizeof (qpa));
281   qp_flags = IBV_QP_STATE | IBV_QP_PORT;
282   qpa.qp_state = IBV_QPS_INIT;
283   qpa.port_num = 1;
284   if (ibv_modify_qp (rxq->qp, &qpa, qp_flags) != 0)
285     return clib_error_return_unix (0, "Modify QP (init) Failed");
286
287   memset (&qpa, 0, sizeof (qpa));
288   qp_flags = IBV_QP_STATE;
289   qpa.qp_state = IBV_QPS_RTR;
290   if (ibv_modify_qp (rxq->qp, &qpa, qp_flags) != 0)
291     return clib_error_return_unix (0, "Modify QP (receive) Failed");
292
293   return 0;
294 }
295
296 static clib_error_t *
297 rdma_txq_init (vlib_main_t * vm, rdma_device_t * rd, u16 qid, u32 n_desc)
298 {
299   rdma_txq_t *txq;
300   struct ibv_qp_init_attr qpia;
301   struct ibv_qp_attr qpa;
302   int qp_flags;
303
304   vec_validate_aligned (rd->txqs, qid, CLIB_CACHE_LINE_BYTES);
305   txq = vec_elt_at_index (rd->txqs, qid);
306   txq->size = n_desc;
307
308   if ((txq->cq = ibv_create_cq (rd->ctx, n_desc, NULL, NULL, 0)) == 0)
309     return clib_error_return_unix (0, "Create CQ Failed");
310
311   memset (&qpia, 0, sizeof (qpia));
312   qpia.qp_type = IBV_QPT_RAW_PACKET;
313   qpia.send_cq = txq->cq;
314   qpia.recv_cq = txq->cq;
315   qpia.cap.max_send_wr = n_desc;
316   qpia.cap.max_send_sge = 1;
317
318   if ((txq->qp = ibv_create_qp (rd->pd, &qpia)) == 0)
319     return clib_error_return_unix (0, "Queue Pair create failed");
320
321   memset (&qpa, 0, sizeof (qpa));
322   qp_flags = IBV_QP_STATE | IBV_QP_PORT;
323   qpa.qp_state = IBV_QPS_INIT;
324   qpa.port_num = 1;
325   if (ibv_modify_qp (txq->qp, &qpa, qp_flags) != 0)
326     return clib_error_return_unix (0, "Modify QP (init) Failed");
327
328   memset (&qpa, 0, sizeof (qpa));
329   qp_flags = IBV_QP_STATE;
330   qpa.qp_state = IBV_QPS_RTR;
331   if (ibv_modify_qp (txq->qp, &qpa, qp_flags) != 0)
332     return clib_error_return_unix (0, "Modify QP (receive) Failed");
333
334   memset (&qpa, 0, sizeof (qpa));
335   qp_flags = IBV_QP_STATE;
336   qpa.qp_state = IBV_QPS_RTS;
337   if (ibv_modify_qp (txq->qp, &qpa, qp_flags) != 0)
338     return clib_error_return_unix (0, "Modify QP (send) Failed");
339   return 0;
340 }
341
342 static clib_error_t *
343 rdma_dev_init (vlib_main_t * vm, rdma_device_t * rd)
344 {
345   clib_error_t *err;
346   vlib_buffer_main_t *bm = vm->buffer_main;
347   vlib_thread_main_t *tm = vlib_get_thread_main ();
348   u16 i;
349
350   if (rd->ctx == 0)
351     return clib_error_return_unix (0, "Device Open Failed");
352
353   if ((rd->pd = ibv_alloc_pd (rd->ctx)) == 0)
354     return clib_error_return_unix (0, "PD Alloc Failed");
355
356   if ((err = rdma_rxq_init (vm, rd, 0, 512)))
357     return err;
358
359   for (i = 0; i < tm->n_vlib_mains; i++)
360     if ((err = rdma_txq_init (vm, rd, i, 512)))
361       return err;
362
363   if ((rd->mr = ibv_reg_mr (rd->pd, (void *) bm->buffer_mem_start,
364                             bm->buffer_mem_size,
365                             IBV_ACCESS_LOCAL_WRITE)) == 0)
366     return clib_error_return_unix (0, "Register MR Failed");
367
368   ethernet_mac_address_generate (rd->hwaddr);
369
370   /*
371    * restrict packets steering to our MAC
372    * allows to share a single HW NIC with multiple RDMA ifaces
373    * and/or Linux
374    */
375   struct raw_eth_flow_attr
376   {
377     struct ibv_flow_attr attr;
378     struct ibv_flow_spec_eth spec_eth;
379   } __attribute__ ((packed)) fa;
380   memset (&fa, 0, sizeof (fa));
381   fa.attr.num_of_specs = 1;
382   fa.attr.port = 1;
383   fa.spec_eth.type = IBV_FLOW_SPEC_ETH;
384   fa.spec_eth.size = sizeof (struct ibv_flow_spec_eth);
385   memcpy (fa.spec_eth.val.dst_mac, rd->hwaddr,
386           sizeof (fa.spec_eth.val.dst_mac));
387   memset (fa.spec_eth.mask.dst_mac, 0xff, sizeof (fa.spec_eth.mask.dst_mac));
388   if ((rd->flow_ucast = ibv_create_flow (rd->rxqs[0].qp, &fa.attr)) == 0)
389     return clib_error_return_unix (0, "create Flow Failed");
390
391   /* receive multicast packets too */
392   memset (&fa, 0, sizeof (fa));
393   fa.attr.num_of_specs = 1;
394   fa.attr.port = 1;
395   fa.attr.flags = IBV_FLOW_ATTR_FLAGS_DONT_TRAP;        /* let others receive them too */
396   fa.spec_eth.type = IBV_FLOW_SPEC_ETH;
397   fa.spec_eth.size = sizeof (struct ibv_flow_spec_eth);
398   fa.spec_eth.val.dst_mac[0] = 1;
399   fa.spec_eth.mask.dst_mac[0] = 1;
400   if ((rd->flow_mcast = ibv_create_flow (rd->rxqs[0].qp, &fa.attr)) == 0)
401     return clib_error_return_unix (0, "create Flow Failed");
402
403   return 0;
404 }
405
406 static uword
407 sysfs_path_to_pci_addr (char *path, vlib_pci_addr_t * addr)
408 {
409   uword rv;
410   unformat_input_t in;
411   u8 *s;
412
413   s = clib_sysfs_link_to_name (path);
414   unformat_init_string (&in, (char *) s, strlen ((char *) s));
415   rv = unformat (&in, "%U", unformat_vlib_pci_addr, addr);
416   unformat_free (&in);
417   vec_free (s);
418   return rv;
419 }
420
421 void
422 rdma_create_if (vlib_main_t * vm, rdma_create_if_args_t * args)
423 {
424   vnet_main_t *vnm = vnet_get_main ();
425   rdma_main_t *rm = &rdma_main;
426   rdma_device_t *rd = 0;
427   struct ibv_device **dev_list = 0;
428   int n_devs;
429   u8 *s = 0, *s2 = 0;
430
431   pool_get_zero (rm->devices, rd);
432   rd->dev_instance = rd - rm->devices;
433   rd->per_interface_next_index = ~0;
434   rd->name = vec_dup (args->name);
435
436   /* check if device exist and if it is bound to mlx5_core */
437   s = format (s, "/sys/class/net/%s/device/driver/module%c", args->ifname, 0);
438   s2 = clib_sysfs_link_to_name ((char *) s);
439
440   if (s2 == 0 || strncmp ((char *) s2, "mlx5_core", 9) != 0)
441     {
442       args->error =
443         clib_error_return (0,
444                            "invalid interface (only mlx5 supported for now)");
445       goto err0;
446     }
447
448   /* extract PCI address */
449   vec_reset_length (s);
450   s = format (s, "/sys/class/net/%s/device%c", args->ifname, 0);
451   if (sysfs_path_to_pci_addr ((char *) s, &rd->pci_addr) == 0)
452     {
453       args->error = clib_error_return (0, "cannot find PCI address");
454       goto err0;
455     }
456
457   dev_list = ibv_get_device_list (&n_devs);
458   if (n_devs == 0)
459     {
460       args->error =
461         clib_error_return_unix (0,
462                                 "no RDMA devices available, errno = %d. Is the ib_uverbs module loaded?",
463                                 errno);
464       goto err1;
465     }
466
467   for (int i = 0; i < n_devs; i++)
468     {
469       vlib_pci_addr_t addr;
470
471       vec_reset_length (s);
472       s = format (s, "%s/device%c", dev_list[i]->dev_path, 0);
473
474       if (sysfs_path_to_pci_addr ((char *) s, &addr) == 0)
475         continue;
476
477       if (addr.as_u32 != rd->pci_addr.as_u32)
478         continue;
479
480       if ((rd->ctx = ibv_open_device (dev_list[i])))
481         break;
482     }
483
484   if ((args->error = rdma_dev_init (vm, rd)))
485     goto err2;
486
487   if ((args->error = rdma_register_interface (vnm, rd)))
488     goto err2;
489
490   if ((args->error = rdma_async_event_init (rd)))
491     goto err3;
492
493   rdma_update_state (vnm, rd, 1);
494
495   vnet_sw_interface_t *sw = vnet_get_hw_sw_interface (vnm, rd->hw_if_index);
496   args->sw_if_index = rd->sw_if_index = sw->sw_if_index;
497   /*
498    * FIXME: add support for interrupt mode
499    * vnet_hw_interface_t *hw = vnet_get_hw_interface (vnm, rd->hw_if_index);
500    * hw->flags |= VNET_HW_INTERFACE_FLAG_SUPPORTS_INT_MODE;
501    */
502   vnet_hw_interface_set_input_node (vnm, rd->hw_if_index,
503                                     rdma_input_node.index);
504   vnet_hw_interface_assign_rx_thread (vnm, rd->hw_if_index, 0, ~0);
505   return;
506
507 err3:
508   rdma_unregister_interface (vnm, rd);
509 err2:
510   rdma_dev_cleanup (rd);
511 err1:
512   ibv_free_device_list (dev_list);
513 err0:
514   vec_free (s2);
515   vec_free (s);
516   args->rv = VNET_API_ERROR_INVALID_INTERFACE;
517   vlib_log_err (rm->log_class, "%U", format_clib_error, args->error);
518 }
519
520 void
521 rdma_delete_if (vlib_main_t * vm, rdma_device_t * rd)
522 {
523   rdma_async_event_cleanup (rd);
524   rdma_unregister_interface (vnet_get_main (), rd);
525   rdma_dev_cleanup (rd);
526 }
527
528 static clib_error_t *
529 rdma_interface_admin_up_down (vnet_main_t * vnm, u32 hw_if_index, u32 flags)
530 {
531   vnet_hw_interface_t *hi = vnet_get_hw_interface (vnm, hw_if_index);
532   rdma_main_t *rm = &rdma_main;
533   rdma_device_t *rd = vec_elt_at_index (rm->devices, hi->dev_instance);
534   uword is_up = (flags & VNET_SW_INTERFACE_FLAG_ADMIN_UP) != 0;
535
536   if (rd->flags & RDMA_DEVICE_F_ERROR)
537     return clib_error_return (0, "device is in error state");
538
539   if (is_up)
540     {
541       vnet_hw_interface_set_flags (vnm, rd->hw_if_index,
542                                    VNET_HW_INTERFACE_FLAG_LINK_UP);
543       rd->flags |= RDMA_DEVICE_F_ADMIN_UP;
544     }
545   else
546     {
547       vnet_hw_interface_set_flags (vnm, rd->hw_if_index, 0);
548       rd->flags &= ~RDMA_DEVICE_F_ADMIN_UP;
549     }
550   return 0;
551 }
552
553 static void
554 rdma_set_interface_next_node (vnet_main_t * vnm, u32 hw_if_index,
555                               u32 node_index)
556 {
557   rdma_main_t *rm = &rdma_main;
558   vnet_hw_interface_t *hw = vnet_get_hw_interface (vnm, hw_if_index);
559   rdma_device_t *rd = pool_elt_at_index (rm->devices, hw->dev_instance);
560
561   /* Shut off redirection */
562   if (node_index == ~0)
563     {
564       rd->per_interface_next_index = node_index;
565       return;
566     }
567
568   rd->per_interface_next_index =
569     vlib_node_add_next (vlib_get_main (), rdma_input_node.index, node_index);
570 }
571
572 static char *rdma_tx_func_error_strings[] = {
573 #define _(n,s) s,
574   foreach_rdma_tx_func_error
575 #undef _
576 };
577
578 /* *INDENT-OFF* */
579 VNET_DEVICE_CLASS (rdma_device_class,) =
580 {
581   .name = "RDMA interface",
582   .format_device = format_rdma_device,
583   .format_device_name = format_rdma_device_name,
584   .admin_up_down_function = rdma_interface_admin_up_down,
585   .rx_redirect_to_node = rdma_set_interface_next_node,
586   .tx_function_n_errors = RDMA_TX_N_ERROR,
587   .tx_function_error_strings = rdma_tx_func_error_strings,
588 };
589 /* *INDENT-ON* */
590
591 clib_error_t *
592 rdma_init (vlib_main_t * vm)
593 {
594   rdma_main_t *rm = &rdma_main;
595
596   rm->log_class = vlib_log_register_class ("rdma", 0);
597
598   return 0;
599 }
600
601 VLIB_INIT_FUNCTION (rdma_init);
602
603 /*
604  * fd.io coding-style-patch-verification: ON
605  *
606  * Local Variables:
607  * eval: (c-set-style "gnu")
608  * End:
609  */