rdma: tx: fix stats and add batching
[vpp.git] / src / plugins / rdma / output.c
1 /*
2  *------------------------------------------------------------------
3  * Copyright (c) 2018 Cisco and/or its affiliates.
4  * Licensed under the Apache License, Version 2.0 (the "License");
5  * you may not use this file except in compliance with the License.
6  * You may obtain a copy of the License at:
7  *
8  *     http://www.apache.org/licenses/LICENSE-2.0
9  *
10  * Unless required by applicable law or agreed to in writing, software
11  * distributed under the License is distributed on an "AS IS" BASIS,
12  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13  * See the License for the specific language governing permissions and
14  * limitations under the License.
15  *------------------------------------------------------------------
16  */
17
18 #include <vlib/vlib.h>
19 #include <vlib/unix/unix.h>
20 #include <vlib/pci/pci.h>
21 #include <vppinfra/ring.h>
22 #include <vnet/ethernet/ethernet.h>
23 #include <vnet/devices/devices.h>
24
25 #include <rdma/rdma.h>
26
27 static_always_inline void
28 rdma_device_output_free (vlib_main_t * vm, rdma_txq_t * txq)
29 {
30   struct ibv_wc wc[VLIB_FRAME_SIZE];
31   u32 to_free[VLIB_FRAME_SIZE];
32   int n_free;
33   int i;
34
35   n_free = ibv_poll_cq (txq->cq, VLIB_FRAME_SIZE, wc);
36   if (n_free <= 0)
37     return;
38
39   for (i = 0; i < n_free; i++)
40     to_free[i] = wc[i].wr_id;
41
42   vlib_buffer_free (vm, to_free, n_free);
43 }
44
45 VNET_DEVICE_CLASS_TX_FN (rdma_device_class) (vlib_main_t * vm,
46                                              vlib_node_runtime_t * node,
47                                              vlib_frame_t * frame)
48 {
49   rdma_main_t *rm = &rdma_main;
50   vnet_interface_output_runtime_t *ord = (void *) node->runtime_data;
51   rdma_device_t *rd = pool_elt_at_index (rm->devices, ord->dev_instance);
52   u32 thread_index = vm->thread_index;
53   rdma_txq_t *txq =
54     vec_elt_at_index (rd->txqs, thread_index % vec_len (rd->txqs));
55   u32 *from, *f, n_left_from;
56   u32 n_tx_packets, n_tx_failed;
57   vlib_buffer_t *bufs[VLIB_FRAME_SIZE], **b = bufs;
58   struct ibv_send_wr wr[VLIB_FRAME_SIZE], *w = wr;
59   struct ibv_sge sge[VLIB_FRAME_SIZE], *s = sge;
60   int i;
61
62   f = from = vlib_frame_vector_args (frame);
63   n_left_from = frame->n_vectors;
64   vlib_get_buffers (vm, from, bufs, n_left_from);
65
66   memset (w, 0, n_left_from * sizeof (w[0]));
67
68   while (n_left_from >= 2)
69     {
70       if (PREDICT_TRUE (n_left_from >= 4))
71         {
72           vlib_prefetch_buffer_header (b[2 + 0], LOAD);
73           vlib_prefetch_buffer_header (b[2 + 1], LOAD);
74           CLIB_PREFETCH (&s[2 + 0], sizeof (s[0]), STORE);
75           CLIB_PREFETCH (&s[2 + 1], sizeof (s[0]), STORE);
76           CLIB_PREFETCH (&w[2 + 0], sizeof (w[0]), STORE);
77           CLIB_PREFETCH (&w[2 + 1], sizeof (w[0]), STORE);
78         }
79
80       s[0].addr = vlib_buffer_get_current_va (b[0]);
81       s[0].length = b[0]->current_length;
82       s[0].lkey = rd->mr->lkey;
83
84       s[1].addr = vlib_buffer_get_current_va (b[1]);
85       s[1].length = b[1]->current_length;
86       s[1].lkey = rd->mr->lkey;
87
88       w[0].wr_id = f[0];
89       w[0].next = &w[1 + 0];
90       w[0].sg_list = &s[0];
91       w[0].num_sge = 1;
92       w[0].opcode = IBV_WR_SEND;
93       w[0].send_flags = IBV_SEND_SIGNALED;
94
95       w[1].wr_id = f[1];
96       w[1].next = &w[1 + 1];
97       w[1].sg_list = &s[1];
98       w[1].num_sge = 1;
99       w[1].opcode = IBV_WR_SEND;
100       w[1].send_flags = IBV_SEND_SIGNALED;
101
102       s += 2;
103       f += 2;
104       w += 2;
105       b += 2;
106       n_left_from -= 2;
107     }
108
109   while (n_left_from >= 1)
110     {
111       s[0].addr = vlib_buffer_get_current_va (b[0]);
112       s[0].length = b[0]->current_length;
113       s[0].lkey = rd->mr->lkey;
114
115       w[0].wr_id = f[0];
116       w[0].next = &w[1 + 0];
117       w[0].sg_list = &s[0];
118       w[0].num_sge = 1;
119       w[0].opcode = IBV_WR_SEND;
120       w[0].send_flags = IBV_SEND_SIGNALED;
121
122       s += 1;
123       f += 1;
124       w += 1;
125       b += 1;
126       n_left_from -= 1;
127     }
128
129   w[-1].next = 0;               /* fix next pointer in WR linked-list last item */
130
131   w = wr;
132   clib_spinlock_lock_if_init (&txq->lock);
133   for (i = 0; i < 5; i++)
134     {
135       rdma_device_output_free (vm, txq);
136       if (0 == ibv_post_send (txq->qp, w, &w))
137         break;
138     }
139   clib_spinlock_unlock_if_init (&txq->lock);
140
141   n_tx_packets = w == wr ? frame->n_vectors : w - wr;
142   n_tx_failed = frame->n_vectors - n_tx_packets;
143
144   if (PREDICT_FALSE (n_tx_failed))
145     {
146       vlib_buffer_free (vm, &from[n_tx_packets], n_tx_failed);
147       vlib_error_count (vm, node->node_index,
148                         RDMA_TX_ERROR_NO_FREE_SLOTS, n_tx_failed);
149     }
150
151   return n_tx_packets;
152 }
153
154 /*
155  * fd.io coding-style-patch-verification: ON
156  *
157  * Local Variables:
158  * eval: (c-set-style "gnu")
159  * End:
160  */