crypto: Enabling IOMMU DMA translation table update for QAT card
[vpp.git] / src / plugins / dpdk / buffer.c
1 /*
2  * Copyright (c) 2017-2019 Cisco and/or its affiliates.
3  * Licensed under the Apache License, Version 2.0 (the "License");
4  * you may not use this file except in compliance with the License.
5  * You may obtain a copy of the License at:
6  *
7  *     http://www.apache.org/licenses/LICENSE-2.0
8  *
9  * Unless required by applicable law or agreed to in writing, software
10  * distributed under the License is distributed on an "AS IS" BASIS,
11  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
12  * See the License for the specific language governing permissions and
13  * limitations under the License.
14  */
15
16 #include <unistd.h>
17 #include <errno.h>
18
19 #include <rte_config.h>
20 #include <rte_mbuf.h>
21 #include <rte_ethdev.h>
22 #include <rte_cryptodev.h>
23 #include <rte_vfio.h>
24 #include <rte_version.h>
25
26 #include <vlib/vlib.h>
27 #include <dpdk/buffer.h>
28
29 STATIC_ASSERT (VLIB_BUFFER_PRE_DATA_SIZE == RTE_PKTMBUF_HEADROOM,
30                "VLIB_BUFFER_PRE_DATA_SIZE must be equal to RTE_PKTMBUF_HEADROOM");
31
32 extern struct rte_mbuf *dpdk_mbuf_template_by_pool_index;
33 #ifndef CLIB_MARCH_VARIANT
34 struct rte_mempool **dpdk_mempool_by_buffer_pool_index = 0;
35 struct rte_mempool **dpdk_no_cache_mempool_by_buffer_pool_index = 0;
36 struct rte_mbuf *dpdk_mbuf_template_by_pool_index = 0;
37
38 clib_error_t *
39 dpdk_buffer_pool_init (vlib_main_t * vm, vlib_buffer_pool_t * bp)
40 {
41   uword buffer_mem_start = vm->buffer_main->buffer_mem_start;
42   struct rte_mempool *mp, *nmp;
43   struct rte_pktmbuf_pool_private priv;
44   enum rte_iova_mode iova_mode;
45   u32 i;
46   u8 *name = 0;
47
48   u32 elt_size =
49     sizeof (struct rte_mbuf) + sizeof (vlib_buffer_t) + bp->data_size;
50
51   /* create empty mempools */
52   vec_validate_aligned (dpdk_mempool_by_buffer_pool_index, bp->index,
53                         CLIB_CACHE_LINE_BYTES);
54   vec_validate_aligned (dpdk_no_cache_mempool_by_buffer_pool_index, bp->index,
55                         CLIB_CACHE_LINE_BYTES);
56
57   /* normal mempool */
58   name = format (name, "vpp pool %u%c", bp->index, 0);
59   mp = rte_mempool_create_empty ((char *) name, bp->n_buffers,
60                                  elt_size, 512, sizeof (priv),
61                                  bp->numa_node, 0);
62   if (!mp)
63     {
64       vec_free (name);
65       return clib_error_return (0,
66                                 "failed to create normal mempool for numa node %u",
67                                 bp->index);
68     }
69   vec_reset_length (name);
70
71   /* non-cached mempool */
72   name = format (name, "vpp pool %u (no cache)%c", bp->index, 0);
73   nmp = rte_mempool_create_empty ((char *) name, bp->n_buffers,
74                                   elt_size, 0, sizeof (priv),
75                                   bp->numa_node, 0);
76   if (!nmp)
77     {
78       rte_mempool_free (mp);
79       vec_free (name);
80       return clib_error_return (0,
81                                 "failed to create non-cache mempool for numa nude %u",
82                                 bp->index);
83     }
84   vec_free (name);
85
86   dpdk_mempool_by_buffer_pool_index[bp->index] = mp;
87   dpdk_no_cache_mempool_by_buffer_pool_index[bp->index] = nmp;
88
89   mp->pool_id = nmp->pool_id = bp->index;
90
91   rte_mempool_set_ops_byname (mp, "vpp", NULL);
92   rte_mempool_set_ops_byname (nmp, "vpp-no-cache", NULL);
93
94   /* Call the mempool priv initializer */
95   memset (&priv, 0, sizeof (priv));
96   priv.mbuf_data_room_size = VLIB_BUFFER_PRE_DATA_SIZE +
97     vlib_buffer_get_default_data_size (vm);
98   priv.mbuf_priv_size = VLIB_BUFFER_HDR_SIZE;
99   rte_pktmbuf_pool_init (mp, &priv);
100   rte_pktmbuf_pool_init (nmp, &priv);
101
102   iova_mode = rte_eal_iova_mode ();
103
104   /* populate mempool object buffer header */
105   for (i = 0; i < bp->n_buffers; i++)
106     {
107       struct rte_mempool_objhdr *hdr;
108       vlib_buffer_t *b = vlib_get_buffer (vm, bp->buffers[i]);
109       struct rte_mbuf *mb = rte_mbuf_from_vlib_buffer (b);
110       hdr = (struct rte_mempool_objhdr *) RTE_PTR_SUB (mb, sizeof (*hdr));
111       hdr->mp = mp;
112       hdr->iova = (iova_mode == RTE_IOVA_VA) ?
113         pointer_to_uword (mb) : vlib_physmem_get_pa (vm, mb);
114       STAILQ_INSERT_TAIL (&mp->elt_list, hdr, next);
115       STAILQ_INSERT_TAIL (&nmp->elt_list, hdr, next);
116       mp->populated_size++;
117       nmp->populated_size++;
118     }
119
120   /* call the object initializers */
121   rte_mempool_obj_iter (mp, rte_pktmbuf_init, 0);
122
123   /* create mbuf header tempate from the first buffer in the pool */
124   vec_validate_aligned (dpdk_mbuf_template_by_pool_index, bp->index,
125                         CLIB_CACHE_LINE_BYTES);
126   clib_memcpy (vec_elt_at_index (dpdk_mbuf_template_by_pool_index, bp->index),
127                rte_mbuf_from_vlib_buffer (vlib_buffer_ptr_from_index
128                                           (buffer_mem_start, *bp->buffers,
129                                            0)), sizeof (struct rte_mbuf));
130
131   for (i = 0; i < bp->n_buffers; i++)
132     {
133       vlib_buffer_t *b;
134       b = vlib_buffer_ptr_from_index (buffer_mem_start, bp->buffers[i], 0);
135       vlib_buffer_copy_template (b, &bp->buffer_template);
136     }
137
138   /* map DMA pages if at least one physical device exists */
139   if (rte_eth_dev_count_avail () || rte_cryptodev_count ())
140     {
141       uword i;
142       size_t page_sz;
143       vlib_physmem_map_t *pm;
144       int do_vfio_map = 1;
145
146       pm = vlib_physmem_get_map (vm, bp->physmem_map_index);
147       page_sz = 1ULL << pm->log2_page_size;
148
149       for (i = 0; i < pm->n_pages; i++)
150         {
151           char *va = ((char *) pm->base) + i * page_sz;
152           uword pa = (iova_mode == RTE_IOVA_VA) ?
153             pointer_to_uword (va) : pm->page_table[i];
154
155           if (do_vfio_map &&
156 #if RTE_VERSION < RTE_VERSION_NUM(19, 11, 0, 0)
157               rte_vfio_dma_map (pointer_to_uword (va), pa, page_sz))
158 #else
159               rte_vfio_container_dma_map (RTE_VFIO_DEFAULT_CONTAINER_FD,
160                                           pointer_to_uword (va), pa, page_sz))
161 #endif
162             do_vfio_map = 0;
163
164           struct rte_mempool_memhdr *memhdr;
165           memhdr = clib_mem_alloc (sizeof (*memhdr));
166           memhdr->mp = mp;
167           memhdr->addr = va;
168           memhdr->iova = pa;
169           memhdr->len = page_sz;
170           memhdr->free_cb = 0;
171           memhdr->opaque = 0;
172
173           STAILQ_INSERT_TAIL (&mp->mem_list, memhdr, next);
174           mp->nb_mem_chunks++;
175         }
176     }
177
178   return 0;
179 }
180
181 static int
182 dpdk_ops_vpp_alloc (struct rte_mempool *mp)
183 {
184   clib_warning ("");
185   return 0;
186 }
187
188 static void
189 dpdk_ops_vpp_free (struct rte_mempool *mp)
190 {
191   clib_warning ("");
192 }
193
194 #endif
195
196 static_always_inline void
197 dpdk_ops_vpp_enqueue_one (vlib_buffer_t * bt, void *obj)
198 {
199   /* Only non-replicated packets (b->ref_count == 1) expected */
200
201   struct rte_mbuf *mb = obj;
202   vlib_buffer_t *b = vlib_buffer_from_rte_mbuf (mb);
203   ASSERT (b->ref_count == 1);
204   ASSERT (b->buffer_pool_index == bt->buffer_pool_index);
205   vlib_buffer_copy_template (b, bt);
206 }
207
208 int
209 CLIB_MULTIARCH_FN (dpdk_ops_vpp_enqueue) (struct rte_mempool * mp,
210                                           void *const *obj_table, unsigned n)
211 {
212   const int batch_size = 32;
213   vlib_main_t *vm = vlib_get_main ();
214   vlib_buffer_t bt;
215   u8 buffer_pool_index = mp->pool_id;
216   vlib_buffer_pool_t *bp = vlib_get_buffer_pool (vm, buffer_pool_index);
217   u32 bufs[batch_size];
218   u32 n_left = n;
219   void *const *obj = obj_table;
220
221   vlib_buffer_copy_template (&bt, &bp->buffer_template);
222
223   while (n_left >= 4)
224     {
225       dpdk_ops_vpp_enqueue_one (&bt, obj[0]);
226       dpdk_ops_vpp_enqueue_one (&bt, obj[1]);
227       dpdk_ops_vpp_enqueue_one (&bt, obj[2]);
228       dpdk_ops_vpp_enqueue_one (&bt, obj[3]);
229       obj += 4;
230       n_left -= 4;
231     }
232
233   while (n_left)
234     {
235       dpdk_ops_vpp_enqueue_one (&bt, obj[0]);
236       obj += 1;
237       n_left -= 1;
238     }
239
240   while (n >= batch_size)
241     {
242       vlib_get_buffer_indices_with_offset (vm, (void **) obj_table, bufs,
243                                            batch_size,
244                                            sizeof (struct rte_mbuf));
245       vlib_buffer_pool_put (vm, buffer_pool_index, bufs, batch_size);
246       n -= batch_size;
247       obj_table += batch_size;
248     }
249
250   if (n)
251     {
252       vlib_get_buffer_indices_with_offset (vm, (void **) obj_table, bufs,
253                                            n, sizeof (struct rte_mbuf));
254       vlib_buffer_pool_put (vm, buffer_pool_index, bufs, n);
255     }
256
257   return 0;
258 }
259
260 CLIB_MARCH_FN_REGISTRATION (dpdk_ops_vpp_enqueue);
261
262 static_always_inline void
263 dpdk_ops_vpp_enqueue_no_cache_one (vlib_main_t * vm, struct rte_mempool *old,
264                                    struct rte_mempool *new, void *obj,
265                                    vlib_buffer_t * bt)
266 {
267   struct rte_mbuf *mb = obj;
268   vlib_buffer_t *b = vlib_buffer_from_rte_mbuf (mb);
269
270   if (clib_atomic_sub_fetch (&b->ref_count, 1) == 0)
271     {
272       u32 bi = vlib_get_buffer_index (vm, b);
273       vlib_buffer_copy_template (b, bt);
274       vlib_buffer_pool_put (vm, bt->buffer_pool_index, &bi, 1);
275       return;
276     }
277 }
278
279 int
280 CLIB_MULTIARCH_FN (dpdk_ops_vpp_enqueue_no_cache) (struct rte_mempool * cmp,
281                                                    void *const *obj_table,
282                                                    unsigned n)
283 {
284   vlib_main_t *vm = vlib_get_main ();
285   vlib_buffer_t bt;
286   struct rte_mempool *mp;
287   mp = dpdk_mempool_by_buffer_pool_index[cmp->pool_id];
288   u8 buffer_pool_index = cmp->pool_id;
289   vlib_buffer_pool_t *bp = vlib_get_buffer_pool (vm, buffer_pool_index);
290   vlib_buffer_copy_template (&bt, &bp->buffer_template);
291
292   while (n >= 4)
293     {
294       dpdk_ops_vpp_enqueue_no_cache_one (vm, cmp, mp, obj_table[0], &bt);
295       dpdk_ops_vpp_enqueue_no_cache_one (vm, cmp, mp, obj_table[1], &bt);
296       dpdk_ops_vpp_enqueue_no_cache_one (vm, cmp, mp, obj_table[2], &bt);
297       dpdk_ops_vpp_enqueue_no_cache_one (vm, cmp, mp, obj_table[3], &bt);
298       obj_table += 4;
299       n -= 4;
300     }
301
302   while (n)
303     {
304       dpdk_ops_vpp_enqueue_no_cache_one (vm, cmp, mp, obj_table[0], &bt);
305       obj_table += 1;
306       n -= 1;
307     }
308
309   return 0;
310 }
311
312 CLIB_MARCH_FN_REGISTRATION (dpdk_ops_vpp_enqueue_no_cache);
313
314 static_always_inline void
315 dpdk_mbuf_init_from_template (struct rte_mbuf **mba, struct rte_mbuf *mt,
316                               int count)
317 {
318   /* Assumptions about rte_mbuf layout */
319   STATIC_ASSERT_OFFSET_OF (struct rte_mbuf, buf_addr, 0);
320   STATIC_ASSERT_OFFSET_OF (struct rte_mbuf, buf_iova, 8);
321   STATIC_ASSERT_SIZEOF_ELT (struct rte_mbuf, buf_iova, 8);
322   STATIC_ASSERT_SIZEOF_ELT (struct rte_mbuf, buf_iova, 8);
323   STATIC_ASSERT_SIZEOF (struct rte_mbuf, 128);
324
325   while (count--)
326     {
327       struct rte_mbuf *mb = mba[0];
328       int i;
329       /* bytes 0 .. 15 hold buf_addr and buf_iova which we need to preserve */
330       /* copy bytes 16 .. 31 */
331       *((u8x16 *) mb + 1) = *((u8x16 *) mt + 1);
332
333       /* copy bytes 32 .. 127 */
334 #ifdef CLIB_HAVE_VEC256
335       for (i = 1; i < 4; i++)
336         *((u8x32 *) mb + i) = *((u8x32 *) mt + i);
337 #else
338       for (i = 2; i < 8; i++)
339         *((u8x16 *) mb + i) = *((u8x16 *) mt + i);
340 #endif
341       mba++;
342     }
343 }
344
345 int
346 CLIB_MULTIARCH_FN (dpdk_ops_vpp_dequeue) (struct rte_mempool * mp,
347                                           void **obj_table, unsigned n)
348 {
349   const int batch_size = 32;
350   vlib_main_t *vm = vlib_get_main ();
351   u32 bufs[batch_size], total = 0, n_alloc = 0;
352   u8 buffer_pool_index = mp->pool_id;
353   void **obj = obj_table;
354   struct rte_mbuf t = dpdk_mbuf_template_by_pool_index[buffer_pool_index];
355
356   while (n >= batch_size)
357     {
358       n_alloc = vlib_buffer_alloc_from_pool (vm, bufs, batch_size,
359                                              buffer_pool_index);
360       if (n_alloc != batch_size)
361         goto alloc_fail;
362
363       vlib_get_buffers_with_offset (vm, bufs, obj, batch_size,
364                                     -(i32) sizeof (struct rte_mbuf));
365       dpdk_mbuf_init_from_template ((struct rte_mbuf **) obj, &t, batch_size);
366       total += batch_size;
367       obj += batch_size;
368       n -= batch_size;
369     }
370
371   if (n)
372     {
373       n_alloc = vlib_buffer_alloc_from_pool (vm, bufs, n, buffer_pool_index);
374
375       if (n_alloc != n)
376         goto alloc_fail;
377
378       vlib_get_buffers_with_offset (vm, bufs, obj, n,
379                                     -(i32) sizeof (struct rte_mbuf));
380       dpdk_mbuf_init_from_template ((struct rte_mbuf **) obj, &t, n);
381     }
382
383   return 0;
384
385 alloc_fail:
386   /* dpdk doesn't support partial alloc, so we need to return what we
387      already got */
388   if (n_alloc)
389     vlib_buffer_pool_put (vm, buffer_pool_index, bufs, n_alloc);
390   obj = obj_table;
391   while (total)
392     {
393       vlib_get_buffer_indices_with_offset (vm, obj, bufs, batch_size,
394                                            sizeof (struct rte_mbuf));
395       vlib_buffer_pool_put (vm, buffer_pool_index, bufs, batch_size);
396
397       obj += batch_size;
398       total -= batch_size;
399     }
400   return -ENOENT;
401 }
402
403 CLIB_MARCH_FN_REGISTRATION (dpdk_ops_vpp_dequeue);
404
405 #ifndef CLIB_MARCH_VARIANT
406
407 static int
408 dpdk_ops_vpp_dequeue_no_cache (struct rte_mempool *mp, void **obj_table,
409                                unsigned n)
410 {
411   clib_error ("bug");
412   return 0;
413 }
414
415 static unsigned
416 dpdk_ops_vpp_get_count (const struct rte_mempool *mp)
417 {
418   vlib_main_t *vm = vlib_get_main ();
419   if (mp)
420     {
421       vlib_buffer_pool_t *pool = vlib_get_buffer_pool (vm, mp->pool_id);
422       if (pool)
423         {
424           return pool->n_avail;
425         }
426     }
427   return 0;
428 }
429
430 static unsigned
431 dpdk_ops_vpp_get_count_no_cache (const struct rte_mempool *mp)
432 {
433   struct rte_mempool *cmp;
434   cmp = dpdk_no_cache_mempool_by_buffer_pool_index[mp->pool_id];
435   return dpdk_ops_vpp_get_count (cmp);
436 }
437
438 clib_error_t *
439 dpdk_buffer_pools_create (vlib_main_t * vm)
440 {
441   clib_error_t *err;
442   vlib_buffer_pool_t *bp;
443
444   struct rte_mempool_ops ops = { };
445
446   strncpy (ops.name, "vpp", 4);
447   ops.alloc = dpdk_ops_vpp_alloc;
448   ops.free = dpdk_ops_vpp_free;
449   ops.get_count = dpdk_ops_vpp_get_count;
450   ops.enqueue = CLIB_MARCH_FN_POINTER (dpdk_ops_vpp_enqueue);
451   ops.dequeue = CLIB_MARCH_FN_POINTER (dpdk_ops_vpp_dequeue);
452   rte_mempool_register_ops (&ops);
453
454   strncpy (ops.name, "vpp-no-cache", 13);
455   ops.get_count = dpdk_ops_vpp_get_count_no_cache;
456   ops.enqueue = CLIB_MARCH_FN_POINTER (dpdk_ops_vpp_enqueue_no_cache);
457   ops.dequeue = dpdk_ops_vpp_dequeue_no_cache;
458   rte_mempool_register_ops (&ops);
459
460   /* *INDENT-OFF* */
461   vec_foreach (bp, vm->buffer_main->buffer_pools)
462     if (bp->start && (err = dpdk_buffer_pool_init (vm, bp)))
463       return err;
464   /* *INDENT-ON* */
465   return 0;
466 }
467
468 VLIB_BUFFER_SET_EXT_HDR_SIZE (sizeof (struct rte_mempool_objhdr) +
469                               sizeof (struct rte_mbuf));
470
471 #endif
472
473 /** @endcond */
474 /*
475  * fd.io coding-style-patch-verification: ON
476  *
477  * Local Variables:
478  * eval: (c-set-style "gnu")
479  * End:
480  */