vppinfra: improve bihash add/del performance
[vpp.git] / src / vppinfra / bihash_template.h
1 /*
2   Copyright (c) 2014 Cisco and/or its affiliates.
3
4   * Licensed under the Apache License, Version 2.0 (the "License");
5  * you may not use this file except in compliance with the License.
6  * You may obtain a copy of the License at:
7  *
8  *     http://www.apache.org/licenses/LICENSE-2.0
9  *
10  * Unless required by applicable law or agreed to in writing, software
11  * distributed under the License is distributed on an "AS IS" BASIS,
12  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13  * See the License for the specific language governing permissions and
14  * limitations under the License.
15 */
16
17 /** @cond DOCUMENTATION_IS_IN_BIHASH_DOC_H */
18
19 /*
20  * Note: to instantiate the template multiple times in a single file,
21  * #undef __included_bihash_template_h__...
22  */
23 #ifndef __included_bihash_template_h__
24 #define __included_bihash_template_h__
25
26 #include <vppinfra/heap.h>
27 #include <vppinfra/format.h>
28 #include <vppinfra/pool.h>
29 #include <vppinfra/cache.h>
30 #include <vppinfra/lock.h>
31
32 #ifndef BIHASH_TYPE
33 #error BIHASH_TYPE not defined
34 #endif
35
36 #ifdef BIHASH_32_64_SVM
37 #undef HAVE_MEMFD_CREATE
38 #include <vppinfra/linux/syscall.h>
39 #include <fcntl.h>
40 #define F_LINUX_SPECIFIC_BASE 1024
41 #define F_ADD_SEALS (F_LINUX_SPECIFIC_BASE + 9)
42 #define F_SEAL_SHRINK (2)
43 /* Max page size 2**16 due to refcount width  */
44 #define BIHASH_FREELIST_LENGTH 17
45 #endif
46
47 /* default is 2MB, use 30 for 1GB */
48 #ifndef BIHASH_LOG2_HUGEPAGE_SIZE
49 #define BIHASH_LOG2_HUGEPAGE_SIZE 21
50 #endif
51
52 #define _bv(a,b) a##b
53 #define __bv(a,b) _bv(a,b)
54 #define BV(a) __bv(a,BIHASH_TYPE)
55
56 #define _bvt(a,b) a##b##_t
57 #define __bvt(a,b) _bvt(a,b)
58 #define BVT(a) __bvt(a,BIHASH_TYPE)
59
60 #define _bvs(a,b) struct a##b
61 #define __bvs(a,b) _bvs(a,b)
62 #define BVS(a) __bvs(a,BIHASH_TYPE)
63
64 #if _LP64 == 0
65 #define OVERFLOW_ASSERT(x) ASSERT(((x) & 0xFFFFFFFF00000000ULL) == 0)
66 #define u64_to_pointer(x) (void *)(u32)((x))
67 #define pointer_to_u64(x) (u64)(u32)((x))
68 #else
69 #define OVERFLOW_ASSERT(x)
70 #define u64_to_pointer(x) (void *)((x))
71 #define pointer_to_u64(x) (u64)((x))
72 #endif
73
74 typedef struct BV (clib_bihash_value)
75 {
76   union
77   {
78     BVT (clib_bihash_kv) kvp[BIHASH_KVP_PER_PAGE];
79     u64 next_free_as_u64;
80   };
81 } BVT (clib_bihash_value);
82
83 #define BIHASH_BUCKET_OFFSET_BITS 36
84
85 typedef struct
86 {
87   union
88   {
89     struct
90     {
91       u64 offset:BIHASH_BUCKET_OFFSET_BITS;
92       u64 lock:1;
93       u64 linear_search:1;
94       u64 log2_pages:8;
95       u64 refcnt:16;
96     };
97     u64 as_u64;
98   };
99 } BVT (clib_bihash_bucket);
100
101 STATIC_ASSERT_SIZEOF (BVT (clib_bihash_bucket), sizeof (u64));
102
103 /* *INDENT-OFF* */
104 typedef CLIB_PACKED (struct {
105   /*
106    * Backing store allocation. Since bihash manages its own
107    * freelists, we simple dole out memory starting from alloc_arena[alloc_arena_next].
108    */
109   u64 alloc_arena_next; /* Next offset from alloc_arena to allocate, definitely NOT a constant */
110   u64 alloc_arena_size; /* Size of the arena */
111   u64 alloc_arena_mapped;       /* Size of the mapped memory in the arena */
112   /* Two SVM pointers stored as 8-byte integers */
113   u64 alloc_lock_as_u64;
114   u64 buckets_as_u64;
115   /* freelist list-head arrays/vectors */
116   u64 freelists_as_u64;
117   u32 nbuckets; /* Number of buckets */
118   /* Set when header valid */
119   volatile u32 ready;
120   u64 pad[1];
121 }) BVT (clib_bihash_shared_header);
122 /* *INDENT-ON* */
123
124 STATIC_ASSERT_SIZEOF (BVT (clib_bihash_shared_header), 8 * sizeof (u64));
125
126 typedef
127 BVS (clib_bihash)
128 {
129   BVT (clib_bihash_bucket) * buckets;
130   volatile u32 *alloc_lock;
131
132   BVT (clib_bihash_value) ** working_copies;
133   int *working_copy_lengths;
134   BVT (clib_bihash_bucket) saved_bucket;
135
136   u32 nbuckets;
137   u32 log2_nbuckets;
138   u64 memory_size;
139   u8 *name;
140
141   u64 *freelists;
142
143 #if BIHASH_32_64_SVM
144   BVT (clib_bihash_shared_header) * sh;
145   int memfd;
146 #else
147   BVT (clib_bihash_shared_header) sh;
148 #endif
149
150   u64 alloc_arena;              /* Base of the allocation arena */
151   volatile u8 instantiated;
152
153   /**
154     * A custom format function to print the Key and Value of bihash_key instead of default hexdump
155     */
156   format_function_t *fmt_fn;
157
158   /** Optional statistics-gathering callback */
159 #if BIHASH_ENABLE_STATS
160   void (*inc_stats_callback) (BVS (clib_bihash) *, int stat_id, u64 count);
161
162   /** Statistics callback context (e.g. address of stats data structure) */
163   void *inc_stats_context;
164 #endif
165
166 } BVT (clib_bihash);
167
168 typedef struct
169 {
170   BVT (clib_bihash) * h;
171   char *name;
172   u32 nbuckets;
173   uword memory_size;
174   format_function_t *fmt_fn;
175   u8 instantiate_immediately;
176   u8 dont_add_to_all_bihash_list;
177 } BVT (clib_bihash_init2_args);
178
179 extern void **clib_all_bihashes;
180
181 #if BIHASH_32_64_SVM
182 #undef alloc_arena_next
183 #undef alloc_arena_size
184 #undef alloc_arena_mapped
185 #undef alloc_arena
186 #undef CLIB_BIHASH_READY_MAGIC
187 #define alloc_arena_next(h) (((h)->sh)->alloc_arena_next)
188 #define alloc_arena_size(h) (((h)->sh)->alloc_arena_size)
189 #define alloc_arena_mapped(h) (((h)->sh)->alloc_arena_mapped)
190 #define alloc_arena(h) ((h)->alloc_arena)
191 #define CLIB_BIHASH_READY_MAGIC 0xFEEDFACE
192 #else
193 #undef alloc_arena_next
194 #undef alloc_arena_size
195 #undef alloc_arena_mapped
196 #undef alloc_arena
197 #undef CLIB_BIHASH_READY_MAGIC
198 #define alloc_arena_next(h) ((h)->sh.alloc_arena_next)
199 #define alloc_arena_size(h) ((h)->sh.alloc_arena_size)
200 #define alloc_arena_mapped(h) ((h)->sh.alloc_arena_mapped)
201 #define alloc_arena(h) ((h)->alloc_arena)
202 #define CLIB_BIHASH_READY_MAGIC 0
203 #endif
204
205 #ifndef BIHASH_STAT_IDS
206 #define BIHASH_STAT_IDS 1
207
208 #define foreach_bihash_stat                     \
209 _(alloc_add)                                    \
210 _(add)                                          \
211 _(split_add)                                    \
212 _(replace)                                      \
213 _(update)                                       \
214 _(del)                                          \
215 _(del_free)                                     \
216 _(linear)                                       \
217 _(resplit)                                      \
218 _(working_copy_lost)                            \
219 _(splits)                       /* must be last */
220
221 typedef enum
222 {
223 #define _(a) BIHASH_STAT_##a,
224   foreach_bihash_stat
225 #undef _
226     BIHASH_STAT_N_STATS,
227 } BVT (clib_bihash_stat_id);
228 #endif /* BIHASH_STAT_IDS */
229
230 static inline void BV (clib_bihash_increment_stat) (BVT (clib_bihash) * h,
231                                                     int stat_id, u64 count)
232 {
233 #if BIHASH_ENABLE_STATS
234   if (PREDICT_FALSE (h->inc_stats_callback != 0))
235     h->inc_stats_callback (h, stat_id, count);
236 #endif
237 }
238
239 #if BIHASH_ENABLE_STATS
240 static inline void BV (clib_bihash_set_stats_callback)
241   (BVT (clib_bihash) * h, void (*cb) (BVT (clib_bihash) *, int, u64),
242    void *ctx)
243 {
244   h->inc_stats_callback = cb;
245   h->inc_stats_context = ctx;
246 }
247 #endif
248
249
250 static inline void BV (clib_bihash_alloc_lock) (BVT (clib_bihash) * h)
251 {
252   while (__atomic_test_and_set (h->alloc_lock, __ATOMIC_ACQUIRE))
253     CLIB_PAUSE ();
254 }
255
256 static inline void BV (clib_bihash_alloc_unlock) (BVT (clib_bihash) * h)
257 {
258   __atomic_clear (h->alloc_lock, __ATOMIC_RELEASE);
259 }
260
261 static inline void BV (clib_bihash_lock_bucket) (BVT (clib_bihash_bucket) * b)
262 {
263   BVT (clib_bihash_bucket) unlocked_bucket, locked_bucket;
264
265   locked_bucket.as_u64 = unlocked_bucket.as_u64 = b->as_u64;
266   unlocked_bucket.lock = 0;
267   locked_bucket.lock = 1;
268
269   while (__atomic_compare_exchange_n (&b->as_u64, &unlocked_bucket.as_u64,
270                                       locked_bucket.as_u64, 1 /* weak */ ,
271                                       __ATOMIC_ACQUIRE,
272                                       __ATOMIC_ACQUIRE) == 0)
273     {
274       CLIB_PAUSE ();
275       locked_bucket.as_u64 = unlocked_bucket.as_u64 = b->as_u64;
276       unlocked_bucket.lock = 0;
277       locked_bucket.lock = 1;
278     }
279 }
280
281 static inline void BV (clib_bihash_unlock_bucket)
282   (BVT (clib_bihash_bucket) * b)
283 {
284   b->lock = 0;
285 }
286
287 static inline void *BV (clib_bihash_get_value) (BVT (clib_bihash) * h,
288                                                 uword offset)
289 {
290   u8 *hp = (u8 *) (uword) alloc_arena (h);
291   u8 *vp = hp + offset;
292
293   return (void *) vp;
294 }
295
296 static inline int BV (clib_bihash_bucket_is_empty)
297   (BVT (clib_bihash_bucket) * b)
298 {
299   /* Note: applied to locked buckets, test offset */
300   if (BIHASH_KVP_AT_BUCKET_LEVEL == 0)
301     return b->offset == 0;
302   else
303     return (b->log2_pages == 0 && b->refcnt == 1);
304 }
305
306 static inline uword BV (clib_bihash_get_offset) (BVT (clib_bihash) * h,
307                                                  void *v)
308 {
309   u8 *hp, *vp;
310
311   hp = (u8 *) (uword) alloc_arena (h);
312   vp = (u8 *) v;
313
314   return vp - hp;
315 }
316
317 void BV (clib_bihash_init)
318   (BVT (clib_bihash) * h, char *name, u32 nbuckets, uword memory_size);
319
320 void BV (clib_bihash_init2) (BVT (clib_bihash_init2_args) * a);
321
322 #if BIHASH_32_64_SVM
323 void BV (clib_bihash_master_init_svm)
324   (BVT (clib_bihash) * h, char *name, u32 nbuckets, u64 memory_size);
325 void BV (clib_bihash_slave_init_svm)
326   (BVT (clib_bihash) * h, char *name, int fd);
327 #endif
328
329 void BV (clib_bihash_set_kvp_format_fn) (BVT (clib_bihash) * h,
330                                          format_function_t * fmt_fn);
331
332 void BV (clib_bihash_free) (BVT (clib_bihash) * h);
333
334 int BV (clib_bihash_add_del) (BVT (clib_bihash) * h,
335                               BVT (clib_bihash_kv) * add_v, int is_add);
336 int BV (clib_bihash_add_or_overwrite_stale) (BVT (clib_bihash) * h,
337                                              BVT (clib_bihash_kv) * add_v,
338                                              int (*is_stale_cb) (BVT
339                                                                  (clib_bihash_kv)
340                                                                  *, void *),
341                                              void *arg);
342 int BV (clib_bihash_search) (BVT (clib_bihash) * h,
343                              BVT (clib_bihash_kv) * search_v,
344                              BVT (clib_bihash_kv) * return_v);
345
346 #define BIHASH_WALK_STOP 0
347 #define BIHASH_WALK_CONTINUE 1
348
349 typedef
350   int (*BV (clib_bihash_foreach_key_value_pair_cb)) (BVT (clib_bihash_kv) *,
351                                                      void *);
352 void BV (clib_bihash_foreach_key_value_pair) (BVT (clib_bihash) * h,
353                                               BV
354                                               (clib_bihash_foreach_key_value_pair_cb)
355                                               cb, void *arg);
356 void *clib_all_bihash_set_heap (void);
357 void clib_bihash_copied (void *dst, void *src);
358
359 format_function_t BV (format_bihash);
360 format_function_t BV (format_bihash_kvp);
361 format_function_t BV (format_bihash_lru);
362
363 static inline
364 BVT (clib_bihash_bucket) *
365 BV (clib_bihash_get_bucket) (BVT (clib_bihash) * h, u64 hash)
366 {
367 #if BIHASH_KVP_AT_BUCKET_LEVEL
368   uword offset;
369   offset = (hash & (h->nbuckets - 1));
370   offset = offset * (sizeof (BVT (clib_bihash_bucket))
371                      + (BIHASH_KVP_PER_PAGE * sizeof (BVT (clib_bihash_kv))));
372   return ((BVT (clib_bihash_bucket) *) (((u8 *) h->buckets) + offset));
373 #endif
374
375   return h->buckets + (hash & (h->nbuckets - 1));
376 }
377
378 static inline int BV (clib_bihash_search_inline_with_hash)
379   (BVT (clib_bihash) * h, u64 hash, BVT (clib_bihash_kv) * key_result)
380 {
381   BVT (clib_bihash_value) * v;
382   BVT (clib_bihash_bucket) * b;
383   int i, limit;
384
385 #if BIHASH_LAZY_INSTANTIATE
386   if (PREDICT_FALSE (alloc_arena (h) == 0))
387     return -1;
388 #endif
389
390   b = BV (clib_bihash_get_bucket) (h, hash);
391
392   if (PREDICT_FALSE (BV (clib_bihash_bucket_is_empty) (b)))
393     return -1;
394
395   if (PREDICT_FALSE (b->lock))
396     {
397       volatile BVT (clib_bihash_bucket) * bv = b;
398       while (bv->lock)
399         CLIB_PAUSE ();
400     }
401
402   hash >>= h->log2_nbuckets;
403
404   v = BV (clib_bihash_get_value) (h, b->offset);
405
406   /* If the bucket has unresolvable collisions, use linear search */
407   limit = BIHASH_KVP_PER_PAGE;
408   v += (b->linear_search == 0) ? hash & ((1 << b->log2_pages) - 1) : 0;
409   if (PREDICT_FALSE (b->linear_search))
410     limit <<= b->log2_pages;
411
412   for (i = 0; i < limit; i++)
413     {
414       if (BV (clib_bihash_key_compare) (v->kvp[i].key, key_result->key))
415         {
416           *key_result = v->kvp[i];
417           return 0;
418         }
419     }
420   return -1;
421 }
422
423 static inline int BV (clib_bihash_search_inline)
424   (BVT (clib_bihash) * h, BVT (clib_bihash_kv) * key_result)
425 {
426   u64 hash;
427
428   hash = BV (clib_bihash_hash) (key_result);
429
430   return BV (clib_bihash_search_inline_with_hash) (h, hash, key_result);
431 }
432
433 static inline void BV (clib_bihash_prefetch_bucket)
434   (BVT (clib_bihash) * h, u64 hash)
435 {
436   CLIB_PREFETCH (BV (clib_bihash_get_bucket) (h, hash),
437                  BIHASH_BUCKET_PREFETCH_CACHE_LINES * CLIB_CACHE_LINE_BYTES,
438                  LOAD);
439 }
440
441 static inline void BV (clib_bihash_prefetch_data)
442   (BVT (clib_bihash) * h, u64 hash)
443 {
444   BVT (clib_bihash_value) * v;
445   BVT (clib_bihash_bucket) * b;
446
447 #if BIHASH_LAZY_INSTANTIATE
448   if (PREDICT_FALSE (alloc_arena (h) == 0))
449     return;
450 #endif
451
452   b = BV (clib_bihash_get_bucket) (h, hash);
453
454   if (PREDICT_FALSE (BV (clib_bihash_bucket_is_empty) (b)))
455     return;
456
457   hash >>= h->log2_nbuckets;
458   v = BV (clib_bihash_get_value) (h, b->offset);
459
460   v += (b->linear_search == 0) ? hash & ((1 << b->log2_pages) - 1) : 0;
461
462   clib_prefetch_load (v);
463 }
464
465 static inline int BV (clib_bihash_search_inline_2_with_hash)
466   (BVT (clib_bihash) * h,
467    u64 hash, BVT (clib_bihash_kv) * search_key, BVT (clib_bihash_kv) * valuep)
468 {
469   BVT (clib_bihash_value) * v;
470   BVT (clib_bihash_bucket) * b;
471   int i, limit;
472
473   ASSERT (valuep);
474
475 #if BIHASH_LAZY_INSTANTIATE
476   if (PREDICT_FALSE (alloc_arena (h) == 0))
477     return -1;
478 #endif
479
480   b = BV (clib_bihash_get_bucket) (h, hash);
481
482   if (PREDICT_FALSE (BV (clib_bihash_bucket_is_empty) (b)))
483     return -1;
484
485   if (PREDICT_FALSE (b->lock))
486     {
487       volatile BVT (clib_bihash_bucket) * bv = b;
488       while (bv->lock)
489         CLIB_PAUSE ();
490     }
491
492   hash >>= h->log2_nbuckets;
493   v = BV (clib_bihash_get_value) (h, b->offset);
494
495   /* If the bucket has unresolvable collisions, use linear search */
496   limit = BIHASH_KVP_PER_PAGE;
497   v += (b->linear_search == 0) ? hash & ((1 << b->log2_pages) - 1) : 0;
498   if (PREDICT_FALSE (b->linear_search))
499     limit <<= b->log2_pages;
500
501   for (i = 0; i < limit; i++)
502     {
503       if (BV (clib_bihash_key_compare) (v->kvp[i].key, search_key->key))
504         {
505           *valuep = v->kvp[i];
506           return 0;
507         }
508     }
509   return -1;
510 }
511
512 static inline int BV (clib_bihash_search_inline_2)
513   (BVT (clib_bihash) * h,
514    BVT (clib_bihash_kv) * search_key, BVT (clib_bihash_kv) * valuep)
515 {
516   u64 hash;
517
518   hash = BV (clib_bihash_hash) (search_key);
519
520   return BV (clib_bihash_search_inline_2_with_hash) (h, hash, search_key,
521                                                      valuep);
522 }
523
524
525 #endif /* __included_bihash_template_h__ */
526
527 /** @endcond */
528
529 /*
530  * fd.io coding-style-patch-verification: ON
531  *
532  * Local Variables:
533  * eval: (c-set-style "gnu")
534  * End:
535  */