vppinfra: fix potential race in bihash bucket lock
[vpp.git] / src / vppinfra / bihash_template.h
1 /*
2   Copyright (c) 2014 Cisco and/or its affiliates.
3
4   * Licensed under the Apache License, Version 2.0 (the "License");
5  * you may not use this file except in compliance with the License.
6  * You may obtain a copy of the License at:
7  *
8  *     http://www.apache.org/licenses/LICENSE-2.0
9  *
10  * Unless required by applicable law or agreed to in writing, software
11  * distributed under the License is distributed on an "AS IS" BASIS,
12  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13  * See the License for the specific language governing permissions and
14  * limitations under the License.
15 */
16
17 /** @cond DOCUMENTATION_IS_IN_BIHASH_DOC_H */
18
19 /*
20  * Note: to instantiate the template multiple times in a single file,
21  * #undef __included_bihash_template_h__...
22  */
23 #ifndef __included_bihash_template_h__
24 #define __included_bihash_template_h__
25
26 #include <vppinfra/heap.h>
27 #include <vppinfra/format.h>
28 #include <vppinfra/pool.h>
29 #include <vppinfra/cache.h>
30 #include <vppinfra/lock.h>
31
32 #ifndef BIHASH_TYPE
33 #error BIHASH_TYPE not defined
34 #endif
35
36 #ifdef BIHASH_32_64_SVM
37 #undef HAVE_MEMFD_CREATE
38 #include <vppinfra/linux/syscall.h>
39 #include <fcntl.h>
40 #define F_LINUX_SPECIFIC_BASE 1024
41 #define F_ADD_SEALS (F_LINUX_SPECIFIC_BASE + 9)
42 #define F_SEAL_SHRINK (2)
43 /* Max page size 2**16 due to refcount width  */
44 #define BIHASH_FREELIST_LENGTH 17
45 #endif
46
47 /* default is 2MB, use 30 for 1GB */
48 #ifndef BIHASH_LOG2_HUGEPAGE_SIZE
49 #define BIHASH_LOG2_HUGEPAGE_SIZE 21
50 #endif
51
52 #define _bv(a,b) a##b
53 #define __bv(a,b) _bv(a,b)
54 #define BV(a) __bv(a,BIHASH_TYPE)
55
56 #define _bvt(a,b) a##b##_t
57 #define __bvt(a,b) _bvt(a,b)
58 #define BVT(a) __bvt(a,BIHASH_TYPE)
59
60 #define _bvs(a,b) struct a##b
61 #define __bvs(a,b) _bvs(a,b)
62 #define BVS(a) __bvs(a,BIHASH_TYPE)
63
64 #if _LP64 == 0
65 #define OVERFLOW_ASSERT(x) ASSERT(((x) & 0xFFFFFFFF00000000ULL) == 0)
66 #define u64_to_pointer(x) (void *)(u32)((x))
67 #define pointer_to_u64(x) (u64)(u32)((x))
68 #else
69 #define OVERFLOW_ASSERT(x)
70 #define u64_to_pointer(x) (void *)((x))
71 #define pointer_to_u64(x) (u64)((x))
72 #endif
73
74 typedef struct BV (clib_bihash_value)
75 {
76   union
77   {
78     BVT (clib_bihash_kv) kvp[BIHASH_KVP_PER_PAGE];
79     u64 next_free_as_u64;
80   };
81 } BVT (clib_bihash_value);
82
83 #define BIHASH_BUCKET_OFFSET_BITS 36
84
85 typedef struct
86 {
87   union
88   {
89     struct
90     {
91       u64 offset:BIHASH_BUCKET_OFFSET_BITS;
92       u64 lock:1;
93       u64 linear_search:1;
94       u64 log2_pages:8;
95       u64 refcnt:16;
96     };
97     u64 as_u64;
98   };
99 } BVT (clib_bihash_bucket);
100
101 STATIC_ASSERT_SIZEOF (BVT (clib_bihash_bucket), sizeof (u64));
102
103 /* *INDENT-OFF* */
104 typedef CLIB_PACKED (struct {
105   /*
106    * Backing store allocation. Since bihash manages its own
107    * freelists, we simple dole out memory starting from alloc_arena[alloc_arena_next].
108    */
109   u64 alloc_arena_next; /* Next offset from alloc_arena to allocate, definitely NOT a constant */
110   u64 alloc_arena_size; /* Size of the arena */
111   u64 alloc_arena_mapped;       /* Size of the mapped memory in the arena */
112   /* Two SVM pointers stored as 8-byte integers */
113   u64 alloc_lock_as_u64;
114   u64 buckets_as_u64;
115   /* freelist list-head arrays/vectors */
116   u64 freelists_as_u64;
117   u32 nbuckets; /* Number of buckets */
118   /* Set when header valid */
119   volatile u32 ready;
120   u64 pad[1];
121 }) BVT (clib_bihash_shared_header);
122 /* *INDENT-ON* */
123
124 STATIC_ASSERT_SIZEOF (BVT (clib_bihash_shared_header), 8 * sizeof (u64));
125
126 typedef
127 BVS (clib_bihash)
128 {
129   BVT (clib_bihash_bucket) * buckets;
130   volatile u32 *alloc_lock;
131
132   BVT (clib_bihash_value) ** working_copies;
133   int *working_copy_lengths;
134   BVT (clib_bihash_bucket) saved_bucket;
135
136   u32 nbuckets;
137   u32 log2_nbuckets;
138   u64 memory_size;
139   u8 *name;
140
141   u64 *freelists;
142
143 #if BIHASH_32_64_SVM
144   BVT (clib_bihash_shared_header) * sh;
145   int memfd;
146 #else
147   BVT (clib_bihash_shared_header) sh;
148 #endif
149
150   u64 alloc_arena;              /* Base of the allocation arena */
151   volatile u8 instantiated;
152
153   /**
154     * A custom format function to print the Key and Value of bihash_key instead of default hexdump
155     */
156   format_function_t *fmt_fn;
157
158   /** Optional statistics-gathering callback */
159 #if BIHASH_ENABLE_STATS
160   void (*inc_stats_callback) (BVS (clib_bihash) *, int stat_id, u64 count);
161
162   /** Statistics callback context (e.g. address of stats data structure) */
163   void *inc_stats_context;
164 #endif
165
166 } BVT (clib_bihash);
167
168 typedef struct
169 {
170   BVT (clib_bihash) * h;
171   char *name;
172   u32 nbuckets;
173   uword memory_size;
174   format_function_t *fmt_fn;
175   u8 instantiate_immediately;
176   u8 dont_add_to_all_bihash_list;
177 } BVT (clib_bihash_init2_args);
178
179 extern void **clib_all_bihashes;
180
181 #if BIHASH_32_64_SVM
182 #undef alloc_arena_next
183 #undef alloc_arena_size
184 #undef alloc_arena_mapped
185 #undef alloc_arena
186 #undef CLIB_BIHASH_READY_MAGIC
187 #define alloc_arena_next(h) (((h)->sh)->alloc_arena_next)
188 #define alloc_arena_size(h) (((h)->sh)->alloc_arena_size)
189 #define alloc_arena_mapped(h) (((h)->sh)->alloc_arena_mapped)
190 #define alloc_arena(h) ((h)->alloc_arena)
191 #define CLIB_BIHASH_READY_MAGIC 0xFEEDFACE
192 #else
193 #undef alloc_arena_next
194 #undef alloc_arena_size
195 #undef alloc_arena_mapped
196 #undef alloc_arena
197 #undef CLIB_BIHASH_READY_MAGIC
198 #define alloc_arena_next(h) ((h)->sh.alloc_arena_next)
199 #define alloc_arena_size(h) ((h)->sh.alloc_arena_size)
200 #define alloc_arena_mapped(h) ((h)->sh.alloc_arena_mapped)
201 #define alloc_arena(h) ((h)->alloc_arena)
202 #define CLIB_BIHASH_READY_MAGIC 0
203 #endif
204
205 #ifndef BIHASH_STAT_IDS
206 #define BIHASH_STAT_IDS 1
207
208 #define foreach_bihash_stat                     \
209 _(alloc_add)                                    \
210 _(add)                                          \
211 _(split_add)                                    \
212 _(replace)                                      \
213 _(update)                                       \
214 _(del)                                          \
215 _(del_free)                                     \
216 _(linear)                                       \
217 _(resplit)                                      \
218 _(working_copy_lost)                            \
219 _(splits)                       /* must be last */
220
221 typedef enum
222 {
223 #define _(a) BIHASH_STAT_##a,
224   foreach_bihash_stat
225 #undef _
226     BIHASH_STAT_N_STATS,
227 } BVT (clib_bihash_stat_id);
228 #endif /* BIHASH_STAT_IDS */
229
230 static inline void BV (clib_bihash_increment_stat) (BVT (clib_bihash) * h,
231                                                     int stat_id, u64 count)
232 {
233 #if BIHASH_ENABLE_STATS
234   if (PREDICT_FALSE (h->inc_stats_callback != 0))
235     h->inc_stats_callback (h, stat_id, count);
236 #endif
237 }
238
239 #if BIHASH_ENABLE_STATS
240 static inline void BV (clib_bihash_set_stats_callback)
241   (BVT (clib_bihash) * h, void (*cb) (BVT (clib_bihash) *, int, u64),
242    void *ctx)
243 {
244   h->inc_stats_callback = cb;
245   h->inc_stats_context = ctx;
246 }
247 #endif
248
249
250 static inline void BV (clib_bihash_alloc_lock) (BVT (clib_bihash) * h)
251 {
252   while (__atomic_test_and_set (h->alloc_lock, __ATOMIC_ACQUIRE))
253     CLIB_PAUSE ();
254 }
255
256 static inline void BV (clib_bihash_alloc_unlock) (BVT (clib_bihash) * h)
257 {
258   __atomic_clear (h->alloc_lock, __ATOMIC_RELEASE);
259 }
260
261 static inline void BV (clib_bihash_lock_bucket) (BVT (clib_bihash_bucket) * b)
262 {
263   /* *INDENT-OFF* */
264   BVT (clib_bihash_bucket) mask = { .lock = 1 };
265   /* *INDENT-ON* */
266   u64 old;
267
268 try_again:
269   old = clib_atomic_fetch_or (&b->as_u64, mask.as_u64);
270
271   if (PREDICT_FALSE (old & mask.as_u64))
272     {
273       /* somebody else flipped the bit, try again */
274       CLIB_PAUSE ();
275       goto try_again;
276     }
277 }
278
279 static inline void BV (clib_bihash_unlock_bucket)
280   (BVT (clib_bihash_bucket) * b)
281 {
282   b->lock = 0;
283 }
284
285 static inline void *BV (clib_bihash_get_value) (BVT (clib_bihash) * h,
286                                                 uword offset)
287 {
288   u8 *hp = (u8 *) (uword) alloc_arena (h);
289   u8 *vp = hp + offset;
290
291   return (void *) vp;
292 }
293
294 static inline int BV (clib_bihash_bucket_is_empty)
295   (BVT (clib_bihash_bucket) * b)
296 {
297   /* Note: applied to locked buckets, test offset */
298   if (BIHASH_KVP_AT_BUCKET_LEVEL == 0)
299     return b->offset == 0;
300   else
301     return (b->log2_pages == 0 && b->refcnt == 1);
302 }
303
304 static inline uword BV (clib_bihash_get_offset) (BVT (clib_bihash) * h,
305                                                  void *v)
306 {
307   u8 *hp, *vp;
308
309   hp = (u8 *) (uword) alloc_arena (h);
310   vp = (u8 *) v;
311
312   return vp - hp;
313 }
314
315 void BV (clib_bihash_init)
316   (BVT (clib_bihash) * h, char *name, u32 nbuckets, uword memory_size);
317
318 void BV (clib_bihash_init2) (BVT (clib_bihash_init2_args) * a);
319
320 #if BIHASH_32_64_SVM
321 void BV (clib_bihash_master_init_svm)
322   (BVT (clib_bihash) * h, char *name, u32 nbuckets, u64 memory_size);
323 void BV (clib_bihash_slave_init_svm)
324   (BVT (clib_bihash) * h, char *name, int fd);
325 #endif
326
327 void BV (clib_bihash_set_kvp_format_fn) (BVT (clib_bihash) * h,
328                                          format_function_t * fmt_fn);
329
330 void BV (clib_bihash_free) (BVT (clib_bihash) * h);
331
332 int BV (clib_bihash_add_del) (BVT (clib_bihash) * h,
333                               BVT (clib_bihash_kv) * add_v, int is_add);
334 int BV (clib_bihash_add_or_overwrite_stale) (BVT (clib_bihash) * h,
335                                              BVT (clib_bihash_kv) * add_v,
336                                              int (*is_stale_cb) (BVT
337                                                                  (clib_bihash_kv)
338                                                                  *, void *),
339                                              void *arg);
340 int BV (clib_bihash_search) (BVT (clib_bihash) * h,
341                              BVT (clib_bihash_kv) * search_v,
342                              BVT (clib_bihash_kv) * return_v);
343
344 #define BIHASH_WALK_STOP 0
345 #define BIHASH_WALK_CONTINUE 1
346
347 typedef
348   int (*BV (clib_bihash_foreach_key_value_pair_cb)) (BVT (clib_bihash_kv) *,
349                                                      void *);
350 void BV (clib_bihash_foreach_key_value_pair) (BVT (clib_bihash) * h,
351                                               BV
352                                               (clib_bihash_foreach_key_value_pair_cb)
353                                               cb, void *arg);
354 void *clib_all_bihash_set_heap (void);
355 void clib_bihash_copied (void *dst, void *src);
356
357 format_function_t BV (format_bihash);
358 format_function_t BV (format_bihash_kvp);
359 format_function_t BV (format_bihash_lru);
360
361 static inline
362 BVT (clib_bihash_bucket) *
363 BV (clib_bihash_get_bucket) (BVT (clib_bihash) * h, u64 hash)
364 {
365 #if BIHASH_KVP_AT_BUCKET_LEVEL
366   uword offset;
367   offset = (hash & (h->nbuckets - 1));
368   offset = offset * (sizeof (BVT (clib_bihash_bucket))
369                      + (BIHASH_KVP_PER_PAGE * sizeof (BVT (clib_bihash_kv))));
370   return ((BVT (clib_bihash_bucket) *) (((u8 *) h->buckets) + offset));
371 #endif
372
373   return h->buckets + (hash & (h->nbuckets - 1));
374 }
375
376 static inline int BV (clib_bihash_search_inline_with_hash)
377   (BVT (clib_bihash) * h, u64 hash, BVT (clib_bihash_kv) * key_result)
378 {
379   BVT (clib_bihash_value) * v;
380   BVT (clib_bihash_bucket) * b;
381   int i, limit;
382
383 #if BIHASH_LAZY_INSTANTIATE
384   if (PREDICT_FALSE (alloc_arena (h) == 0))
385     return -1;
386 #endif
387
388   b = BV (clib_bihash_get_bucket) (h, hash);
389
390   if (PREDICT_FALSE (BV (clib_bihash_bucket_is_empty) (b)))
391     return -1;
392
393   if (PREDICT_FALSE (b->lock))
394     {
395       volatile BVT (clib_bihash_bucket) * bv = b;
396       while (bv->lock)
397         CLIB_PAUSE ();
398     }
399
400   hash >>= h->log2_nbuckets;
401
402   v = BV (clib_bihash_get_value) (h, b->offset);
403
404   /* If the bucket has unresolvable collisions, use linear search */
405   limit = BIHASH_KVP_PER_PAGE;
406   v += (b->linear_search == 0) ? hash & ((1 << b->log2_pages) - 1) : 0;
407   if (PREDICT_FALSE (b->linear_search))
408     limit <<= b->log2_pages;
409
410   for (i = 0; i < limit; i++)
411     {
412       if (BV (clib_bihash_key_compare) (v->kvp[i].key, key_result->key))
413         {
414           *key_result = v->kvp[i];
415           return 0;
416         }
417     }
418   return -1;
419 }
420
421 static inline int BV (clib_bihash_search_inline)
422   (BVT (clib_bihash) * h, BVT (clib_bihash_kv) * key_result)
423 {
424   u64 hash;
425
426   hash = BV (clib_bihash_hash) (key_result);
427
428   return BV (clib_bihash_search_inline_with_hash) (h, hash, key_result);
429 }
430
431 static inline void BV (clib_bihash_prefetch_bucket)
432   (BVT (clib_bihash) * h, u64 hash)
433 {
434   CLIB_PREFETCH (BV (clib_bihash_get_bucket) (h, hash),
435                  BIHASH_BUCKET_PREFETCH_CACHE_LINES * CLIB_CACHE_LINE_BYTES,
436                  LOAD);
437 }
438
439 static inline void BV (clib_bihash_prefetch_data)
440   (BVT (clib_bihash) * h, u64 hash)
441 {
442   BVT (clib_bihash_value) * v;
443   BVT (clib_bihash_bucket) * b;
444
445 #if BIHASH_LAZY_INSTANTIATE
446   if (PREDICT_FALSE (alloc_arena (h) == 0))
447     return;
448 #endif
449
450   b = BV (clib_bihash_get_bucket) (h, hash);
451
452   if (PREDICT_FALSE (BV (clib_bihash_bucket_is_empty) (b)))
453     return;
454
455   hash >>= h->log2_nbuckets;
456   v = BV (clib_bihash_get_value) (h, b->offset);
457
458   v += (b->linear_search == 0) ? hash & ((1 << b->log2_pages) - 1) : 0;
459
460   clib_prefetch_load (v);
461 }
462
463 static inline int BV (clib_bihash_search_inline_2_with_hash)
464   (BVT (clib_bihash) * h,
465    u64 hash, BVT (clib_bihash_kv) * search_key, BVT (clib_bihash_kv) * valuep)
466 {
467   BVT (clib_bihash_value) * v;
468   BVT (clib_bihash_bucket) * b;
469   int i, limit;
470
471   ASSERT (valuep);
472
473 #if BIHASH_LAZY_INSTANTIATE
474   if (PREDICT_FALSE (alloc_arena (h) == 0))
475     return -1;
476 #endif
477
478   b = BV (clib_bihash_get_bucket) (h, hash);
479
480   if (PREDICT_FALSE (BV (clib_bihash_bucket_is_empty) (b)))
481     return -1;
482
483   if (PREDICT_FALSE (b->lock))
484     {
485       volatile BVT (clib_bihash_bucket) * bv = b;
486       while (bv->lock)
487         CLIB_PAUSE ();
488     }
489
490   hash >>= h->log2_nbuckets;
491   v = BV (clib_bihash_get_value) (h, b->offset);
492
493   /* If the bucket has unresolvable collisions, use linear search */
494   limit = BIHASH_KVP_PER_PAGE;
495   v += (b->linear_search == 0) ? hash & ((1 << b->log2_pages) - 1) : 0;
496   if (PREDICT_FALSE (b->linear_search))
497     limit <<= b->log2_pages;
498
499   for (i = 0; i < limit; i++)
500     {
501       if (BV (clib_bihash_key_compare) (v->kvp[i].key, search_key->key))
502         {
503           *valuep = v->kvp[i];
504           return 0;
505         }
506     }
507   return -1;
508 }
509
510 static inline int BV (clib_bihash_search_inline_2)
511   (BVT (clib_bihash) * h,
512    BVT (clib_bihash_kv) * search_key, BVT (clib_bihash_kv) * valuep)
513 {
514   u64 hash;
515
516   hash = BV (clib_bihash_hash) (search_key);
517
518   return BV (clib_bihash_search_inline_2_with_hash) (h, hash, search_key,
519                                                      valuep);
520 }
521
522
523 #endif /* __included_bihash_template_h__ */
524
525 /** @endcond */
526
527 /*
528  * fd.io coding-style-patch-verification: ON
529  *
530  * Local Variables:
531  * eval: (c-set-style "gnu")
532  * End:
533  */