lb plugin - fix format() type mismatches
[vpp.git] / src / plugins / lb / lb.c
1 /*
2  * Copyright (c) 2016 Cisco and/or its affiliates.
3  * Licensed under the Apache License, Version 2.0 (the "License");
4  * you may not use this file except in compliance with the License.
5  * You may obtain a copy of the License at:
6  *
7  *     http://www.apache.org/licenses/LICENSE-2.0
8  *
9  * Unless required by applicable law or agreed to in writing, software
10  * distributed under the License is distributed on an "AS IS" BASIS,
11  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
12  * See the License for the specific language governing permissions and
13  * limitations under the License.
14  */
15
16 #include <lb/lb.h>
17 #include <vnet/plugin/plugin.h>
18 #include <vpp/app/version.h>
19 #include <vnet/api_errno.h>
20
21 //GC runs at most once every so many seconds
22 #define LB_GARBAGE_RUN 60
23
24 //After so many seconds. It is assumed that inter-core race condition will not occur.
25 #define LB_CONCURRENCY_TIMEOUT 10
26
27 lb_main_t lb_main;
28
29 #define lb_get_writer_lock() do {} while(__sync_lock_test_and_set (lb_main.writer_lock, 1))
30 #define lb_put_writer_lock() lb_main.writer_lock[0] = 0
31
32 static void lb_as_stack (lb_as_t *as);
33
34
35 const static char * const lb_dpo_gre4_ip4[] = { "lb4-gre4" , NULL };
36 const static char * const lb_dpo_gre4_ip6[] = { "lb6-gre4" , NULL };
37 const static char* const * const lb_dpo_gre4_nodes[DPO_PROTO_NUM] =
38     {
39         [DPO_PROTO_IP4]  = lb_dpo_gre4_ip4,
40         [DPO_PROTO_IP6]  = lb_dpo_gre4_ip6,
41     };
42
43 const static char * const lb_dpo_gre6_ip4[] = { "lb4-gre6" , NULL };
44 const static char * const lb_dpo_gre6_ip6[] = { "lb6-gre6" , NULL };
45 const static char* const * const lb_dpo_gre6_nodes[DPO_PROTO_NUM] =
46     {
47         [DPO_PROTO_IP4]  = lb_dpo_gre6_ip4,
48         [DPO_PROTO_IP6]  = lb_dpo_gre6_ip6,
49     };
50
51 u32 lb_hash_time_now(vlib_main_t * vm)
52 {
53   return (u32) (vlib_time_now(vm) + 10000);
54 }
55
56 u8 *format_lb_main (u8 * s, va_list * args)
57 {
58   vlib_thread_main_t *tm = vlib_get_thread_main();
59   lb_main_t *lbm = &lb_main;
60   s = format(s, "lb_main");
61   s = format(s, " ip4-src-address: %U \n", format_ip4_address, &lbm->ip4_src_address);
62   s = format(s, " ip6-src-address: %U \n", format_ip6_address, &lbm->ip6_src_address);
63   s = format(s, " #vips: %u\n", pool_elts(lbm->vips));
64   s = format(s, " #ass: %u\n", pool_elts(lbm->ass) - 1);
65
66   u32 thread_index;
67   for(thread_index = 0; thread_index < tm->n_vlib_mains; thread_index++ ) {
68     lb_hash_t *h = lbm->per_cpu[thread_index].sticky_ht;
69     if (h) {
70       s = format(s, "core %d\n", thread_index);
71       s = format(s, "  timeout: %ds\n", h->timeout);
72       s = format(s, "  usage: %d / %d\n", lb_hash_elts(h, lb_hash_time_now(vlib_get_main())),  lb_hash_size(h));
73     }
74   }
75
76   return s;
77 }
78
79 static char *lb_vip_type_strings[] = {
80     [LB_VIP_TYPE_IP6_GRE6] = "ip6-gre6",
81     [LB_VIP_TYPE_IP6_GRE4] = "ip6-gre4",
82     [LB_VIP_TYPE_IP4_GRE6] = "ip4-gre6",
83     [LB_VIP_TYPE_IP4_GRE4] = "ip4-gre4",
84 };
85
86 u8 *format_lb_vip_type (u8 * s, va_list * args)
87 {
88   lb_vip_type_t vipt = va_arg (*args, lb_vip_type_t);
89   u32 i;
90   for (i=0; i<LB_VIP_N_TYPES; i++)
91     if (vipt == i)
92       return format(s, lb_vip_type_strings[i]);
93   return format(s, "_WRONG_TYPE_");
94 }
95
96 uword unformat_lb_vip_type (unformat_input_t * input, va_list * args)
97 {
98   lb_vip_type_t *vipt = va_arg (*args, lb_vip_type_t *);
99   u32 i;
100   for (i=0; i<LB_VIP_N_TYPES; i++)
101     if (unformat(input, lb_vip_type_strings[i])) {
102       *vipt = i;
103       return 1;
104     }
105   return 0;
106 }
107
108 u8 *format_lb_vip (u8 * s, va_list * args)
109 {
110   lb_vip_t *vip = va_arg (*args, lb_vip_t *);
111   return format(s, "%U %U new_size:%u #as:%u%s",
112              format_lb_vip_type, vip->type,
113              format_ip46_prefix, &vip->prefix, vip->plen, IP46_TYPE_ANY,
114              vip->new_flow_table_mask + 1,
115              pool_elts(vip->as_indexes),
116              (vip->flags & LB_VIP_FLAGS_USED)?"":" removed");
117 }
118
119 u8 *format_lb_as (u8 * s, va_list * args)
120 {
121   lb_as_t *as = va_arg (*args, lb_as_t *);
122   return format(s, "%U %s", format_ip46_address,
123                 &as->address, IP46_TYPE_ANY,
124                 (as->flags & LB_AS_FLAGS_USED)?"used":"removed");
125 }
126
127 u8 *format_lb_vip_detailed (u8 * s, va_list * args)
128 {
129   lb_main_t *lbm = &lb_main;
130   lb_vip_t *vip = va_arg (*args, lb_vip_t *);
131   u32 indent = format_get_indent (s);
132
133   s = format(s, "%U %U [%lu] %U%s\n"
134                    "%U  new_size:%u\n",
135                   format_white_space, indent,
136                   format_lb_vip_type, vip->type,
137                   vip - lbm->vips,
138                   format_ip46_prefix, &vip->prefix, (u32) vip->plen, IP46_TYPE_ANY,
139                   (vip->flags & LB_VIP_FLAGS_USED)?"":" removed",
140                   format_white_space, indent,
141                   vip->new_flow_table_mask + 1);
142
143   //Print counters
144   s = format(s, "%U  counters:\n",
145              format_white_space, indent);
146   u32 i;
147   for (i=0; i<LB_N_VIP_COUNTERS; i++)
148     s = format(s, "%U    %s: %d\n",
149                format_white_space, indent,
150                lbm->vip_counters[i].name,
151                vlib_get_simple_counter(&lbm->vip_counters[i], vip - lbm->vips));
152
153
154   s = format(s, "%U  #as:%u\n",
155              format_white_space, indent,
156              pool_elts(vip->as_indexes));
157
158   //Let's count the buckets for each AS
159   u32 *count = 0;
160   vec_validate(count, pool_len(lbm->ass)); //Possibly big alloc for not much...
161   lb_new_flow_entry_t *nfe;
162   vec_foreach(nfe, vip->new_flow_table)
163     count[nfe->as_index]++;
164
165   lb_as_t *as;
166   u32 *as_index;
167   pool_foreach(as_index, vip->as_indexes, {
168       as = &lbm->ass[*as_index];
169       s = format(s, "%U    %U %d buckets   %d flows  dpo:%u %s\n",
170                    format_white_space, indent,
171                    format_ip46_address, &as->address, IP46_TYPE_ANY,
172                    count[as - lbm->ass],
173                    vlib_refcount_get(&lbm->as_refcount, as - lbm->ass),
174                    as->dpo.dpoi_index,
175                    (as->flags & LB_AS_FLAGS_USED)?"used":" removed");
176   });
177
178   vec_free(count);
179
180   /*
181   s = format(s, "%U  new flows table:\n", format_white_space, indent);
182   lb_new_flow_entry_t *nfe;
183   vec_foreach(nfe, vip->new_flow_table) {
184     s = format(s, "%U    %d: %d\n", format_white_space, indent, nfe - vip->new_flow_table, nfe->as_index);
185   }
186   */
187   return s;
188 }
189
190 typedef struct {
191   u32 as_index;
192   u32 last;
193   u32 skip;
194 } lb_pseudorand_t;
195
196 static int lb_pseudorand_compare(void *a, void *b)
197 {
198   lb_as_t *asa, *asb;
199   lb_main_t *lbm = &lb_main;
200   asa = &lbm->ass[((lb_pseudorand_t *)a)->as_index];
201   asb = &lbm->ass[((lb_pseudorand_t *)b)->as_index];
202   return memcmp(&asa->address, &asb->address, sizeof(asb->address));
203 }
204
205 static void lb_vip_garbage_collection(lb_vip_t *vip)
206 {
207   lb_main_t *lbm = &lb_main;
208   ASSERT (lbm->writer_lock[0]);
209
210   u32 now = (u32) vlib_time_now(vlib_get_main());
211   if (!clib_u32_loop_gt(now, vip->last_garbage_collection + LB_GARBAGE_RUN))
212     return;
213
214   vip->last_garbage_collection = now;
215   lb_as_t *as;
216   u32 *as_index;
217   pool_foreach(as_index, vip->as_indexes, {
218       as = &lbm->ass[*as_index];
219       if (!(as->flags & LB_AS_FLAGS_USED) && //Not used
220           clib_u32_loop_gt(now, as->last_used + LB_CONCURRENCY_TIMEOUT) && //Not recently used
221           (vlib_refcount_get(&lbm->as_refcount, as - lbm->ass) == 0))
222         { //Not referenced
223           fib_entry_child_remove(as->next_hop_fib_entry_index,
224                                  as->next_hop_child_index);
225           fib_table_entry_delete_index(as->next_hop_fib_entry_index,
226                                        FIB_SOURCE_RR);
227           as->next_hop_fib_entry_index = FIB_NODE_INDEX_INVALID;
228
229           pool_put(vip->as_indexes, as_index);
230           pool_put(lbm->ass, as);
231         }
232   });
233 }
234
235 void lb_garbage_collection()
236 {
237   lb_main_t *lbm = &lb_main;
238   lb_get_writer_lock();
239   lb_vip_t *vip;
240   u32 *to_be_removed_vips = 0, *i;
241   pool_foreach(vip, lbm->vips, {
242       lb_vip_garbage_collection(vip);
243
244       if (!(vip->flags & LB_VIP_FLAGS_USED) &&
245           (pool_elts(vip->as_indexes) == 0)) {
246         vec_add1(to_be_removed_vips, vip - lbm->vips);
247       }
248   });
249
250   vec_foreach(i, to_be_removed_vips) {
251     vip = &lbm->vips[*i];
252     pool_put(lbm->vips, vip);
253     pool_free(vip->as_indexes);
254   }
255
256   vec_free(to_be_removed_vips);
257   lb_put_writer_lock();
258 }
259
260 static void lb_vip_update_new_flow_table(lb_vip_t *vip)
261 {
262   lb_main_t *lbm = &lb_main;
263   lb_new_flow_entry_t *old_table;
264   u32 i, *as_index;
265   lb_new_flow_entry_t *new_flow_table = 0;
266   lb_as_t *as;
267   lb_pseudorand_t *pr, *sort_arr = 0;
268   u32 count;
269
270   ASSERT (lbm->writer_lock[0]); //We must have the lock
271
272   //Check if some AS is configured or not
273   i = 0;
274   pool_foreach(as_index, vip->as_indexes, {
275       as = &lbm->ass[*as_index];
276       if (as->flags & LB_AS_FLAGS_USED) { //Not used anymore
277         i = 1;
278         goto out; //Not sure 'break' works in this macro-loop
279       }
280   });
281
282 out:
283   if (i == 0) {
284     //Only the default. i.e. no AS
285     vec_validate(new_flow_table, vip->new_flow_table_mask);
286     for (i=0; i<vec_len(new_flow_table); i++)
287       new_flow_table[i].as_index = 0;
288
289     goto finished;
290   }
291
292   //First, let's sort the ASs
293   sort_arr = 0;
294   vec_alloc(sort_arr, pool_elts(vip->as_indexes));
295
296   i = 0;
297   pool_foreach(as_index, vip->as_indexes, {
298       as = &lbm->ass[*as_index];
299       if (!(as->flags & LB_AS_FLAGS_USED)) //Not used anymore
300         continue;
301
302       sort_arr[i].as_index = as - lbm->ass;
303       i++;
304   });
305   _vec_len(sort_arr) = i;
306
307   vec_sort_with_function(sort_arr, lb_pseudorand_compare);
308
309   //Now let's pseudo-randomly generate permutations
310   vec_foreach(pr, sort_arr) {
311     lb_as_t *as = &lbm->ass[pr->as_index];
312
313     u64 seed = clib_xxhash(as->address.as_u64[0] ^
314                            as->address.as_u64[1]);
315     /* We have 2^n buckets.
316      * skip must be prime with 2^n.
317      * So skip must be odd.
318      * MagLev actually state that M should be prime,
319      * but this has a big computation cost (% operation).
320      * Using 2^n is more better (& operation).
321      */
322     pr->skip = ((seed & 0xffffffff) | 1) & vip->new_flow_table_mask;
323     pr->last = (seed >> 32) & vip->new_flow_table_mask;
324   }
325
326   //Let's create a new flow table
327   vec_validate(new_flow_table, vip->new_flow_table_mask);
328   for (i=0; i<vec_len(new_flow_table); i++)
329     new_flow_table[i].as_index = ~0;
330
331   u32 done = 0;
332   while (1) {
333     vec_foreach(pr, sort_arr) {
334       while (1) {
335         u32 last = pr->last;
336         pr->last = (pr->last + pr->skip) & vip->new_flow_table_mask;
337         if (new_flow_table[last].as_index == ~0) {
338           new_flow_table[last].as_index = pr->as_index;
339           break;
340         }
341       }
342       done++;
343       if (done == vec_len(new_flow_table))
344         goto finished;
345     }
346   }
347
348   vec_free(sort_arr);
349
350 finished:
351
352 //Count number of changed entries
353   count = 0;
354   for (i=0; i<vec_len(new_flow_table); i++)
355     if (vip->new_flow_table == 0 ||
356         new_flow_table[i].as_index != vip->new_flow_table[i].as_index)
357       count++;
358
359   old_table = vip->new_flow_table;
360   vip->new_flow_table = new_flow_table;
361   vec_free(old_table);
362 }
363
364 int lb_conf(ip4_address_t *ip4_address, ip6_address_t *ip6_address,
365            u32 per_cpu_sticky_buckets, u32 flow_timeout)
366 {
367   lb_main_t *lbm = &lb_main;
368
369   if (!is_pow2(per_cpu_sticky_buckets))
370     return VNET_API_ERROR_INVALID_MEMORY_SIZE;
371
372   lb_get_writer_lock(); //Not exactly necessary but just a reminder that it exists for my future self
373   lbm->ip4_src_address = *ip4_address;
374   lbm->ip6_src_address = *ip6_address;
375   lbm->per_cpu_sticky_buckets = per_cpu_sticky_buckets;
376   lbm->flow_timeout = flow_timeout;
377   lb_put_writer_lock();
378   return 0;
379 }
380
381 static
382 int lb_vip_find_index_with_lock(ip46_address_t *prefix, u8 plen, u32 *vip_index)
383 {
384   lb_main_t *lbm = &lb_main;
385   lb_vip_t *vip;
386   ASSERT (lbm->writer_lock[0]); //This must be called with the lock owned
387   ip46_prefix_normalize(prefix, plen);
388   pool_foreach(vip, lbm->vips, {
389       if ((vip->flags & LB_AS_FLAGS_USED) &&
390           vip->plen == plen &&
391           vip->prefix.as_u64[0] == prefix->as_u64[0] &&
392           vip->prefix.as_u64[1] == prefix->as_u64[1]) {
393         *vip_index = vip - lbm->vips;
394         return 0;
395       }
396   });
397   return VNET_API_ERROR_NO_SUCH_ENTRY;
398 }
399
400 int lb_vip_find_index(ip46_address_t *prefix, u8 plen, u32 *vip_index)
401 {
402   int ret;
403   lb_get_writer_lock();
404   ret = lb_vip_find_index_with_lock(prefix, plen, vip_index);
405   lb_put_writer_lock();
406   return ret;
407 }
408
409 static int lb_as_find_index_vip(lb_vip_t *vip, ip46_address_t *address, u32 *as_index)
410 {
411   lb_main_t *lbm = &lb_main;
412   ASSERT (lbm->writer_lock[0]); //This must be called with the lock owned
413   lb_as_t *as;
414   u32 *asi;
415   pool_foreach(asi, vip->as_indexes, {
416       as = &lbm->ass[*asi];
417       if (as->vip_index == (vip - lbm->vips) &&
418           as->address.as_u64[0] == address->as_u64[0] &&
419           as->address.as_u64[1] == address->as_u64[1]) {
420         *as_index = as - lbm->ass;
421         return 0;
422       }
423   });
424   return -1;
425 }
426
427 int lb_vip_add_ass(u32 vip_index, ip46_address_t *addresses, u32 n)
428 {
429   lb_main_t *lbm = &lb_main;
430   lb_get_writer_lock();
431   lb_vip_t *vip;
432   if (!(vip = lb_vip_get_by_index(vip_index))) {
433     lb_put_writer_lock();
434     return VNET_API_ERROR_NO_SUCH_ENTRY;
435   }
436
437   ip46_type_t type = lb_vip_is_gre4(vip)?IP46_TYPE_IP4:IP46_TYPE_IP6;
438   u32 *to_be_added = 0;
439   u32 *to_be_updated = 0;
440   u32 i;
441   u32 *ip;
442
443   //Sanity check
444   while (n--) {
445
446     if (!lb_as_find_index_vip(vip, &addresses[n], &i)) {
447       if (lbm->ass[i].flags & LB_AS_FLAGS_USED) {
448         vec_free(to_be_added);
449         vec_free(to_be_updated);
450         lb_put_writer_lock();
451         return VNET_API_ERROR_VALUE_EXIST;
452       }
453       vec_add1(to_be_updated, i);
454       goto next;
455     }
456
457     if (ip46_address_type(&addresses[n]) != type) {
458       vec_free(to_be_added);
459       vec_free(to_be_updated);
460       lb_put_writer_lock();
461       return VNET_API_ERROR_INVALID_ADDRESS_FAMILY;
462     }
463
464     if (n) {
465       u32 n2 = n;
466       while(n2--) //Check for duplicates
467         if (addresses[n2].as_u64[0] == addresses[n].as_u64[0] &&
468             addresses[n2].as_u64[1] == addresses[n].as_u64[1])
469           goto next;
470     }
471
472     vec_add1(to_be_added, n);
473
474 next:
475     continue;
476   }
477
478   //Update reused ASs
479   vec_foreach(ip, to_be_updated) {
480     lbm->ass[*ip].flags = LB_AS_FLAGS_USED;
481   }
482   vec_free(to_be_updated);
483
484   //Create those who have to be created
485   vec_foreach(ip, to_be_added) {
486     lb_as_t *as;
487     u32 *as_index;
488     pool_get(lbm->ass, as);
489     as->address = addresses[*ip];
490     as->flags = LB_AS_FLAGS_USED;
491     as->vip_index = vip_index;
492     pool_get(vip->as_indexes, as_index);
493     *as_index = as - lbm->ass;
494
495     /*
496      * become a child of the FIB entry
497      * so we are informed when its forwarding changes
498      */
499     fib_prefix_t nh = {};
500     if (lb_vip_is_gre4(vip)) {
501         nh.fp_addr.ip4 = as->address.ip4;
502         nh.fp_len = 32;
503         nh.fp_proto = FIB_PROTOCOL_IP4;
504     } else {
505         nh.fp_addr.ip6 = as->address.ip6;
506         nh.fp_len = 128;
507         nh.fp_proto = FIB_PROTOCOL_IP6;
508     }
509
510     as->next_hop_fib_entry_index =
511         fib_table_entry_special_add(0,
512                                     &nh,
513                                     FIB_SOURCE_RR,
514                                     FIB_ENTRY_FLAG_NONE);
515     as->next_hop_child_index =
516         fib_entry_child_add(as->next_hop_fib_entry_index,
517                             lbm->fib_node_type,
518                             as - lbm->ass);
519
520     lb_as_stack(as);
521   }
522   vec_free(to_be_added);
523
524   //Recompute flows
525   lb_vip_update_new_flow_table(vip);
526
527   //Garbage collection maybe
528   lb_vip_garbage_collection(vip);
529
530   lb_put_writer_lock();
531   return 0;
532 }
533
534 int lb_vip_del_ass_withlock(u32 vip_index, ip46_address_t *addresses, u32 n)
535 {
536   lb_main_t *lbm = &lb_main;
537   u32 now = (u32) vlib_time_now(vlib_get_main());
538   u32 *ip = 0;
539
540   lb_vip_t *vip;
541   if (!(vip = lb_vip_get_by_index(vip_index))) {
542     return VNET_API_ERROR_NO_SUCH_ENTRY;
543   }
544
545   u32 *indexes = NULL;
546   while (n--) {
547     u32 i;
548     if (lb_as_find_index_vip(vip, &addresses[n], &i)) {
549       vec_free(indexes);
550       return VNET_API_ERROR_NO_SUCH_ENTRY;
551     }
552
553     if (n) { //Check for duplicates
554       u32 n2 = n - 1;
555       while(n2--) {
556         if (addresses[n2].as_u64[0] == addresses[n].as_u64[0] &&
557             addresses[n2].as_u64[1] == addresses[n].as_u64[1])
558           goto next;
559       }
560     }
561
562     vec_add1(indexes, i);
563 next:
564   continue;
565   }
566
567   //Garbage collection maybe
568   lb_vip_garbage_collection(vip);
569
570   if (indexes != NULL) {
571     vec_foreach(ip, indexes) {
572       lbm->ass[*ip].flags &= ~LB_AS_FLAGS_USED;
573       lbm->ass[*ip].last_used = now;
574     }
575
576     //Recompute flows
577     lb_vip_update_new_flow_table(vip);
578   }
579
580   vec_free(indexes);
581   return 0;
582 }
583
584 int lb_vip_del_ass(u32 vip_index, ip46_address_t *addresses, u32 n)
585 {
586   lb_get_writer_lock();
587   int ret = lb_vip_del_ass_withlock(vip_index, addresses, n);
588   lb_put_writer_lock();
589   return ret;
590 }
591
592 /**
593  * Add the VIP adjacency to the ip4 or ip6 fib
594  */
595 static void lb_vip_add_adjacency(lb_main_t *lbm, lb_vip_t *vip)
596 {
597   dpo_proto_t proto = 0;
598   dpo_id_t dpo = DPO_INVALID;
599   fib_prefix_t pfx = {};
600   if (lb_vip_is_ip4(vip)) {
601       pfx.fp_addr.ip4 = vip->prefix.ip4;
602       pfx.fp_len = vip->plen - 96;
603       pfx.fp_proto = FIB_PROTOCOL_IP4;
604       proto = DPO_PROTO_IP4;
605   } else {
606       pfx.fp_addr.ip6 = vip->prefix.ip6;
607       pfx.fp_len = vip->plen;
608       pfx.fp_proto = FIB_PROTOCOL_IP6;
609       proto = DPO_PROTO_IP6;
610   }
611   dpo_set(&dpo, lb_vip_is_gre4(vip)?lbm->dpo_gre4_type:lbm->dpo_gre6_type,
612       proto, vip - lbm->vips);
613   fib_table_entry_special_dpo_add(0,
614                                   &pfx,
615                                   FIB_SOURCE_PLUGIN_HI,
616                                   FIB_ENTRY_FLAG_EXCLUSIVE,
617                                   &dpo);
618   dpo_reset(&dpo);
619 }
620
621 /**
622  * Deletes the adjacency associated with the VIP
623  */
624 static void lb_vip_del_adjacency(lb_main_t *lbm, lb_vip_t *vip)
625 {
626   fib_prefix_t pfx = {};
627   if (lb_vip_is_ip4(vip)) {
628       pfx.fp_addr.ip4 = vip->prefix.ip4;
629       pfx.fp_len = vip->plen - 96;
630       pfx.fp_proto = FIB_PROTOCOL_IP4;
631   } else {
632       pfx.fp_addr.ip6 = vip->prefix.ip6;
633       pfx.fp_len = vip->plen;
634       pfx.fp_proto = FIB_PROTOCOL_IP6;
635   }
636   fib_table_entry_special_remove(0, &pfx, FIB_SOURCE_PLUGIN_HI);
637 }
638
639 int lb_vip_add(ip46_address_t *prefix, u8 plen, lb_vip_type_t type, u32 new_length, u32 *vip_index)
640 {
641   lb_main_t *lbm = &lb_main;
642   lb_vip_t *vip;
643   lb_get_writer_lock();
644   ip46_prefix_normalize(prefix, plen);
645
646   if (!lb_vip_find_index_with_lock(prefix, plen, vip_index)) {
647     lb_put_writer_lock();
648     return VNET_API_ERROR_VALUE_EXIST;
649   }
650
651   if (!is_pow2(new_length)) {
652     lb_put_writer_lock();
653     return VNET_API_ERROR_INVALID_MEMORY_SIZE;
654   }
655
656   if (ip46_prefix_is_ip4(prefix, plen) &&
657       (type != LB_VIP_TYPE_IP4_GRE4) &&
658       (type != LB_VIP_TYPE_IP4_GRE6))
659     return VNET_API_ERROR_INVALID_ADDRESS_FAMILY;
660
661
662   //Allocate
663   pool_get(lbm->vips, vip);
664
665   //Init
666   vip->prefix = *prefix;
667   vip->plen = plen;
668   vip->last_garbage_collection = (u32) vlib_time_now(vlib_get_main());
669   vip->type = type;
670   vip->flags = LB_VIP_FLAGS_USED;
671   vip->as_indexes = 0;
672
673   //Validate counters
674   u32 i;
675   for (i = 0; i < LB_N_VIP_COUNTERS; i++) {
676     vlib_validate_simple_counter(&lbm->vip_counters[i], vip - lbm->vips);
677     vlib_zero_simple_counter(&lbm->vip_counters[i], vip - lbm->vips);
678   }
679
680   //Configure new flow table
681   vip->new_flow_table_mask = new_length - 1;
682   vip->new_flow_table = 0;
683
684   //Create a new flow hash table full of the default entry
685   lb_vip_update_new_flow_table(vip);
686
687   //Create adjacency to direct traffic
688   lb_vip_add_adjacency(lbm, vip);
689
690   //Return result
691   *vip_index = vip - lbm->vips;
692
693   lb_put_writer_lock();
694   return 0;
695 }
696
697 int lb_vip_del(u32 vip_index)
698 {
699   lb_main_t *lbm = &lb_main;
700   lb_vip_t *vip;
701   lb_get_writer_lock();
702   if (!(vip = lb_vip_get_by_index(vip_index))) {
703     lb_put_writer_lock();
704     return VNET_API_ERROR_NO_SUCH_ENTRY;
705   }
706
707   //FIXME: This operation is actually not working
708   //We will need to remove state before performing this.
709
710   {
711     //Remove all ASs
712     ip46_address_t *ass = 0;
713     lb_as_t *as;
714     u32 *as_index;
715     pool_foreach(as_index, vip->as_indexes, {
716         as = &lbm->ass[*as_index];
717         vec_add1(ass, as->address);
718     });
719     if (vec_len(ass))
720       lb_vip_del_ass_withlock(vip_index, ass, vec_len(ass));
721     vec_free(ass);
722   }
723
724   //Delete adjacency
725   lb_vip_del_adjacency(lbm, vip);
726
727   //Set the VIP as unused
728   vip->flags &= ~LB_VIP_FLAGS_USED;
729
730   lb_put_writer_lock();
731   return 0;
732 }
733
734 /* *INDENT-OFF* */
735 VLIB_PLUGIN_REGISTER () = {
736     .version = VPP_BUILD_VER,
737     .description = "Load Balancer",
738 };
739 /* *INDENT-ON* */
740
741 u8 *format_lb_dpo (u8 * s, va_list * va)
742 {
743   index_t index = va_arg (*va, index_t);
744   CLIB_UNUSED(u32 indent) = va_arg (*va, u32);
745   lb_main_t *lbm = &lb_main;
746   lb_vip_t *vip = pool_elt_at_index (lbm->vips, index);
747   return format (s, "%U", format_lb_vip, vip);
748 }
749
750 static void lb_dpo_lock (dpo_id_t *dpo) {}
751 static void lb_dpo_unlock (dpo_id_t *dpo) {}
752
753 static fib_node_t *
754 lb_fib_node_get_node (fib_node_index_t index)
755 {
756   lb_main_t *lbm = &lb_main;
757   lb_as_t *as = pool_elt_at_index (lbm->ass, index);
758   return (&as->fib_node);
759 }
760
761 static void
762 lb_fib_node_last_lock_gone (fib_node_t *node)
763 {
764 }
765
766 static lb_as_t *
767 lb_as_from_fib_node (fib_node_t *node)
768 {
769   return ((lb_as_t*)(((char*)node) -
770       STRUCT_OFFSET_OF(lb_as_t, fib_node)));
771 }
772
773 static void
774 lb_as_stack (lb_as_t *as)
775 {
776   lb_main_t *lbm = &lb_main;
777   lb_vip_t *vip = &lbm->vips[as->vip_index];
778   dpo_stack(lb_vip_is_gre4(vip)?lbm->dpo_gre4_type:lbm->dpo_gre6_type,
779             lb_vip_is_ip4(vip)?DPO_PROTO_IP4:DPO_PROTO_IP6,
780             &as->dpo,
781             fib_entry_contribute_ip_forwarding(
782                 as->next_hop_fib_entry_index));
783 }
784
785 static fib_node_back_walk_rc_t
786 lb_fib_node_back_walk_notify (fib_node_t *node,
787                                fib_node_back_walk_ctx_t *ctx)
788 {
789     lb_as_stack(lb_as_from_fib_node(node));
790     return (FIB_NODE_BACK_WALK_CONTINUE);
791 }
792
793 clib_error_t *
794 lb_init (vlib_main_t * vm)
795 {
796   vlib_thread_main_t *tm = vlib_get_thread_main ();
797   lb_main_t *lbm = &lb_main;
798   lb_as_t *default_as;
799   fib_node_vft_t lb_fib_node_vft = {
800       .fnv_get = lb_fib_node_get_node,
801       .fnv_last_lock = lb_fib_node_last_lock_gone,
802       .fnv_back_walk = lb_fib_node_back_walk_notify,
803   };
804   dpo_vft_t lb_vft = {
805       .dv_lock = lb_dpo_lock,
806       .dv_unlock = lb_dpo_unlock,
807       .dv_format = format_lb_dpo,
808   };
809
810   lbm->vips = 0;
811   lbm->per_cpu = 0;
812   vec_validate(lbm->per_cpu, tm->n_vlib_mains - 1);
813   lbm->writer_lock = clib_mem_alloc_aligned (CLIB_CACHE_LINE_BYTES,  CLIB_CACHE_LINE_BYTES);
814   lbm->writer_lock[0] = 0;
815   lbm->per_cpu_sticky_buckets = LB_DEFAULT_PER_CPU_STICKY_BUCKETS;
816   lbm->flow_timeout = LB_DEFAULT_FLOW_TIMEOUT;
817   lbm->ip4_src_address.as_u32 = 0xffffffff;
818   lbm->ip6_src_address.as_u64[0] = 0xffffffffffffffffL;
819   lbm->ip6_src_address.as_u64[1] = 0xffffffffffffffffL;
820   lbm->dpo_gre4_type = dpo_register_new_type(&lb_vft, lb_dpo_gre4_nodes);
821   lbm->dpo_gre6_type = dpo_register_new_type(&lb_vft, lb_dpo_gre6_nodes);
822   lbm->fib_node_type = fib_node_register_new_type(&lb_fib_node_vft);
823
824   //Init AS reference counters
825   vlib_refcount_init(&lbm->as_refcount);
826
827   //Allocate and init default AS.
828   lbm->ass = 0;
829   pool_get(lbm->ass, default_as);
830   default_as->flags = 0;
831   default_as->dpo.dpoi_next_node = LB_NEXT_DROP;
832   default_as->vip_index = ~0;
833   default_as->address.ip6.as_u64[0] = 0xffffffffffffffffL;
834   default_as->address.ip6.as_u64[1] = 0xffffffffffffffffL;
835
836 #define _(a,b,c) lbm->vip_counters[c].name = b;
837   lb_foreach_vip_counter
838 #undef _
839   return NULL;
840 }
841
842 VLIB_INIT_FUNCTION (lb_init);