plugins: clean up plugin descriptions
[vpp.git] / src / plugins / lb / lb.c
1 /*
2  * Copyright (c) 2016 Cisco and/or its affiliates.
3  * Licensed under the Apache License, Version 2.0 (the "License");
4  * you may not use this file except in compliance with the License.
5  * You may obtain a copy of the License at:
6  *
7  *     http://www.apache.org/licenses/LICENSE-2.0
8  *
9  * Unless required by applicable law or agreed to in writing, software
10  * distributed under the License is distributed on an "AS IS" BASIS,
11  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
12  * See the License for the specific language governing permissions and
13  * limitations under the License.
14  */
15
16 #include <lb/lb.h>
17 #include <vnet/plugin/plugin.h>
18 #include <vpp/app/version.h>
19 #include <vnet/api_errno.h>
20 #include <vnet/udp/udp.h>
21
22 //GC runs at most once every so many seconds
23 #define LB_GARBAGE_RUN 60
24
25 //After so many seconds. It is assumed that inter-core race condition will not occur.
26 #define LB_CONCURRENCY_TIMEOUT 10
27
28 lb_main_t lb_main;
29
30 #define lb_get_writer_lock() do {} while(clib_atomic_test_and_set (lb_main.writer_lock))
31 #define lb_put_writer_lock() clib_atomic_release (lb_main.writer_lock)
32
33 static void lb_as_stack (lb_as_t *as);
34
35
36 const static char * const lb_dpo_gre4_ip4[] = { "lb4-gre4" , NULL };
37 const static char * const lb_dpo_gre4_ip6[] = { "lb6-gre4" , NULL };
38 const static char* const * const lb_dpo_gre4_nodes[DPO_PROTO_NUM] =
39     {
40         [DPO_PROTO_IP4]  = lb_dpo_gre4_ip4,
41         [DPO_PROTO_IP6]  = lb_dpo_gre4_ip6,
42     };
43
44 const static char * const lb_dpo_gre6_ip4[] = { "lb4-gre6" , NULL };
45 const static char * const lb_dpo_gre6_ip6[] = { "lb6-gre6" , NULL };
46 const static char* const * const lb_dpo_gre6_nodes[DPO_PROTO_NUM] =
47     {
48         [DPO_PROTO_IP4]  = lb_dpo_gre6_ip4,
49         [DPO_PROTO_IP6]  = lb_dpo_gre6_ip6,
50     };
51
52 const static char * const lb_dpo_gre4_ip4_port[] = { "lb4-gre4-port" , NULL };
53 const static char * const lb_dpo_gre4_ip6_port[] = { "lb6-gre4-port" , NULL };
54 const static char* const * const lb_dpo_gre4_port_nodes[DPO_PROTO_NUM] =
55     {
56         [DPO_PROTO_IP4]  = lb_dpo_gre4_ip4_port,
57         [DPO_PROTO_IP6]  = lb_dpo_gre4_ip6_port,
58     };
59
60 const static char * const lb_dpo_gre6_ip4_port[] = { "lb4-gre6-port" , NULL };
61 const static char * const lb_dpo_gre6_ip6_port[] = { "lb6-gre6-port" , NULL };
62 const static char* const * const lb_dpo_gre6_port_nodes[DPO_PROTO_NUM] =
63     {
64         [DPO_PROTO_IP4]  = lb_dpo_gre6_ip4_port,
65         [DPO_PROTO_IP6]  = lb_dpo_gre6_ip6_port,
66     };
67
68 const static char * const lb_dpo_l3dsr_ip4[] = {"lb4-l3dsr" , NULL};
69 const static char* const * const lb_dpo_l3dsr_nodes[DPO_PROTO_NUM] =
70     {
71         [DPO_PROTO_IP4]  = lb_dpo_l3dsr_ip4,
72     };
73
74 const static char * const lb_dpo_l3dsr_ip4_port[] = {"lb4-l3dsr-port" , NULL};
75 const static char* const * const lb_dpo_l3dsr_port_nodes[DPO_PROTO_NUM] =
76     {
77         [DPO_PROTO_IP4]  = lb_dpo_l3dsr_ip4_port,
78     };
79
80 const static char * const lb_dpo_nat4_ip4_port[] = { "lb4-nat4-port" , NULL };
81 const static char* const * const lb_dpo_nat4_port_nodes[DPO_PROTO_NUM] =
82     {
83         [DPO_PROTO_IP4]  = lb_dpo_nat4_ip4_port,
84     };
85
86 const static char * const lb_dpo_nat6_ip6_port[] = { "lb6-nat6-port" , NULL };
87 const static char* const * const lb_dpo_nat6_port_nodes[DPO_PROTO_NUM] =
88     {
89         [DPO_PROTO_IP6]  = lb_dpo_nat6_ip6_port,
90     };
91
92 u32 lb_hash_time_now(vlib_main_t * vm)
93 {
94   return (u32) (vlib_time_now(vm) + 10000);
95 }
96
97 u8 *format_lb_main (u8 * s, va_list * args)
98 {
99   vlib_thread_main_t *tm = vlib_get_thread_main();
100   lb_main_t *lbm = &lb_main;
101   s = format(s, "lb_main");
102   s = format(s, " ip4-src-address: %U \n", format_ip4_address, &lbm->ip4_src_address);
103   s = format(s, " ip6-src-address: %U \n", format_ip6_address, &lbm->ip6_src_address);
104   s = format(s, " #vips: %u\n", pool_elts(lbm->vips));
105   s = format(s, " #ass: %u\n", pool_elts(lbm->ass) - 1);
106
107   u32 thread_index;
108   for(thread_index = 0; thread_index < tm->n_vlib_mains; thread_index++ ) {
109     lb_hash_t *h = lbm->per_cpu[thread_index].sticky_ht;
110     if (h) {
111       s = format(s, "core %d\n", thread_index);
112       s = format(s, "  timeout: %ds\n", h->timeout);
113       s = format(s, "  usage: %d / %d\n", lb_hash_elts(h, lb_hash_time_now(vlib_get_main())),  lb_hash_size(h));
114     }
115   }
116
117   return s;
118 }
119
120 static char *lb_vip_type_strings[] = {
121     [LB_VIP_TYPE_IP6_GRE6] = "ip6-gre6",
122     [LB_VIP_TYPE_IP6_GRE4] = "ip6-gre4",
123     [LB_VIP_TYPE_IP4_GRE6] = "ip4-gre6",
124     [LB_VIP_TYPE_IP4_GRE4] = "ip4-gre4",
125     [LB_VIP_TYPE_IP4_L3DSR] = "ip4-l3dsr",
126     [LB_VIP_TYPE_IP4_NAT4] = "ip4-nat4",
127     [LB_VIP_TYPE_IP6_NAT6] = "ip6-nat6",
128 };
129
130 u8 *format_lb_vip_type (u8 * s, va_list * args)
131 {
132   lb_vip_type_t vipt = va_arg (*args, lb_vip_type_t);
133   u32 i;
134   for (i=0; i<LB_VIP_N_TYPES; i++)
135     if (vipt == i)
136       return format(s, lb_vip_type_strings[i]);
137   return format(s, "_WRONG_TYPE_");
138 }
139
140 uword unformat_lb_vip_type (unformat_input_t * input, va_list * args)
141 {
142   lb_vip_type_t *vipt = va_arg (*args, lb_vip_type_t *);
143   u32 i;
144   for (i=0; i<LB_VIP_N_TYPES; i++)
145     if (unformat(input, lb_vip_type_strings[i])) {
146       *vipt = i;
147       return 1;
148     }
149   return 0;
150 }
151
152 u8 *format_lb_vip (u8 * s, va_list * args)
153 {
154   lb_vip_t *vip = va_arg (*args, lb_vip_t *);
155   s = format(s, "%U %U new_size:%u #as:%u%s",
156              format_lb_vip_type, vip->type,
157              format_ip46_prefix, &vip->prefix, vip->plen, IP46_TYPE_ANY,
158              vip->new_flow_table_mask + 1,
159              pool_elts(vip->as_indexes),
160              (vip->flags & LB_VIP_FLAGS_USED)?"":" removed");
161
162   if (vip->port != 0)
163     {
164       s = format(s, "  protocol:%u port:%u ", vip->protocol, vip->port);
165     }
166
167   if (vip->type == LB_VIP_TYPE_IP4_L3DSR)
168     {
169       s = format(s, "  dscp:%u", vip->encap_args.dscp);
170     }
171   else if ((vip->type == LB_VIP_TYPE_IP4_NAT4)
172           || (vip->type == LB_VIP_TYPE_IP6_NAT6))
173     {
174       s = format (s, " type:%s port:%u target_port:%u",
175          (vip->encap_args.srv_type == LB_SRV_TYPE_CLUSTERIP)?"clusterip":
176              "nodeport",
177          ntohs(vip->port), ntohs(vip->encap_args.target_port));
178     }
179
180   return s;
181 }
182
183 u8 *format_lb_as (u8 * s, va_list * args)
184 {
185   lb_as_t *as = va_arg (*args, lb_as_t *);
186   return format(s, "%U %s", format_ip46_address,
187                 &as->address, IP46_TYPE_ANY,
188                 (as->flags & LB_AS_FLAGS_USED)?"used":"removed");
189 }
190
191 u8 *format_lb_vip_detailed (u8 * s, va_list * args)
192 {
193   lb_main_t *lbm = &lb_main;
194   lb_vip_t *vip = va_arg (*args, lb_vip_t *);
195   u32 indent = format_get_indent (s);
196
197   s = format(s, "%U %U [%lu] %U%s\n"
198                    "%U  new_size:%u\n",
199                   format_white_space, indent,
200                   format_lb_vip_type, vip->type,
201                   vip - lbm->vips,
202                   format_ip46_prefix, &vip->prefix, (u32) vip->plen, IP46_TYPE_ANY,
203                   (vip->flags & LB_VIP_FLAGS_USED)?"":" removed",
204                   format_white_space, indent,
205                   vip->new_flow_table_mask + 1);
206
207   if (vip->port != 0)
208     {
209       s = format(s, "%U  protocol:%u port:%u\n",
210                  format_white_space, indent,
211                  vip->protocol, vip->port);
212     }
213
214   if (vip->type == LB_VIP_TYPE_IP4_L3DSR)
215     {
216       s = format(s, "%U  dscp:%u\n",
217                     format_white_space, indent,
218                     vip->encap_args.dscp);
219     }
220   else if ((vip->type == LB_VIP_TYPE_IP4_NAT4)
221           || (vip->type == LB_VIP_TYPE_IP6_NAT6))
222     {
223       s = format (s, "%U  type:%s port:%u target_port:%u",
224          format_white_space, indent,
225          (vip->encap_args.srv_type == LB_SRV_TYPE_CLUSTERIP)?"clusterip":
226              "nodeport",
227          ntohs(vip->port), ntohs(vip->encap_args.target_port));
228     }
229
230   //Print counters
231   s = format(s, "%U  counters:\n",
232              format_white_space, indent);
233   u32 i;
234   for (i=0; i<LB_N_VIP_COUNTERS; i++)
235     s = format(s, "%U    %s: %Lu\n",
236                format_white_space, indent,
237                lbm->vip_counters[i].name,
238                vlib_get_simple_counter(&lbm->vip_counters[i], vip - lbm->vips));
239
240
241   s = format(s, "%U  #as:%u\n",
242              format_white_space, indent,
243              pool_elts(vip->as_indexes));
244
245   //Let's count the buckets for each AS
246   u32 *count = 0;
247   vec_validate(count, pool_len(lbm->ass)); //Possibly big alloc for not much...
248   lb_new_flow_entry_t *nfe;
249   vec_foreach(nfe, vip->new_flow_table)
250     count[nfe->as_index]++;
251
252   lb_as_t *as;
253   u32 *as_index;
254   pool_foreach(as_index, vip->as_indexes, {
255       as = &lbm->ass[*as_index];
256       s = format(s, "%U    %U %u buckets   %Lu flows  dpo:%u %s\n",
257                    format_white_space, indent,
258                    format_ip46_address, &as->address, IP46_TYPE_ANY,
259                    count[as - lbm->ass],
260                    vlib_refcount_get(&lbm->as_refcount, as - lbm->ass),
261                    as->dpo.dpoi_index,
262                    (as->flags & LB_AS_FLAGS_USED)?"used":" removed");
263   });
264
265   vec_free(count);
266   return s;
267 }
268
269 typedef struct {
270   u32 as_index;
271   u32 last;
272   u32 skip;
273 } lb_pseudorand_t;
274
275 static int lb_pseudorand_compare(void *a, void *b)
276 {
277   lb_as_t *asa, *asb;
278   lb_main_t *lbm = &lb_main;
279   asa = &lbm->ass[((lb_pseudorand_t *)a)->as_index];
280   asb = &lbm->ass[((lb_pseudorand_t *)b)->as_index];
281   return memcmp(&asa->address, &asb->address, sizeof(asb->address));
282 }
283
284 static void lb_vip_garbage_collection(lb_vip_t *vip)
285 {
286   lb_main_t *lbm = &lb_main;
287   lb_snat4_key_t m_key4;
288   clib_bihash_kv_8_8_t kv4, value4;
289   lb_snat6_key_t m_key6;
290   clib_bihash_kv_24_8_t kv6, value6;
291   lb_snat_mapping_t *m = 0;
292   ASSERT (lbm->writer_lock[0]);
293
294   u32 now = (u32) vlib_time_now(vlib_get_main());
295   if (!clib_u32_loop_gt(now, vip->last_garbage_collection + LB_GARBAGE_RUN))
296     return;
297
298   vip->last_garbage_collection = now;
299   lb_as_t *as;
300   u32 *as_index;
301   pool_foreach(as_index, vip->as_indexes, {
302       as = &lbm->ass[*as_index];
303       if (!(as->flags & LB_AS_FLAGS_USED) && //Not used
304           clib_u32_loop_gt(now, as->last_used + LB_CONCURRENCY_TIMEOUT) &&
305           (vlib_refcount_get(&lbm->as_refcount, as - lbm->ass) == 0))
306         { //Not referenced
307
308           if (lb_vip_is_nat4_port(vip)) {
309               m_key4.addr = as->address.ip4;
310               m_key4.port = vip->encap_args.target_port;
311               m_key4.protocol = 0;
312               m_key4.fib_index = 0;
313
314               kv4.key = m_key4.as_u64;
315               if(!clib_bihash_search_8_8(&lbm->mapping_by_as4, &kv4, &value4))
316                 m = pool_elt_at_index (lbm->snat_mappings, value4.value);
317               ASSERT (m);
318
319               kv4.value = m - lbm->snat_mappings;
320               clib_bihash_add_del_8_8(&lbm->mapping_by_as4, &kv4, 0);
321               pool_put (lbm->snat_mappings, m);
322           } else if (lb_vip_is_nat6_port(vip)) {
323               m_key6.addr.as_u64[0] = as->address.ip6.as_u64[0];
324               m_key6.addr.as_u64[1] = as->address.ip6.as_u64[1];
325               m_key6.port = vip->encap_args.target_port;
326               m_key6.protocol = 0;
327               m_key6.fib_index = 0;
328
329               kv6.key[0] = m_key6.as_u64[0];
330               kv6.key[1] = m_key6.as_u64[1];
331               kv6.key[2] = m_key6.as_u64[2];
332
333               if (!clib_bihash_search_24_8 (&lbm->mapping_by_as6, &kv6, &value6))
334                 m = pool_elt_at_index (lbm->snat_mappings, value6.value);
335               ASSERT (m);
336
337               kv6.value = m - lbm->snat_mappings;
338               clib_bihash_add_del_24_8(&lbm->mapping_by_as6, &kv6, 0);
339               pool_put (lbm->snat_mappings, m);
340           }
341           fib_entry_child_remove(as->next_hop_fib_entry_index,
342                                 as->next_hop_child_index);
343           fib_table_entry_delete_index(as->next_hop_fib_entry_index,
344                                        FIB_SOURCE_RR);
345           as->next_hop_fib_entry_index = FIB_NODE_INDEX_INVALID;
346
347           pool_put(vip->as_indexes, as_index);
348           pool_put(lbm->ass, as);
349         }
350   });
351 }
352
353 void lb_garbage_collection()
354 {
355   lb_main_t *lbm = &lb_main;
356   lb_get_writer_lock();
357   lb_vip_t *vip;
358   u32 *to_be_removed_vips = 0, *i;
359   pool_foreach(vip, lbm->vips, {
360       lb_vip_garbage_collection(vip);
361
362       if (!(vip->flags & LB_VIP_FLAGS_USED) &&
363           (pool_elts(vip->as_indexes) == 0)) {
364         vec_add1(to_be_removed_vips, vip - lbm->vips);
365       }
366   });
367
368   vec_foreach(i, to_be_removed_vips) {
369     vip = &lbm->vips[*i];
370     pool_put(lbm->vips, vip);
371     pool_free(vip->as_indexes);
372   }
373
374   vec_free(to_be_removed_vips);
375   lb_put_writer_lock();
376 }
377
378 static void lb_vip_update_new_flow_table(lb_vip_t *vip)
379 {
380   lb_main_t *lbm = &lb_main;
381   lb_new_flow_entry_t *old_table;
382   u32 i, *as_index;
383   lb_new_flow_entry_t *new_flow_table = 0;
384   lb_as_t *as;
385   lb_pseudorand_t *pr, *sort_arr = 0;
386
387   ASSERT (lbm->writer_lock[0]); //We must have the lock
388
389   //Check if some AS is configured or not
390   i = 0;
391   pool_foreach(as_index, vip->as_indexes, {
392       as = &lbm->ass[*as_index];
393       if (as->flags & LB_AS_FLAGS_USED) { //Not used anymore
394         i = 1;
395         goto out; //Not sure 'break' works in this macro-loop
396       }
397   });
398
399 out:
400   if (i == 0) {
401     //Only the default. i.e. no AS
402     vec_validate(new_flow_table, vip->new_flow_table_mask);
403     for (i=0; i<vec_len(new_flow_table); i++)
404       new_flow_table[i].as_index = 0;
405
406     goto finished;
407   }
408
409   //First, let's sort the ASs
410   vec_alloc(sort_arr, pool_elts(vip->as_indexes));
411
412   i = 0;
413   pool_foreach(as_index, vip->as_indexes, {
414       as = &lbm->ass[*as_index];
415       if (!(as->flags & LB_AS_FLAGS_USED)) //Not used anymore
416         continue;
417
418       sort_arr[i].as_index = as - lbm->ass;
419       i++;
420   });
421   _vec_len(sort_arr) = i;
422
423   vec_sort_with_function(sort_arr, lb_pseudorand_compare);
424
425   //Now let's pseudo-randomly generate permutations
426   vec_foreach(pr, sort_arr) {
427     lb_as_t *as = &lbm->ass[pr->as_index];
428
429     u64 seed = clib_xxhash(as->address.as_u64[0] ^
430                            as->address.as_u64[1]);
431     /* We have 2^n buckets.
432      * skip must be prime with 2^n.
433      * So skip must be odd.
434      * MagLev actually state that M should be prime,
435      * but this has a big computation cost (% operation).
436      * Using 2^n is more better (& operation).
437      */
438     pr->skip = ((seed & 0xffffffff) | 1) & vip->new_flow_table_mask;
439     pr->last = (seed >> 32) & vip->new_flow_table_mask;
440   }
441
442   //Let's create a new flow table
443   vec_validate(new_flow_table, vip->new_flow_table_mask);
444   for (i=0; i<vec_len(new_flow_table); i++)
445     new_flow_table[i].as_index = ~0;
446
447   u32 done = 0;
448   while (1) {
449     vec_foreach(pr, sort_arr) {
450       while (1) {
451         u32 last = pr->last;
452         pr->last = (pr->last + pr->skip) & vip->new_flow_table_mask;
453         if (new_flow_table[last].as_index == ~0) {
454           new_flow_table[last].as_index = pr->as_index;
455           break;
456         }
457       }
458       done++;
459       if (done == vec_len(new_flow_table))
460         goto finished;
461     }
462   }
463
464 finished:
465   vec_free(sort_arr);
466
467   old_table = vip->new_flow_table;
468   vip->new_flow_table = new_flow_table;
469   vec_free(old_table);
470 }
471
472 int lb_conf(ip4_address_t *ip4_address, ip6_address_t *ip6_address,
473            u32 per_cpu_sticky_buckets, u32 flow_timeout)
474 {
475   lb_main_t *lbm = &lb_main;
476
477   if (!is_pow2(per_cpu_sticky_buckets))
478     return VNET_API_ERROR_INVALID_MEMORY_SIZE;
479
480   lb_get_writer_lock(); //Not exactly necessary but just a reminder that it exists for my future self
481   lbm->ip4_src_address = *ip4_address;
482   lbm->ip6_src_address = *ip6_address;
483   lbm->per_cpu_sticky_buckets = per_cpu_sticky_buckets;
484   lbm->flow_timeout = flow_timeout;
485   lb_put_writer_lock();
486   return 0;
487 }
488
489
490
491 static
492 int lb_vip_port_find_index(ip46_address_t *prefix, u8 plen,
493                            u8 protocol, u16 port,
494                            lb_lkp_type_t lkp_type,
495                            u32 *vip_index)
496 {
497   lb_main_t *lbm = &lb_main;
498   lb_vip_t *vip;
499   ASSERT (lbm->writer_lock[0]); //This must be called with the lock owned
500   ip46_prefix_normalize(prefix, plen);
501   pool_foreach(vip, lbm->vips, {
502       if ((vip->flags & LB_AS_FLAGS_USED) &&
503           vip->plen == plen &&
504           vip->prefix.as_u64[0] == prefix->as_u64[0] &&
505           vip->prefix.as_u64[1] == prefix->as_u64[1])
506         {
507           if((lkp_type == LB_LKP_SAME_IP_PORT &&
508                vip->protocol == protocol &&
509                vip->port == port) ||
510              (lkp_type == LB_LKP_ALL_PORT_IP &&
511                vip->port == 0) ||
512              (lkp_type == LB_LKP_DIFF_IP_PORT &&
513                 (vip->protocol != protocol ||
514                 vip->port != port) ) )
515             {
516               *vip_index = vip - lbm->vips;
517               return 0;
518             }
519         }
520   });
521   return VNET_API_ERROR_NO_SUCH_ENTRY;
522 }
523
524 static
525 int lb_vip_port_find_index_with_lock(ip46_address_t *prefix, u8 plen,
526                                      u8 protocol, u16 port, u32 *vip_index)
527 {
528   return lb_vip_port_find_index(prefix, plen, protocol, port,
529                                 LB_LKP_SAME_IP_PORT, vip_index);
530 }
531
532 static
533 int lb_vip_port_find_all_port_vip(ip46_address_t *prefix, u8 plen,
534                                   u32 *vip_index)
535 {
536   return lb_vip_port_find_index(prefix, plen, ~0, 0,
537                                 LB_LKP_ALL_PORT_IP, vip_index);
538 }
539
540 /* Find out per-port-vip entry with different protocol and port */
541 static
542 int lb_vip_port_find_diff_port(ip46_address_t *prefix, u8 plen,
543                                u8 protocol, u16 port, u32 *vip_index)
544 {
545   return lb_vip_port_find_index(prefix, plen, protocol, port,
546                                 LB_LKP_DIFF_IP_PORT, vip_index);
547 }
548
549 int lb_vip_find_index(ip46_address_t *prefix, u8 plen, u8 protocol,
550                       u16 port, u32 *vip_index)
551 {
552   int ret;
553   lb_get_writer_lock();
554   ret = lb_vip_port_find_index_with_lock(prefix, plen,
555                                          protocol, port, vip_index);
556   lb_put_writer_lock();
557   return ret;
558 }
559
560 static int lb_as_find_index_vip(lb_vip_t *vip, ip46_address_t *address, u32 *as_index)
561 {
562   lb_main_t *lbm = &lb_main;
563   ASSERT (lbm->writer_lock[0]); //This must be called with the lock owned
564   lb_as_t *as;
565   u32 *asi;
566   pool_foreach(asi, vip->as_indexes, {
567       as = &lbm->ass[*asi];
568       if (as->vip_index == (vip - lbm->vips) &&
569           as->address.as_u64[0] == address->as_u64[0] &&
570           as->address.as_u64[1] == address->as_u64[1])
571       {
572         *as_index = as - lbm->ass;
573         return 0;
574       }
575   });
576   return -1;
577 }
578
579 int lb_vip_add_ass(u32 vip_index, ip46_address_t *addresses, u32 n)
580 {
581   lb_main_t *lbm = &lb_main;
582   lb_get_writer_lock();
583   lb_vip_t *vip;
584   if (!(vip = lb_vip_get_by_index(vip_index))) {
585     lb_put_writer_lock();
586     return VNET_API_ERROR_NO_SUCH_ENTRY;
587   }
588
589   ip46_type_t type = lb_encap_is_ip4(vip)?IP46_TYPE_IP4:IP46_TYPE_IP6;
590   u32 *to_be_added = 0;
591   u32 *to_be_updated = 0;
592   u32 i;
593   u32 *ip;
594   lb_snat_mapping_t *m;
595
596   //Sanity check
597   while (n--) {
598
599     if (!lb_as_find_index_vip(vip, &addresses[n], &i)) {
600       if (lbm->ass[i].flags & LB_AS_FLAGS_USED) {
601         vec_free(to_be_added);
602         vec_free(to_be_updated);
603         lb_put_writer_lock();
604         return VNET_API_ERROR_VALUE_EXIST;
605       }
606       vec_add1(to_be_updated, i);
607       goto next;
608     }
609
610     if (ip46_address_type(&addresses[n]) != type) {
611       vec_free(to_be_added);
612       vec_free(to_be_updated);
613       lb_put_writer_lock();
614       return VNET_API_ERROR_INVALID_ADDRESS_FAMILY;
615     }
616
617     if (n) {
618       u32 n2 = n;
619       while(n2--) //Check for duplicates
620         if (addresses[n2].as_u64[0] == addresses[n].as_u64[0] &&
621             addresses[n2].as_u64[1] == addresses[n].as_u64[1])
622           goto next;
623     }
624
625     vec_add1(to_be_added, n);
626
627 next:
628     continue;
629   }
630
631   //Update reused ASs
632   vec_foreach(ip, to_be_updated) {
633     lbm->ass[*ip].flags = LB_AS_FLAGS_USED;
634   }
635   vec_free(to_be_updated);
636
637   //Create those who have to be created
638   vec_foreach(ip, to_be_added) {
639     lb_as_t *as;
640     u32 *as_index;
641     pool_get(lbm->ass, as);
642     as->address = addresses[*ip];
643     as->flags = LB_AS_FLAGS_USED;
644     as->vip_index = vip_index;
645     pool_get(vip->as_indexes, as_index);
646     *as_index = as - lbm->ass;
647
648     /*
649      * become a child of the FIB entry
650      * so we are informed when its forwarding changes
651      */
652     fib_prefix_t nh = {};
653     if (lb_encap_is_ip4(vip)) {
654         nh.fp_addr.ip4 = as->address.ip4;
655         nh.fp_len = 32;
656         nh.fp_proto = FIB_PROTOCOL_IP4;
657     } else {
658         nh.fp_addr.ip6 = as->address.ip6;
659         nh.fp_len = 128;
660         nh.fp_proto = FIB_PROTOCOL_IP6;
661     }
662
663     as->next_hop_fib_entry_index =
664         fib_table_entry_special_add(0,
665                                     &nh,
666                                     FIB_SOURCE_RR,
667                                     FIB_ENTRY_FLAG_NONE);
668     as->next_hop_child_index =
669         fib_entry_child_add(as->next_hop_fib_entry_index,
670                             lbm->fib_node_type,
671                             as - lbm->ass);
672
673     lb_as_stack(as);
674
675     if ( lb_vip_is_nat4_port(vip) || lb_vip_is_nat6_port(vip) )
676       {
677         /* Add SNAT static mapping */
678         pool_get (lbm->snat_mappings, m);
679         clib_memset (m, 0, sizeof (*m));
680         if (lb_vip_is_nat4_port(vip)) {
681             lb_snat4_key_t m_key4;
682             clib_bihash_kv_8_8_t kv4;
683             m_key4.addr = as->address.ip4;
684             m_key4.port = vip->encap_args.target_port;
685             m_key4.protocol = 0;
686             m_key4.fib_index = 0;
687
688             if (vip->encap_args.srv_type == LB_SRV_TYPE_CLUSTERIP)
689               {
690                 m->src_ip.ip4 = vip->prefix.ip4;
691               }
692             else if (vip->encap_args.srv_type == LB_SRV_TYPE_NODEPORT)
693               {
694                 m->src_ip.ip4 = lbm->ip4_src_address;
695               }
696             m->src_ip_is_ipv6 = 0;
697             m->as_ip.ip4 = as->address.ip4;
698             m->as_ip_is_ipv6 = 0;
699             m->src_port = vip->port;
700             m->target_port = vip->encap_args.target_port;
701             m->vrf_id = 0;
702             m->fib_index = 0;
703
704             kv4.key = m_key4.as_u64;
705             kv4.value = m - lbm->snat_mappings;
706             clib_bihash_add_del_8_8(&lbm->mapping_by_as4, &kv4, 1);
707         } else {
708             lb_snat6_key_t m_key6;
709             clib_bihash_kv_24_8_t kv6;
710             m_key6.addr.as_u64[0] = as->address.ip6.as_u64[0];
711             m_key6.addr.as_u64[1] = as->address.ip6.as_u64[1];
712             m_key6.port = vip->encap_args.target_port;
713             m_key6.protocol = 0;
714             m_key6.fib_index = 0;
715
716             if (vip->encap_args.srv_type == LB_SRV_TYPE_CLUSTERIP)
717               {
718                 m->src_ip.ip6.as_u64[0] = vip->prefix.ip6.as_u64[0];
719                 m->src_ip.ip6.as_u64[1] = vip->prefix.ip6.as_u64[1];
720               }
721             else if (vip->encap_args.srv_type == LB_SRV_TYPE_NODEPORT)
722               {
723                 m->src_ip.ip6.as_u64[0] = lbm->ip6_src_address.as_u64[0];
724                 m->src_ip.ip6.as_u64[1] = lbm->ip6_src_address.as_u64[1];
725               }
726             m->src_ip_is_ipv6 = 1;
727             m->as_ip.ip6.as_u64[0] = as->address.ip6.as_u64[0];
728             m->as_ip.ip6.as_u64[1] = as->address.ip6.as_u64[1];
729             m->as_ip_is_ipv6 = 1;
730             m->src_port = vip->port;
731             m->target_port = vip->encap_args.target_port;
732             m->vrf_id = 0;
733             m->fib_index = 0;
734
735             kv6.key[0] = m_key6.as_u64[0];
736             kv6.key[1] = m_key6.as_u64[1];
737             kv6.key[2] = m_key6.as_u64[2];
738             kv6.value = m - lbm->snat_mappings;
739             clib_bihash_add_del_24_8(&lbm->mapping_by_as6, &kv6, 1);
740         }
741       }
742   }
743   vec_free(to_be_added);
744
745   //Recompute flows
746   lb_vip_update_new_flow_table(vip);
747
748   //Garbage collection maybe
749   lb_vip_garbage_collection(vip);
750
751   lb_put_writer_lock();
752   return 0;
753 }
754
755 int
756 lb_flush_vip_as (u32 vip_index, u32 as_index)
757 {
758   u32 thread_index;
759   vlib_thread_main_t *tm = vlib_get_thread_main();
760   lb_main_t *lbm = &lb_main;
761
762   for(thread_index = 0; thread_index < tm->n_vlib_mains; thread_index++ ) {
763     lb_hash_t *h = lbm->per_cpu[thread_index].sticky_ht;
764     if (h != NULL) {
765         u32 i;
766         lb_hash_bucket_t *b;
767
768         lb_hash_foreach_entry(h, b, i) {
769           if ((vip_index == ~0)
770               || ((b->vip[i] == vip_index) && (as_index == ~0))
771               || ((b->vip[i] == vip_index) && (b->value[i] == as_index)))
772             {
773               vlib_refcount_add(&lbm->as_refcount, thread_index, b->value[i], -1);
774               vlib_refcount_add(&lbm->as_refcount, thread_index, 0, 1);
775               b->vip[i] = ~0;
776               b->value[i] = ~0;
777             }
778         }
779         if (vip_index == ~0)
780           {
781             lb_hash_free(h);
782             lbm->per_cpu[thread_index].sticky_ht = 0;
783           }
784       }
785     }
786
787   return 0;
788 }
789
790 int lb_vip_del_ass_withlock(u32 vip_index, ip46_address_t *addresses, u32 n,
791                             u8 flush)
792 {
793   lb_main_t *lbm = &lb_main;
794   u32 now = (u32) vlib_time_now(vlib_get_main());
795   u32 *ip = 0;
796   u32 as_index = 0;
797
798   lb_vip_t *vip;
799   if (!(vip = lb_vip_get_by_index(vip_index))) {
800     return VNET_API_ERROR_NO_SUCH_ENTRY;
801   }
802
803   u32 *indexes = NULL;
804   while (n--) {
805     if (lb_as_find_index_vip(vip, &addresses[n], &as_index)) {
806       vec_free(indexes);
807       return VNET_API_ERROR_NO_SUCH_ENTRY;
808     }
809
810     if (n) { //Check for duplicates
811       u32 n2 = n - 1;
812       while(n2--) {
813         if (addresses[n2].as_u64[0] == addresses[n].as_u64[0] &&
814             addresses[n2].as_u64[1] == addresses[n].as_u64[1])
815           goto next;
816       }
817     }
818
819     vec_add1(indexes, as_index);
820 next:
821   continue;
822   }
823
824   //Garbage collection maybe
825   lb_vip_garbage_collection(vip);
826
827   if (indexes != NULL) {
828     vec_foreach(ip, indexes) {
829       lbm->ass[*ip].flags &= ~LB_AS_FLAGS_USED;
830       lbm->ass[*ip].last_used = now;
831
832       if(flush)
833         {
834           /* flush flow table for deleted ASs*/
835           lb_flush_vip_as(vip_index, *ip);
836         }
837     }
838
839     //Recompute flows
840     lb_vip_update_new_flow_table(vip);
841   }
842
843   vec_free(indexes);
844   return 0;
845 }
846
847 int lb_vip_del_ass(u32 vip_index, ip46_address_t *addresses, u32 n, u8 flush)
848 {
849   lb_get_writer_lock();
850   int ret = lb_vip_del_ass_withlock(vip_index, addresses, n, flush);
851   lb_put_writer_lock();
852
853   return ret;
854 }
855
856 static int
857 lb_vip_prefix_index_alloc (lb_main_t *lbm)
858 {
859   /*
860    * Check for dynamically allocaetd instance number.
861    */
862   u32 bit;
863
864   bit = clib_bitmap_first_clear (lbm->vip_prefix_indexes);
865
866   lbm->vip_prefix_indexes = clib_bitmap_set(lbm->vip_prefix_indexes, bit, 1);
867
868   return bit;
869 }
870
871 static int
872 lb_vip_prefix_index_free (lb_main_t *lbm, u32 instance)
873 {
874
875   if (clib_bitmap_get (lbm->vip_prefix_indexes, instance) == 0)
876     {
877       return -1;
878     }
879
880   lbm->vip_prefix_indexes = clib_bitmap_set (lbm->vip_prefix_indexes,
881                                              instance, 0);
882
883   return 0;
884 }
885
886 /**
887  * Add the VIP adjacency to the ip4 or ip6 fib
888  */
889 static void lb_vip_add_adjacency(lb_main_t *lbm, lb_vip_t *vip,
890                                  u32 *vip_prefix_index)
891 {
892   dpo_proto_t proto = 0;
893   dpo_type_t dpo_type = 0;
894   u32 vip_idx = 0;
895
896   if (vip->port != 0)
897     {
898       /* for per-port vip, if VIP adjacency has been added,
899        * no need to add adjacency. */
900       if (!lb_vip_port_find_diff_port(&(vip->prefix), vip->plen,
901                                       vip->protocol, vip->port, &vip_idx))
902         {
903           return;
904         }
905
906       /* Allocate an index for per-port vip */
907       *vip_prefix_index = lb_vip_prefix_index_alloc(lbm);
908     }
909   else
910     {
911       *vip_prefix_index = vip - lbm->vips;
912     }
913
914   dpo_id_t dpo = DPO_INVALID;
915   fib_prefix_t pfx = {};
916   if (lb_vip_is_ip4(vip->type)) {
917       pfx.fp_addr.ip4 = vip->prefix.ip4;
918       pfx.fp_len = vip->plen - 96;
919       pfx.fp_proto = FIB_PROTOCOL_IP4;
920       proto = DPO_PROTO_IP4;
921   } else {
922       pfx.fp_addr.ip6 = vip->prefix.ip6;
923       pfx.fp_len = vip->plen;
924       pfx.fp_proto = FIB_PROTOCOL_IP6;
925       proto = DPO_PROTO_IP6;
926   }
927
928   if (lb_vip_is_gre4(vip))
929     dpo_type = lbm->dpo_gre4_type;
930   else if (lb_vip_is_gre6(vip))
931     dpo_type = lbm->dpo_gre6_type;
932   else if (lb_vip_is_gre4_port(vip))
933     dpo_type = lbm->dpo_gre4_port_type;
934   else if (lb_vip_is_gre6_port(vip))
935     dpo_type = lbm->dpo_gre6_port_type;
936   else if (lb_vip_is_l3dsr(vip))
937     dpo_type = lbm->dpo_l3dsr_type;
938   else if (lb_vip_is_l3dsr_port(vip))
939     dpo_type = lbm->dpo_l3dsr_port_type;
940   else if(lb_vip_is_nat4_port(vip))
941     dpo_type = lbm->dpo_nat4_port_type;
942   else if (lb_vip_is_nat6_port(vip))
943     dpo_type = lbm->dpo_nat6_port_type;
944
945   dpo_set(&dpo, dpo_type, proto, *vip_prefix_index);
946   fib_table_entry_special_dpo_add(0,
947                                   &pfx,
948                                   FIB_SOURCE_PLUGIN_HI,
949                                   FIB_ENTRY_FLAG_EXCLUSIVE,
950                                   &dpo);
951   dpo_reset(&dpo);
952 }
953
954 /**
955  * Add the VIP filter entry
956  */
957 static int lb_vip_add_port_filter(lb_main_t *lbm, lb_vip_t *vip,
958                                   u32 vip_prefix_index, u32 vip_idx)
959 {
960   vip_port_key_t key;
961   clib_bihash_kv_8_8_t kv;
962
963   key.vip_prefix_index = vip_prefix_index;
964   key.protocol = vip->protocol;
965   key.port = clib_host_to_net_u16(vip->port);
966   key.rsv = 0;
967
968   kv.key = key.as_u64;
969   kv.value = vip_idx;
970   clib_bihash_add_del_8_8(&lbm->vip_index_per_port, &kv, 1);
971
972   return 0;
973 }
974
975 /**
976  * Del the VIP filter entry
977  */
978 static int lb_vip_del_port_filter(lb_main_t *lbm, lb_vip_t *vip)
979 {
980   vip_port_key_t key;
981   clib_bihash_kv_8_8_t kv, value;
982   lb_vip_t *m = 0;
983
984   key.vip_prefix_index = vip->vip_prefix_index;
985   key.protocol = vip->protocol;
986   key.port = clib_host_to_net_u16(vip->port);
987   key.rsv = 0;
988
989   kv.key = key.as_u64;
990   if(clib_bihash_search_8_8(&lbm->vip_index_per_port, &kv, &value) != 0)
991     {
992       clib_warning("looking up vip_index_per_port failed.");
993       return VNET_API_ERROR_NO_SUCH_ENTRY;
994     }
995   m = pool_elt_at_index (lbm->vips, value.value);
996   ASSERT (m);
997
998   kv.value = m - lbm->vips;
999   clib_bihash_add_del_8_8(&lbm->vip_index_per_port, &kv, 0);
1000
1001   return 0;
1002 }
1003
1004 /**
1005  * Deletes the adjacency associated with the VIP
1006  */
1007 static void lb_vip_del_adjacency(lb_main_t *lbm, lb_vip_t *vip)
1008 {
1009   fib_prefix_t pfx = {};
1010   u32 vip_idx = 0;
1011
1012   if (vip->port != 0)
1013     {
1014       /* If this vip adjacency is used by other per-port vip,
1015        * no need to del this adjacency. */
1016       if (!lb_vip_port_find_diff_port(&(vip->prefix), vip->plen,
1017                                       vip->protocol, vip->port, &vip_idx))
1018         {
1019           lb_put_writer_lock();
1020           return;
1021         }
1022
1023       /* Return vip_prefix_index for per-port vip */
1024       lb_vip_prefix_index_free(lbm, vip->vip_prefix_index);
1025
1026     }
1027
1028   if (lb_vip_is_ip4(vip->type)) {
1029       pfx.fp_addr.ip4 = vip->prefix.ip4;
1030       pfx.fp_len = vip->plen - 96;
1031       pfx.fp_proto = FIB_PROTOCOL_IP4;
1032   } else {
1033       pfx.fp_addr.ip6 = vip->prefix.ip6;
1034       pfx.fp_len = vip->plen;
1035       pfx.fp_proto = FIB_PROTOCOL_IP6;
1036   }
1037   fib_table_entry_special_remove(0, &pfx, FIB_SOURCE_PLUGIN_HI);
1038 }
1039
1040 int lb_vip_add(lb_vip_add_args_t args, u32 *vip_index)
1041 {
1042   lb_main_t *lbm = &lb_main;
1043   vlib_main_t *vm = vlib_get_main();
1044   lb_vip_t *vip;
1045   lb_vip_type_t type = args.type;
1046   u32 vip_prefix_index = 0;
1047
1048   lb_get_writer_lock();
1049   ip46_prefix_normalize(&(args.prefix), args.plen);
1050
1051   if (!lb_vip_port_find_index_with_lock(&(args.prefix), args.plen,
1052                                          args.protocol, args.port,
1053                                          vip_index))
1054     {
1055       lb_put_writer_lock();
1056       return VNET_API_ERROR_VALUE_EXIST;
1057     }
1058
1059   /* Make sure we can't add a per-port VIP entry
1060    * when there already is an all-port VIP for the same prefix. */
1061   if ((args.port != 0) &&
1062       !lb_vip_port_find_all_port_vip(&(args.prefix), args.plen, vip_index))
1063     {
1064       lb_put_writer_lock();
1065       return VNET_API_ERROR_VALUE_EXIST;
1066     }
1067
1068   /* Make sure we can't add a all-port VIP entry
1069    * when there already is an per-port VIP for the same prefix. */
1070   if ((args.port == 0) &&
1071       !lb_vip_port_find_diff_port(&(args.prefix), args.plen,
1072                                   args.protocol, args.port, vip_index))
1073     {
1074       lb_put_writer_lock();
1075       return VNET_API_ERROR_VALUE_EXIST;
1076     }
1077
1078   /* Make sure all VIP for a given prefix (using different ports) have the same type. */
1079   if ((args.port != 0) &&
1080       !lb_vip_port_find_diff_port(&(args.prefix), args.plen,
1081                                   args.protocol, args.port, vip_index)
1082       && (args.type != lbm->vips[*vip_index].type))
1083     {
1084       lb_put_writer_lock();
1085       return VNET_API_ERROR_INVALID_ARGUMENT;
1086     }
1087
1088   if (!is_pow2(args.new_length)) {
1089     lb_put_writer_lock();
1090     return VNET_API_ERROR_INVALID_MEMORY_SIZE;
1091   }
1092
1093   if (ip46_prefix_is_ip4(&(args.prefix), args.plen) &&
1094       !lb_vip_is_ip4(type)) {
1095     lb_put_writer_lock();
1096     return VNET_API_ERROR_INVALID_ADDRESS_FAMILY;
1097   }
1098
1099   if ((!ip46_prefix_is_ip4(&(args.prefix), args.plen)) &&
1100       !lb_vip_is_ip6(type)) {
1101     lb_put_writer_lock();
1102     return VNET_API_ERROR_INVALID_ADDRESS_FAMILY;
1103   }
1104
1105   if ((type == LB_VIP_TYPE_IP4_L3DSR) &&
1106       (args.encap_args.dscp >= 64) )
1107     {
1108       lb_put_writer_lock();
1109       return VNET_API_ERROR_VALUE_EXIST;
1110     }
1111
1112   //Allocate
1113   pool_get(lbm->vips, vip);
1114
1115   //Init
1116   memcpy (&(vip->prefix), &(args.prefix), sizeof(args.prefix));
1117   vip->plen = args.plen;
1118   if (args.port != 0)
1119     {
1120       vip->protocol = args.protocol;
1121       vip->port = args.port;
1122     }
1123   else
1124     {
1125       vip->protocol = (u8)~0;
1126       vip->port = 0;
1127     }
1128   vip->last_garbage_collection = (u32) vlib_time_now(vlib_get_main());
1129   vip->type = args.type;
1130
1131   if (args.type == LB_VIP_TYPE_IP4_L3DSR) {
1132       vip->encap_args.dscp = args.encap_args.dscp;
1133     }
1134   else if ((args.type == LB_VIP_TYPE_IP4_NAT4)
1135            ||(args.type == LB_VIP_TYPE_IP6_NAT6)) {
1136       vip->encap_args.srv_type = args.encap_args.srv_type;
1137       vip->encap_args.target_port =
1138           clib_host_to_net_u16(args.encap_args.target_port);
1139     }
1140
1141   vip->flags = LB_VIP_FLAGS_USED;
1142   vip->as_indexes = 0;
1143
1144   //Validate counters
1145   u32 i;
1146   for (i = 0; i < LB_N_VIP_COUNTERS; i++) {
1147     vlib_validate_simple_counter(&lbm->vip_counters[i], vip - lbm->vips);
1148     vlib_zero_simple_counter(&lbm->vip_counters[i], vip - lbm->vips);
1149   }
1150
1151   //Configure new flow table
1152   vip->new_flow_table_mask = args.new_length - 1;
1153   vip->new_flow_table = 0;
1154
1155   //Update flow hash table
1156   lb_vip_update_new_flow_table(vip);
1157
1158   //Create adjacency to direct traffic
1159   lb_vip_add_adjacency(lbm, vip, &vip_prefix_index);
1160
1161   if ( (lb_vip_is_nat4_port(vip) || lb_vip_is_nat6_port(vip))
1162       && (args.encap_args.srv_type == LB_SRV_TYPE_NODEPORT) )
1163     {
1164       u32 key;
1165       uword * entry;
1166
1167       //Create maping from nodeport to vip_index
1168       key = clib_host_to_net_u16(args.port);
1169       entry = hash_get_mem (lbm->vip_index_by_nodeport, &key);
1170       if (entry) {
1171         lb_put_writer_lock();
1172         return VNET_API_ERROR_VALUE_EXIST;
1173       }
1174
1175       hash_set_mem (lbm->vip_index_by_nodeport, &key, vip - lbm->vips);
1176
1177       /* receive packets destined to NodeIP:NodePort */
1178       udp_register_dst_port (vm, args.port, lb4_nodeport_node.index, 1);
1179       udp_register_dst_port (vm, args.port, lb6_nodeport_node.index, 0);
1180     }
1181
1182   *vip_index = vip - lbm->vips;
1183   //Create per-port vip filtering table
1184   if (args.port != 0)
1185     {
1186       lb_vip_add_port_filter(lbm, vip, vip_prefix_index, *vip_index);
1187       vip->vip_prefix_index = vip_prefix_index;
1188     }
1189
1190   lb_put_writer_lock();
1191   return 0;
1192 }
1193
1194 int lb_vip_del(u32 vip_index)
1195 {
1196   lb_main_t *lbm = &lb_main;
1197   lb_vip_t *vip;
1198   int rv = 0;
1199
1200   /* Does not remove default vip, i.e. vip_index = 0 */
1201   if (vip_index == 0)
1202     return VNET_API_ERROR_INVALID_VALUE;
1203
1204   lb_get_writer_lock();
1205   if (!(vip = lb_vip_get_by_index(vip_index))) {
1206     lb_put_writer_lock();
1207     return VNET_API_ERROR_NO_SUCH_ENTRY;
1208   }
1209
1210   //FIXME: This operation is actually not working
1211   //We will need to remove state before performing this.
1212
1213   {
1214     //Remove all ASs
1215     ip46_address_t *ass = 0;
1216     lb_as_t *as;
1217     u32 *as_index;
1218
1219     pool_foreach(as_index, vip->as_indexes, {
1220         as = &lbm->ass[*as_index];
1221         vec_add1(ass, as->address);
1222     });
1223     if (vec_len(ass))
1224       lb_vip_del_ass_withlock(vip_index, ass, vec_len(ass), 0);
1225     vec_free(ass);
1226   }
1227
1228   //Delete adjacency
1229   lb_vip_del_adjacency(lbm, vip);
1230
1231   //Delete per-port vip filtering entry
1232   if (vip->port != 0)
1233     {
1234       rv = lb_vip_del_port_filter(lbm, vip);
1235     }
1236
1237   //Set the VIP as unused
1238   vip->flags &= ~LB_VIP_FLAGS_USED;
1239
1240   lb_put_writer_lock();
1241   return rv;
1242 }
1243
1244 /* *INDENT-OFF* */
1245 VLIB_PLUGIN_REGISTER () = {
1246     .version = VPP_BUILD_VER,
1247     .description = "Load Balancer (LB)",
1248 };
1249 /* *INDENT-ON* */
1250
1251 u8 *format_lb_dpo (u8 * s, va_list * va)
1252 {
1253   index_t index = va_arg (*va, index_t);
1254   CLIB_UNUSED(u32 indent) = va_arg (*va, u32);
1255   lb_main_t *lbm = &lb_main;
1256   lb_vip_t *vip = pool_elt_at_index (lbm->vips, index);
1257   return format (s, "%U", format_lb_vip, vip);
1258 }
1259
1260 static void lb_dpo_lock (dpo_id_t *dpo) {}
1261 static void lb_dpo_unlock (dpo_id_t *dpo) {}
1262
1263 static fib_node_t *
1264 lb_fib_node_get_node (fib_node_index_t index)
1265 {
1266   lb_main_t *lbm = &lb_main;
1267   lb_as_t *as = pool_elt_at_index (lbm->ass, index);
1268   return (&as->fib_node);
1269 }
1270
1271 static void
1272 lb_fib_node_last_lock_gone (fib_node_t *node)
1273 {
1274 }
1275
1276 static lb_as_t *
1277 lb_as_from_fib_node (fib_node_t *node)
1278 {
1279   return ((lb_as_t*)(((char*)node) -
1280       STRUCT_OFFSET_OF(lb_as_t, fib_node)));
1281 }
1282
1283 static void
1284 lb_as_stack (lb_as_t *as)
1285 {
1286   lb_main_t *lbm = &lb_main;
1287   lb_vip_t *vip = &lbm->vips[as->vip_index];
1288   dpo_type_t dpo_type = 0;
1289
1290   if (lb_vip_is_gre4(vip))
1291     dpo_type = lbm->dpo_gre4_type;
1292   else if (lb_vip_is_gre6(vip))
1293     dpo_type = lbm->dpo_gre6_type;
1294   else if (lb_vip_is_gre4_port(vip))
1295     dpo_type = lbm->dpo_gre4_port_type;
1296   else if (lb_vip_is_gre6_port(vip))
1297     dpo_type = lbm->dpo_gre6_port_type;
1298   else if (lb_vip_is_l3dsr(vip))
1299     dpo_type = lbm->dpo_l3dsr_type;
1300   else if (lb_vip_is_l3dsr_port(vip))
1301     dpo_type = lbm->dpo_l3dsr_port_type;
1302   else if(lb_vip_is_nat4_port(vip))
1303     dpo_type = lbm->dpo_nat4_port_type;
1304   else if (lb_vip_is_nat6_port(vip))
1305     dpo_type = lbm->dpo_nat6_port_type;
1306
1307   dpo_stack(dpo_type,
1308             lb_vip_is_ip4(vip->type)?DPO_PROTO_IP4:DPO_PROTO_IP6,
1309             &as->dpo,
1310             fib_entry_contribute_ip_forwarding(
1311                 as->next_hop_fib_entry_index));
1312 }
1313
1314 static fib_node_back_walk_rc_t
1315 lb_fib_node_back_walk_notify (fib_node_t *node,
1316                  fib_node_back_walk_ctx_t *ctx)
1317 {
1318     lb_as_stack(lb_as_from_fib_node(node));
1319     return (FIB_NODE_BACK_WALK_CONTINUE);
1320 }
1321
1322 int lb_nat4_interface_add_del (u32 sw_if_index, int is_del)
1323 {
1324   if (is_del)
1325     {
1326       vnet_feature_enable_disable ("ip4-unicast", "lb-nat4-in2out",
1327                                    sw_if_index, 0, 0, 0);
1328     }
1329   else
1330     {
1331       vnet_feature_enable_disable ("ip4-unicast", "lb-nat4-in2out",
1332                                    sw_if_index, 1, 0, 0);
1333     }
1334
1335   return 0;
1336 }
1337
1338 int lb_nat6_interface_add_del (u32 sw_if_index, int is_del)
1339 {
1340   if (is_del)
1341     {
1342       vnet_feature_enable_disable ("ip6-unicast", "lb-nat6-in2out",
1343                                    sw_if_index, 0, 0, 0);
1344     }
1345   else
1346     {
1347       vnet_feature_enable_disable ("ip6-unicast", "lb-nat6-in2out",
1348                                    sw_if_index, 1, 0, 0);
1349     }
1350
1351   return 0;
1352 }
1353
1354 clib_error_t *
1355 lb_init (vlib_main_t * vm)
1356 {
1357   vlib_thread_main_t *tm = vlib_get_thread_main ();
1358   lb_main_t *lbm = &lb_main;
1359   lbm->vnet_main = vnet_get_main ();
1360   lbm->vlib_main = vm;
1361
1362   lb_vip_t *default_vip;
1363   lb_as_t *default_as;
1364   fib_node_vft_t lb_fib_node_vft = {
1365       .fnv_get = lb_fib_node_get_node,
1366       .fnv_last_lock = lb_fib_node_last_lock_gone,
1367       .fnv_back_walk = lb_fib_node_back_walk_notify,
1368   };
1369   dpo_vft_t lb_vft = {
1370       .dv_lock = lb_dpo_lock,
1371       .dv_unlock = lb_dpo_unlock,
1372       .dv_format = format_lb_dpo,
1373   };
1374
1375   //Allocate and init default VIP.
1376   lbm->vips = 0;
1377   pool_get(lbm->vips, default_vip);
1378   default_vip->prefix.ip6.as_u64[0] = 0xffffffffffffffffL;
1379   default_vip->prefix.ip6.as_u64[1] = 0xffffffffffffffffL;
1380   default_vip->protocol = ~0;
1381   default_vip->port = 0;
1382   default_vip->flags = LB_VIP_FLAGS_USED;
1383
1384   lbm->per_cpu = 0;
1385   vec_validate(lbm->per_cpu, tm->n_vlib_mains - 1);
1386   lbm->writer_lock = clib_mem_alloc_aligned (CLIB_CACHE_LINE_BYTES,  CLIB_CACHE_LINE_BYTES);
1387   lbm->writer_lock[0] = 0;
1388   lbm->per_cpu_sticky_buckets = LB_DEFAULT_PER_CPU_STICKY_BUCKETS;
1389   lbm->flow_timeout = LB_DEFAULT_FLOW_TIMEOUT;
1390   lbm->ip4_src_address.as_u32 = 0xffffffff;
1391   lbm->ip6_src_address.as_u64[0] = 0xffffffffffffffffL;
1392   lbm->ip6_src_address.as_u64[1] = 0xffffffffffffffffL;
1393   lbm->dpo_gre4_type = dpo_register_new_type(&lb_vft, lb_dpo_gre4_nodes);
1394   lbm->dpo_gre6_type = dpo_register_new_type(&lb_vft, lb_dpo_gre6_nodes);
1395   lbm->dpo_gre4_port_type = dpo_register_new_type(&lb_vft,
1396                                                   lb_dpo_gre4_port_nodes);
1397   lbm->dpo_gre6_port_type = dpo_register_new_type(&lb_vft,
1398                                                   lb_dpo_gre6_port_nodes);
1399   lbm->dpo_l3dsr_type = dpo_register_new_type(&lb_vft,
1400                                               lb_dpo_l3dsr_nodes);
1401   lbm->dpo_l3dsr_port_type = dpo_register_new_type(&lb_vft,
1402                                                    lb_dpo_l3dsr_port_nodes);
1403   lbm->dpo_nat4_port_type = dpo_register_new_type(&lb_vft,
1404                                                   lb_dpo_nat4_port_nodes);
1405   lbm->dpo_nat6_port_type = dpo_register_new_type(&lb_vft,
1406                                                   lb_dpo_nat6_port_nodes);
1407   lbm->fib_node_type = fib_node_register_new_type(&lb_fib_node_vft);
1408
1409   //Init AS reference counters
1410   vlib_refcount_init(&lbm->as_refcount);
1411
1412   //Allocate and init default AS.
1413   lbm->ass = 0;
1414   pool_get(lbm->ass, default_as);
1415   default_as->flags = 0;
1416   default_as->dpo.dpoi_next_node = LB_NEXT_DROP;
1417   default_as->vip_index = ~0;
1418   default_as->address.ip6.as_u64[0] = 0xffffffffffffffffL;
1419   default_as->address.ip6.as_u64[1] = 0xffffffffffffffffL;
1420
1421   lbm->vip_index_by_nodeport
1422     = hash_create_mem (0, sizeof(u16), sizeof (uword));
1423
1424   clib_bihash_init_8_8 (&lbm->vip_index_per_port,
1425                         "vip_index_per_port", LB_VIP_PER_PORT_BUCKETS,
1426                         LB_VIP_PER_PORT_MEMORY_SIZE);
1427
1428   clib_bihash_init_8_8 (&lbm->mapping_by_as4,
1429                         "mapping_by_as4", LB_MAPPING_BUCKETS,
1430                         LB_MAPPING_MEMORY_SIZE);
1431
1432   clib_bihash_init_24_8 (&lbm->mapping_by_as6,
1433                         "mapping_by_as6", LB_MAPPING_BUCKETS,
1434                         LB_MAPPING_MEMORY_SIZE);
1435
1436 #define _(a,b,c) lbm->vip_counters[c].name = b;
1437   lb_foreach_vip_counter
1438 #undef _
1439   return NULL;
1440 }
1441
1442 VLIB_INIT_FUNCTION (lb_init);