ip: Replace Sematics for Interface IP addresses
[vpp.git] / src / plugins / lb / lb.h
1 /*
2  * Copyright (c) 2016 Cisco and/or its affiliates.
3  * Licensed under the Apache License, Version 2.0 (the "License");
4  * you may not use this file except in compliance with the License.
5  * You may obtain a copy of the License at:
6  *
7  *     http://www.apache.org/licenses/LICENSE-2.0
8  *
9  * Unless required by applicable law or agreed to in writing, software
10  * distributed under the License is distributed on an "AS IS" BASIS,
11  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
12  * See the License for the specific language governing permissions and
13  * limitations under the License.
14  */
15
16 /**
17  * lb-plugin implements a MagLev-like load balancer.
18  * http://research.google.com/pubs/pub44824.html
19  *
20  * It hasn't been tested for interoperability with the original MagLev
21  * but intends to provide similar functionality.
22  * The load-balancer receives traffic destined to VIP (Virtual IP)
23  * addresses from one or multiple(ECMP) routers.
24  * The load-balancer tunnels the traffic toward many application servers
25  * ensuring session stickyness (i.e. that a single sessions is tunneled
26  * towards a single application server).
27  *
28  */
29
30 #ifndef LB_PLUGIN_LB_LB_H_
31 #define LB_PLUGIN_LB_LB_H_
32
33 #include <lb/util.h>
34 #include <vnet/util/refcount.h>
35
36 #include <vnet/vnet.h>
37 #include <vnet/ip/ip.h>
38 #include <vnet/dpo/dpo.h>
39 #include <vnet/fib/fib_table.h>
40 #include <vppinfra/hash.h>
41 #include <vppinfra/bihash_8_8.h>
42 #include <vppinfra/bihash_24_8.h>
43 #include <lb/lbhash.h>
44 #include <vppinfra/lock.h>
45
46 #define LB_DEFAULT_PER_CPU_STICKY_BUCKETS 1 << 10
47 #define LB_DEFAULT_FLOW_TIMEOUT 40
48 #define LB_MAPPING_BUCKETS  1024
49 #define LB_MAPPING_MEMORY_SIZE  64<<20
50
51 #define LB_VIP_PER_PORT_BUCKETS  1024
52 #define LB_VIP_PER_PORT_MEMORY_SIZE  64<<20
53
54 typedef enum {
55   LB_NEXT_DROP,
56   LB_N_NEXT,
57 } lb_next_t;
58
59 typedef enum {
60   LB_NAT4_IN2OUT_NEXT_DROP,
61   LB_NAT4_IN2OUT_NEXT_LOOKUP,
62   LB_NAT4_IN2OUT_N_NEXT,
63 } LB_nat4_in2out_next_t;
64
65 typedef enum {
66   LB_NAT6_IN2OUT_NEXT_DROP,
67   LB_NAT6_IN2OUT_NEXT_LOOKUP,
68   LB_NAT6_IN2OUT_N_NEXT,
69 } LB_nat6_in2out_next_t;
70
71 #define foreach_lb_nat_in2out_error                       \
72 _(UNSUPPORTED_PROTOCOL, "Unsupported protocol")         \
73 _(IN2OUT_PACKETS, "Good in2out packets processed")      \
74 _(NO_TRANSLATION, "No translation")
75
76 typedef enum {
77 #define _(sym,str) LB_NAT_IN2OUT_ERROR_##sym,
78   foreach_lb_nat_in2out_error
79 #undef _
80   LB_NAT_IN2OUT_N_ERROR,
81 } lb_nat_in2out_error_t;
82
83 /**
84  * lb for kube-proxy supports three types of service
85  */
86 typedef enum {
87   LB_SRV_TYPE_CLUSTERIP,
88   LB_SRV_TYPE_NODEPORT,
89   LB_SRV_N_TYPES,
90 } lb_svr_type_t;
91
92 typedef enum {
93   LB4_NODEPORT_NEXT_IP4_NAT4,
94   LB4_NODEPORT_NEXT_DROP,
95   LB4_NODEPORT_N_NEXT,
96 } lb4_nodeport_next_t;
97
98 typedef enum {
99   LB6_NODEPORT_NEXT_IP6_NAT6,
100   LB6_NODEPORT_NEXT_DROP,
101   LB6_NODEPORT_N_NEXT,
102 } lb6_nodeport_next_t;
103
104 /**
105  * Each VIP is configured with a set of
106  * application server.
107  */
108 typedef struct {
109   /**
110    * Registration to FIB event.
111    */
112   fib_node_t fib_node;
113
114   /**
115    * Destination address used to tunnel traffic towards
116    * that application server.
117    * The address is also used as ID and pseudo-random
118    * seed for the load-balancing process.
119    */
120   ip46_address_t address;
121
122   /**
123    * ASs are indexed by address and VIP Index.
124    * Which means there will be duplicated if the same server
125    * address is used for multiple VIPs.
126    */
127   u32 vip_index;
128
129   /**
130    * Some per-AS flags.
131    * For now only LB_AS_FLAGS_USED is defined.
132    */
133   u8 flags;
134
135 #define LB_AS_FLAGS_USED 0x1
136
137   /**
138    * Rotating timestamp of when LB_AS_FLAGS_USED flag was last set.
139    *
140    * AS removal is based on garbage collection and reference counting.
141    * When an AS is removed, there is a race between configuration core
142    * and worker cores which may still add a reference while it should not
143    * be used. This timestamp is used to not remove the AS while a race condition
144    * may happen.
145    */
146   u32 last_used;
147
148   /**
149    * The FIB entry index for the next-hop
150    */
151   fib_node_index_t next_hop_fib_entry_index;
152
153   /**
154    * The child index on the FIB entry
155    */
156   u32 next_hop_child_index;
157
158   /**
159    * The next DPO in the graph to follow.
160    */
161   dpo_id_t dpo;
162
163 } lb_as_t;
164
165 format_function_t format_lb_as;
166
167 typedef struct {
168   u32 as_index;
169 } lb_new_flow_entry_t;
170
171 #define lb_foreach_vip_counter \
172  _(NEXT_PACKET, "packet from existing sessions", 0) \
173  _(FIRST_PACKET, "first session packet", 1) \
174  _(UNTRACKED_PACKET, "untracked packet", 2) \
175  _(NO_SERVER, "no server configured", 3)
176
177 typedef enum {
178 #define _(a,b,c) LB_VIP_COUNTER_##a = c,
179   lb_foreach_vip_counter
180 #undef _
181   LB_N_VIP_COUNTERS
182 } lb_vip_counter_t;
183
184 typedef enum {
185   LB_ENCAP_TYPE_GRE4,
186   LB_ENCAP_TYPE_GRE6,
187   LB_ENCAP_TYPE_L3DSR,
188   LB_ENCAP_TYPE_NAT4,
189   LB_ENCAP_TYPE_NAT6,
190   LB_ENCAP_N_TYPES,
191 } lb_encap_type_t;
192
193 /**
194  * Lookup type
195  */
196
197 typedef enum {
198   LB_LKP_SAME_IP_PORT,
199   LB_LKP_DIFF_IP_PORT,
200   LB_LKP_ALL_PORT_IP,
201   LB_LKP_N_TYPES,
202 } lb_lkp_type_t;
203
204 /**
205  * The load balancer supports IPv4 and IPv6 traffic
206  * and GRE4, GRE6, L3DSR and NAT4, NAT6 encap.
207  */
208 typedef enum {
209   LB_VIP_TYPE_IP6_GRE6,
210   LB_VIP_TYPE_IP6_GRE4,
211   LB_VIP_TYPE_IP4_GRE6,
212   LB_VIP_TYPE_IP4_GRE4,
213   LB_VIP_TYPE_IP4_L3DSR,
214   LB_VIP_TYPE_IP4_NAT4,
215   LB_VIP_TYPE_IP6_NAT6,
216   LB_VIP_N_TYPES,
217 } lb_vip_type_t;
218
219 format_function_t format_lb_vip_type;
220 unformat_function_t unformat_lb_vip_type;
221
222
223 /* args for different vip encap types */
224 typedef struct {
225   union
226   {
227     struct
228     {
229       /* Service type. clusterip or nodeport */
230       u8 srv_type;
231
232       /* Pod's port corresponding to specific service. network byte order */
233       u16 target_port;
234     };
235     /* DSCP bits for L3DSR */
236     u8 dscp;
237     u64 as_u64;
238   };
239 } lb_vip_encap_args_t;
240
241 typedef struct {
242   /* all fields in NET byte order */
243   union {
244     struct {
245       u32 vip_prefix_index;
246       u16 port;
247       u8  protocol;
248       u8 rsv;
249     };
250     u64 as_u64;
251   };
252 } vip_port_key_t;
253
254 /**
255  * Load balancing service is provided per VIP+protocol+port.
256  * In this data model, a VIP can be a whole prefix.
257  * But load balancing only
258  * occurs on a per-source-address/port basis. Meaning that if a given source
259  * reuses the same port for multiple destinations within the same VIP,
260  * they will be considered as a single flow.
261  */
262 typedef struct {
263
264   //Runtime
265
266   /**
267    * Vector mapping (flow-hash & new_connect_table_mask) to AS index.
268    * This is used for new flows.
269    */
270   lb_new_flow_entry_t *new_flow_table;
271
272   /**
273    * New flows table length - 1
274    * (length MUST be a power of 2)
275    */
276   u32 new_flow_table_mask;
277
278   /**
279    * Last time garbage collection was run to free the ASs.
280    */
281   u32 last_garbage_collection;
282
283   //Not runtime
284
285   /**
286    * A Virtual IP represents a given service delivered
287    * by a set of application servers. It can be a single
288    * address or a prefix.
289    * IPv4 prefixes are encoded using IPv4-in-IPv6 embedded address
290    * (i.e. ::/96 prefix).
291    */
292   ip46_address_t prefix;
293
294   /**
295    * The VIP prefix length.
296    * In case of IPv4, plen = 96 + ip4_plen.
297    */
298   u8 plen;
299
300   /* tcp or udp. If not per-port vip, set to ~0 */
301   u8 protocol;
302
303   /* tcp port or udp port. If not per-port vip, set to ~0 */
304   u16 port;
305
306   /* Valid for per-port vip */
307   u32 vip_prefix_index;
308
309   /**
310    * The type of traffic for this.
311    * LB_TYPE_UNDEFINED if unknown.
312    */
313   lb_vip_type_t type;
314
315   /* args for different vip encap types */
316   lb_vip_encap_args_t encap_args;
317
318   /**
319    * Flags related to this VIP.
320    * LB_VIP_FLAGS_USED means the VIP is active.
321    * When it is not set, the VIP in the process of being removed.
322    * We cannot immediately remove a VIP because the VIP index still may be stored
323    * in the adjacency index.
324    */
325   u8 flags;
326 #define LB_VIP_FLAGS_USED 0x1
327
328   /**
329    * Pool of AS indexes used for this VIP.
330    * This also includes ASs that have been removed (but are still referenced).
331    */
332   u32 *as_indexes;
333 } lb_vip_t;
334
335 #define lb_vip_is_ip4(type) (type == LB_VIP_TYPE_IP4_GRE6 \
336                             || type == LB_VIP_TYPE_IP4_GRE4 \
337                             || type == LB_VIP_TYPE_IP4_L3DSR \
338                             || type == LB_VIP_TYPE_IP4_NAT4 )
339
340 #define lb_vip_is_ip6(type) (type == LB_VIP_TYPE_IP6_GRE6 \
341                             || type == LB_VIP_TYPE_IP6_GRE4 \
342                             || type == LB_VIP_TYPE_IP6_NAT6 )
343
344 #define lb_encap_is_ip4(vip) ((vip)->type == LB_VIP_TYPE_IP6_GRE4 \
345                              || (vip)->type == LB_VIP_TYPE_IP4_GRE4 \
346                              || (vip)->type == LB_VIP_TYPE_IP4_L3DSR \
347                              || (vip)->type == LB_VIP_TYPE_IP4_NAT4 )
348
349 #define lb_vip_is_gre4(vip) (((vip)->type == LB_VIP_TYPE_IP6_GRE4 \
350                             || (vip)->type == LB_VIP_TYPE_IP4_GRE4) \
351                             && ((vip)->port == 0))
352
353
354 #define lb_vip_is_gre6(vip) (((vip)->type == LB_VIP_TYPE_IP6_GRE6 \
355                             || (vip)->type == LB_VIP_TYPE_IP4_GRE6) \
356                             && ((vip)->port == 0))
357
358 #define lb_vip_is_gre4_port(vip) (((vip)->type == LB_VIP_TYPE_IP6_GRE4 \
359                                  || (vip)->type == LB_VIP_TYPE_IP4_GRE4) \
360                                  && ((vip)->port != 0))
361
362 #define lb_vip_is_gre6_port(vip) (((vip)->type == LB_VIP_TYPE_IP6_GRE6 \
363                                  || (vip)->type == LB_VIP_TYPE_IP4_GRE6) \
364                                  && ((vip)->port != 0))
365
366 always_inline bool
367 lb_vip_is_l3dsr(const lb_vip_t *vip)
368 {
369   return (vip->type == LB_VIP_TYPE_IP4_L3DSR && vip->port ==0);
370 }
371
372 always_inline bool
373 lb_vip_is_l3dsr_port(const lb_vip_t *vip)
374 {
375   return (vip->type == LB_VIP_TYPE_IP4_L3DSR && vip->port !=0);
376 }
377 always_inline bool
378 lb_vip_is_nat4_port(const lb_vip_t *vip)
379 {
380   return (vip->type == LB_VIP_TYPE_IP4_NAT4 && vip->port !=0);
381 }
382 always_inline bool
383 lb_vip_is_nat6_port(const lb_vip_t *vip)
384 {
385   return (vip->type == LB_VIP_TYPE_IP6_NAT6 && vip->port !=0);
386 }
387
388 format_function_t format_lb_vip;
389 format_function_t format_lb_vip_detailed;
390
391 #define foreach_lb_nat_protocol \
392   _(UDP, 0, udp, "udp")       \
393   _(TCP, 1, tcp, "tcp")
394
395 typedef enum {
396 #define _(N, i, n, s) LB_NAT_PROTOCOL_##N = i,
397   foreach_lb_nat_protocol
398 #undef _
399 } lb_nat_protocol_t;
400
401 always_inline u32
402 lb_ip_proto_to_nat_proto (u8 ip_proto)
403 {
404   u32 nat_proto = ~0;
405
406   nat_proto = (ip_proto == IP_PROTOCOL_UDP) ? LB_NAT_PROTOCOL_UDP : nat_proto;
407   nat_proto = (ip_proto == IP_PROTOCOL_TCP) ? LB_NAT_PROTOCOL_TCP : nat_proto;
408
409   return nat_proto;
410 }
411
412 /* Key for Pod's egress SNAT */
413 typedef struct {
414   union
415   {
416     struct
417     {
418       ip4_address_t addr;
419       u16 port;
420       u16 protocol:3,
421           fib_index:13;
422     };
423     u64 as_u64;
424   };
425 } lb_snat4_key_t;
426
427 typedef struct
428 {
429   union
430   {
431     struct
432     {
433       ip6_address_t addr;
434       u16 port;
435       u16 protocol;
436       u32 fib_index;
437     };
438     u64 as_u64[3];
439   };
440 } lb_snat6_key_t;
441
442 typedef struct {
443   /**
444    * for vip + port case, src_ip = vip;
445    * for node ip + node_port, src_ip = node_ip
446    */
447   ip46_address_t src_ip;
448   ip46_address_t as_ip;
449   u8 src_ip_is_ipv6;
450   u8 as_ip_is_ipv6;
451   /**
452    * Network byte order
453    * for vip + port case, src_port = port;
454    * for node ip + node_port, src_port = node_port
455    */
456   u16 src_port;
457   u16 target_port; /* Network byte order */
458   u32 vrf_id;
459   u32 fib_index;
460 } lb_snat_mapping_t;
461
462 typedef struct {
463   /**
464    * Each CPU has its own sticky flow hash table.
465    * One single table is used for all VIPs.
466    */
467   lb_hash_t *sticky_ht;
468 } lb_per_cpu_t;
469
470 typedef struct {
471   /**
472    * Pool of all Virtual IPs
473    */
474   lb_vip_t *vips;
475
476   /**
477    * bitmap for vip prefix to support per-port vip
478    */
479   uword *vip_prefix_indexes;
480
481   /**
482    * Pool of ASs.
483    * ASs are referenced by address and vip index.
484    * The first element (index 0) is special and used only to fill
485    * new_flow_tables when no AS has been configured.
486    */
487   lb_as_t *ass;
488
489   /**
490    * Each AS has an associated reference counter.
491    * As ass[0] has a special meaning, its associated counter
492    * starts at 0 and is decremented instead. i.e. do not use it.
493    */
494   vlib_refcount_t as_refcount;
495
496   /* hash lookup vip_index by key: {u16: nodeport} */
497   uword * vip_index_by_nodeport;
498
499   /**
500    * Some global data is per-cpu
501    */
502   lb_per_cpu_t *per_cpu;
503
504   /**
505    * Node next index for IP adjacencies, for each of the traffic types.
506    */
507   u32 ip_lookup_next_index[LB_VIP_N_TYPES];
508
509   /**
510    * Source address used in IPv6 encapsulated traffic
511    */
512   ip6_address_t ip6_src_address;
513
514   /**
515    * Source address used for IPv4 encapsulated traffic
516    */
517   ip4_address_t ip4_src_address;
518
519   /**
520    * Number of buckets in the per-cpu sticky hash table.
521    */
522   u32 per_cpu_sticky_buckets;
523
524   /**
525    * Flow timeout in seconds.
526    */
527   u32 flow_timeout;
528
529   /**
530    * Per VIP counter
531    */
532   vlib_simple_counter_main_t vip_counters[LB_N_VIP_COUNTERS];
533
534   /**
535    * DPO used to send packet from IP4/6 lookup to LB node.
536    */
537   dpo_type_t dpo_gre4_type;
538   dpo_type_t dpo_gre6_type;
539   dpo_type_t dpo_gre4_port_type;
540   dpo_type_t dpo_gre6_port_type;
541   dpo_type_t dpo_l3dsr_type;
542   dpo_type_t dpo_l3dsr_port_type;
543   dpo_type_t dpo_nat4_port_type;
544   dpo_type_t dpo_nat6_port_type;
545   /**
546    * Node type for registering to fib changes.
547    */
548   fib_node_type_t fib_node_type;
549
550   /* lookup per_port vip by key */
551   clib_bihash_8_8_t vip_index_per_port;
552
553   /* Find a static mapping by AS IP : target_port */
554   clib_bihash_8_8_t mapping_by_as4;
555   clib_bihash_24_8_t mapping_by_as6;
556
557   /* Static mapping pool */
558   lb_snat_mapping_t * snat_mappings;
559
560   /**
561    * API dynamically registered base ID.
562    */
563   u16 msg_id_base;
564
565   clib_spinlock_t writer_lock;
566
567   /* convenience */
568   vlib_main_t *vlib_main;
569   vnet_main_t *vnet_main;
570 } lb_main_t;
571
572 /* args for different vip encap types */
573 typedef struct {
574   ip46_address_t prefix;
575   u8 plen;
576   u8 protocol;
577   u16 port;
578   lb_vip_type_t type;
579   u32 new_length;
580   lb_vip_encap_args_t encap_args;
581 } lb_vip_add_args_t;
582
583 extern lb_main_t lb_main;
584 extern vlib_node_registration_t lb4_node;
585 extern vlib_node_registration_t lb6_node;
586 extern vlib_node_registration_t lb4_nodeport_node;
587 extern vlib_node_registration_t lb6_nodeport_node;
588 extern vlib_node_registration_t lb_nat4_in2out_node;
589 extern vlib_node_registration_t lb_nat6_in2out_node;
590
591 /**
592  * Fix global load-balancer parameters.
593  * @param ip4_address IPv4 source address used for encapsulated traffic
594  * @param ip6_address IPv6 source address used for encapsulated traffic
595  * @return 0 on success. VNET_LB_ERR_XXX on error
596  */
597 int lb_conf(ip4_address_t *ip4_address, ip6_address_t *ip6_address,
598             u32 sticky_buckets, u32 flow_timeout);
599
600 int lb_vip_add(lb_vip_add_args_t args, u32 *vip_index);
601
602 int lb_vip_del(u32 vip_index);
603
604 int lb_vip_find_index(ip46_address_t *prefix, u8 plen, u8 protocol,
605                       u16 port, u32 *vip_index);
606
607 #define lb_vip_get_by_index(index) (pool_is_free_index(lb_main.vips, index)?NULL:pool_elt_at_index(lb_main.vips, index))
608
609 int lb_vip_add_ass(u32 vip_index, ip46_address_t *addresses, u32 n);
610 int lb_vip_del_ass(u32 vip_index, ip46_address_t *addresses, u32 n, u8 flush);
611 int lb_flush_vip_as (u32 vip_index, u32 as_index);
612
613 u32 lb_hash_time_now(vlib_main_t * vm);
614
615 void lb_garbage_collection();
616
617 int lb_nat4_interface_add_del (u32 sw_if_index, int is_del);
618 int lb_nat6_interface_add_del (u32 sw_if_index, int is_del);
619
620 format_function_t format_lb_main;
621
622 #endif /* LB_PLUGIN_LB_LB_H_ */