c51a2108a0f908392494b121c878919e1151eecc
[vpp.git] / plugins / lb-plugin / lb / node.c
1 /*
2  * Copyright (c) 2016 Cisco and/or its affiliates.
3  * Licensed under the Apache License, Version 2.0 (the "License");
4  * you may not use this file except in compliance with the License.
5  * You may obtain a copy of the License at:
6  *
7  *     http://www.apache.org/licenses/LICENSE-2.0
8  *
9  * Unless required by applicable law or agreed to in writing, software
10  * distributed under the License is distributed on an "AS IS" BASIS,
11  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
12  * See the License for the specific language governing permissions and
13  * limitations under the License.
14  */
15
16 #include <lb/lb.h>
17
18 #include <vnet/gre/packet.h>
19 #include <lb/lbhash.h>
20
21 #define foreach_lb_error \
22  _(NONE, "no error") \
23  _(PROTO_NOT_SUPPORTED, "protocol not supported") \
24  _(NO_SERVER, "no configured application server")
25
26 typedef enum {
27 #define _(sym,str) LB_ERROR_##sym,
28   foreach_lb_error
29 #undef _
30     LB_N_ERROR,
31 } lb_error_t;
32
33 static char *lb_error_strings[] = {
34 #define _(sym,string) string,
35     foreach_lb_error
36 #undef _
37 };
38
39 typedef enum {
40   LB_NEXT_LOOKUP,
41   LB_NEXT_REWRITE,
42   LB_NEXT_DROP,
43   LB_N_NEXT,
44 } lb_next_t;
45
46 typedef struct {
47   u32 vip_index;
48   u32 as_index;
49 } lb_trace_t;
50
51 /* u8 *lb_format_adjacency(u8 * s, va_list * va) */
52 /* { */
53 /*   lb_main_t *lbm = &lb_main; */
54 /*   __attribute((unused)) ip_lookup_main_t *lm = va_arg (*va, ip_lookup_main_t *); */
55 /*   ip_adjacency_t *adj = va_arg (*va, ip_adjacency_t *); */
56 /*   lb_adj_data_t *ad = (lb_adj_data_t *) &adj->opaque; */
57 /*   __attribute__((unused)) lb_vip_t *vip = pool_elt_at_index (lbm->vips, ad->vip_index); */
58 /*   return format(s, "vip idx:%d", ad->vip_index); */
59 /* } */
60
61 u8 *
62 format_lb_trace (u8 * s, va_list * args)
63 {
64   lb_main_t *lbm = &lb_main;
65   CLIB_UNUSED (vlib_main_t * vm) = va_arg (*args, vlib_main_t *);
66   CLIB_UNUSED (vlib_node_t * node) = va_arg (*args, vlib_node_t *);
67   lb_trace_t *t = va_arg (*args, lb_trace_t *);
68   s = format(s, "lb vip[%d]: %U\n", t->vip_index, format_lb_vip, &lbm->vips[t->vip_index]);
69   s = format(s, "lb as[%d]: %U\n", t->as_index, format_lb_as, &lbm->ass[t->as_index]);
70   return s;
71 }
72
73 lb_hash_t *lb_get_sticky_table(u32 cpu_index)
74 {
75   lb_main_t *lbm = &lb_main;
76   lb_hash_t *sticky_ht = lbm->per_cpu[cpu_index].sticky_ht;
77   //Check if size changed
78   if (PREDICT_FALSE(sticky_ht && (lbm->per_cpu_sticky_buckets != lb_hash_nbuckets(sticky_ht)))) {
79
80     //Dereference everything in there
81     lb_hash_entry_t *e;
82     lb_hash_foreach_entry(sticky_ht, e) {
83       vlib_refcount_add(&lbm->as_refcount, cpu_index, e->value, -1);
84       vlib_refcount_add(&lbm->as_refcount, cpu_index, 0, -1);
85     }
86
87     lb_hash_free(sticky_ht);
88     sticky_ht = NULL;
89   }
90
91   //Create if necessary
92   if (PREDICT_FALSE(sticky_ht == NULL)) {
93     lbm->per_cpu[cpu_index].sticky_ht = lb_hash_alloc(lbm->per_cpu_sticky_buckets, lbm->flow_timeout);
94     sticky_ht = lbm->per_cpu[cpu_index].sticky_ht;
95     clib_warning("Regenerated sticky table %p", sticky_ht);
96   }
97
98   ASSERT(sticky_ht);
99
100   //Update timeout
101   sticky_ht->timeout = lbm->flow_timeout;
102   return sticky_ht;
103 }
104
105 static_always_inline uword
106 lb_node_fn (vlib_main_t * vm,
107          vlib_node_runtime_t * node, vlib_frame_t * frame,
108          u8 is_input_v4, //Compile-time parameter stating that is input is v4 (or v6)
109          u8 is_encap_v4) //Compile-time parameter stating that is GRE encap is v4 (or v6)
110 {
111   /* ip_lookup_main_t *lm = (is_input_v4)?&ip4_main.lookup_main:&ip6_main.lookup_main; */
112   /* lb_main_t *lbm = &lb_main; */
113   /* vlib_node_runtime_t *error_node = node; */
114   /* u32 n_left_from, *from, next_index, *to_next, n_left_to_next; */
115   /* u32 cpu_index = os_get_cpu_number(); */
116   /* u32 lb_time = lb_hash_time_now(vm); */
117
118   /* lb_hash_t *sticky_ht = lb_get_sticky_table(cpu_index); */
119   /* from = vlib_frame_vector_args (frame); */
120   /* n_left_from = frame->n_vectors; */
121   /* next_index = node->cached_next_index; */
122
123   /* while (n_left_from > 0) */
124   /* { */
125   /*   vlib_get_next_frame (vm, node, next_index, to_next, n_left_to_next); */
126   /*   while (n_left_from > 0 && n_left_to_next > 0) */
127   /*   { */
128   /*     u32 pi0; */
129   /*     vlib_buffer_t *p0; */
130   /*     ip_adjacency_t *adj0; */
131   /*     lb_adj_data_t *ad0; */
132   /*     lb_vip_t *vip0; */
133   /*     lb_as_t *as0; */
134   /*     gre_header_t *gre0; */
135   /*     u16 len0; */
136   /*     u32 value0, available_index0, hash0; */
137   /*     u64 key0[5]; */
138   /*     lb_error_t error0 = LB_ERROR_NONE; */
139   /*     lb_next_t next0 = LB_NEXT_LOOKUP; */
140
141   /*     if (PREDICT_TRUE(n_left_from > 1)) */
142   /*     { */
143   /*       vlib_buffer_t *p2; */
144   /*       p2 = vlib_get_buffer(vm, from[1]); */
145   /*       vlib_prefetch_buffer_header(p2, STORE); */
146   /*       /\* IPv4 + 8 = 28. possibly plus -40 *\/ */
147   /*       CLIB_PREFETCH (vlib_buffer_get_current(p2) - 40, 128, STORE); */
148   /*     } */
149
150   /*     pi0 = to_next[0] = from[0]; */
151   /*     from += 1; */
152   /*     n_left_from -= 1; */
153   /*     to_next += 1; */
154   /*     n_left_to_next -= 1; */
155
156   /*     p0 = vlib_get_buffer (vm, pi0); */
157   /*     adj0 = ip_get_adjacency (lm, vnet_buffer (p0)->ip.adj_index[VLIB_TX]); */
158   /*     ad0 = (lb_adj_data_t *) &adj0->opaque; */
159   /*     vip0 = pool_elt_at_index (lbm->vips, ad0->vip_index); */
160
161   /*     if (is_input_v4) { */
162   /*       ip4_header_t *ip40; */
163   /*       ip40 = vlib_buffer_get_current (p0); */
164   /*       len0 = clib_net_to_host_u16(ip40->length); */
165   /*       key0[0] = (u64) ip40->src_address.as_u32; */
166   /*       key0[1] = (u64) ip40->dst_address.as_u32; */
167   /*       key0[2] = 0; */
168   /*       key0[3] = 0; */
169   /*       key0[4] = ((u64)((udp_header_t *)(ip40 + 1))->src_port << 32) | */
170   /*           ((u64)((udp_header_t *)(ip40 + 1))->dst_port << 16); */
171
172   /*       hash0 = lb_hash_hash(key0); */
173   /*     } else { */
174   /*       ip6_header_t *ip60; */
175   /*       ip60 = vlib_buffer_get_current (p0); */
176   /*       len0 = clib_net_to_host_u16(ip60->payload_length) + sizeof(ip6_header_t); */
177   /*       key0[0] = ip60->src_address.as_u64[0]; */
178   /*       key0[1] = ip60->src_address.as_u64[1]; */
179   /*       key0[2] = ip60->dst_address.as_u64[0]; */
180   /*       key0[3] = ip60->dst_address.as_u64[1]; */
181   /*       key0[4] = ((u64)((udp_header_t *)(ip60 + 1))->src_port << 32) | */
182   /*           ((u64)((udp_header_t *)(ip60 + 1))->dst_port << 16); */
183
184   /*       hash0 = lb_hash_hash(key0); */
185   /*     } */
186
187   /*     //NOTE: This is an ugly trick to not include the VIP index in the hash calculation */
188   /*     //but actually use it in the key determination. */
189   /*     key0[4] |= ((vip0 - lbm->vips)); */
190
191   /*     lb_hash_get(sticky_ht, key0, hash0, lb_time, &available_index0, &value0); */
192   /*     if (PREDICT_TRUE(value0 != ~0)) { */
193   /*       //Found an existing entry */
194   /*       as0 = &lbm->ass[value0]; */
195   /*     } else if (PREDICT_TRUE(available_index0 != ~0)) { */
196   /*       //There is an available slot for a new flow */
197   /*       as0 = &lbm->ass[vip0->new_flow_table[hash0 & vip0->new_flow_table_mask].as_index]; */
198   /*       if (PREDICT_FALSE(as0 == lbm->ass)) { //Special first element */
199   /*         error0 = LB_ERROR_NO_SERVER; */
200   /*         next0 = LB_NEXT_DROP; */
201   /*       } else { */
202   /*         vlib_increment_simple_counter(&lbm->vip_counters[LB_VIP_COUNTER_TRACKED_SESSION], */
203   /*                                       cpu_index, vip0 - lbm->vips, 1); */
204   /*       } */
205
206   /*       //TODO: There are race conditions with as0 and vip0 manipulation. */
207   /*       //Configuration may be changed, vectors resized, etc... */
208
209   /*       //Dereference previously used */
210   /*       vlib_refcount_add(&lbm->as_refcount, cpu_index, lb_hash_available_value(sticky_ht, available_index0), -1); */
211   /*       vlib_refcount_add(&lbm->as_refcount, cpu_index, as0 - lbm->ass, 1); */
212
213   /*       //Add sticky entry */
214   /*       //Note that when there is no AS configured, an entry is configured anyway. */
215   /*       //But no configured AS is not something that should happen */
216   /*       lb_hash_put(sticky_ht, key0, as0 - lbm->ass, available_index0, lb_time); */
217   /*     } else { */
218   /*       //Could not store new entry in the table */
219   /*       as0 = &lbm->ass[vip0->new_flow_table[hash0 & vip0->new_flow_table_mask].as_index]; */
220   /*       vlib_increment_simple_counter(&lbm->vip_counters[LB_VIP_COUNTER_UNTRACKED_PACKET], */
221   /*                                               cpu_index, vip0 - lbm->vips, 1); */
222   /*     } */
223
224   /*     //Now let's encap */
225   /*     if (is_encap_v4) { */
226   /*       ip4_header_t *ip40; */
227   /*       vlib_buffer_advance(p0, - sizeof(ip4_header_t) - sizeof(gre_header_t)); */
228   /*       ip40 = vlib_buffer_get_current(p0); */
229   /*       gre0 = (gre_header_t *)(ip40 + 1); */
230   /*       ip40->src_address = lbm->ip4_src_address; */
231   /*       ip40->dst_address = as0->address.ip4; */
232   /*       ip40->ip_version_and_header_length = 0x45; */
233   /*       ip40->ttl = 128; */
234   /*       ip40->length = clib_host_to_net_u16(len0 + sizeof(gre_header_t) + sizeof(ip4_header_t)); */
235   /*       ip40->protocol = IP_PROTOCOL_GRE; */
236   /*       ip40->checksum = ip4_header_checksum (ip40); */
237   /*     } else { */
238   /*       ip6_header_t *ip60; */
239   /*       vlib_buffer_advance(p0, - sizeof(ip6_header_t) - sizeof(gre_header_t)); */
240   /*       ip60 = vlib_buffer_get_current(p0); */
241   /*       gre0 = (gre_header_t *)(ip60 + 1); */
242   /*       ip60->dst_address = as0->address.ip6; */
243   /*       ip60->src_address = lbm->ip6_src_address; */
244   /*       ip60->hop_limit = 128; */
245   /*       ip60->ip_version_traffic_class_and_flow_label = clib_host_to_net_u32 (0x6<<28); */
246   /*       ip60->payload_length = clib_host_to_net_u16(len0 + sizeof(gre_header_t)); */
247   /*       ip60->protocol = IP_PROTOCOL_GRE; */
248   /*     } */
249
250   /*     gre0->flags_and_version = 0; */
251   /*     gre0->protocol = (is_input_v4)? */
252   /*         clib_host_to_net_u16(0x0800): */
253   /*         clib_host_to_net_u16(0x86DD); */
254
255   /*     vnet_buffer(p0)->ip.adj_index[VLIB_TX] = as0->adj_index; */
256   /*     next0 = (as0->adj_index != ~0)?LB_NEXT_REWRITE:next0; */
257
258   /*     if (PREDICT_FALSE (p0->flags & VLIB_BUFFER_IS_TRACED)) */
259   /*     { */
260   /*       lb_trace_t *tr = vlib_add_trace (vm, node, p0, sizeof (*tr)); */
261   /*       tr->as_index = as0 - lbm->ass; */
262   /*       tr->vip_index = ad0->vip_index; */
263   /*     } */
264
265   /*     p0->error = error_node->errors[error0]; */
266   /*     vlib_validate_buffer_enqueue_x1 (vm, node, next_index, to_next, */
267   /*                                      n_left_to_next, pi0, next0); */
268   /*   } */
269   /*   vlib_put_next_frame (vm, node, next_index, n_left_to_next); */
270   /* } */
271
272   /* return frame->n_vectors; */
273   return 0;
274 }
275
276 static uword
277 lb6_gre6_node_fn (vlib_main_t * vm,
278          vlib_node_runtime_t * node, vlib_frame_t * frame)
279 {
280   return lb_node_fn(vm, node, frame, 0, 0);
281 }
282
283 static uword
284 lb6_gre4_node_fn (vlib_main_t * vm,
285          vlib_node_runtime_t * node, vlib_frame_t * frame)
286 {
287   return lb_node_fn(vm, node, frame, 0, 1);
288 }
289
290 static uword
291 lb4_gre6_node_fn (vlib_main_t * vm,
292          vlib_node_runtime_t * node, vlib_frame_t * frame)
293 {
294   return lb_node_fn(vm, node, frame, 1, 0);
295 }
296
297 static uword
298 lb4_gre4_node_fn (vlib_main_t * vm,
299          vlib_node_runtime_t * node, vlib_frame_t * frame)
300 {
301   return lb_node_fn(vm, node, frame, 1, 1);
302 }
303
304 VLIB_REGISTER_NODE (lb6_gre6_node) =
305 {
306   .function = lb6_gre6_node_fn,
307   .name = "lb6-gre6",
308   .vector_size = sizeof (u32),
309   .format_trace = format_lb_trace,
310
311   .n_errors = LB_N_ERROR,
312   .error_strings = lb_error_strings,
313
314   .n_next_nodes = LB_N_NEXT,
315   .next_nodes =
316   {
317       [LB_NEXT_LOOKUP] = "ip6-lookup",
318       [LB_NEXT_REWRITE] = "ip6-rewrite",
319       [LB_NEXT_DROP] = "error-drop"
320   },
321 };
322
323 /* VNET_IP6_REGISTER_ADJACENCY(lb6_gre6) = { */
324 /*   .node_name = "lb6-gre6", */
325 /*   .fn = lb_format_adjacency, */
326 /*   .next_index = &lb_main.ip_lookup_next_index[LB_VIP_TYPE_IP6_GRE6] */
327 /* }; */
328
329 VLIB_REGISTER_NODE (lb6_gre4_node) =
330 {
331   .function = lb6_gre4_node_fn,
332   .name = "lb6-gre4",
333   .vector_size = sizeof (u32),
334   .format_trace = format_lb_trace,
335
336   .n_errors = LB_N_ERROR,
337   .error_strings = lb_error_strings,
338
339   .n_next_nodes = LB_N_NEXT,
340   .next_nodes =
341   {
342       [LB_NEXT_LOOKUP] = "ip4-lookup",
343       [LB_NEXT_REWRITE]= "ip4-rewrite-transit",
344       [LB_NEXT_DROP] = "error-drop"
345   },
346 };
347
348 /* VNET_IP6_REGISTER_ADJACENCY(lb6_gre4) = { */
349 /*   .node_name = "lb6-gre4", */
350 /*   .fn = lb_format_adjacency, */
351 /*   .next_index = &lb_main.ip_lookup_next_index[LB_VIP_TYPE_IP6_GRE4] */
352 /* }; */
353
354 VLIB_REGISTER_NODE (lb4_gre6_node) =
355 {
356   .function = lb4_gre6_node_fn,
357   .name = "lb4-gre6",
358   .vector_size = sizeof (u32),
359   .format_trace = format_lb_trace,
360
361   .n_errors = LB_N_ERROR,
362   .error_strings = lb_error_strings,
363
364   .n_next_nodes = LB_N_NEXT,
365   .next_nodes =
366   {
367       [LB_NEXT_LOOKUP] = "ip6-lookup",
368       [LB_NEXT_REWRITE] = "ip6-rewrite",
369       [LB_NEXT_DROP] = "error-drop"
370   },
371 };
372
373 /* VNET_IP4_REGISTER_ADJACENCY(lb4_gre6) = { */
374 /*   .node_name = "lb4-gre6", */
375 /*   .fn = lb_format_adjacency, */
376 /*   .next_index = &lb_main.ip_lookup_next_index[LB_VIP_TYPE_IP4_GRE6] */
377 /* }; */
378
379 VLIB_REGISTER_NODE (lb4_gre4_node) =
380 {
381   .function = lb4_gre4_node_fn,
382   .name = "lb4-gre4",
383   .vector_size = sizeof (u32),
384   .format_trace = format_lb_trace,
385
386   .n_errors = LB_N_ERROR,
387   .error_strings = lb_error_strings,
388
389   .n_next_nodes = LB_N_NEXT,
390   .next_nodes =
391   {
392       [LB_NEXT_LOOKUP] = "ip4-lookup",
393       [LB_NEXT_REWRITE]= "ip4-rewrite-transit",
394       [LB_NEXT_DROP] = "error-drop"
395   },
396 };
397
398 /* VNET_IP4_REGISTER_ADJACENCY(lb4_gre4) = { */
399 /*   .node_name = "lb4-gre4", */
400 /*   .fn = lb_format_adjacency, */
401 /*   .next_index = &lb_main.ip_lookup_next_index[LB_VIP_TYPE_IP4_GRE4] */
402 /* }; */