Improve tunnel interface creation performance
[vpp.git] / src / vnet / geneve / geneve.c
1 /*
2  * Copyright (c) 2017 SUSE LLC.
3  * Licensed under the Apache License, Version 2.0 (the "License");
4  * you may not use this file except in compliance with the License.
5  * You may obtain a copy of the License at:
6  *
7  *     http://www.apache.org/licenses/LICENSE-2.0
8  *
9  * Unless required by applicable law or agreed to in writing, software
10  * distributed under the License is distributed on an "AS IS" BASIS,
11  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
12  * See the License for the specific language governing permissions and
13  * limitations under the License.
14  */
15 #include <vnet/geneve/geneve.h>
16 #include <vnet/ip/format.h>
17 #include <vnet/fib/fib_entry.h>
18 #include <vnet/fib/fib_table.h>
19 #include <vnet/mfib/mfib_table.h>
20 #include <vnet/adj/adj_mcast.h>
21 #include <vnet/interface.h>
22 #include <vlib/vlib.h>
23
24 /**
25  * @file
26  * @brief GENEVE.
27  *
28  * GENEVE provides the features needed to allow L2 bridge domains (BDs)
29  * to span multiple servers. This is done by building an L2 overlay on
30  * top of an L3 network underlay using GENEVE tunnels.
31  *
32  * This makes it possible for servers to be co-located in the same data
33  * center or be separated geographically as long as they are reachable
34  * through the underlay L3 network.
35  */
36
37
38 geneve_main_t geneve_main;
39
40 static u8 *
41 format_decap_next (u8 * s, va_list * args)
42 {
43   u32 next_index = va_arg (*args, u32);
44
45   switch (next_index)
46     {
47     case GENEVE_INPUT_NEXT_DROP:
48       return format (s, "drop");
49     case GENEVE_INPUT_NEXT_L2_INPUT:
50       return format (s, "l2");
51     default:
52       return format (s, "index %d", next_index);
53     }
54   return s;
55 }
56
57 u8 *
58 format_geneve_tunnel (u8 * s, va_list * args)
59 {
60   geneve_tunnel_t *t = va_arg (*args, geneve_tunnel_t *);
61   geneve_main_t *ngm = &geneve_main;
62
63   s = format (s, "[%d] lcl %U rmt %U vni %d fib-idx %d sw-if-idx %d ",
64               t - ngm->tunnels,
65               format_ip46_address, &t->local, IP46_TYPE_ANY,
66               format_ip46_address, &t->remote, IP46_TYPE_ANY,
67               t->vni, t->encap_fib_index, t->sw_if_index);
68
69   s = format (s, "encap-dpo-idx %d ", t->next_dpo.dpoi_index);
70   s = format (s, "decap-next-%U ", format_decap_next, t->decap_next_index);
71
72   if (PREDICT_FALSE (ip46_address_is_multicast (&t->remote)))
73     s = format (s, "mcast-sw-if-idx %d ", t->mcast_sw_if_index);
74
75   return s;
76 }
77
78 static u8 *
79 format_geneve_name (u8 * s, va_list * args)
80 {
81   u32 dev_instance = va_arg (*args, u32);
82   return format (s, "geneve_tunnel%d", dev_instance);
83 }
84
85 static clib_error_t *
86 geneve_interface_admin_up_down (vnet_main_t * vnm, u32 hw_if_index, u32 flags)
87 {
88   u32 hw_flags = (flags & VNET_SW_INTERFACE_FLAG_ADMIN_UP) ?
89     VNET_HW_INTERFACE_FLAG_LINK_UP : 0;
90   vnet_hw_interface_set_flags (vnm, hw_if_index, hw_flags);
91
92   return /* no error */ 0;
93 }
94
95 /* *INDENT-OFF* */
96 VNET_DEVICE_CLASS (geneve_device_class, static) = {
97   .name = "GENEVE",
98   .format_device_name = format_geneve_name,
99   .format_tx_trace = format_geneve_encap_trace,
100   .admin_up_down_function = geneve_interface_admin_up_down,
101 };
102 /* *INDENT-ON* */
103
104 static u8 *
105 format_geneve_header_with_length (u8 * s, va_list * args)
106 {
107   u32 dev_instance = va_arg (*args, u32);
108   s = format (s, "unimplemented dev %u", dev_instance);
109   return s;
110 }
111
112 /* *INDENT-OFF* */
113 VNET_HW_INTERFACE_CLASS (geneve_hw_class) = {
114   .name = "GENEVE",
115   .format_header = format_geneve_header_with_length,
116   .build_rewrite = default_build_rewrite,
117 };
118 /* *INDENT-ON* */
119
120 static void
121 geneve_tunnel_restack_dpo (geneve_tunnel_t * t)
122 {
123   dpo_id_t dpo = DPO_INVALID;
124   u32 encap_index = ip46_address_is_ip4 (&t->remote) ?
125     geneve4_encap_node.index : geneve6_encap_node.index;
126   fib_forward_chain_type_t forw_type = ip46_address_is_ip4 (&t->remote) ?
127     FIB_FORW_CHAIN_TYPE_UNICAST_IP4 : FIB_FORW_CHAIN_TYPE_UNICAST_IP6;
128
129   fib_entry_contribute_forwarding (t->fib_entry_index, forw_type, &dpo);
130   dpo_stack_from_node (encap_index, &t->next_dpo, &dpo);
131   dpo_reset (&dpo);
132 }
133
134 static geneve_tunnel_t *
135 geneve_tunnel_from_fib_node (fib_node_t * node)
136 {
137   ASSERT (FIB_NODE_TYPE_GENEVE_TUNNEL == node->fn_type);
138   return ((geneve_tunnel_t *) (((char *) node) -
139                                STRUCT_OFFSET_OF (geneve_tunnel_t, node)));
140 }
141
142 /**
143  * Function definition to backwalk a FIB node -
144  * Here we will restack the new dpo of GENEVE DIP to encap node.
145  */
146 static fib_node_back_walk_rc_t
147 geneve_tunnel_back_walk (fib_node_t * node, fib_node_back_walk_ctx_t * ctx)
148 {
149   geneve_tunnel_restack_dpo (geneve_tunnel_from_fib_node (node));
150   return (FIB_NODE_BACK_WALK_CONTINUE);
151 }
152
153 /**
154  * Function definition to get a FIB node from its index
155  */
156 static fib_node_t *
157 geneve_tunnel_fib_node_get (fib_node_index_t index)
158 {
159   geneve_tunnel_t *t;
160   geneve_main_t *vxm = &geneve_main;
161
162   t = pool_elt_at_index (vxm->tunnels, index);
163
164   return (&t->node);
165 }
166
167 /**
168  * Function definition to inform the FIB node that its last lock has gone.
169  */
170 static void
171 geneve_tunnel_last_lock_gone (fib_node_t * node)
172 {
173   /*
174    * The GENEVE tunnel is a root of the graph. As such
175    * it never has children and thus is never locked.
176    */
177   ASSERT (0);
178 }
179
180 /*
181  * Virtual function table registered by GENEVE tunnels
182  * for participation in the FIB object graph.
183  */
184 const static fib_node_vft_t geneve_vft = {
185   .fnv_get = geneve_tunnel_fib_node_get,
186   .fnv_last_lock = geneve_tunnel_last_lock_gone,
187   .fnv_back_walk = geneve_tunnel_back_walk,
188 };
189
190
191 #define foreach_copy_field                      \
192 _(vni)                                          \
193 _(mcast_sw_if_index)                            \
194 _(encap_fib_index)                              \
195 _(decap_next_index)                             \
196 _(local)                                          \
197 _(remote)
198
199 static int
200 geneve_rewrite (geneve_tunnel_t * t, bool is_ip6)
201 {
202   union
203   {
204     ip4_geneve_header_t *h4;
205     ip6_geneve_header_t *h6;
206     u8 *rw;
207   } r =
208   {
209   .rw = 0};
210   int len = is_ip6 ? sizeof *r.h6 : sizeof *r.h4;
211 #if SUPPORT_OPTIONS_HEADER==1
212   len += t->options_len;
213 #endif
214
215   vec_validate_aligned (r.rw, len - 1, CLIB_CACHE_LINE_BYTES);
216
217   udp_header_t *udp;
218   geneve_header_t *geneve;
219   /* Fixed portion of the (outer) ip header */
220   if (!is_ip6)
221     {
222       ip4_header_t *ip = &r.h4->ip4;
223       udp = &r.h4->udp, geneve = &r.h4->geneve;
224       ip->ip_version_and_header_length = 0x45;
225       ip->ttl = 254;
226       ip->protocol = IP_PROTOCOL_UDP;
227
228       ip->src_address = t->local.ip4;
229       ip->dst_address = t->remote.ip4;
230
231       /* we fix up the ip4 header length and checksum after-the-fact */
232       ip->checksum = ip4_header_checksum (ip);
233     }
234   else
235     {
236       ip6_header_t *ip = &r.h6->ip6;
237       udp = &r.h6->udp, geneve = &r.h6->geneve;
238       ip->ip_version_traffic_class_and_flow_label =
239         clib_host_to_net_u32 (6 << 28);
240       ip->hop_limit = 255;
241       ip->protocol = IP_PROTOCOL_UDP;
242
243       ip->src_address = t->local.ip6;
244       ip->dst_address = t->remote.ip6;
245     }
246
247   /* UDP header, randomize local port on something, maybe? */
248   udp->src_port = clib_host_to_net_u16 (5251);
249   udp->dst_port = clib_host_to_net_u16 (UDP_DST_PORT_geneve);
250
251   /* GENEVE header */
252   vnet_set_geneve_version (geneve, GENEVE_VERSION);
253 #if SUPPORT_OPTIONS_HEADER==1
254   vnet_set_geneve_options_len (geneve, t->options_len);
255 #else
256   vnet_set_geneve_options_len (geneve, 0);
257 #endif
258   vnet_set_geneve_oamframe_bit (geneve, 0);
259   vnet_set_geneve_critical_bit (geneve, 0);
260   vnet_set_geneve_protocol (geneve, GENEVE_ETH_PROTOCOL);
261
262   vnet_geneve_hdr_1word_hton (geneve);
263
264   vnet_set_geneve_vni (geneve, t->vni);
265
266   t->rewrite = r.rw;
267   return (0);
268 }
269
270 static bool
271 geneve_decap_next_is_valid (geneve_main_t * vxm, u32 is_ip6,
272                             u32 decap_next_index)
273 {
274   vlib_main_t *vm = vxm->vlib_main;
275   u32 input_idx =
276     (!is_ip6) ? geneve4_input_node.index : geneve6_input_node.index;
277   vlib_node_runtime_t *r = vlib_node_get_runtime (vm, input_idx);
278
279   return decap_next_index < r->n_next_nodes;
280 }
281
282 static uword
283 vtep_addr_ref (ip46_address_t * ip)
284 {
285   uword *vtep = ip46_address_is_ip4 (ip) ?
286     hash_get (geneve_main.vtep4, ip->ip4.as_u32) :
287     hash_get_mem (geneve_main.vtep6, &ip->ip6);
288   if (vtep)
289     return ++(*vtep);
290   ip46_address_is_ip4 (ip) ?
291     hash_set (geneve_main.vtep4, ip->ip4.as_u32, 1) :
292     hash_set_mem_alloc (&geneve_main.vtep6, &ip->ip6, 1);
293   return 1;
294 }
295
296 static uword
297 vtep_addr_unref (ip46_address_t * ip)
298 {
299   uword *vtep = ip46_address_is_ip4 (ip) ?
300     hash_get (geneve_main.vtep4, ip->ip4.as_u32) :
301     hash_get_mem (geneve_main.vtep6, &ip->ip6);
302   ASSERT (vtep);
303   if (--(*vtep) != 0)
304     return *vtep;
305   ip46_address_is_ip4 (ip) ?
306     hash_unset (geneve_main.vtep4, ip->ip4.as_u32) :
307     hash_unset_mem_free (&geneve_main.vtep6, &ip->ip6);
308   return 0;
309 }
310
311 typedef CLIB_PACKED (union
312                      {
313                      struct
314                      {
315                      fib_node_index_t mfib_entry_index;
316                      adj_index_t mcast_adj_index;
317                      }; u64 as_u64;
318                      }) mcast_shared_t;
319
320 static inline mcast_shared_t
321 mcast_shared_get (ip46_address_t * ip)
322 {
323   ASSERT (ip46_address_is_multicast (ip));
324   uword *p = hash_get_mem (geneve_main.mcast_shared, ip);
325   ASSERT (p);
326   return (mcast_shared_t)
327   {
328   .as_u64 = *p};
329 }
330
331 static inline void
332 mcast_shared_add (ip46_address_t * remote,
333                   fib_node_index_t mfei, adj_index_t ai)
334 {
335   mcast_shared_t new_ep = {
336     .mcast_adj_index = ai,
337     .mfib_entry_index = mfei,
338   };
339
340   hash_set_mem_alloc (&geneve_main.mcast_shared, remote, new_ep.as_u64);
341 }
342
343 static inline void
344 mcast_shared_remove (ip46_address_t * remote)
345 {
346   mcast_shared_t ep = mcast_shared_get (remote);
347
348   adj_unlock (ep.mcast_adj_index);
349   mfib_table_entry_delete_index (ep.mfib_entry_index, MFIB_SOURCE_GENEVE);
350
351   hash_unset_mem_free (&geneve_main.mcast_shared, remote);
352 }
353
354 static inline fib_protocol_t
355 fib_ip_proto (bool is_ip6)
356 {
357   return (is_ip6) ? FIB_PROTOCOL_IP6 : FIB_PROTOCOL_IP4;
358 }
359
360 int vnet_geneve_add_del_tunnel
361   (vnet_geneve_add_del_tunnel_args_t * a, u32 * sw_if_indexp)
362 {
363   geneve_main_t *vxm = &geneve_main;
364   geneve_tunnel_t *t = 0;
365   vnet_main_t *vnm = vxm->vnet_main;
366   uword *p;
367   u32 hw_if_index = ~0;
368   u32 sw_if_index = ~0;
369   int rv;
370   geneve4_tunnel_key_t key4;
371   geneve6_tunnel_key_t key6;
372   u32 is_ip6 = a->is_ip6;
373
374   if (!is_ip6)
375     {
376       key4.remote = a->remote.ip4.as_u32;
377       key4.vni =
378         clib_host_to_net_u32 ((a->vni << GENEVE_VNI_SHIFT) & GENEVE_VNI_MASK);
379       p = hash_get (vxm->geneve4_tunnel_by_key, key4.as_u64);
380     }
381   else
382     {
383       key6.remote = a->remote.ip6;
384       key6.vni =
385         clib_host_to_net_u32 ((a->vni << GENEVE_VNI_SHIFT) & GENEVE_VNI_MASK);
386       p = hash_get_mem (vxm->geneve6_tunnel_by_key, &key6);
387     }
388
389   if (a->is_add)
390     {
391       l2input_main_t *l2im = &l2input_main;
392
393       /* adding a tunnel: tunnel must not already exist */
394       if (p)
395         return VNET_API_ERROR_TUNNEL_EXIST;
396
397       /*if not set explicitly, default to l2 */
398       if (a->decap_next_index == ~0)
399         a->decap_next_index = GENEVE_INPUT_NEXT_L2_INPUT;
400       if (!geneve_decap_next_is_valid (vxm, is_ip6, a->decap_next_index))
401         return VNET_API_ERROR_INVALID_DECAP_NEXT;
402
403       pool_get_aligned (vxm->tunnels, t, CLIB_CACHE_LINE_BYTES);
404       memset (t, 0, sizeof (*t));
405
406       /* copy from arg structure */
407 #define _(x) t->x = a->x;
408       foreach_copy_field;
409 #undef _
410
411       rv = geneve_rewrite (t, is_ip6);
412       if (rv)
413         {
414           pool_put (vxm->tunnels, t);
415           return rv;
416         }
417
418       /* copy the key */
419       if (is_ip6)
420         hash_set_mem_alloc (&vxm->geneve6_tunnel_by_key, &key6,
421                             t - vxm->tunnels);
422       else
423         hash_set (vxm->geneve4_tunnel_by_key, key4.as_u64, t - vxm->tunnels);
424
425       vnet_hw_interface_t *hi;
426       if (vec_len (vxm->free_geneve_tunnel_hw_if_indices) > 0)
427         {
428           vnet_interface_main_t *im = &vnm->interface_main;
429           hw_if_index = vxm->free_geneve_tunnel_hw_if_indices
430             [vec_len (vxm->free_geneve_tunnel_hw_if_indices) - 1];
431           _vec_len (vxm->free_geneve_tunnel_hw_if_indices) -= 1;
432
433           hi = vnet_get_hw_interface (vnm, hw_if_index);
434           hi->dev_instance = t - vxm->tunnels;
435           hi->hw_instance = hi->dev_instance;
436
437           /* clear old stats of freed tunnel before reuse */
438           sw_if_index = hi->sw_if_index;
439           vnet_interface_counter_lock (im);
440           vlib_zero_combined_counter
441             (&im->combined_sw_if_counters[VNET_INTERFACE_COUNTER_TX],
442              sw_if_index);
443           vlib_zero_combined_counter (&im->combined_sw_if_counters
444                                       [VNET_INTERFACE_COUNTER_RX],
445                                       sw_if_index);
446           vlib_zero_simple_counter (&im->sw_if_counters
447                                     [VNET_INTERFACE_COUNTER_DROP],
448                                     sw_if_index);
449           vnet_interface_counter_unlock (im);
450         }
451       else
452         {
453           hw_if_index = vnet_register_interface
454             (vnm, geneve_device_class.index, t - vxm->tunnels,
455              geneve_hw_class.index, t - vxm->tunnels);
456           hi = vnet_get_hw_interface (vnm, hw_if_index);
457         }
458
459       /* Set geneve tunnel output node */
460       u32 encap_index = !is_ip6 ?
461         geneve4_encap_node.index : geneve6_encap_node.index;
462       vnet_set_interface_output_node (vnm, hw_if_index, encap_index);
463
464       t->hw_if_index = hw_if_index;
465       t->sw_if_index = sw_if_index = hi->sw_if_index;
466
467       vec_validate_init_empty (vxm->tunnel_index_by_sw_if_index, sw_if_index,
468                                ~0);
469       vxm->tunnel_index_by_sw_if_index[sw_if_index] = t - vxm->tunnels;
470
471       /* setup l2 input config with l2 feature and bd 0 to drop packet */
472       vec_validate (l2im->configs, sw_if_index);
473       l2im->configs[sw_if_index].feature_bitmap = L2INPUT_FEAT_DROP;
474       l2im->configs[sw_if_index].bd_index = 0;
475
476       vnet_sw_interface_t *si = vnet_get_sw_interface (vnm, sw_if_index);
477       si->flags &= ~VNET_SW_INTERFACE_FLAG_HIDDEN;
478       vnet_sw_interface_set_flags (vnm, sw_if_index,
479                                    VNET_SW_INTERFACE_FLAG_ADMIN_UP);
480
481       fib_node_init (&t->node, FIB_NODE_TYPE_GENEVE_TUNNEL);
482       fib_prefix_t tun_remote_pfx;
483       vnet_flood_class_t flood_class = VNET_FLOOD_CLASS_TUNNEL_NORMAL;
484
485       fib_prefix_from_ip46_addr (&t->remote, &tun_remote_pfx);
486       if (!ip46_address_is_multicast (&t->remote))
487         {
488           /* Unicast tunnel -
489            * source the FIB entry for the tunnel's destination
490            * and become a child thereof. The tunnel will then get poked
491            * when the forwarding for the entry updates, and the tunnel can
492            * re-stack accordingly
493            */
494           vtep_addr_ref (&t->local);
495           t->fib_entry_index = fib_table_entry_special_add
496             (t->encap_fib_index, &tun_remote_pfx, FIB_SOURCE_RR,
497              FIB_ENTRY_FLAG_NONE);
498           t->sibling_index = fib_entry_child_add
499             (t->fib_entry_index, FIB_NODE_TYPE_GENEVE_TUNNEL,
500              t - vxm->tunnels);
501           geneve_tunnel_restack_dpo (t);
502         }
503       else
504         {
505           /* Multicast tunnel -
506            * as the same mcast group can be used for mutiple mcast tunnels
507            * with different VNIs, create the output fib adjecency only if
508            * it does not already exist
509            */
510           fib_protocol_t fp = fib_ip_proto (is_ip6);
511
512           if (vtep_addr_ref (&t->remote) == 1)
513             {
514               fib_node_index_t mfei;
515               adj_index_t ai;
516               fib_route_path_t path = {
517                 .frp_proto = fib_proto_to_dpo (fp),
518                 .frp_addr = zero_addr,
519                 .frp_sw_if_index = 0xffffffff,
520                 .frp_fib_index = ~0,
521                 .frp_weight = 0,
522                 .frp_flags = FIB_ROUTE_PATH_LOCAL,
523               };
524               const mfib_prefix_t mpfx = {
525                 .fp_proto = fp,
526                 .fp_len = (is_ip6 ? 128 : 32),
527                 .fp_grp_addr = tun_remote_pfx.fp_addr,
528               };
529
530               /*
531                * Setup the (*,G) to receive traffic on the mcast group
532                *  - the forwarding interface is for-us
533                *  - the accepting interface is that from the API
534                */
535               mfib_table_entry_path_update (t->encap_fib_index,
536                                             &mpfx,
537                                             MFIB_SOURCE_GENEVE,
538                                             &path, MFIB_ITF_FLAG_FORWARD);
539
540               path.frp_sw_if_index = a->mcast_sw_if_index;
541               path.frp_flags = FIB_ROUTE_PATH_FLAG_NONE;
542               mfei = mfib_table_entry_path_update (t->encap_fib_index,
543                                                    &mpfx,
544                                                    MFIB_SOURCE_GENEVE,
545                                                    &path,
546                                                    MFIB_ITF_FLAG_ACCEPT);
547
548               /*
549                * Create the mcast adjacency to send traffic to the group
550                */
551               ai = adj_mcast_add_or_lock (fp,
552                                           fib_proto_to_link (fp),
553                                           a->mcast_sw_if_index);
554
555               /*
556                * create a new end-point
557                */
558               mcast_shared_add (&t->remote, mfei, ai);
559             }
560
561           dpo_id_t dpo = DPO_INVALID;
562           mcast_shared_t ep = mcast_shared_get (&t->remote);
563
564           /* Stack shared mcast remote mac addr rewrite on encap */
565           dpo_set (&dpo, DPO_ADJACENCY_MCAST,
566                    fib_proto_to_dpo (fp), ep.mcast_adj_index);
567
568           dpo_stack_from_node (encap_index, &t->next_dpo, &dpo);
569           dpo_reset (&dpo);
570           flood_class = VNET_FLOOD_CLASS_TUNNEL_MASTER;
571         }
572
573       vnet_get_sw_interface (vnet_get_main (), sw_if_index)->flood_class =
574         flood_class;
575     }
576   else
577     {
578       /* deleting a tunnel: tunnel must exist */
579       if (!p)
580         return VNET_API_ERROR_NO_SUCH_ENTRY;
581
582       t = pool_elt_at_index (vxm->tunnels, p[0]);
583
584       sw_if_index = t->sw_if_index;
585       vnet_sw_interface_set_flags (vnm, t->sw_if_index, 0 /* down */ );
586       vnet_sw_interface_t *si = vnet_get_sw_interface (vnm, t->sw_if_index);
587       si->flags |= VNET_SW_INTERFACE_FLAG_HIDDEN;
588
589       /* make sure tunnel is removed from l2 bd or xconnect */
590       set_int_l2_mode (vxm->vlib_main, vnm, MODE_L3, t->sw_if_index, 0, 0, 0,
591                        0);
592       vec_add1 (vxm->free_geneve_tunnel_hw_if_indices, t->hw_if_index);
593
594       vxm->tunnel_index_by_sw_if_index[t->sw_if_index] = ~0;
595
596       if (!is_ip6)
597         hash_unset (vxm->geneve4_tunnel_by_key, key4.as_u64);
598       else
599         hash_unset_mem_free (&vxm->geneve6_tunnel_by_key, &key6);
600
601       if (!ip46_address_is_multicast (&t->remote))
602         {
603           vtep_addr_unref (&t->local);
604           fib_entry_child_remove (t->fib_entry_index, t->sibling_index);
605           fib_table_entry_delete_index (t->fib_entry_index, FIB_SOURCE_RR);
606         }
607       else if (vtep_addr_unref (&t->remote) == 0)
608         {
609           mcast_shared_remove (&t->remote);
610         }
611
612       fib_node_deinit (&t->node);
613       vec_free (t->rewrite);
614       pool_put (vxm->tunnels, t);
615     }
616
617   if (sw_if_indexp)
618     *sw_if_indexp = sw_if_index;
619
620   return 0;
621 }
622
623 static uword
624 get_decap_next_for_node (u32 node_index, u32 ipv4_set)
625 {
626   geneve_main_t *vxm = &geneve_main;
627   vlib_main_t *vm = vxm->vlib_main;
628   uword input_node = (ipv4_set) ? geneve4_input_node.index :
629     geneve6_input_node.index;
630
631   return vlib_node_add_next (vm, input_node, node_index);
632 }
633
634 static uword
635 unformat_decap_next (unformat_input_t * input, va_list * args)
636 {
637   u32 *result = va_arg (*args, u32 *);
638   u32 ipv4_set = va_arg (*args, int);
639   geneve_main_t *vxm = &geneve_main;
640   vlib_main_t *vm = vxm->vlib_main;
641   u32 node_index;
642   u32 tmp;
643
644   if (unformat (input, "l2"))
645     *result = GENEVE_INPUT_NEXT_L2_INPUT;
646   else if (unformat (input, "node %U", unformat_vlib_node, vm, &node_index))
647     *result = get_decap_next_for_node (node_index, ipv4_set);
648   else if (unformat (input, "%d", &tmp))
649     *result = tmp;
650   else
651     return 0;
652   return 1;
653 }
654
655 static clib_error_t *
656 geneve_add_del_tunnel_command_fn (vlib_main_t * vm,
657                                   unformat_input_t * input,
658                                   vlib_cli_command_t * cmd)
659 {
660   unformat_input_t _line_input, *line_input = &_line_input;
661   ip46_address_t local, remote;
662   u8 is_add = 1;
663   u8 local_set = 0;
664   u8 remote_set = 0;
665   u8 grp_set = 0;
666   u8 ipv4_set = 0;
667   u8 ipv6_set = 0;
668   u32 encap_fib_index = 0;
669   u32 mcast_sw_if_index = ~0;
670   u32 decap_next_index = GENEVE_INPUT_NEXT_L2_INPUT;
671   u32 vni = 0;
672   u32 tmp;
673   int rv;
674   vnet_geneve_add_del_tunnel_args_t _a, *a = &_a;
675   u32 tunnel_sw_if_index;
676   clib_error_t *error = NULL;
677
678   /* Cant "universally zero init" (={0}) due to GCC bug 53119 */
679   memset (&local, 0, sizeof local);
680   memset (&remote, 0, sizeof remote);
681
682   /* Get a line of input. */
683   if (!unformat_user (input, unformat_line_input, line_input))
684     return 0;
685
686   while (unformat_check_input (line_input) != UNFORMAT_END_OF_INPUT)
687     {
688       if (unformat (line_input, "del"))
689         {
690           is_add = 0;
691         }
692       else if (unformat (line_input, "local %U",
693                          unformat_ip4_address, &local.ip4))
694         {
695           local_set = 1;
696           ipv4_set = 1;
697         }
698       else if (unformat (line_input, "remote %U",
699                          unformat_ip4_address, &remote.ip4))
700         {
701           remote_set = 1;
702           ipv4_set = 1;
703         }
704       else if (unformat (line_input, "local %U",
705                          unformat_ip6_address, &local.ip6))
706         {
707           local_set = 1;
708           ipv6_set = 1;
709         }
710       else if (unformat (line_input, "remote %U",
711                          unformat_ip6_address, &remote.ip6))
712         {
713           remote_set = 1;
714           ipv6_set = 1;
715         }
716       else if (unformat (line_input, "group %U %U",
717                          unformat_ip4_address, &remote.ip4,
718                          unformat_vnet_sw_interface,
719                          vnet_get_main (), &mcast_sw_if_index))
720         {
721           grp_set = remote_set = 1;
722           ipv4_set = 1;
723         }
724       else if (unformat (line_input, "group %U %U",
725                          unformat_ip6_address, &remote.ip6,
726                          unformat_vnet_sw_interface,
727                          vnet_get_main (), &mcast_sw_if_index))
728         {
729           grp_set = remote_set = 1;
730           ipv6_set = 1;
731         }
732       else if (unformat (line_input, "encap-vrf-id %d", &tmp))
733         {
734           encap_fib_index = fib_table_find (fib_ip_proto (ipv6_set), tmp);
735           if (encap_fib_index == ~0)
736             {
737               error =
738                 clib_error_return (0, "nonexistent encap-vrf-id %d", tmp);
739               goto done;
740             }
741         }
742       else if (unformat (line_input, "decap-next %U", unformat_decap_next,
743                          &decap_next_index, ipv4_set))
744         ;
745       else if (unformat (line_input, "vni %d", &vni))
746         {
747           if (vni >> 24)
748             {
749               error = clib_error_return (0, "vni %d out of range", vni);
750               goto done;
751             }
752         }
753       else
754         {
755           error = clib_error_return (0, "parse error: '%U'",
756                                      format_unformat_error, line_input);
757           goto done;
758         }
759     }
760
761   if (local_set == 0)
762     {
763       error = clib_error_return (0, "tunnel local address not specified");
764       goto done;
765     }
766
767   if (remote_set == 0)
768     {
769       error = clib_error_return (0, "tunnel remote address not specified");
770       goto done;
771     }
772
773   if (grp_set && !ip46_address_is_multicast (&remote))
774     {
775       error = clib_error_return (0, "tunnel group address not multicast");
776       goto done;
777     }
778
779   if (grp_set == 0 && ip46_address_is_multicast (&remote))
780     {
781       error = clib_error_return (0, "remote address must be unicast");
782       goto done;
783     }
784
785   if (grp_set && mcast_sw_if_index == ~0)
786     {
787       error = clib_error_return (0, "tunnel nonexistent multicast device");
788       goto done;
789     }
790
791   if (ipv4_set && ipv6_set)
792     {
793       error = clib_error_return (0, "both IPv4 and IPv6 addresses specified");
794       goto done;
795     }
796
797   if (ip46_address_cmp (&local, &remote) == 0)
798     {
799       error =
800         clib_error_return (0, "local and remote addresses are identical");
801       goto done;
802     }
803
804   if (decap_next_index == ~0)
805     {
806       error = clib_error_return (0, "next node not found");
807       goto done;
808     }
809
810   if (vni == 0)
811     {
812       error = clib_error_return (0, "vni not specified");
813       goto done;
814     }
815
816   memset (a, 0, sizeof (*a));
817
818   a->is_add = is_add;
819   a->is_ip6 = ipv6_set;
820
821 #define _(x) a->x = x;
822   foreach_copy_field;
823 #undef _
824
825   rv = vnet_geneve_add_del_tunnel (a, &tunnel_sw_if_index);
826
827   switch (rv)
828     {
829     case 0:
830       if (is_add)
831         vlib_cli_output (vm, "%U\n", format_vnet_sw_if_index_name,
832                          vnet_get_main (), tunnel_sw_if_index);
833       break;
834
835     case VNET_API_ERROR_TUNNEL_EXIST:
836       error = clib_error_return (0, "tunnel already exists...");
837       goto done;
838
839     case VNET_API_ERROR_NO_SUCH_ENTRY:
840       error = clib_error_return (0, "tunnel does not exist...");
841       goto done;
842
843     default:
844       error = clib_error_return
845         (0, "vnet_geneve_add_del_tunnel returned %d", rv);
846       goto done;
847     }
848
849 done:
850   unformat_free (line_input);
851
852   return error;
853 }
854
855 /*?
856  * Add or delete a GENEVE Tunnel.
857  *
858  * GENEVE provides the features needed to allow L2 bridge domains (BDs)
859  * to span multiple servers. This is done by building an L2 overlay on
860  * top of an L3 network underlay using GENEVE tunnels.
861  *
862  * This makes it possible for servers to be co-located in the same data
863  * center or be separated geographically as long as they are reachable
864  * through the underlay L3 network.
865  *
866  * You can refer to this kind of L2 overlay bridge domain as a GENEVE
867  * segment.
868  *
869  * @cliexpar
870  * Example of how to create a GENEVE Tunnel:
871  * @cliexcmd{create geneve tunnel local 10.0.3.1 remote 10.0.3.3 vni 13 encap-vrf-id 7}
872  * Example of how to delete a GENEVE Tunnel:
873  * @cliexcmd{create geneve tunnel local 10.0.3.1 remote 10.0.3.3 vni 13 del}
874  ?*/
875 /* *INDENT-OFF* */
876 VLIB_CLI_COMMAND (create_geneve_tunnel_command, static) = {
877   .path = "create geneve tunnel",
878   .short_help =
879   "create geneve tunnel local <local-vtep-addr>"
880   " {remote <remote-vtep-addr>|group <mcast-vtep-addr> <intf-name>} vni <nn>"
881   " [encap-vrf-id <nn>] [decap-next [l2|node <name>]] [del]",
882   .function = geneve_add_del_tunnel_command_fn,
883 };
884 /* *INDENT-ON* */
885
886 static clib_error_t *
887 show_geneve_tunnel_command_fn (vlib_main_t * vm,
888                                unformat_input_t * input,
889                                vlib_cli_command_t * cmd)
890 {
891   geneve_main_t *vxm = &geneve_main;
892   geneve_tunnel_t *t;
893
894   if (pool_elts (vxm->tunnels) == 0)
895     vlib_cli_output (vm, "No geneve tunnels configured...");
896
897   pool_foreach (t, vxm->tunnels, (
898                                    {
899                                    vlib_cli_output (vm, "%U",
900                                                     format_geneve_tunnel, t);
901                                    }
902                 ));
903
904   return 0;
905 }
906
907 /*?
908  * Display all the GENEVE Tunnel entries.
909  *
910  * @cliexpar
911  * Example of how to display the GENEVE Tunnel entries:
912  * @cliexstart{show geneve tunnel}
913  * [0] local 10.0.3.1 remote 10.0.3.3 vni 13 encap_fib_index 0 sw_if_index 5 decap_next l2
914  * @cliexend
915  ?*/
916 /* *INDENT-OFF* */
917 VLIB_CLI_COMMAND (show_geneve_tunnel_command, static) = {
918     .path = "show geneve tunnel",
919     .short_help = "show geneve tunnel",
920     .function = show_geneve_tunnel_command_fn,
921 };
922 /* *INDENT-ON* */
923
924
925 void
926 vnet_int_geneve_bypass_mode (u32 sw_if_index, u8 is_ip6, u8 is_enable)
927 {
928   if (is_ip6)
929     vnet_feature_enable_disable ("ip6-unicast", "ip6-geneve-bypass",
930                                  sw_if_index, is_enable, 0, 0);
931   else
932     vnet_feature_enable_disable ("ip4-unicast", "ip4-geneve-bypass",
933                                  sw_if_index, is_enable, 0, 0);
934 }
935
936
937 static clib_error_t *
938 set_ip_geneve_bypass (u32 is_ip6,
939                       unformat_input_t * input, vlib_cli_command_t * cmd)
940 {
941   unformat_input_t _line_input, *line_input = &_line_input;
942   vnet_main_t *vnm = vnet_get_main ();
943   clib_error_t *error = 0;
944   u32 sw_if_index, is_enable;
945
946   sw_if_index = ~0;
947   is_enable = 1;
948
949   if (!unformat_user (input, unformat_line_input, line_input))
950     return 0;
951
952   while (unformat_check_input (line_input) != UNFORMAT_END_OF_INPUT)
953     {
954       if (unformat_user
955           (line_input, unformat_vnet_sw_interface, vnm, &sw_if_index))
956         ;
957       else if (unformat (line_input, "del"))
958         is_enable = 0;
959       else
960         {
961           error = unformat_parse_error (line_input);
962           goto done;
963         }
964     }
965
966   if (~0 == sw_if_index)
967     {
968       error = clib_error_return (0, "unknown interface `%U'",
969                                  format_unformat_error, line_input);
970       goto done;
971     }
972
973   vnet_int_geneve_bypass_mode (sw_if_index, is_ip6, is_enable);
974
975 done:
976   unformat_free (line_input);
977
978   return error;
979 }
980
981 static clib_error_t *
982 set_ip4_geneve_bypass (vlib_main_t * vm,
983                        unformat_input_t * input, vlib_cli_command_t * cmd)
984 {
985   return set_ip_geneve_bypass (0, input, cmd);
986 }
987
988 /*?
989  * This command adds the 'ip4-geneve-bypass' graph node for a given interface.
990  * By adding the IPv4 geneve-bypass graph node to an interface, the node checks
991  *  for and validate input geneve packet and bypass ip4-lookup, ip4-local,
992  * ip4-udp-lookup nodes to speedup geneve packet forwarding. This node will
993  * cause extra overhead to for non-geneve packets which is kept at a minimum.
994  *
995  * @cliexpar
996  * @parblock
997  * Example of graph node before ip4-geneve-bypass is enabled:
998  * @cliexstart{show vlib graph ip4-geneve-bypass}
999  *            Name                      Next                    Previous
1000  * ip4-geneve-bypass                error-drop [0]
1001  *                                geneve4-input [1]
1002  *                                 ip4-lookup [2]
1003  * @cliexend
1004  *
1005  * Example of how to enable ip4-geneve-bypass on an interface:
1006  * @cliexcmd{set interface ip geneve-bypass GigabitEthernet2/0/0}
1007  *
1008  * Example of graph node after ip4-geneve-bypass is enabled:
1009  * @cliexstart{show vlib graph ip4-geneve-bypass}
1010  *            Name                      Next                    Previous
1011  * ip4-geneve-bypass                error-drop [0]               ip4-input
1012  *                                geneve4-input [1]        ip4-input-no-checksum
1013  *                                 ip4-lookup [2]
1014  * @cliexend
1015  *
1016  * Example of how to display the feature enabed on an interface:
1017  * @cliexstart{show ip interface features GigabitEthernet2/0/0}
1018  * IP feature paths configured on GigabitEthernet2/0/0...
1019  * ...
1020  * ipv4 unicast:
1021  *   ip4-geneve-bypass
1022  *   ip4-lookup
1023  * ...
1024  * @cliexend
1025  *
1026  * Example of how to disable ip4-geneve-bypass on an interface:
1027  * @cliexcmd{set interface ip geneve-bypass GigabitEthernet2/0/0 del}
1028  * @endparblock
1029 ?*/
1030 /* *INDENT-OFF* */
1031 VLIB_CLI_COMMAND (set_interface_ip_geneve_bypass_command, static) = {
1032   .path = "set interface ip geneve-bypass",
1033   .function = set_ip4_geneve_bypass,
1034   .short_help = "set interface ip geneve-bypass <interface> [del]",
1035 };
1036 /* *INDENT-ON* */
1037
1038 static clib_error_t *
1039 set_ip6_geneve_bypass (vlib_main_t * vm,
1040                        unformat_input_t * input, vlib_cli_command_t * cmd)
1041 {
1042   return set_ip_geneve_bypass (1, input, cmd);
1043 }
1044
1045 /*?
1046  * This command adds the 'ip6-geneve-bypass' graph node for a given interface.
1047  * By adding the IPv6 geneve-bypass graph node to an interface, the node checks
1048  *  for and validate input geneve packet and bypass ip6-lookup, ip6-local,
1049  * ip6-udp-lookup nodes to speedup geneve packet forwarding. This node will
1050  * cause extra overhead to for non-geneve packets which is kept at a minimum.
1051  *
1052  * @cliexpar
1053  * @parblock
1054  * Example of graph node before ip6-geneve-bypass is enabled:
1055  * @cliexstart{show vlib graph ip6-geneve-bypass}
1056  *            Name                      Next                    Previous
1057  * ip6-geneve-bypass                error-drop [0]
1058  *                                geneve6-input [1]
1059  *                                 ip6-lookup [2]
1060  * @cliexend
1061  *
1062  * Example of how to enable ip6-geneve-bypass on an interface:
1063  * @cliexcmd{set interface ip6 geneve-bypass GigabitEthernet2/0/0}
1064  *
1065  * Example of graph node after ip6-geneve-bypass is enabled:
1066  * @cliexstart{show vlib graph ip6-geneve-bypass}
1067  *            Name                      Next                    Previous
1068  * ip6-geneve-bypass                error-drop [0]               ip6-input
1069  *                                geneve6-input [1]        ip4-input-no-checksum
1070  *                                 ip6-lookup [2]
1071  * @cliexend
1072  *
1073  * Example of how to display the feature enabed on an interface:
1074  * @cliexstart{show ip interface features GigabitEthernet2/0/0}
1075  * IP feature paths configured on GigabitEthernet2/0/0...
1076  * ...
1077  * ipv6 unicast:
1078  *   ip6-geneve-bypass
1079  *   ip6-lookup
1080  * ...
1081  * @cliexend
1082  *
1083  * Example of how to disable ip6-geneve-bypass on an interface:
1084  * @cliexcmd{set interface ip6 geneve-bypass GigabitEthernet2/0/0 del}
1085  * @endparblock
1086 ?*/
1087 /* *INDENT-OFF* */
1088 VLIB_CLI_COMMAND (set_interface_ip6_geneve_bypass_command, static) = {
1089   .path = "set interface ip6 geneve-bypass",
1090   .function = set_ip6_geneve_bypass,
1091   .short_help = "set interface ip geneve-bypass <interface> [del]",
1092 };
1093 /* *INDENT-ON* */
1094
1095 clib_error_t *
1096 geneve_init (vlib_main_t * vm)
1097 {
1098   geneve_main_t *vxm = &geneve_main;
1099
1100   vxm->vnet_main = vnet_get_main ();
1101   vxm->vlib_main = vm;
1102
1103   /* initialize the ip6 hash */
1104   vxm->geneve6_tunnel_by_key = hash_create_mem (0,
1105                                                 sizeof (geneve6_tunnel_key_t),
1106                                                 sizeof (uword));
1107   vxm->vtep6 = hash_create_mem (0, sizeof (ip6_address_t), sizeof (uword));
1108   vxm->mcast_shared = hash_create_mem (0,
1109                                        sizeof (ip46_address_t),
1110                                        sizeof (mcast_shared_t));
1111
1112   udp_register_dst_port (vm, UDP_DST_PORT_geneve,
1113                          geneve4_input_node.index, /* is_ip4 */ 1);
1114   udp_register_dst_port (vm, UDP_DST_PORT_geneve6,
1115                          geneve6_input_node.index, /* is_ip4 */ 0);
1116
1117   fib_node_register_type (FIB_NODE_TYPE_GENEVE_TUNNEL, &geneve_vft);
1118
1119   return 0;
1120 }
1121
1122 VLIB_INIT_FUNCTION (geneve_init);
1123
1124 /*
1125  * fd.io coding-style-patch-verification: ON
1126  *
1127  * Local Variables:
1128  * eval: (c-set-style "gnu")
1129  * End:
1130  */