L2 BD: introduce a BD interface on which to send UU packets
[vpp.git] / src / vnet / geneve / geneve.c
1 /*
2  * Copyright (c) 2017 SUSE LLC.
3  * Licensed under the Apache License, Version 2.0 (the "License");
4  * you may not use this file except in compliance with the License.
5  * You may obtain a copy of the License at:
6  *
7  *     http://www.apache.org/licenses/LICENSE-2.0
8  *
9  * Unless required by applicable law or agreed to in writing, software
10  * distributed under the License is distributed on an "AS IS" BASIS,
11  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
12  * See the License for the specific language governing permissions and
13  * limitations under the License.
14  */
15 #include <vnet/geneve/geneve.h>
16 #include <vnet/ip/format.h>
17 #include <vnet/fib/fib_entry.h>
18 #include <vnet/fib/fib_table.h>
19 #include <vnet/mfib/mfib_table.h>
20 #include <vnet/adj/adj_mcast.h>
21 #include <vnet/interface.h>
22 #include <vlib/vlib.h>
23
24 /**
25  * @file
26  * @brief GENEVE.
27  *
28  * GENEVE provides the features needed to allow L2 bridge domains (BDs)
29  * to span multiple servers. This is done by building an L2 overlay on
30  * top of an L3 network underlay using GENEVE tunnels.
31  *
32  * This makes it possible for servers to be co-located in the same data
33  * center or be separated geographically as long as they are reachable
34  * through the underlay L3 network.
35  */
36
37
38 geneve_main_t geneve_main;
39
40 static u8 *
41 format_decap_next (u8 * s, va_list * args)
42 {
43   u32 next_index = va_arg (*args, u32);
44
45   switch (next_index)
46     {
47     case GENEVE_INPUT_NEXT_DROP:
48       return format (s, "drop");
49     case GENEVE_INPUT_NEXT_L2_INPUT:
50       return format (s, "l2");
51     default:
52       return format (s, "index %d", next_index);
53     }
54   return s;
55 }
56
57 u8 *
58 format_geneve_tunnel (u8 * s, va_list * args)
59 {
60   geneve_tunnel_t *t = va_arg (*args, geneve_tunnel_t *);
61   geneve_main_t *ngm = &geneve_main;
62
63   s = format (s, "[%d] lcl %U rmt %U vni %d fib-idx %d sw-if-idx %d ",
64               t - ngm->tunnels,
65               format_ip46_address, &t->local, IP46_TYPE_ANY,
66               format_ip46_address, &t->remote, IP46_TYPE_ANY,
67               t->vni, t->encap_fib_index, t->sw_if_index);
68
69   s = format (s, "encap-dpo-idx %d ", t->next_dpo.dpoi_index);
70   s = format (s, "decap-next-%U ", format_decap_next, t->decap_next_index);
71
72   if (PREDICT_FALSE (ip46_address_is_multicast (&t->remote)))
73     s = format (s, "mcast-sw-if-idx %d ", t->mcast_sw_if_index);
74
75   return s;
76 }
77
78 static u8 *
79 format_geneve_name (u8 * s, va_list * args)
80 {
81   u32 dev_instance = va_arg (*args, u32);
82   return format (s, "geneve_tunnel%d", dev_instance);
83 }
84
85 static clib_error_t *
86 geneve_interface_admin_up_down (vnet_main_t * vnm, u32 hw_if_index, u32 flags)
87 {
88   u32 hw_flags = (flags & VNET_SW_INTERFACE_FLAG_ADMIN_UP) ?
89     VNET_HW_INTERFACE_FLAG_LINK_UP : 0;
90   vnet_hw_interface_set_flags (vnm, hw_if_index, hw_flags);
91
92   return /* no error */ 0;
93 }
94
95 /* *INDENT-OFF* */
96 VNET_DEVICE_CLASS (geneve_device_class, static) = {
97   .name = "GENEVE",
98   .format_device_name = format_geneve_name,
99   .format_tx_trace = format_geneve_encap_trace,
100   .admin_up_down_function = geneve_interface_admin_up_down,
101 };
102 /* *INDENT-ON* */
103
104 static u8 *
105 format_geneve_header_with_length (u8 * s, va_list * args)
106 {
107   u32 dev_instance = va_arg (*args, u32);
108   s = format (s, "unimplemented dev %u", dev_instance);
109   return s;
110 }
111
112 /* *INDENT-OFF* */
113 VNET_HW_INTERFACE_CLASS (geneve_hw_class) = {
114   .name = "GENEVE",
115   .format_header = format_geneve_header_with_length,
116   .build_rewrite = default_build_rewrite,
117 };
118 /* *INDENT-ON* */
119
120 static void
121 geneve_tunnel_restack_dpo (geneve_tunnel_t * t)
122 {
123   dpo_id_t dpo = DPO_INVALID;
124   u32 encap_index = ip46_address_is_ip4 (&t->remote) ?
125     geneve4_encap_node.index : geneve6_encap_node.index;
126   fib_forward_chain_type_t forw_type = ip46_address_is_ip4 (&t->remote) ?
127     FIB_FORW_CHAIN_TYPE_UNICAST_IP4 : FIB_FORW_CHAIN_TYPE_UNICAST_IP6;
128
129   fib_entry_contribute_forwarding (t->fib_entry_index, forw_type, &dpo);
130   dpo_stack_from_node (encap_index, &t->next_dpo, &dpo);
131   dpo_reset (&dpo);
132 }
133
134 static geneve_tunnel_t *
135 geneve_tunnel_from_fib_node (fib_node_t * node)
136 {
137   ASSERT (FIB_NODE_TYPE_GENEVE_TUNNEL == node->fn_type);
138   return ((geneve_tunnel_t *) (((char *) node) -
139                                STRUCT_OFFSET_OF (geneve_tunnel_t, node)));
140 }
141
142 /**
143  * Function definition to backwalk a FIB node -
144  * Here we will restack the new dpo of GENEVE DIP to encap node.
145  */
146 static fib_node_back_walk_rc_t
147 geneve_tunnel_back_walk (fib_node_t * node, fib_node_back_walk_ctx_t * ctx)
148 {
149   geneve_tunnel_restack_dpo (geneve_tunnel_from_fib_node (node));
150   return (FIB_NODE_BACK_WALK_CONTINUE);
151 }
152
153 /**
154  * Function definition to get a FIB node from its index
155  */
156 static fib_node_t *
157 geneve_tunnel_fib_node_get (fib_node_index_t index)
158 {
159   geneve_tunnel_t *t;
160   geneve_main_t *vxm = &geneve_main;
161
162   t = pool_elt_at_index (vxm->tunnels, index);
163
164   return (&t->node);
165 }
166
167 /**
168  * Function definition to inform the FIB node that its last lock has gone.
169  */
170 static void
171 geneve_tunnel_last_lock_gone (fib_node_t * node)
172 {
173   /*
174    * The GENEVE tunnel is a root of the graph. As such
175    * it never has children and thus is never locked.
176    */
177   ASSERT (0);
178 }
179
180 /*
181  * Virtual function table registered by GENEVE tunnels
182  * for participation in the FIB object graph.
183  */
184 const static fib_node_vft_t geneve_vft = {
185   .fnv_get = geneve_tunnel_fib_node_get,
186   .fnv_last_lock = geneve_tunnel_last_lock_gone,
187   .fnv_back_walk = geneve_tunnel_back_walk,
188 };
189
190
191 #define foreach_copy_field                      \
192 _(vni)                                          \
193 _(mcast_sw_if_index)                            \
194 _(encap_fib_index)                              \
195 _(decap_next_index)                             \
196 _(local)                                          \
197 _(remote)
198
199 static int
200 geneve_rewrite (geneve_tunnel_t * t, bool is_ip6)
201 {
202   union
203   {
204     ip4_geneve_header_t *h4;
205     ip6_geneve_header_t *h6;
206     u8 *rw;
207   } r =
208   {
209   .rw = 0};
210   int len = is_ip6 ? sizeof *r.h6 : sizeof *r.h4;
211 #if SUPPORT_OPTIONS_HEADER==1
212   len += t->options_len;
213 #endif
214
215   vec_validate_aligned (r.rw, len - 1, CLIB_CACHE_LINE_BYTES);
216
217   udp_header_t *udp;
218   geneve_header_t *geneve;
219   /* Fixed portion of the (outer) ip header */
220   if (!is_ip6)
221     {
222       ip4_header_t *ip = &r.h4->ip4;
223       udp = &r.h4->udp, geneve = &r.h4->geneve;
224       ip->ip_version_and_header_length = 0x45;
225       ip->ttl = 254;
226       ip->protocol = IP_PROTOCOL_UDP;
227
228       ip->src_address = t->local.ip4;
229       ip->dst_address = t->remote.ip4;
230
231       /* we fix up the ip4 header length and checksum after-the-fact */
232       ip->checksum = ip4_header_checksum (ip);
233     }
234   else
235     {
236       ip6_header_t *ip = &r.h6->ip6;
237       udp = &r.h6->udp, geneve = &r.h6->geneve;
238       ip->ip_version_traffic_class_and_flow_label =
239         clib_host_to_net_u32 (6 << 28);
240       ip->hop_limit = 255;
241       ip->protocol = IP_PROTOCOL_UDP;
242
243       ip->src_address = t->local.ip6;
244       ip->dst_address = t->remote.ip6;
245     }
246
247   /* UDP header, randomize local port on something, maybe? */
248   udp->src_port = clib_host_to_net_u16 (5251);
249   udp->dst_port = clib_host_to_net_u16 (UDP_DST_PORT_geneve);
250
251   /* GENEVE header */
252   vnet_set_geneve_version (geneve, GENEVE_VERSION);
253 #if SUPPORT_OPTIONS_HEADER==1
254   vnet_set_geneve_options_len (geneve, t->options_len);
255 #else
256   vnet_set_geneve_options_len (geneve, 0);
257 #endif
258   vnet_set_geneve_oamframe_bit (geneve, 0);
259   vnet_set_geneve_critical_bit (geneve, 0);
260   vnet_set_geneve_protocol (geneve, GENEVE_ETH_PROTOCOL);
261
262   vnet_geneve_hdr_1word_hton (geneve);
263
264   vnet_set_geneve_vni (geneve, t->vni);
265
266   t->rewrite = r.rw;
267   return (0);
268 }
269
270 static bool
271 geneve_decap_next_is_valid (geneve_main_t * vxm, u32 is_ip6,
272                             u32 decap_next_index)
273 {
274   vlib_main_t *vm = vxm->vlib_main;
275   u32 input_idx =
276     (!is_ip6) ? geneve4_input_node.index : geneve6_input_node.index;
277   vlib_node_runtime_t *r = vlib_node_get_runtime (vm, input_idx);
278
279   return decap_next_index < r->n_next_nodes;
280 }
281
282 static uword
283 vtep_addr_ref (ip46_address_t * ip)
284 {
285   uword *vtep = ip46_address_is_ip4 (ip) ?
286     hash_get (geneve_main.vtep4, ip->ip4.as_u32) :
287     hash_get_mem (geneve_main.vtep6, &ip->ip6);
288   if (vtep)
289     return ++(*vtep);
290   ip46_address_is_ip4 (ip) ?
291     hash_set (geneve_main.vtep4, ip->ip4.as_u32, 1) :
292     hash_set_mem_alloc (&geneve_main.vtep6, &ip->ip6, 1);
293   return 1;
294 }
295
296 static uword
297 vtep_addr_unref (ip46_address_t * ip)
298 {
299   uword *vtep = ip46_address_is_ip4 (ip) ?
300     hash_get (geneve_main.vtep4, ip->ip4.as_u32) :
301     hash_get_mem (geneve_main.vtep6, &ip->ip6);
302   ASSERT (vtep);
303   if (--(*vtep) != 0)
304     return *vtep;
305   ip46_address_is_ip4 (ip) ?
306     hash_unset (geneve_main.vtep4, ip->ip4.as_u32) :
307     hash_unset_mem_free (&geneve_main.vtep6, &ip->ip6);
308   return 0;
309 }
310
311 typedef CLIB_PACKED (union
312                      {
313                      struct
314                      {
315                      fib_node_index_t mfib_entry_index;
316                      adj_index_t mcast_adj_index;
317                      }; u64 as_u64;
318                      }) mcast_shared_t;
319
320 static inline mcast_shared_t
321 mcast_shared_get (ip46_address_t * ip)
322 {
323   ASSERT (ip46_address_is_multicast (ip));
324   uword *p = hash_get_mem (geneve_main.mcast_shared, ip);
325   ASSERT (p);
326   return (mcast_shared_t)
327   {
328   .as_u64 = *p};
329 }
330
331 static inline void
332 mcast_shared_add (ip46_address_t * remote,
333                   fib_node_index_t mfei, adj_index_t ai)
334 {
335   mcast_shared_t new_ep = {
336     .mcast_adj_index = ai,
337     .mfib_entry_index = mfei,
338   };
339
340   hash_set_mem_alloc (&geneve_main.mcast_shared, remote, new_ep.as_u64);
341 }
342
343 static inline void
344 mcast_shared_remove (ip46_address_t * remote)
345 {
346   mcast_shared_t ep = mcast_shared_get (remote);
347
348   adj_unlock (ep.mcast_adj_index);
349   mfib_table_entry_delete_index (ep.mfib_entry_index, MFIB_SOURCE_GENEVE);
350
351   hash_unset_mem_free (&geneve_main.mcast_shared, remote);
352 }
353
354 int vnet_geneve_add_del_tunnel
355   (vnet_geneve_add_del_tunnel_args_t * a, u32 * sw_if_indexp)
356 {
357   geneve_main_t *vxm = &geneve_main;
358   geneve_tunnel_t *t = 0;
359   vnet_main_t *vnm = vxm->vnet_main;
360   uword *p;
361   u32 hw_if_index = ~0;
362   u32 sw_if_index = ~0;
363   int rv;
364   geneve4_tunnel_key_t key4;
365   geneve6_tunnel_key_t key6;
366   u32 is_ip6 = a->is_ip6;
367
368   if (!is_ip6)
369     {
370       key4.remote = a->remote.ip4.as_u32;
371       key4.vni =
372         clib_host_to_net_u32 ((a->vni << GENEVE_VNI_SHIFT) & GENEVE_VNI_MASK);
373       p = hash_get (vxm->geneve4_tunnel_by_key, key4.as_u64);
374     }
375   else
376     {
377       key6.remote = a->remote.ip6;
378       key6.vni =
379         clib_host_to_net_u32 ((a->vni << GENEVE_VNI_SHIFT) & GENEVE_VNI_MASK);
380       p = hash_get_mem (vxm->geneve6_tunnel_by_key, &key6);
381     }
382
383   if (a->is_add)
384     {
385       l2input_main_t *l2im = &l2input_main;
386
387       /* adding a tunnel: tunnel must not already exist */
388       if (p)
389         return VNET_API_ERROR_TUNNEL_EXIST;
390
391       /*if not set explicitly, default to l2 */
392       if (a->decap_next_index == ~0)
393         a->decap_next_index = GENEVE_INPUT_NEXT_L2_INPUT;
394       if (!geneve_decap_next_is_valid (vxm, is_ip6, a->decap_next_index))
395         return VNET_API_ERROR_INVALID_DECAP_NEXT;
396
397       pool_get_aligned (vxm->tunnels, t, CLIB_CACHE_LINE_BYTES);
398       memset (t, 0, sizeof (*t));
399
400       /* copy from arg structure */
401 #define _(x) t->x = a->x;
402       foreach_copy_field;
403 #undef _
404
405       rv = geneve_rewrite (t, is_ip6);
406       if (rv)
407         {
408           pool_put (vxm->tunnels, t);
409           return rv;
410         }
411
412       /* copy the key */
413       if (is_ip6)
414         hash_set_mem_alloc (&vxm->geneve6_tunnel_by_key, &key6,
415                             t - vxm->tunnels);
416       else
417         hash_set (vxm->geneve4_tunnel_by_key, key4.as_u64, t - vxm->tunnels);
418
419       vnet_hw_interface_t *hi;
420       if (vec_len (vxm->free_geneve_tunnel_hw_if_indices) > 0)
421         {
422           vnet_interface_main_t *im = &vnm->interface_main;
423           hw_if_index = vxm->free_geneve_tunnel_hw_if_indices
424             [vec_len (vxm->free_geneve_tunnel_hw_if_indices) - 1];
425           _vec_len (vxm->free_geneve_tunnel_hw_if_indices) -= 1;
426
427           hi = vnet_get_hw_interface (vnm, hw_if_index);
428           hi->dev_instance = t - vxm->tunnels;
429           hi->hw_instance = hi->dev_instance;
430
431           /* clear old stats of freed tunnel before reuse */
432           sw_if_index = hi->sw_if_index;
433           vnet_interface_counter_lock (im);
434           vlib_zero_combined_counter
435             (&im->combined_sw_if_counters[VNET_INTERFACE_COUNTER_TX],
436              sw_if_index);
437           vlib_zero_combined_counter (&im->combined_sw_if_counters
438                                       [VNET_INTERFACE_COUNTER_RX],
439                                       sw_if_index);
440           vlib_zero_simple_counter (&im->sw_if_counters
441                                     [VNET_INTERFACE_COUNTER_DROP],
442                                     sw_if_index);
443           vnet_interface_counter_unlock (im);
444         }
445       else
446         {
447           hw_if_index = vnet_register_interface
448             (vnm, geneve_device_class.index, t - vxm->tunnels,
449              geneve_hw_class.index, t - vxm->tunnels);
450           hi = vnet_get_hw_interface (vnm, hw_if_index);
451         }
452
453       /* Set geneve tunnel output node */
454       u32 encap_index = !is_ip6 ?
455         geneve4_encap_node.index : geneve6_encap_node.index;
456       vnet_set_interface_output_node (vnm, hw_if_index, encap_index);
457
458       t->hw_if_index = hw_if_index;
459       t->sw_if_index = sw_if_index = hi->sw_if_index;
460
461       vec_validate_init_empty (vxm->tunnel_index_by_sw_if_index, sw_if_index,
462                                ~0);
463       vxm->tunnel_index_by_sw_if_index[sw_if_index] = t - vxm->tunnels;
464
465       /* setup l2 input config with l2 feature and bd 0 to drop packet */
466       vec_validate (l2im->configs, sw_if_index);
467       l2im->configs[sw_if_index].feature_bitmap = L2INPUT_FEAT_DROP;
468       l2im->configs[sw_if_index].bd_index = 0;
469
470       vnet_sw_interface_t *si = vnet_get_sw_interface (vnm, sw_if_index);
471       si->flags &= ~VNET_SW_INTERFACE_FLAG_HIDDEN;
472       vnet_sw_interface_set_flags (vnm, sw_if_index,
473                                    VNET_SW_INTERFACE_FLAG_ADMIN_UP);
474
475       fib_node_init (&t->node, FIB_NODE_TYPE_GENEVE_TUNNEL);
476       fib_prefix_t tun_remote_pfx;
477       vnet_flood_class_t flood_class = VNET_FLOOD_CLASS_TUNNEL_NORMAL;
478
479       fib_prefix_from_ip46_addr (&t->remote, &tun_remote_pfx);
480       if (!ip46_address_is_multicast (&t->remote))
481         {
482           /* Unicast tunnel -
483            * source the FIB entry for the tunnel's destination
484            * and become a child thereof. The tunnel will then get poked
485            * when the forwarding for the entry updates, and the tunnel can
486            * re-stack accordingly
487            */
488           vtep_addr_ref (&t->local);
489           t->fib_entry_index = fib_table_entry_special_add
490             (t->encap_fib_index, &tun_remote_pfx, FIB_SOURCE_RR,
491              FIB_ENTRY_FLAG_NONE);
492           t->sibling_index = fib_entry_child_add
493             (t->fib_entry_index, FIB_NODE_TYPE_GENEVE_TUNNEL,
494              t - vxm->tunnels);
495           geneve_tunnel_restack_dpo (t);
496         }
497       else
498         {
499           /* Multicast tunnel -
500            * as the same mcast group can be used for mutiple mcast tunnels
501            * with different VNIs, create the output fib adjecency only if
502            * it does not already exist
503            */
504           fib_protocol_t fp = fib_ip_proto (is_ip6);
505
506           if (vtep_addr_ref (&t->remote) == 1)
507             {
508               fib_node_index_t mfei;
509               adj_index_t ai;
510               fib_route_path_t path = {
511                 .frp_proto = fib_proto_to_dpo (fp),
512                 .frp_addr = zero_addr,
513                 .frp_sw_if_index = 0xffffffff,
514                 .frp_fib_index = ~0,
515                 .frp_weight = 0,
516                 .frp_flags = FIB_ROUTE_PATH_LOCAL,
517               };
518               const mfib_prefix_t mpfx = {
519                 .fp_proto = fp,
520                 .fp_len = (is_ip6 ? 128 : 32),
521                 .fp_grp_addr = tun_remote_pfx.fp_addr,
522               };
523
524               /*
525                * Setup the (*,G) to receive traffic on the mcast group
526                *  - the forwarding interface is for-us
527                *  - the accepting interface is that from the API
528                */
529               mfib_table_entry_path_update (t->encap_fib_index,
530                                             &mpfx,
531                                             MFIB_SOURCE_GENEVE,
532                                             &path, MFIB_ITF_FLAG_FORWARD);
533
534               path.frp_sw_if_index = a->mcast_sw_if_index;
535               path.frp_flags = FIB_ROUTE_PATH_FLAG_NONE;
536               mfei = mfib_table_entry_path_update (t->encap_fib_index,
537                                                    &mpfx,
538                                                    MFIB_SOURCE_GENEVE,
539                                                    &path,
540                                                    MFIB_ITF_FLAG_ACCEPT);
541
542               /*
543                * Create the mcast adjacency to send traffic to the group
544                */
545               ai = adj_mcast_add_or_lock (fp,
546                                           fib_proto_to_link (fp),
547                                           a->mcast_sw_if_index);
548
549               /*
550                * create a new end-point
551                */
552               mcast_shared_add (&t->remote, mfei, ai);
553             }
554
555           dpo_id_t dpo = DPO_INVALID;
556           mcast_shared_t ep = mcast_shared_get (&t->remote);
557
558           /* Stack shared mcast remote mac addr rewrite on encap */
559           dpo_set (&dpo, DPO_ADJACENCY_MCAST,
560                    fib_proto_to_dpo (fp), ep.mcast_adj_index);
561
562           dpo_stack_from_node (encap_index, &t->next_dpo, &dpo);
563           dpo_reset (&dpo);
564           flood_class = VNET_FLOOD_CLASS_TUNNEL_MASTER;
565         }
566
567       vnet_get_sw_interface (vnet_get_main (), sw_if_index)->flood_class =
568         flood_class;
569     }
570   else
571     {
572       /* deleting a tunnel: tunnel must exist */
573       if (!p)
574         return VNET_API_ERROR_NO_SUCH_ENTRY;
575
576       t = pool_elt_at_index (vxm->tunnels, p[0]);
577
578       sw_if_index = t->sw_if_index;
579       vnet_sw_interface_set_flags (vnm, t->sw_if_index, 0 /* down */ );
580       vnet_sw_interface_t *si = vnet_get_sw_interface (vnm, t->sw_if_index);
581       si->flags |= VNET_SW_INTERFACE_FLAG_HIDDEN;
582
583       /* make sure tunnel is removed from l2 bd or xconnect */
584       set_int_l2_mode (vxm->vlib_main, vnm, MODE_L3, t->sw_if_index, 0,
585                        L2_BD_PORT_TYPE_NORMAL, 0, 0);
586       vec_add1 (vxm->free_geneve_tunnel_hw_if_indices, t->hw_if_index);
587
588       vxm->tunnel_index_by_sw_if_index[t->sw_if_index] = ~0;
589
590       if (!is_ip6)
591         hash_unset (vxm->geneve4_tunnel_by_key, key4.as_u64);
592       else
593         hash_unset_mem_free (&vxm->geneve6_tunnel_by_key, &key6);
594
595       if (!ip46_address_is_multicast (&t->remote))
596         {
597           vtep_addr_unref (&t->local);
598           fib_entry_child_remove (t->fib_entry_index, t->sibling_index);
599           fib_table_entry_delete_index (t->fib_entry_index, FIB_SOURCE_RR);
600         }
601       else if (vtep_addr_unref (&t->remote) == 0)
602         {
603           mcast_shared_remove (&t->remote);
604         }
605
606       fib_node_deinit (&t->node);
607       vec_free (t->rewrite);
608       pool_put (vxm->tunnels, t);
609     }
610
611   if (sw_if_indexp)
612     *sw_if_indexp = sw_if_index;
613
614   return 0;
615 }
616
617 static uword
618 get_decap_next_for_node (u32 node_index, u32 ipv4_set)
619 {
620   geneve_main_t *vxm = &geneve_main;
621   vlib_main_t *vm = vxm->vlib_main;
622   uword input_node = (ipv4_set) ? geneve4_input_node.index :
623     geneve6_input_node.index;
624
625   return vlib_node_add_next (vm, input_node, node_index);
626 }
627
628 static uword
629 unformat_decap_next (unformat_input_t * input, va_list * args)
630 {
631   u32 *result = va_arg (*args, u32 *);
632   u32 ipv4_set = va_arg (*args, int);
633   geneve_main_t *vxm = &geneve_main;
634   vlib_main_t *vm = vxm->vlib_main;
635   u32 node_index;
636   u32 tmp;
637
638   if (unformat (input, "l2"))
639     *result = GENEVE_INPUT_NEXT_L2_INPUT;
640   else if (unformat (input, "node %U", unformat_vlib_node, vm, &node_index))
641     *result = get_decap_next_for_node (node_index, ipv4_set);
642   else if (unformat (input, "%d", &tmp))
643     *result = tmp;
644   else
645     return 0;
646   return 1;
647 }
648
649 static clib_error_t *
650 geneve_add_del_tunnel_command_fn (vlib_main_t * vm,
651                                   unformat_input_t * input,
652                                   vlib_cli_command_t * cmd)
653 {
654   unformat_input_t _line_input, *line_input = &_line_input;
655   ip46_address_t local, remote;
656   u8 is_add = 1;
657   u8 local_set = 0;
658   u8 remote_set = 0;
659   u8 grp_set = 0;
660   u8 ipv4_set = 0;
661   u8 ipv6_set = 0;
662   u32 encap_fib_index = 0;
663   u32 mcast_sw_if_index = ~0;
664   u32 decap_next_index = GENEVE_INPUT_NEXT_L2_INPUT;
665   u32 vni = 0;
666   u32 tmp;
667   int rv;
668   vnet_geneve_add_del_tunnel_args_t _a, *a = &_a;
669   u32 tunnel_sw_if_index;
670   clib_error_t *error = NULL;
671
672   /* Cant "universally zero init" (={0}) due to GCC bug 53119 */
673   memset (&local, 0, sizeof local);
674   memset (&remote, 0, sizeof remote);
675
676   /* Get a line of input. */
677   if (!unformat_user (input, unformat_line_input, line_input))
678     return 0;
679
680   while (unformat_check_input (line_input) != UNFORMAT_END_OF_INPUT)
681     {
682       if (unformat (line_input, "del"))
683         {
684           is_add = 0;
685         }
686       else if (unformat (line_input, "local %U",
687                          unformat_ip4_address, &local.ip4))
688         {
689           local_set = 1;
690           ipv4_set = 1;
691         }
692       else if (unformat (line_input, "remote %U",
693                          unformat_ip4_address, &remote.ip4))
694         {
695           remote_set = 1;
696           ipv4_set = 1;
697         }
698       else if (unformat (line_input, "local %U",
699                          unformat_ip6_address, &local.ip6))
700         {
701           local_set = 1;
702           ipv6_set = 1;
703         }
704       else if (unformat (line_input, "remote %U",
705                          unformat_ip6_address, &remote.ip6))
706         {
707           remote_set = 1;
708           ipv6_set = 1;
709         }
710       else if (unformat (line_input, "group %U %U",
711                          unformat_ip4_address, &remote.ip4,
712                          unformat_vnet_sw_interface,
713                          vnet_get_main (), &mcast_sw_if_index))
714         {
715           grp_set = remote_set = 1;
716           ipv4_set = 1;
717         }
718       else if (unformat (line_input, "group %U %U",
719                          unformat_ip6_address, &remote.ip6,
720                          unformat_vnet_sw_interface,
721                          vnet_get_main (), &mcast_sw_if_index))
722         {
723           grp_set = remote_set = 1;
724           ipv6_set = 1;
725         }
726       else if (unformat (line_input, "encap-vrf-id %d", &tmp))
727         {
728           encap_fib_index = fib_table_find (fib_ip_proto (ipv6_set), tmp);
729           if (encap_fib_index == ~0)
730             {
731               error =
732                 clib_error_return (0, "nonexistent encap-vrf-id %d", tmp);
733               goto done;
734             }
735         }
736       else if (unformat (line_input, "decap-next %U", unformat_decap_next,
737                          &decap_next_index, ipv4_set))
738         ;
739       else if (unformat (line_input, "vni %d", &vni))
740         {
741           if (vni >> 24)
742             {
743               error = clib_error_return (0, "vni %d out of range", vni);
744               goto done;
745             }
746         }
747       else
748         {
749           error = clib_error_return (0, "parse error: '%U'",
750                                      format_unformat_error, line_input);
751           goto done;
752         }
753     }
754
755   if (local_set == 0)
756     {
757       error = clib_error_return (0, "tunnel local address not specified");
758       goto done;
759     }
760
761   if (remote_set == 0)
762     {
763       error = clib_error_return (0, "tunnel remote address not specified");
764       goto done;
765     }
766
767   if (grp_set && !ip46_address_is_multicast (&remote))
768     {
769       error = clib_error_return (0, "tunnel group address not multicast");
770       goto done;
771     }
772
773   if (grp_set == 0 && ip46_address_is_multicast (&remote))
774     {
775       error = clib_error_return (0, "remote address must be unicast");
776       goto done;
777     }
778
779   if (grp_set && mcast_sw_if_index == ~0)
780     {
781       error = clib_error_return (0, "tunnel nonexistent multicast device");
782       goto done;
783     }
784
785   if (ipv4_set && ipv6_set)
786     {
787       error = clib_error_return (0, "both IPv4 and IPv6 addresses specified");
788       goto done;
789     }
790
791   if (ip46_address_cmp (&local, &remote) == 0)
792     {
793       error =
794         clib_error_return (0, "local and remote addresses are identical");
795       goto done;
796     }
797
798   if (decap_next_index == ~0)
799     {
800       error = clib_error_return (0, "next node not found");
801       goto done;
802     }
803
804   if (vni == 0)
805     {
806       error = clib_error_return (0, "vni not specified");
807       goto done;
808     }
809
810   memset (a, 0, sizeof (*a));
811
812   a->is_add = is_add;
813   a->is_ip6 = ipv6_set;
814
815 #define _(x) a->x = x;
816   foreach_copy_field;
817 #undef _
818
819   rv = vnet_geneve_add_del_tunnel (a, &tunnel_sw_if_index);
820
821   switch (rv)
822     {
823     case 0:
824       if (is_add)
825         vlib_cli_output (vm, "%U\n", format_vnet_sw_if_index_name,
826                          vnet_get_main (), tunnel_sw_if_index);
827       break;
828
829     case VNET_API_ERROR_TUNNEL_EXIST:
830       error = clib_error_return (0, "tunnel already exists...");
831       goto done;
832
833     case VNET_API_ERROR_NO_SUCH_ENTRY:
834       error = clib_error_return (0, "tunnel does not exist...");
835       goto done;
836
837     default:
838       error = clib_error_return
839         (0, "vnet_geneve_add_del_tunnel returned %d", rv);
840       goto done;
841     }
842
843 done:
844   unformat_free (line_input);
845
846   return error;
847 }
848
849 /*?
850  * Add or delete a GENEVE Tunnel.
851  *
852  * GENEVE provides the features needed to allow L2 bridge domains (BDs)
853  * to span multiple servers. This is done by building an L2 overlay on
854  * top of an L3 network underlay using GENEVE tunnels.
855  *
856  * This makes it possible for servers to be co-located in the same data
857  * center or be separated geographically as long as they are reachable
858  * through the underlay L3 network.
859  *
860  * You can refer to this kind of L2 overlay bridge domain as a GENEVE
861  * segment.
862  *
863  * @cliexpar
864  * Example of how to create a GENEVE Tunnel:
865  * @cliexcmd{create geneve tunnel local 10.0.3.1 remote 10.0.3.3 vni 13 encap-vrf-id 7}
866  * Example of how to delete a GENEVE Tunnel:
867  * @cliexcmd{create geneve tunnel local 10.0.3.1 remote 10.0.3.3 vni 13 del}
868  ?*/
869 /* *INDENT-OFF* */
870 VLIB_CLI_COMMAND (create_geneve_tunnel_command, static) = {
871   .path = "create geneve tunnel",
872   .short_help =
873   "create geneve tunnel local <local-vtep-addr>"
874   " {remote <remote-vtep-addr>|group <mcast-vtep-addr> <intf-name>} vni <nn>"
875   " [encap-vrf-id <nn>] [decap-next [l2|node <name>]] [del]",
876   .function = geneve_add_del_tunnel_command_fn,
877 };
878 /* *INDENT-ON* */
879
880 static clib_error_t *
881 show_geneve_tunnel_command_fn (vlib_main_t * vm,
882                                unformat_input_t * input,
883                                vlib_cli_command_t * cmd)
884 {
885   geneve_main_t *vxm = &geneve_main;
886   geneve_tunnel_t *t;
887
888   if (pool_elts (vxm->tunnels) == 0)
889     vlib_cli_output (vm, "No geneve tunnels configured...");
890
891   pool_foreach (t, vxm->tunnels, (
892                                    {
893                                    vlib_cli_output (vm, "%U",
894                                                     format_geneve_tunnel, t);
895                                    }
896                 ));
897
898   return 0;
899 }
900
901 /*?
902  * Display all the GENEVE Tunnel entries.
903  *
904  * @cliexpar
905  * Example of how to display the GENEVE Tunnel entries:
906  * @cliexstart{show geneve tunnel}
907  * [0] local 10.0.3.1 remote 10.0.3.3 vni 13 encap_fib_index 0 sw_if_index 5 decap_next l2
908  * @cliexend
909  ?*/
910 /* *INDENT-OFF* */
911 VLIB_CLI_COMMAND (show_geneve_tunnel_command, static) = {
912     .path = "show geneve tunnel",
913     .short_help = "show geneve tunnel",
914     .function = show_geneve_tunnel_command_fn,
915 };
916 /* *INDENT-ON* */
917
918
919 void
920 vnet_int_geneve_bypass_mode (u32 sw_if_index, u8 is_ip6, u8 is_enable)
921 {
922   if (is_ip6)
923     vnet_feature_enable_disable ("ip6-unicast", "ip6-geneve-bypass",
924                                  sw_if_index, is_enable, 0, 0);
925   else
926     vnet_feature_enable_disable ("ip4-unicast", "ip4-geneve-bypass",
927                                  sw_if_index, is_enable, 0, 0);
928 }
929
930
931 static clib_error_t *
932 set_ip_geneve_bypass (u32 is_ip6,
933                       unformat_input_t * input, vlib_cli_command_t * cmd)
934 {
935   unformat_input_t _line_input, *line_input = &_line_input;
936   vnet_main_t *vnm = vnet_get_main ();
937   clib_error_t *error = 0;
938   u32 sw_if_index, is_enable;
939
940   sw_if_index = ~0;
941   is_enable = 1;
942
943   if (!unformat_user (input, unformat_line_input, line_input))
944     return 0;
945
946   while (unformat_check_input (line_input) != UNFORMAT_END_OF_INPUT)
947     {
948       if (unformat_user
949           (line_input, unformat_vnet_sw_interface, vnm, &sw_if_index))
950         ;
951       else if (unformat (line_input, "del"))
952         is_enable = 0;
953       else
954         {
955           error = unformat_parse_error (line_input);
956           goto done;
957         }
958     }
959
960   if (~0 == sw_if_index)
961     {
962       error = clib_error_return (0, "unknown interface `%U'",
963                                  format_unformat_error, line_input);
964       goto done;
965     }
966
967   vnet_int_geneve_bypass_mode (sw_if_index, is_ip6, is_enable);
968
969 done:
970   unformat_free (line_input);
971
972   return error;
973 }
974
975 static clib_error_t *
976 set_ip4_geneve_bypass (vlib_main_t * vm,
977                        unformat_input_t * input, vlib_cli_command_t * cmd)
978 {
979   return set_ip_geneve_bypass (0, input, cmd);
980 }
981
982 /*?
983  * This command adds the 'ip4-geneve-bypass' graph node for a given interface.
984  * By adding the IPv4 geneve-bypass graph node to an interface, the node checks
985  *  for and validate input geneve packet and bypass ip4-lookup, ip4-local,
986  * ip4-udp-lookup nodes to speedup geneve packet forwarding. This node will
987  * cause extra overhead to for non-geneve packets which is kept at a minimum.
988  *
989  * @cliexpar
990  * @parblock
991  * Example of graph node before ip4-geneve-bypass is enabled:
992  * @cliexstart{show vlib graph ip4-geneve-bypass}
993  *            Name                      Next                    Previous
994  * ip4-geneve-bypass                error-drop [0]
995  *                                geneve4-input [1]
996  *                                 ip4-lookup [2]
997  * @cliexend
998  *
999  * Example of how to enable ip4-geneve-bypass on an interface:
1000  * @cliexcmd{set interface ip geneve-bypass GigabitEthernet2/0/0}
1001  *
1002  * Example of graph node after ip4-geneve-bypass is enabled:
1003  * @cliexstart{show vlib graph ip4-geneve-bypass}
1004  *            Name                      Next                    Previous
1005  * ip4-geneve-bypass                error-drop [0]               ip4-input
1006  *                                geneve4-input [1]        ip4-input-no-checksum
1007  *                                 ip4-lookup [2]
1008  * @cliexend
1009  *
1010  * Example of how to display the feature enabed on an interface:
1011  * @cliexstart{show ip interface features GigabitEthernet2/0/0}
1012  * IP feature paths configured on GigabitEthernet2/0/0...
1013  * ...
1014  * ipv4 unicast:
1015  *   ip4-geneve-bypass
1016  *   ip4-lookup
1017  * ...
1018  * @cliexend
1019  *
1020  * Example of how to disable ip4-geneve-bypass on an interface:
1021  * @cliexcmd{set interface ip geneve-bypass GigabitEthernet2/0/0 del}
1022  * @endparblock
1023 ?*/
1024 /* *INDENT-OFF* */
1025 VLIB_CLI_COMMAND (set_interface_ip_geneve_bypass_command, static) = {
1026   .path = "set interface ip geneve-bypass",
1027   .function = set_ip4_geneve_bypass,
1028   .short_help = "set interface ip geneve-bypass <interface> [del]",
1029 };
1030 /* *INDENT-ON* */
1031
1032 static clib_error_t *
1033 set_ip6_geneve_bypass (vlib_main_t * vm,
1034                        unformat_input_t * input, vlib_cli_command_t * cmd)
1035 {
1036   return set_ip_geneve_bypass (1, input, cmd);
1037 }
1038
1039 /*?
1040  * This command adds the 'ip6-geneve-bypass' graph node for a given interface.
1041  * By adding the IPv6 geneve-bypass graph node to an interface, the node checks
1042  *  for and validate input geneve packet and bypass ip6-lookup, ip6-local,
1043  * ip6-udp-lookup nodes to speedup geneve packet forwarding. This node will
1044  * cause extra overhead to for non-geneve packets which is kept at a minimum.
1045  *
1046  * @cliexpar
1047  * @parblock
1048  * Example of graph node before ip6-geneve-bypass is enabled:
1049  * @cliexstart{show vlib graph ip6-geneve-bypass}
1050  *            Name                      Next                    Previous
1051  * ip6-geneve-bypass                error-drop [0]
1052  *                                geneve6-input [1]
1053  *                                 ip6-lookup [2]
1054  * @cliexend
1055  *
1056  * Example of how to enable ip6-geneve-bypass on an interface:
1057  * @cliexcmd{set interface ip6 geneve-bypass GigabitEthernet2/0/0}
1058  *
1059  * Example of graph node after ip6-geneve-bypass is enabled:
1060  * @cliexstart{show vlib graph ip6-geneve-bypass}
1061  *            Name                      Next                    Previous
1062  * ip6-geneve-bypass                error-drop [0]               ip6-input
1063  *                                geneve6-input [1]        ip4-input-no-checksum
1064  *                                 ip6-lookup [2]
1065  * @cliexend
1066  *
1067  * Example of how to display the feature enabed on an interface:
1068  * @cliexstart{show ip interface features GigabitEthernet2/0/0}
1069  * IP feature paths configured on GigabitEthernet2/0/0...
1070  * ...
1071  * ipv6 unicast:
1072  *   ip6-geneve-bypass
1073  *   ip6-lookup
1074  * ...
1075  * @cliexend
1076  *
1077  * Example of how to disable ip6-geneve-bypass on an interface:
1078  * @cliexcmd{set interface ip6 geneve-bypass GigabitEthernet2/0/0 del}
1079  * @endparblock
1080 ?*/
1081 /* *INDENT-OFF* */
1082 VLIB_CLI_COMMAND (set_interface_ip6_geneve_bypass_command, static) = {
1083   .path = "set interface ip6 geneve-bypass",
1084   .function = set_ip6_geneve_bypass,
1085   .short_help = "set interface ip geneve-bypass <interface> [del]",
1086 };
1087 /* *INDENT-ON* */
1088
1089 clib_error_t *
1090 geneve_init (vlib_main_t * vm)
1091 {
1092   geneve_main_t *vxm = &geneve_main;
1093
1094   vxm->vnet_main = vnet_get_main ();
1095   vxm->vlib_main = vm;
1096
1097   /* initialize the ip6 hash */
1098   vxm->geneve6_tunnel_by_key = hash_create_mem (0,
1099                                                 sizeof (geneve6_tunnel_key_t),
1100                                                 sizeof (uword));
1101   vxm->vtep6 = hash_create_mem (0, sizeof (ip6_address_t), sizeof (uword));
1102   vxm->mcast_shared = hash_create_mem (0,
1103                                        sizeof (ip46_address_t),
1104                                        sizeof (mcast_shared_t));
1105
1106   udp_register_dst_port (vm, UDP_DST_PORT_geneve,
1107                          geneve4_input_node.index, /* is_ip4 */ 1);
1108   udp_register_dst_port (vm, UDP_DST_PORT_geneve6,
1109                          geneve6_input_node.index, /* is_ip4 */ 0);
1110
1111   fib_node_register_type (FIB_NODE_TYPE_GENEVE_TUNNEL, &geneve_vft);
1112
1113   return 0;
1114 }
1115
1116 VLIB_INIT_FUNCTION (geneve_init);
1117
1118 /*
1119  * fd.io coding-style-patch-verification: ON
1120  *
1121  * Local Variables:
1122  * eval: (c-set-style "gnu")
1123  * End:
1124  */