ipip: Multi-point interface
[vpp.git] / src / vnet / adj / adj_nbr.c
1 /*
2  * Copyright (c) 2016 Cisco and/or its affiliates.
3  * Licensed under the Apache License, Version 2.0 (the "License");
4  * you may not use this file except in compliance with the License.
5  * You may obtain a copy of the License at:
6  *
7  *     http://www.apache.org/licenses/LICENSE-2.0
8  *
9  * Unless required by applicable law or agreed to in writing, software
10  * distributed under the License is distributed on an "AS IS" BASIS,
11  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
12  * See the License for the specific language governing permissions and
13  * limitations under the License.
14  */
15
16 #include <vnet/adj/adj_nbr.h>
17 #include <vnet/adj/adj_internal.h>
18 #include <vnet/ethernet/arp_packet.h>
19 #include <vnet/fib/fib_walk.h>
20
21 #include <vppinfra/bihash_24_8.h>
22
23 /*
24  * Vector Hash tables of neighbour (traditional) adjacencies
25  *  Key: interface(for the vector index), address (and its proto),
26  *       link-type/ether-type.
27  */
28 static BVT(clib_bihash) **adj_nbr_tables[FIB_PROTOCOL_MAX];
29
30 // FIXME SIZE APPROPRIATELY. ASK DAVEB.
31 #define ADJ_NBR_DEFAULT_HASH_NUM_BUCKETS (64 * 64)
32 #define ADJ_NBR_DEFAULT_HASH_MEMORY_SIZE (32<<20)
33
34
35 #define ADJ_NBR_SET_KEY(_key, _lt, _nh)         \
36 {                                               \
37     _key.key[0] = (_nh)->as_u64[0];             \
38     _key.key[1] = (_nh)->as_u64[1];             \
39     _key.key[2] = (_lt);                        \
40 }
41
42 #define ADJ_NBR_ITF_OK(_proto, _itf)                    \
43     (((_itf) < vec_len(adj_nbr_tables[_proto])) &&      \
44      (NULL != adj_nbr_tables[_proto][sw_if_index]))
45
46 static void
47 adj_nbr_insert (fib_protocol_t nh_proto,
48                 vnet_link_t link_type,
49                 const ip46_address_t *nh_addr,
50                 u32 sw_if_index,
51                 adj_index_t adj_index)
52 {
53     BVT(clib_bihash_kv) kv;
54
55     if (sw_if_index >= vec_len(adj_nbr_tables[nh_proto]))
56     {
57         vec_validate(adj_nbr_tables[nh_proto], sw_if_index);
58     }
59     if (NULL == adj_nbr_tables[nh_proto][sw_if_index])
60     {
61         adj_nbr_tables[nh_proto][sw_if_index] =
62             clib_mem_alloc_aligned(sizeof(BVT(clib_bihash)),
63                                    CLIB_CACHE_LINE_BYTES);
64         clib_memset(adj_nbr_tables[nh_proto][sw_if_index],
65                0,
66                sizeof(BVT(clib_bihash)));
67
68         BV(clib_bihash_init) (adj_nbr_tables[nh_proto][sw_if_index],
69                               "Adjacency Neighbour table",
70                               ADJ_NBR_DEFAULT_HASH_NUM_BUCKETS,
71                               ADJ_NBR_DEFAULT_HASH_MEMORY_SIZE);
72     }
73
74     ADJ_NBR_SET_KEY(kv, link_type, nh_addr);
75     kv.value = adj_index;
76
77     BV(clib_bihash_add_del) (adj_nbr_tables[nh_proto][sw_if_index], &kv, 1);
78 }
79
80 void
81 adj_nbr_remove (adj_index_t ai,
82                 fib_protocol_t nh_proto,
83                 vnet_link_t link_type,
84                 const ip46_address_t *nh_addr,
85                 u32 sw_if_index)
86 {
87     BVT(clib_bihash_kv) kv;
88
89     if (!ADJ_NBR_ITF_OK(nh_proto, sw_if_index))
90         return;
91
92     ADJ_NBR_SET_KEY(kv, link_type, nh_addr);
93     kv.value = ai;
94
95     BV(clib_bihash_add_del) (adj_nbr_tables[nh_proto][sw_if_index], &kv, 0);
96 }
97
98 adj_index_t
99 adj_nbr_find (fib_protocol_t nh_proto,
100               vnet_link_t link_type,
101               const ip46_address_t *nh_addr,
102               u32 sw_if_index)
103 {
104     BVT(clib_bihash_kv) kv;
105
106     ADJ_NBR_SET_KEY(kv, link_type, nh_addr);
107
108     if (!ADJ_NBR_ITF_OK(nh_proto, sw_if_index))
109         return (ADJ_INDEX_INVALID);
110
111     if (BV(clib_bihash_search)(adj_nbr_tables[nh_proto][sw_if_index],
112                                &kv, &kv) < 0)
113     {
114         return (ADJ_INDEX_INVALID);
115     }
116     else
117     {
118         return (kv.value);
119     }
120 }
121
122 static inline u32
123 adj_get_nd_node (fib_protocol_t proto)
124 {
125     switch (proto) {
126     case FIB_PROTOCOL_IP4:
127         return (ip4_arp_node.index);
128     case FIB_PROTOCOL_IP6:
129         return (ip6_discover_neighbor_node.index);
130     case FIB_PROTOCOL_MPLS:
131         break;
132     }
133     ASSERT(0);
134     return (ip4_arp_node.index);
135 }
136
137 /**
138  * @brief Check and set feature flags if o/p interface has any o/p features.
139  */
140 static void
141 adj_nbr_evaluate_feature (adj_index_t ai)
142 {
143     ip_adjacency_t *adj;
144     vnet_feature_main_t *fm = &feature_main;
145     i16 feature_count;
146     u8 arc_index;
147     u32 sw_if_index;
148
149     adj = adj_get(ai);
150
151     switch (adj->ia_link)
152     {
153     case VNET_LINK_IP4:
154         arc_index = ip4_main.lookup_main.output_feature_arc_index;
155         break;
156     case VNET_LINK_IP6:
157         arc_index = ip6_main.lookup_main.output_feature_arc_index;
158         break;
159     case VNET_LINK_MPLS:
160         arc_index = mpls_main.output_feature_arc_index;
161         break;
162     default:
163         return;
164     }
165
166     sw_if_index = adj->rewrite_header.sw_if_index;
167     if (vec_len(fm->feature_count_by_sw_if_index[arc_index]) > sw_if_index)
168     {
169         feature_count = fm->feature_count_by_sw_if_index[arc_index][sw_if_index];
170         if (feature_count > 0)
171             adj->rewrite_header.flags |= VNET_REWRITE_HAS_FEATURES;
172     }
173
174     return;
175 }
176
177 static ip_adjacency_t*
178 adj_nbr_alloc (fib_protocol_t nh_proto,
179                vnet_link_t link_type,
180                const ip46_address_t *nh_addr,
181                u32 sw_if_index)
182 {
183     ip_adjacency_t *adj;
184
185     adj = adj_alloc(nh_proto);
186
187     adj_nbr_insert(nh_proto, link_type, nh_addr,
188                    sw_if_index,
189                    adj_get_index(adj));
190
191     /*
192      * since we just added the ADJ we have no rewrite string for it,
193      * so its for ARP
194      */
195     adj->lookup_next_index = IP_LOOKUP_NEXT_ARP;
196     adj->sub_type.nbr.next_hop = *nh_addr;
197     adj->ia_link = link_type;
198     adj->ia_nh_proto = nh_proto;
199     adj->rewrite_header.sw_if_index = sw_if_index;
200     vnet_rewrite_update_mtu(vnet_get_main(), adj->ia_link,
201                             &adj->rewrite_header);
202
203     adj_nbr_evaluate_feature (adj_get_index(adj));
204     return (adj);
205 }
206
207 /*
208  * adj_nbr_add_or_lock
209  *
210  * Add an adjacency for the neighbour requested.
211  *
212  * The key for an adj is:
213  *   - the Next-hops protocol (i.e. v4 or v6)
214  *   - the address of the next-hop
215  *   - the interface the next-hop is reachable through
216  */
217 adj_index_t
218 adj_nbr_add_or_lock (fib_protocol_t nh_proto,
219                      vnet_link_t link_type,
220                      const ip46_address_t *nh_addr,
221                      u32 sw_if_index)
222 {
223     adj_index_t adj_index;
224
225     adj_index = adj_nbr_find(nh_proto, link_type, nh_addr, sw_if_index);
226
227     if (ADJ_INDEX_INVALID == adj_index)
228     {
229         ip_adjacency_t *adj;
230         vnet_main_t *vnm;
231
232         vnm = vnet_get_main();
233         adj = adj_nbr_alloc(nh_proto, link_type, nh_addr, sw_if_index);
234         adj_index = adj_get_index(adj);
235         adj_lock(adj_index);
236
237         if (ip46_address_is_equal(&ADJ_BCAST_ADDR, nh_addr))
238         {
239             adj->lookup_next_index = IP_LOOKUP_NEXT_BCAST;
240         }
241
242         vnet_rewrite_init(vnm, sw_if_index, link_type,
243                           adj_get_nd_node(nh_proto),
244                           vnet_tx_node_index_for_sw_interface(vnm, sw_if_index),
245                           &adj->rewrite_header);
246
247         /*
248          * we need a rewrite where the destination IP address is converted
249          * to the appropriate link-layer address. This is interface specific.
250          * So ask the interface to do it.
251          */
252         vnet_update_adjacency_for_sw_interface(vnm, sw_if_index, adj_index);
253     }
254     else
255     {
256         adj_lock(adj_index);
257     }
258
259     adj_delegate_adj_created(adj_get(adj_index));
260     return (adj_index);
261 }
262
263 adj_index_t
264 adj_nbr_add_or_lock_w_rewrite (fib_protocol_t nh_proto,
265                                vnet_link_t link_type,
266                                const ip46_address_t *nh_addr,
267                                u32 sw_if_index,
268                                u8 *rewrite)
269 {
270     adj_index_t adj_index;
271
272     adj_index = adj_nbr_find(nh_proto, link_type, nh_addr, sw_if_index);
273
274     if (ADJ_INDEX_INVALID == adj_index)
275     {
276         ip_adjacency_t *adj;
277
278         adj = adj_nbr_alloc(nh_proto, link_type, nh_addr, sw_if_index);
279         adj->rewrite_header.sw_if_index = sw_if_index;
280         adj_index = adj_get_index(adj);
281     }
282
283     adj_lock(adj_index);
284     adj_nbr_update_rewrite(adj_index,
285                            ADJ_NBR_REWRITE_FLAG_COMPLETE,
286                            rewrite);
287
288     adj_delegate_adj_created(adj_get(adj_index));
289
290     return (adj_index);
291 }
292
293 /**
294  * adj_nbr_update_rewrite
295  *
296  * Update the adjacency's rewrite string. A NULL string implies the
297  * rewrite is reset (i.e. when ARP/ND entry is gone).
298  * NB: the adj being updated may be handling traffic in the DP.
299  */
300 void
301 adj_nbr_update_rewrite (adj_index_t adj_index,
302                         adj_nbr_rewrite_flag_t flags,
303                         u8 *rewrite)
304 {
305     ip_adjacency_t *adj;
306
307     ASSERT(ADJ_INDEX_INVALID != adj_index);
308
309     adj = adj_get(adj_index);
310
311     if (flags & ADJ_NBR_REWRITE_FLAG_COMPLETE)
312     {
313         /*
314          * update the adj's rewrite string and build the arc
315          * from the rewrite node to the interface's TX node
316          */
317         adj_nbr_update_rewrite_internal(adj, IP_LOOKUP_NEXT_REWRITE,
318                                         adj_get_rewrite_node(adj->ia_link),
319                                         vnet_tx_node_index_for_sw_interface(
320                                             vnet_get_main(),
321                                             adj->rewrite_header.sw_if_index),
322                                         rewrite);
323     }
324     else
325     {
326         adj_nbr_update_rewrite_internal(adj, IP_LOOKUP_NEXT_ARP,
327                                         adj_get_nd_node(adj->ia_nh_proto),
328                                         vnet_tx_node_index_for_sw_interface(
329                                             vnet_get_main(),
330                                             adj->rewrite_header.sw_if_index),
331                                         rewrite);
332     }
333 }
334
335 /**
336  * adj_nbr_update_rewrite_internal
337  *
338  * Update the adjacency's rewrite string. A NULL string implies the
339  * rewrite is reset (i.e. when ARP/ND entry is gone).
340  * NB: the adj being updated may be handling traffic in the DP.
341  */
342 void
343 adj_nbr_update_rewrite_internal (ip_adjacency_t *adj,
344                                  ip_lookup_next_t adj_next_index,
345                                  u32 this_node,
346                                  u32 next_node,
347                                  u8 *rewrite)
348 {
349     ip_adjacency_t *walk_adj;
350     adj_index_t walk_ai, ai;
351     vlib_main_t * vm;
352     u32 old_next;
353     int do_walk;
354
355     vm = vlib_get_main();
356     old_next = adj->lookup_next_index;
357
358     ai = walk_ai = adj_get_index(adj);
359     if (VNET_LINK_MPLS == adj->ia_link)
360     {
361         /*
362          * The link type MPLS has no children in the control plane graph, it only
363          * has children in the data-plane graph. The backwalk is up the former.
364          * So we need to walk from its IP cousin.
365          */
366         walk_ai = adj_nbr_find(adj->ia_nh_proto,
367                                fib_proto_to_link(adj->ia_nh_proto),
368                                &adj->sub_type.nbr.next_hop,
369                                adj->rewrite_header.sw_if_index);
370     }
371
372     /*
373      * Don't call the walk re-entrantly
374      */
375     if (ADJ_INDEX_INVALID != walk_ai)
376     {
377         walk_adj = adj_get(walk_ai);
378         if (ADJ_FLAG_SYNC_WALK_ACTIVE & walk_adj->ia_flags)
379         {
380             do_walk = 0;
381         }
382         else
383         {
384             /*
385              * Prevent re-entrant walk of the same adj
386              */
387             walk_adj->ia_flags |= ADJ_FLAG_SYNC_WALK_ACTIVE;
388             do_walk = 1;
389         }
390     }
391     else
392     {
393         do_walk = 0;
394     }
395
396     /*
397      * lock the adjacencies that are affected by updates this walk will provoke.
398      * Since the aim of the walk is to update children to link to a different
399      * DPO, this adj will no longer be in use and its lock count will drop to 0.
400      * We don't want it to be deleted as part of this endeavour.
401      */
402     adj_lock(ai);
403     adj_lock(walk_ai);
404
405     /*
406      * Updating a rewrite string is not atomic;
407      *  - the rewrite string is too long to write in one instruction
408      *  - when swapping from incomplete to complete, we also need to update
409      *    the VLIB graph next-index of the adj.
410      * ideally we would only want to suspend forwarding via this adj whilst we
411      * do this, but we do not have that level of granularity - it's suspend all
412      * worker threads or nothing.
413      * The other choices are:
414      *  - to mark the adj down and back walk so child load-balances drop this adj
415      *    from the set.
416      *  - update the next_node index of this adj to point to error-drop
417      * both of which will mean for MAC change we will drop for this adj
418      * which is not acceptable. However, when the adj changes type (from
419      * complete to incomplete and vice-versa) the child DPOs, which have the
420      * VLIB graph next node index, will be sending packets to the wrong graph
421      * node. So from the options above, updating the next_node of the adj to
422      * be drop will work, but it relies on each graph node v4/v6/mpls, rewrite/
423      * arp/midchain always be valid w.r.t. a mis-match of adj type and node type
424      * (i.e. a rewrite adj in the arp node). This is not enforceable. Getting it
425      * wrong will lead to hard to find bugs since its a race condition. So we
426      * choose the more reliable method of updating the children to use the drop,
427      * then switching adj's type, then updating the children again. Did I mention
428      * that this doesn't happen often...
429      * So we need to distinguish between the two cases:
430      *  1 - mac change
431      *  2 - adj type change
432      */
433     if (do_walk &&
434         old_next != adj_next_index &&
435         ADJ_INDEX_INVALID != walk_ai)
436     {
437         /*
438          * the adj is changing type. we need to fix all children so that they
439          * stack momentarily on a drop, while the adj changes. If we don't do
440          * this  the children will send packets to a VLIB graph node that does
441          * not correspond to the adj's type - and it goes downhill from there.
442          */
443         fib_node_back_walk_ctx_t bw_ctx = {
444             .fnbw_reason = FIB_NODE_BW_REASON_FLAG_ADJ_DOWN,
445             /*
446              * force this walk to be synchronous. if we don't and a node in the graph
447              * (a heavily shared path-list) chooses to back-ground the walk (make it
448              * async) then it will pause and we will do the adj update below, before
449              * all the children are updated. not good.
450              */
451             .fnbw_flags = FIB_NODE_BW_FLAG_FORCE_SYNC,
452         };
453
454         fib_walk_sync(FIB_NODE_TYPE_ADJ, walk_ai, &bw_ctx);
455     }
456
457     /*
458      * If we are just updating the MAC string of the adj (which we also can't
459      * do atomically), then we need to stop packets switching through the adj.
460      * We can't do that on a per-adj basis, so it's all the packets.
461      * If we are updating the type, and we walked back to the children above,
462      * then this barrier serves to flush the queues/frames.
463      */
464     vlib_worker_thread_barrier_sync(vm);
465
466     adj->lookup_next_index = adj_next_index;
467     adj->ia_node_index = this_node;
468
469     if (NULL != rewrite)
470     {
471         /*
472          * new rewrite provided.
473          * fill in the adj's rewrite string, and build the VLIB graph arc.
474          */
475         vnet_rewrite_set_data_internal(&adj->rewrite_header,
476                                        sizeof(adj->rewrite_data),
477                                        rewrite,
478                                        vec_len(rewrite));
479         vec_free(rewrite);
480     }
481     else
482     {
483         vnet_rewrite_clear_data_internal(&adj->rewrite_header,
484                                          sizeof(adj->rewrite_data));
485     }
486     adj->rewrite_header.next_index = vlib_node_add_next(vlib_get_main(),
487                                                         this_node,
488                                                         next_node);
489
490     /*
491      * done with the rewrite update - let the workers loose.
492      */
493     vlib_worker_thread_barrier_release(vm);
494
495     if (do_walk &&
496         (old_next != adj->lookup_next_index) &&
497         (ADJ_INDEX_INVALID != walk_ai))
498     {
499         /*
500          * backwalk to the children so they can stack on the now updated
501          * adjacency
502          */
503         fib_node_back_walk_ctx_t bw_ctx = {
504             .fnbw_reason = FIB_NODE_BW_REASON_FLAG_ADJ_UPDATE,
505         };
506
507         fib_walk_sync(FIB_NODE_TYPE_ADJ, walk_ai, &bw_ctx);
508     }
509     /*
510      * Prevent re-entrant walk of the same adj
511      */
512     if (do_walk)
513     {
514         walk_adj = adj_get(walk_ai);
515         walk_adj->ia_flags &= ~ADJ_FLAG_SYNC_WALK_ACTIVE;
516     }
517
518     adj_unlock(ai);
519     adj_unlock(walk_ai);
520 }
521
522 typedef struct adj_db_count_ctx_t_ {
523     u64 count;
524 } adj_db_count_ctx_t;
525
526 static int
527 adj_db_count (BVT(clib_bihash_kv) * kvp,
528               void *arg)
529 {
530     adj_db_count_ctx_t * ctx = arg;
531     ctx->count++;
532     return (BIHASH_WALK_CONTINUE);
533 }
534
535 u32
536 adj_nbr_db_size (void)
537 {
538     adj_db_count_ctx_t ctx = {
539         .count = 0,
540     };
541     fib_protocol_t proto;
542     u32 sw_if_index = 0;
543
544     for (proto = FIB_PROTOCOL_IP4; proto <= FIB_PROTOCOL_IP6; proto++)
545     {
546         vec_foreach_index(sw_if_index, adj_nbr_tables[proto])
547         {
548             if (NULL != adj_nbr_tables[proto][sw_if_index])
549             {
550                 BV(clib_bihash_foreach_key_value_pair) (
551                     adj_nbr_tables[proto][sw_if_index],
552                     adj_db_count,
553                     &ctx);
554             }
555         }
556     }
557     return (ctx.count);
558 }
559
560 /**
561  * @brief Context for a walk of the adjacency neighbour DB
562  */
563 typedef struct adj_walk_ctx_t_
564 {
565     adj_walk_cb_t awc_cb;
566     void *awc_ctx;
567 } adj_walk_ctx_t;
568
569 static int
570 adj_nbr_walk_cb (BVT(clib_bihash_kv) * kvp,
571                  void *arg)
572 {
573     adj_walk_ctx_t *ctx = arg;
574
575     // FIXME: can't stop early...
576     if (ADJ_WALK_RC_STOP == ctx->awc_cb(kvp->value, ctx->awc_ctx))
577         return (BIHASH_WALK_STOP);
578     return (BIHASH_WALK_CONTINUE);
579 }
580
581 void
582 adj_nbr_walk (u32 sw_if_index,
583               fib_protocol_t adj_nh_proto,
584               adj_walk_cb_t cb,
585               void *ctx)
586 {
587     if (!ADJ_NBR_ITF_OK(adj_nh_proto, sw_if_index))
588         return;
589
590     adj_walk_ctx_t awc = {
591         .awc_ctx = ctx,
592         .awc_cb = cb,
593     };
594
595     BV(clib_bihash_foreach_key_value_pair) (
596         adj_nbr_tables[adj_nh_proto][sw_if_index],
597         adj_nbr_walk_cb,
598         &awc);
599 }
600
601 /**
602  * @brief Walk adjacencies on a link with a given v4 next-hop.
603  * that is visit the adjacencies with different link types.
604  */
605 void
606 adj_nbr_walk_nh4 (u32 sw_if_index,
607                  const ip4_address_t *addr,
608                  adj_walk_cb_t cb,
609                  void *ctx)
610 {
611     if (!ADJ_NBR_ITF_OK(FIB_PROTOCOL_IP4, sw_if_index))
612         return;
613
614     ip46_address_t nh = {
615         .ip4 = *addr,
616     };
617     vnet_link_t linkt;
618     adj_index_t ai;
619
620     FOR_EACH_VNET_LINK(linkt)
621     {
622         ai = adj_nbr_find (FIB_PROTOCOL_IP4, linkt, &nh, sw_if_index);
623
624         if (INDEX_INVALID != ai)
625             cb(ai, ctx);
626     }
627 }
628
629 /**
630  * @brief Walk adjacencies on a link with a given v6 next-hop.
631  * that is visit the adjacencies with different link types.
632  */
633 void
634 adj_nbr_walk_nh6 (u32 sw_if_index,
635                  const ip6_address_t *addr,
636                  adj_walk_cb_t cb,
637                  void *ctx)
638 {
639     if (!ADJ_NBR_ITF_OK(FIB_PROTOCOL_IP6, sw_if_index))
640         return;
641
642     ip46_address_t nh = {
643         .ip6 = *addr,
644     };
645     vnet_link_t linkt;
646     adj_index_t ai;
647
648     FOR_EACH_VNET_LINK(linkt)
649     {
650         ai = adj_nbr_find (FIB_PROTOCOL_IP6, linkt, &nh, sw_if_index);
651
652         if (INDEX_INVALID != ai)
653             cb(ai, ctx);
654     }
655 }
656
657 /**
658  * @brief Walk adjacencies on a link with a given next-hop.
659  * that is visit the adjacencies with different link types.
660  */
661 void
662 adj_nbr_walk_nh (u32 sw_if_index,
663                  fib_protocol_t adj_nh_proto,
664                  const ip46_address_t *nh,
665                  adj_walk_cb_t cb,
666                  void *ctx)
667 {
668     if (!ADJ_NBR_ITF_OK(adj_nh_proto, sw_if_index))
669         return;
670
671     switch (adj_nh_proto)
672     {
673     case FIB_PROTOCOL_IP4:
674         adj_nbr_walk_nh4(sw_if_index, &nh->ip4, cb, ctx);
675         break; 
676     case FIB_PROTOCOL_IP6:
677         adj_nbr_walk_nh6(sw_if_index, &nh->ip6, cb, ctx);
678         break;
679     case FIB_PROTOCOL_MPLS:
680         ASSERT(0);
681         break;
682     }
683 }
684
685 /**
686  * Flags associated with the interface state walks
687  */
688 typedef enum adj_nbr_interface_flags_t_
689 {
690     ADJ_NBR_INTERFACE_UP = (1 << 0),
691 } adj_nbr_interface_flags_t;
692
693 /**
694  * Context for the state change walk of the DB
695  */
696 typedef struct adj_nbr_interface_state_change_ctx_t_
697 {
698     /**
699      * Flags on the interface
700      */
701     adj_nbr_interface_flags_t flags;
702 } adj_nbr_interface_state_change_ctx_t;
703
704 static adj_walk_rc_t
705 adj_nbr_interface_state_change_one (adj_index_t ai,
706                                     void *arg)
707 {
708     /*
709      * Back walk the graph to inform the forwarding entries
710      * that this interface state has changed. Do this synchronously
711      * since this is the walk that provides convergence
712      */
713     adj_nbr_interface_state_change_ctx_t *ctx = arg;
714     fib_node_back_walk_ctx_t bw_ctx = {
715         .fnbw_reason = ((ctx->flags & ADJ_NBR_INTERFACE_UP) ?
716                         FIB_NODE_BW_REASON_FLAG_INTERFACE_UP :
717                         FIB_NODE_BW_REASON_FLAG_INTERFACE_DOWN),
718         /*
719          * the force sync applies only as far as the first fib_entry.
720          * And it's the fib_entry's we need to converge away from
721          * the adjacencies on the now down link
722          */
723         .fnbw_flags = (!(ctx->flags & ADJ_NBR_INTERFACE_UP) ?
724                        FIB_NODE_BW_FLAG_FORCE_SYNC :
725                        FIB_NODE_BW_FLAG_NONE),
726     };
727     ip_adjacency_t *adj;
728
729     adj = adj_get(ai);
730
731     adj->ia_flags |= ADJ_FLAG_SYNC_WALK_ACTIVE;
732     fib_walk_sync(FIB_NODE_TYPE_ADJ, ai, &bw_ctx);
733     adj->ia_flags &= ~ADJ_FLAG_SYNC_WALK_ACTIVE;
734
735     return (ADJ_WALK_RC_CONTINUE);
736 }
737
738 /**
739  * @brief Registered function for SW interface state changes
740  */
741 static clib_error_t *
742 adj_nbr_sw_interface_state_change (vnet_main_t * vnm,
743                                    u32 sw_if_index,
744                                    u32 flags)
745 {
746     fib_protocol_t proto;
747
748     /*
749      * walk each adj on the interface and trigger a walk from that adj
750      */
751     for (proto = FIB_PROTOCOL_IP4; proto <= FIB_PROTOCOL_IP6; proto++)
752     {
753         adj_nbr_interface_state_change_ctx_t ctx = {
754             .flags = ((flags & VNET_SW_INTERFACE_FLAG_ADMIN_UP) ?
755                       ADJ_NBR_INTERFACE_UP :
756                       0),
757         };
758
759         adj_nbr_walk(sw_if_index, proto,
760                      adj_nbr_interface_state_change_one,
761                      &ctx);
762     }
763
764     return (NULL);
765 }
766
767 VNET_SW_INTERFACE_ADMIN_UP_DOWN_FUNCTION_PRIO(
768     adj_nbr_sw_interface_state_change,
769     VNET_ITF_FUNC_PRIORITY_HIGH);
770
771 /**
772  * @brief Invoked on each SW interface of a HW interface when the
773  * HW interface state changes
774  */
775 static walk_rc_t
776 adj_nbr_hw_sw_interface_state_change (vnet_main_t * vnm,
777                                       u32 sw_if_index,
778                                       void *arg)
779 {
780     adj_nbr_interface_state_change_ctx_t *ctx = arg;
781     fib_protocol_t proto;
782
783     /*
784      * walk each adj on the interface and trigger a walk from that adj
785      */
786     for (proto = FIB_PROTOCOL_IP4; proto <= FIB_PROTOCOL_IP6; proto++)
787     {
788         adj_nbr_walk(sw_if_index, proto,
789                      adj_nbr_interface_state_change_one,
790                      ctx);
791     }
792     return (WALK_CONTINUE);
793 }
794
795 /**
796  * @brief Registered callback for HW interface state changes
797  */
798 static clib_error_t *
799 adj_nbr_hw_interface_state_change (vnet_main_t * vnm,
800                                    u32 hw_if_index,
801                                    u32 flags)
802 {
803     /*
804      * walk SW interface on the HW
805      */
806     adj_nbr_interface_state_change_ctx_t ctx = {
807         .flags = ((flags & VNET_HW_INTERFACE_FLAG_LINK_UP) ?
808                   ADJ_NBR_INTERFACE_UP :
809                   0),
810     };
811
812     vnet_hw_interface_walk_sw(vnm, hw_if_index,
813                               adj_nbr_hw_sw_interface_state_change,
814                               &ctx);
815
816     return (NULL);
817 }
818
819 VNET_HW_INTERFACE_LINK_UP_DOWN_FUNCTION_PRIO(
820     adj_nbr_hw_interface_state_change,
821     VNET_ITF_FUNC_PRIORITY_HIGH);
822
823 static adj_walk_rc_t
824 adj_nbr_interface_delete_one (adj_index_t ai,
825                               void *arg)
826 {
827     /*
828      * Back walk the graph to inform the forwarding entries
829      * that this interface has been deleted.
830      */
831     fib_node_back_walk_ctx_t bw_ctx = {
832         .fnbw_reason = FIB_NODE_BW_REASON_FLAG_INTERFACE_DELETE,
833     };
834     ip_adjacency_t *adj;
835
836     adj_lock(ai);
837
838     adj = adj_get(ai);
839
840     adj->ia_flags |= ADJ_FLAG_SYNC_WALK_ACTIVE;
841     fib_walk_sync(FIB_NODE_TYPE_ADJ, ai, &bw_ctx);
842     adj->ia_flags &= ~ADJ_FLAG_SYNC_WALK_ACTIVE;
843
844     adj_unlock(ai);
845     return (ADJ_WALK_RC_CONTINUE);
846 }
847
848 /**
849  * adj_nbr_interface_add_del
850  *
851  * Registered to receive interface Add and delete notifications
852  */
853 static clib_error_t *
854 adj_nbr_interface_add_del (vnet_main_t * vnm,
855                            u32 sw_if_index,
856                            u32 is_add)
857 {
858     fib_protocol_t proto;
859
860     if (is_add)
861     {
862         /*
863          * not interested in interface additions. we will not back walk
864          * to resolve paths through newly added interfaces. Why? The control
865          * plane should have the brains to add interfaces first, then routes.
866          * So the case where there are paths with a interface that matches
867          * one just created is the case where the path resolved through an
868          * interface that was deleted, and still has not been removed. The
869          * new interface added, is NO GUARANTEE that the interface being
870          * added now, even though it may have the same sw_if_index, is the
871          * same interface that the path needs. So tough!
872          * If the control plane wants these routes to resolve it needs to
873          * remove and add them again.
874          */
875         return (NULL);
876     }
877
878     for (proto = FIB_PROTOCOL_IP4; proto <= FIB_PROTOCOL_IP6; proto++)
879     {
880         adj_nbr_walk(sw_if_index, proto,
881                      adj_nbr_interface_delete_one,
882                      NULL);
883     }
884
885     return (NULL);
886    
887 }
888
889 VNET_SW_INTERFACE_ADD_DEL_FUNCTION(adj_nbr_interface_add_del);
890
891
892 static adj_walk_rc_t
893 adj_nbr_show_one (adj_index_t ai,
894                   void *arg)
895 {
896     vlib_cli_output (arg, "[@%d]  %U",
897                      ai,
898                      format_ip_adjacency, ai,
899                      FORMAT_IP_ADJACENCY_NONE);
900
901     return (ADJ_WALK_RC_CONTINUE);
902 }
903
904 static clib_error_t *
905 adj_nbr_show (vlib_main_t * vm,
906               unformat_input_t * input,
907               vlib_cli_command_t * cmd)
908 {
909     adj_index_t ai = ADJ_INDEX_INVALID;
910     ip46_address_t nh = ip46_address_initializer;
911     u32 sw_if_index = ~0;
912
913     while (unformat_check_input (input) != UNFORMAT_END_OF_INPUT)
914     {
915         if (unformat (input, "%U",
916                       unformat_vnet_sw_interface, vnet_get_main(),
917                       &sw_if_index))
918             ;
919         else if (unformat (input, "%U",
920                            unformat_ip46_address, &nh, IP46_TYPE_ANY))
921             ;
922         else if (unformat (input, "%d", &ai))
923             ;
924         else
925             break;
926     }
927
928     if (ADJ_INDEX_INVALID != ai)
929     {
930         vlib_cli_output (vm, "[@%d] %U",
931                          ai,
932                          format_ip_adjacency, ai,
933                          FORMAT_IP_ADJACENCY_DETAIL);
934     }
935     else if (~0 != sw_if_index)
936     {
937         fib_protocol_t proto;
938
939         if (ip46_address_is_zero(&nh))
940         {
941             for (proto = FIB_PROTOCOL_IP4; proto <= FIB_PROTOCOL_IP6; proto++)
942             {
943                 adj_nbr_walk(sw_if_index, proto,
944                              adj_nbr_show_one,
945                              vm);
946             }
947         }
948         else
949         {
950             proto = (ip46_address_is_ip4(&nh) ?
951                      FIB_PROTOCOL_IP4 :
952                      FIB_PROTOCOL_IP6);
953             adj_nbr_walk_nh(sw_if_index, proto, &nh,
954                             adj_nbr_show_one,
955                             vm);
956         }
957     }
958     else
959     {
960         fib_protocol_t proto;
961
962         for (proto = FIB_PROTOCOL_IP4; proto <= FIB_PROTOCOL_IP6; proto++)
963         {
964             vec_foreach_index(sw_if_index, adj_nbr_tables[proto])
965             {
966                 adj_nbr_walk(sw_if_index, proto,
967                              adj_nbr_show_one,
968                              vm);
969             }
970         }
971     }
972
973     return 0;
974 }
975
976 /*?
977  * Show all neighbour adjacencies.
978  * @cliexpar
979  * @cliexstart{sh adj nbr}
980  * [@2] ipv4 via 1.0.0.2 loop0: IP4: 00:00:22:aa:bb:cc -> 00:00:11:aa:bb:cc
981  * [@3] mpls via 1.0.0.2 loop0: MPLS_UNICAST: 00:00:22:aa:bb:cc -> 00:00:11:aa:bb:cc
982  * [@4] ipv4 via 1.0.0.3 loop0: IP4: 00:00:22:aa:bb:cc -> 00:00:11:aa:bb:cc
983  * [@5] mpls via 1.0.0.3 loop0: MPLS_UNICAST: 00:00:22:aa:bb:cc -> 00:00:11:aa:bb:cc
984  * @cliexend
985  ?*/
986 VLIB_CLI_COMMAND (ip4_show_fib_command, static) = {
987     .path = "show adj nbr",
988     .short_help = "show adj nbr [<adj_index>] [interface]",
989     .function = adj_nbr_show,
990 };
991
992 u8*
993 format_adj_nbr_incomplete (u8* s, va_list *ap)
994 {
995     index_t index = va_arg(*ap, index_t);
996     CLIB_UNUSED(u32 indent) = va_arg(*ap, u32);
997     vnet_main_t * vnm = vnet_get_main();
998     ip_adjacency_t * adj = adj_get(index);
999
1000     s = format (s, "arp-%U", format_vnet_link, adj->ia_link);
1001     s = format (s, ": via %U",
1002                 format_ip46_address, &adj->sub_type.nbr.next_hop,
1003                 adj_proto_to_46(adj->ia_nh_proto));
1004     s = format (s, " %U",
1005                 format_vnet_sw_if_index_name,
1006                 vnm, adj->rewrite_header.sw_if_index);
1007
1008     return (s);
1009 }
1010
1011 u8*
1012 format_adj_nbr (u8* s, va_list *ap)
1013 {
1014     index_t index = va_arg(*ap, index_t);
1015     CLIB_UNUSED(u32 indent) = va_arg(*ap, u32);
1016     ip_adjacency_t * adj = adj_get(index);
1017
1018     s = format (s, "%U", format_vnet_link, adj->ia_link);
1019     s = format (s, " via %U ",
1020                 format_ip46_address, &adj->sub_type.nbr.next_hop,
1021                 adj_proto_to_46(adj->ia_nh_proto));
1022     s = format (s, "%U",
1023                 format_vnet_rewrite,
1024                 &adj->rewrite_header, sizeof (adj->rewrite_data), 0);
1025
1026     return (s);
1027 }
1028
1029 static void
1030 adj_dpo_lock (dpo_id_t *dpo)
1031 {
1032     adj_lock(dpo->dpoi_index);
1033 }
1034 static void
1035 adj_dpo_unlock (dpo_id_t *dpo)
1036 {
1037     adj_unlock(dpo->dpoi_index);
1038 }
1039
1040 static void
1041 adj_mem_show (void)
1042 {
1043     fib_show_memory_usage("Adjacency",
1044                           pool_elts(adj_pool),
1045                           pool_len(adj_pool),
1046                           sizeof(ip_adjacency_t));
1047 }
1048
1049 const static dpo_vft_t adj_nbr_dpo_vft = {
1050     .dv_lock = adj_dpo_lock,
1051     .dv_unlock = adj_dpo_unlock,
1052     .dv_format = format_adj_nbr,
1053     .dv_mem_show = adj_mem_show,
1054     .dv_get_urpf = adj_dpo_get_urpf,
1055 };
1056 const static dpo_vft_t adj_nbr_incompl_dpo_vft = {
1057     .dv_lock = adj_dpo_lock,
1058     .dv_unlock = adj_dpo_unlock,
1059     .dv_format = format_adj_nbr_incomplete,
1060     .dv_get_urpf = adj_dpo_get_urpf,
1061 };
1062
1063 /**
1064  * @brief The per-protocol VLIB graph nodes that are assigned to an adjacency
1065  *        object.
1066  *
1067  * this means that these graph nodes are ones from which a nbr is the
1068  * parent object in the DPO-graph.
1069  */
1070 const static char* const nbr_ip4_nodes[] =
1071 {
1072     "ip4-rewrite",
1073     NULL,
1074 };
1075 const static char* const nbr_ip6_nodes[] =
1076 {
1077     "ip6-rewrite",
1078     NULL,
1079 };
1080 const static char* const nbr_mpls_nodes[] =
1081 {
1082     "mpls-output",
1083     NULL,
1084 };
1085 const static char* const nbr_ethernet_nodes[] =
1086 {
1087     "adj-l2-rewrite",
1088     NULL,
1089 };
1090 const static char* const * const nbr_nodes[DPO_PROTO_NUM] =
1091 {
1092     [DPO_PROTO_IP4]  = nbr_ip4_nodes,
1093     [DPO_PROTO_IP6]  = nbr_ip6_nodes,
1094     [DPO_PROTO_MPLS] = nbr_mpls_nodes,
1095     [DPO_PROTO_ETHERNET] = nbr_ethernet_nodes,
1096 };
1097
1098 const static char* const nbr_incomplete_ip4_nodes[] =
1099 {
1100     "ip4-arp",
1101     NULL,
1102 };
1103 const static char* const nbr_incomplete_ip6_nodes[] =
1104 {
1105     "ip6-discover-neighbor",
1106     NULL,
1107 };
1108 const static char* const nbr_incomplete_mpls_nodes[] =
1109 {
1110     "mpls-adj-incomplete",
1111     NULL,
1112 };
1113
1114 const static char* const * const nbr_incomplete_nodes[DPO_PROTO_NUM] =
1115 {
1116     [DPO_PROTO_IP4]  = nbr_incomplete_ip4_nodes,
1117     [DPO_PROTO_IP6]  = nbr_incomplete_ip6_nodes,
1118     [DPO_PROTO_MPLS] = nbr_incomplete_mpls_nodes,
1119 };
1120
1121 void
1122 adj_nbr_module_init (void)
1123 {
1124     dpo_register(DPO_ADJACENCY,
1125                  &adj_nbr_dpo_vft,
1126                  nbr_nodes);
1127     dpo_register(DPO_ADJACENCY_INCOMPLETE,
1128                  &adj_nbr_incompl_dpo_vft,
1129                  nbr_incomplete_nodes);
1130 }