c80317a67a579a566dd6cda554770c6ead4aa30c
[vpp.git] / src / vnet / adj / adj_nbr.c
1 /*
2  * Copyright (c) 2016 Cisco and/or its affiliates.
3  * Licensed under the Apache License, Version 2.0 (the "License");
4  * you may not use this file except in compliance with the License.
5  * You may obtain a copy of the License at:
6  *
7  *     http://www.apache.org/licenses/LICENSE-2.0
8  *
9  * Unless required by applicable law or agreed to in writing, software
10  * distributed under the License is distributed on an "AS IS" BASIS,
11  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
12  * See the License for the specific language governing permissions and
13  * limitations under the License.
14  */
15
16 #include <vnet/adj/adj_nbr.h>
17 #include <vnet/adj/adj_internal.h>
18 #include <vnet/ethernet/arp_packet.h>
19 #include <vnet/fib/fib_walk.h>
20
21 #include <vppinfra/bihash_24_8.h>
22
23 /*
24  * Vector Hash tables of neighbour (traditional) adjacencies
25  *  Key: interface(for the vector index), address (and its proto),
26  *       link-type/ether-type.
27  */
28 static BVT(clib_bihash) **adj_nbr_tables[FIB_PROTOCOL_MAX];
29
30 // FIXME SIZE APPROPRIATELY. ASK DAVEB.
31 #define ADJ_NBR_DEFAULT_HASH_NUM_BUCKETS (64 * 64)
32 #define ADJ_NBR_DEFAULT_HASH_MEMORY_SIZE (32<<20)
33
34
35 #define ADJ_NBR_SET_KEY(_key, _lt, _nh)         \
36 {                                               \
37     _key.key[0] = (_nh)->as_u64[0];             \
38     _key.key[1] = (_nh)->as_u64[1];             \
39     _key.key[2] = (_lt);                        \
40 }
41
42 #define ADJ_NBR_ITF_OK(_proto, _itf)                    \
43     (((_itf) < vec_len(adj_nbr_tables[_proto])) &&      \
44      (NULL != adj_nbr_tables[_proto][sw_if_index]))
45
46 static void
47 adj_nbr_insert (fib_protocol_t nh_proto,
48                 vnet_link_t link_type,
49                 const ip46_address_t *nh_addr,
50                 u32 sw_if_index,
51                 adj_index_t adj_index)
52 {
53     BVT(clib_bihash_kv) kv;
54
55     if (sw_if_index >= vec_len(adj_nbr_tables[nh_proto]))
56     {
57         vec_validate(adj_nbr_tables[nh_proto], sw_if_index);
58     }
59     if (NULL == adj_nbr_tables[nh_proto][sw_if_index])
60     {
61         adj_nbr_tables[nh_proto][sw_if_index] =
62             clib_mem_alloc_aligned(sizeof(BVT(clib_bihash)),
63                                    CLIB_CACHE_LINE_BYTES);
64         clib_memset(adj_nbr_tables[nh_proto][sw_if_index],
65                0,
66                sizeof(BVT(clib_bihash)));
67
68         BV(clib_bihash_init) (adj_nbr_tables[nh_proto][sw_if_index],
69                               "Adjacency Neighbour table",
70                               ADJ_NBR_DEFAULT_HASH_NUM_BUCKETS,
71                               ADJ_NBR_DEFAULT_HASH_MEMORY_SIZE);
72     }
73
74     ADJ_NBR_SET_KEY(kv, link_type, nh_addr);
75     kv.value = adj_index;
76
77     BV(clib_bihash_add_del) (adj_nbr_tables[nh_proto][sw_if_index], &kv, 1);
78 }
79
80 void
81 adj_nbr_remove (adj_index_t ai,
82                 fib_protocol_t nh_proto,
83                 vnet_link_t link_type,
84                 const ip46_address_t *nh_addr,
85                 u32 sw_if_index)
86 {
87     BVT(clib_bihash_kv) kv;
88
89     if (!ADJ_NBR_ITF_OK(nh_proto, sw_if_index))
90         return;
91
92     ADJ_NBR_SET_KEY(kv, link_type, nh_addr);
93     kv.value = ai;
94
95     BV(clib_bihash_add_del) (adj_nbr_tables[nh_proto][sw_if_index], &kv, 0);
96 }
97
98 adj_index_t
99 adj_nbr_find (fib_protocol_t nh_proto,
100               vnet_link_t link_type,
101               const ip46_address_t *nh_addr,
102               u32 sw_if_index)
103 {
104     BVT(clib_bihash_kv) kv;
105
106     ADJ_NBR_SET_KEY(kv, link_type, nh_addr);
107
108     if (!ADJ_NBR_ITF_OK(nh_proto, sw_if_index))
109         return (ADJ_INDEX_INVALID);
110
111     if (BV(clib_bihash_search)(adj_nbr_tables[nh_proto][sw_if_index],
112                                &kv, &kv) < 0)
113     {
114         return (ADJ_INDEX_INVALID);
115     }
116     else
117     {
118         return (kv.value);
119     }
120 }
121
122 static inline u32
123 adj_get_nd_node (fib_protocol_t proto)
124 {
125     switch (proto) {
126     case FIB_PROTOCOL_IP4:
127         return (ip4_arp_node.index);
128     case FIB_PROTOCOL_IP6:
129         return (ip6_discover_neighbor_node.index);
130     case FIB_PROTOCOL_MPLS:
131         break;
132     }
133     ASSERT(0);
134     return (ip4_arp_node.index);
135 }
136
137 /**
138  * @brief Check and set feature flags if o/p interface has any o/p features.
139  */
140 static void
141 adj_nbr_evaluate_feature (adj_index_t ai)
142 {
143     ip_adjacency_t *adj;
144     vnet_feature_main_t *fm = &feature_main;
145     i16 feature_count;
146     u8 arc_index;
147     u32 sw_if_index;
148
149     adj = adj_get(ai);
150
151     switch (adj->ia_link)
152     {
153     case VNET_LINK_IP4:
154         arc_index = ip4_main.lookup_main.output_feature_arc_index;
155         break;
156     case VNET_LINK_IP6:
157         arc_index = ip6_main.lookup_main.output_feature_arc_index;
158         break;
159     case VNET_LINK_MPLS:
160         arc_index = mpls_main.output_feature_arc_index;
161         break;
162     default:
163         return;
164     }
165
166     sw_if_index = adj->rewrite_header.sw_if_index;
167     if (vec_len(fm->feature_count_by_sw_if_index[arc_index]) > sw_if_index)
168     {
169         feature_count = fm->feature_count_by_sw_if_index[arc_index][sw_if_index];
170         if (feature_count > 0)
171             adj->rewrite_header.flags |= VNET_REWRITE_HAS_FEATURES;
172     }
173
174     return;
175 }
176
177 static ip_adjacency_t*
178 adj_nbr_alloc (fib_protocol_t nh_proto,
179                vnet_link_t link_type,
180                const ip46_address_t *nh_addr,
181                u32 sw_if_index)
182 {
183     ip_adjacency_t *adj;
184
185     adj = adj_alloc(nh_proto);
186
187     adj_nbr_insert(nh_proto, link_type, nh_addr,
188                    sw_if_index,
189                    adj_get_index(adj));
190
191     /*
192      * since we just added the ADJ we have no rewrite string for it,
193      * so its for ARP
194      */
195     adj->lookup_next_index = IP_LOOKUP_NEXT_ARP;
196     adj->sub_type.nbr.next_hop = *nh_addr;
197     adj->ia_link = link_type;
198     adj->ia_nh_proto = nh_proto;
199     adj->rewrite_header.sw_if_index = sw_if_index;
200     vnet_rewrite_update_mtu(vnet_get_main(), adj->ia_link,
201                             &adj->rewrite_header);
202
203     adj_nbr_evaluate_feature (adj_get_index(adj));
204     return (adj);
205 }
206
207 /*
208  * adj_nbr_add_or_lock
209  *
210  * Add an adjacency for the neighbour requested.
211  *
212  * The key for an adj is:
213  *   - the Next-hops protocol (i.e. v4 or v6)
214  *   - the address of the next-hop
215  *   - the interface the next-hop is reachable through
216  */
217 adj_index_t
218 adj_nbr_add_or_lock (fib_protocol_t nh_proto,
219                      vnet_link_t link_type,
220                      const ip46_address_t *nh_addr,
221                      u32 sw_if_index)
222 {
223     adj_index_t adj_index;
224     ip_adjacency_t *adj;
225
226     adj_index = adj_nbr_find(nh_proto, link_type, nh_addr, sw_if_index);
227
228     if (ADJ_INDEX_INVALID == adj_index)
229     {
230         vnet_main_t *vnm;
231
232         vnm = vnet_get_main();
233         adj = adj_nbr_alloc(nh_proto, link_type, nh_addr, sw_if_index);
234         adj_index = adj_get_index(adj);
235         adj_lock(adj_index);
236
237         if (ip46_address_is_equal(&ADJ_BCAST_ADDR, nh_addr))
238         {
239             adj->lookup_next_index = IP_LOOKUP_NEXT_BCAST;
240         }
241
242         vnet_rewrite_init(vnm, sw_if_index, link_type,
243                           adj_get_nd_node(nh_proto),
244                           vnet_tx_node_index_for_sw_interface(vnm, sw_if_index),
245                           &adj->rewrite_header);
246
247         /*
248          * we need a rewrite where the destination IP address is converted
249          * to the appropriate link-layer address. This is interface specific.
250          * So ask the interface to do it.
251          */
252         vnet_update_adjacency_for_sw_interface(vnm, sw_if_index, adj_index);
253     }
254     else
255     {
256         adj_lock(adj_index);
257     }
258
259     return (adj_index);
260 }
261
262 adj_index_t
263 adj_nbr_add_or_lock_w_rewrite (fib_protocol_t nh_proto,
264                                vnet_link_t link_type,
265                                const ip46_address_t *nh_addr,
266                                u32 sw_if_index,
267                                u8 *rewrite)
268 {
269     adj_index_t adj_index;
270
271     adj_index = adj_nbr_find(nh_proto, link_type, nh_addr, sw_if_index);
272
273     if (ADJ_INDEX_INVALID == adj_index)
274     {
275         ip_adjacency_t *adj;
276
277         adj = adj_nbr_alloc(nh_proto, link_type, nh_addr, sw_if_index);
278         adj->rewrite_header.sw_if_index = sw_if_index;
279         adj_index = adj_get_index(adj);
280     }
281
282     adj_lock(adj_index);
283     adj_nbr_update_rewrite(adj_index,
284                            ADJ_NBR_REWRITE_FLAG_COMPLETE,
285                            rewrite);
286
287     return (adj_index);
288 }
289
290 /**
291  * adj_nbr_update_rewrite
292  *
293  * Update the adjacency's rewrite string. A NULL string implies the
294  * rewrite is reset (i.e. when ARP/ND entry is gone).
295  * NB: the adj being updated may be handling traffic in the DP.
296  */
297 void
298 adj_nbr_update_rewrite (adj_index_t adj_index,
299                         adj_nbr_rewrite_flag_t flags,
300                         u8 *rewrite)
301 {
302     ip_adjacency_t *adj;
303
304     ASSERT(ADJ_INDEX_INVALID != adj_index);
305
306     adj = adj_get(adj_index);
307
308     if (flags & ADJ_NBR_REWRITE_FLAG_COMPLETE)
309     {
310         /*
311          * update the adj's rewrite string and build the arc
312          * from the rewrite node to the interface's TX node
313          */
314         adj_nbr_update_rewrite_internal(adj, IP_LOOKUP_NEXT_REWRITE,
315                                         adj_get_rewrite_node(adj->ia_link),
316                                         vnet_tx_node_index_for_sw_interface(
317                                             vnet_get_main(),
318                                             adj->rewrite_header.sw_if_index),
319                                         rewrite);
320     }
321     else
322     {
323         adj_nbr_update_rewrite_internal(adj, IP_LOOKUP_NEXT_ARP,
324                                         adj_get_nd_node(adj->ia_nh_proto),
325                                         vnet_tx_node_index_for_sw_interface(
326                                             vnet_get_main(),
327                                             adj->rewrite_header.sw_if_index),
328                                         rewrite);
329     }
330 }
331
332 /**
333  * adj_nbr_update_rewrite_internal
334  *
335  * Update the adjacency's rewrite string. A NULL string implies the
336  * rewrite is reset (i.e. when ARP/ND entry is gone).
337  * NB: the adj being updated may be handling traffic in the DP.
338  */
339 void
340 adj_nbr_update_rewrite_internal (ip_adjacency_t *adj,
341                                  ip_lookup_next_t adj_next_index,
342                                  u32 this_node,
343                                  u32 next_node,
344                                  u8 *rewrite)
345 {
346     ip_adjacency_t *walk_adj;
347     adj_index_t walk_ai, ai;
348     vlib_main_t * vm;
349     u32 old_next;
350     int do_walk;
351
352     vm = vlib_get_main();
353     old_next = adj->lookup_next_index;
354
355     ai = walk_ai = adj_get_index(adj);
356     if (VNET_LINK_MPLS == adj->ia_link)
357     {
358         /*
359          * The link type MPLS has no children in the control plane graph, it only
360          * has children in the data-plane graph. The backwalk is up the former.
361          * So we need to walk from its IP cousin.
362          */
363         walk_ai = adj_nbr_find(adj->ia_nh_proto,
364                                fib_proto_to_link(adj->ia_nh_proto),
365                                &adj->sub_type.nbr.next_hop,
366                                adj->rewrite_header.sw_if_index);
367     }
368
369     /*
370      * Don't call the walk re-entrantly
371      */
372     if (ADJ_INDEX_INVALID != walk_ai)
373     {
374         walk_adj = adj_get(walk_ai);
375         if (ADJ_FLAG_SYNC_WALK_ACTIVE & walk_adj->ia_flags)
376         {
377             do_walk = 0;
378         }
379         else
380         {
381             /*
382              * Prevent re-entrant walk of the same adj
383              */
384             walk_adj->ia_flags |= ADJ_FLAG_SYNC_WALK_ACTIVE;
385             do_walk = 1;
386         }
387     }
388     else
389     {
390         do_walk = 0;
391     }
392
393     /*
394      * lock the adjacencies that are affected by updates this walk will provoke.
395      * Since the aim of the walk is to update children to link to a different
396      * DPO, this adj will no longer be in use and its lock count will drop to 0.
397      * We don't want it to be deleted as part of this endeavour.
398      */
399     adj_lock(ai);
400     adj_lock(walk_ai);
401
402     /*
403      * Updating a rewrite string is not atomic;
404      *  - the rewrite string is too long to write in one instruction
405      *  - when swapping from incomplete to complete, we also need to update
406      *    the VLIB graph next-index of the adj.
407      * ideally we would only want to suspend forwarding via this adj whilst we
408      * do this, but we do not have that level of granularity - it's suspend all
409      * worker threads or nothing.
410      * The other choices are:
411      *  - to mark the adj down and back walk so child load-balances drop this adj
412      *    from the set.
413      *  - update the next_node index of this adj to point to error-drop
414      * both of which will mean for MAC change we will drop for this adj
415      * which is not acceptable. However, when the adj changes type (from
416      * complete to incomplete and vice-versa) the child DPOs, which have the
417      * VLIB graph next node index, will be sending packets to the wrong graph
418      * node. So from the options above, updating the next_node of the adj to
419      * be drop will work, but it relies on each graph node v4/v6/mpls, rewrite/
420      * arp/midchain always be valid w.r.t. a mis-match of adj type and node type
421      * (i.e. a rewrite adj in the arp node). This is not enforceable. Getting it
422      * wrong will lead to hard to find bugs since its a race condition. So we
423      * choose the more reliable method of updating the children to use the drop,
424      * then switching adj's type, then updating the children again. Did I mention
425      * that this doesn't happen often...
426      * So we need to distinguish between the two cases:
427      *  1 - mac change
428      *  2 - adj type change
429      */
430     if (do_walk &&
431         old_next != adj_next_index &&
432         ADJ_INDEX_INVALID != walk_ai)
433     {
434         /*
435          * the adj is changing type. we need to fix all children so that they
436          * stack momentarily on a drop, while the adj changes. If we don't do
437          * this  the children will send packets to a VLIB graph node that does
438          * not correspond to the adj's type - and it goes downhill from there.
439          */
440         fib_node_back_walk_ctx_t bw_ctx = {
441             .fnbw_reason = FIB_NODE_BW_REASON_FLAG_ADJ_DOWN,
442             /*
443              * force this walk to be synchronous. if we don't and a node in the graph
444              * (a heavily shared path-list) chooses to back-ground the walk (make it
445              * async) then it will pause and we will do the adj update below, before
446              * all the children are updated. not good.
447              */
448             .fnbw_flags = FIB_NODE_BW_FLAG_FORCE_SYNC,
449         };
450
451         fib_walk_sync(FIB_NODE_TYPE_ADJ, walk_ai, &bw_ctx);
452     }
453
454     /*
455      * If we are just updating the MAC string of the adj (which we also can't
456      * do atomically), then we need to stop packets switching through the adj.
457      * We can't do that on a per-adj basis, so it's all the packets.
458      * If we are updating the type, and we walked back to the children above,
459      * then this barrier serves to flush the queues/frames.
460      */
461     vlib_worker_thread_barrier_sync(vm);
462
463     adj->lookup_next_index = adj_next_index;
464
465     if (NULL != rewrite)
466     {
467         /*
468          * new rewrite provided.
469          * fill in the adj's rewrite string, and build the VLIB graph arc.
470          */
471         vnet_rewrite_set_data_internal(&adj->rewrite_header,
472                                        sizeof(adj->rewrite_data),
473                                        rewrite,
474                                        vec_len(rewrite));
475         vec_free(rewrite);
476     }
477     else
478     {
479         vnet_rewrite_clear_data_internal(&adj->rewrite_header,
480                                          sizeof(adj->rewrite_data));
481     }
482     adj->rewrite_header.next_index = vlib_node_add_next(vlib_get_main(),
483                                                         this_node,
484                                                         next_node);
485
486     /*
487      * done with the rewrite update - let the workers loose.
488      */
489     vlib_worker_thread_barrier_release(vm);
490
491     if (do_walk &&
492         (old_next != adj->lookup_next_index) &&
493         (ADJ_INDEX_INVALID != walk_ai))
494     {
495         /*
496          * backwalk to the children so they can stack on the now updated
497          * adjacency
498          */
499         fib_node_back_walk_ctx_t bw_ctx = {
500             .fnbw_reason = FIB_NODE_BW_REASON_FLAG_ADJ_UPDATE,
501         };
502
503         fib_walk_sync(FIB_NODE_TYPE_ADJ, walk_ai, &bw_ctx);
504     }
505     /*
506      * Prevent re-entrant walk of the same adj
507      */
508     if (do_walk)
509     {
510         walk_adj = adj_get(walk_ai);
511         walk_adj->ia_flags &= ~ADJ_FLAG_SYNC_WALK_ACTIVE;
512     }
513
514     adj_unlock(ai);
515     adj_unlock(walk_ai);
516 }
517
518 typedef struct adj_db_count_ctx_t_ {
519     u64 count;
520 } adj_db_count_ctx_t;
521
522 static void
523 adj_db_count (BVT(clib_bihash_kv) * kvp,
524               void *arg)
525 {
526     adj_db_count_ctx_t * ctx = arg;
527     ctx->count++;
528 }
529
530 u32
531 adj_nbr_db_size (void)
532 {
533     adj_db_count_ctx_t ctx = {
534         .count = 0,
535     };
536     fib_protocol_t proto;
537     u32 sw_if_index = 0;
538
539     for (proto = FIB_PROTOCOL_IP4; proto <= FIB_PROTOCOL_IP6; proto++)
540     {
541         vec_foreach_index(sw_if_index, adj_nbr_tables[proto])
542         {
543             if (NULL != adj_nbr_tables[proto][sw_if_index])
544             {
545                 BV(clib_bihash_foreach_key_value_pair) (
546                     adj_nbr_tables[proto][sw_if_index],
547                     adj_db_count,
548                     &ctx);
549             }
550         }
551     }
552     return (ctx.count);
553 }
554
555 /**
556  * @brief Context for a walk of the adjacency neighbour DB
557  */
558 typedef struct adj_walk_ctx_t_
559 {
560     adj_walk_cb_t awc_cb;
561     void *awc_ctx;
562 } adj_walk_ctx_t;
563
564 static void
565 adj_nbr_walk_cb (BVT(clib_bihash_kv) * kvp,
566                  void *arg)
567 {
568     adj_walk_ctx_t *ctx = arg;
569
570     // FIXME: can't stop early...
571     ctx->awc_cb(kvp->value, ctx->awc_ctx);
572 }
573
574 void
575 adj_nbr_walk (u32 sw_if_index,
576               fib_protocol_t adj_nh_proto,
577               adj_walk_cb_t cb,
578               void *ctx)
579 {
580     if (!ADJ_NBR_ITF_OK(adj_nh_proto, sw_if_index))
581         return;
582
583     adj_walk_ctx_t awc = {
584         .awc_ctx = ctx,
585         .awc_cb = cb,
586     };
587
588     BV(clib_bihash_foreach_key_value_pair) (
589         adj_nbr_tables[adj_nh_proto][sw_if_index],
590         adj_nbr_walk_cb,
591         &awc);
592 }
593
594 /**
595  * @brief Walk adjacencies on a link with a given v4 next-hop.
596  * that is visit the adjacencies with different link types.
597  */
598 void
599 adj_nbr_walk_nh4 (u32 sw_if_index,
600                  const ip4_address_t *addr,
601                  adj_walk_cb_t cb,
602                  void *ctx)
603 {
604     if (!ADJ_NBR_ITF_OK(FIB_PROTOCOL_IP4, sw_if_index))
605         return;
606
607     ip46_address_t nh = {
608         .ip4 = *addr,
609     };
610     vnet_link_t linkt;
611     adj_index_t ai;
612
613     FOR_EACH_VNET_LINK(linkt)
614     {
615         ai = adj_nbr_find (FIB_PROTOCOL_IP4, linkt, &nh, sw_if_index);
616
617         if (INDEX_INVALID != ai)
618             cb(ai, ctx);
619     }
620 }
621
622 /**
623  * @brief Walk adjacencies on a link with a given v6 next-hop.
624  * that is visit the adjacencies with different link types.
625  */
626 void
627 adj_nbr_walk_nh6 (u32 sw_if_index,
628                  const ip6_address_t *addr,
629                  adj_walk_cb_t cb,
630                  void *ctx)
631 {
632     if (!ADJ_NBR_ITF_OK(FIB_PROTOCOL_IP6, sw_if_index))
633         return;
634
635     ip46_address_t nh = {
636         .ip6 = *addr,
637     };
638     vnet_link_t linkt;
639     adj_index_t ai;
640
641     FOR_EACH_VNET_LINK(linkt)
642     {
643         ai = adj_nbr_find (FIB_PROTOCOL_IP6, linkt, &nh, sw_if_index);
644
645         if (INDEX_INVALID != ai)
646             cb(ai, ctx);
647     }
648 }
649
650 /**
651  * @brief Walk adjacencies on a link with a given next-hop.
652  * that is visit the adjacencies with different link types.
653  */
654 void
655 adj_nbr_walk_nh (u32 sw_if_index,
656                  fib_protocol_t adj_nh_proto,
657                  const ip46_address_t *nh,
658                  adj_walk_cb_t cb,
659                  void *ctx)
660 {
661     if (!ADJ_NBR_ITF_OK(adj_nh_proto, sw_if_index))
662         return;
663
664     vnet_link_t linkt;
665     adj_index_t ai;
666
667     FOR_EACH_VNET_LINK(linkt)
668     {
669         ai = adj_nbr_find (adj_nh_proto, linkt, nh, sw_if_index);
670
671         if (INDEX_INVALID != ai)
672             cb(ai, ctx);
673     }
674 }
675
676 /**
677  * Flags associated with the interface state walks
678  */
679 typedef enum adj_nbr_interface_flags_t_
680 {
681     ADJ_NBR_INTERFACE_UP = (1 << 0),
682 } adj_nbr_interface_flags_t;
683
684 /**
685  * Context for the state change walk of the DB
686  */
687 typedef struct adj_nbr_interface_state_change_ctx_t_
688 {
689     /**
690      * Flags on the interface
691      */
692     adj_nbr_interface_flags_t flags;
693 } adj_nbr_interface_state_change_ctx_t;
694
695 static adj_walk_rc_t
696 adj_nbr_interface_state_change_one (adj_index_t ai,
697                                     void *arg)
698 {
699     /*
700      * Back walk the graph to inform the forwarding entries
701      * that this interface state has changed. Do this synchronously
702      * since this is the walk that provides convergence
703      */
704     adj_nbr_interface_state_change_ctx_t *ctx = arg;
705     fib_node_back_walk_ctx_t bw_ctx = {
706         .fnbw_reason = ((ctx->flags & ADJ_NBR_INTERFACE_UP) ?
707                         FIB_NODE_BW_REASON_FLAG_INTERFACE_UP :
708                         FIB_NODE_BW_REASON_FLAG_INTERFACE_DOWN),
709         /*
710          * the force sync applies only as far as the first fib_entry.
711          * And it's the fib_entry's we need to converge away from
712          * the adjacencies on the now down link
713          */
714         .fnbw_flags = (!(ctx->flags & ADJ_NBR_INTERFACE_UP) ?
715                        FIB_NODE_BW_FLAG_FORCE_SYNC :
716                        FIB_NODE_BW_FLAG_NONE),
717     };
718     ip_adjacency_t *adj;
719
720     adj = adj_get(ai);
721
722     adj->ia_flags |= ADJ_FLAG_SYNC_WALK_ACTIVE;
723     fib_walk_sync(FIB_NODE_TYPE_ADJ, ai, &bw_ctx);
724     adj->ia_flags &= ~ADJ_FLAG_SYNC_WALK_ACTIVE;
725
726     return (ADJ_WALK_RC_CONTINUE);
727 }
728
729 /**
730  * @brief Registered function for SW interface state changes
731  */
732 static clib_error_t *
733 adj_nbr_sw_interface_state_change (vnet_main_t * vnm,
734                                    u32 sw_if_index,
735                                    u32 flags)
736 {
737     fib_protocol_t proto;
738
739     /*
740      * walk each adj on the interface and trigger a walk from that adj
741      */
742     for (proto = FIB_PROTOCOL_IP4; proto <= FIB_PROTOCOL_IP6; proto++)
743     {
744         adj_nbr_interface_state_change_ctx_t ctx = {
745             .flags = ((flags & VNET_SW_INTERFACE_FLAG_ADMIN_UP) ?
746                       ADJ_NBR_INTERFACE_UP :
747                       0),
748         };
749
750         adj_nbr_walk(sw_if_index, proto,
751                      adj_nbr_interface_state_change_one,
752                      &ctx);
753     }
754
755     return (NULL);
756 }
757
758 VNET_SW_INTERFACE_ADMIN_UP_DOWN_FUNCTION_PRIO(
759     adj_nbr_sw_interface_state_change,
760     VNET_ITF_FUNC_PRIORITY_HIGH);
761
762 /**
763  * @brief Invoked on each SW interface of a HW interface when the
764  * HW interface state changes
765  */
766 static walk_rc_t
767 adj_nbr_hw_sw_interface_state_change (vnet_main_t * vnm,
768                                       u32 sw_if_index,
769                                       void *arg)
770 {
771     adj_nbr_interface_state_change_ctx_t *ctx = arg;
772     fib_protocol_t proto;
773
774     /*
775      * walk each adj on the interface and trigger a walk from that adj
776      */
777     for (proto = FIB_PROTOCOL_IP4; proto <= FIB_PROTOCOL_IP6; proto++)
778     {
779         adj_nbr_walk(sw_if_index, proto,
780                      adj_nbr_interface_state_change_one,
781                      ctx);
782     }
783     return (WALK_CONTINUE);
784 }
785
786 /**
787  * @brief Registered callback for HW interface state changes
788  */
789 static clib_error_t *
790 adj_nbr_hw_interface_state_change (vnet_main_t * vnm,
791                                    u32 hw_if_index,
792                                    u32 flags)
793 {
794     /*
795      * walk SW interface on the HW
796      */
797     adj_nbr_interface_state_change_ctx_t ctx = {
798         .flags = ((flags & VNET_HW_INTERFACE_FLAG_LINK_UP) ?
799                   ADJ_NBR_INTERFACE_UP :
800                   0),
801     };
802
803     vnet_hw_interface_walk_sw(vnm, hw_if_index,
804                               adj_nbr_hw_sw_interface_state_change,
805                               &ctx);
806
807     return (NULL);
808 }
809
810 VNET_HW_INTERFACE_LINK_UP_DOWN_FUNCTION_PRIO(
811     adj_nbr_hw_interface_state_change,
812     VNET_ITF_FUNC_PRIORITY_HIGH);
813
814 static adj_walk_rc_t
815 adj_nbr_interface_delete_one (adj_index_t ai,
816                               void *arg)
817 {
818     /*
819      * Back walk the graph to inform the forwarding entries
820      * that this interface has been deleted.
821      */
822     fib_node_back_walk_ctx_t bw_ctx = {
823         .fnbw_reason = FIB_NODE_BW_REASON_FLAG_INTERFACE_DELETE,
824     };
825     ip_adjacency_t *adj;
826
827     adj_lock(ai);
828
829     adj = adj_get(ai);
830
831     adj->ia_flags |= ADJ_FLAG_SYNC_WALK_ACTIVE;
832     fib_walk_sync(FIB_NODE_TYPE_ADJ, ai, &bw_ctx);
833     adj->ia_flags &= ~ADJ_FLAG_SYNC_WALK_ACTIVE;
834
835     adj_unlock(ai);
836     return (ADJ_WALK_RC_CONTINUE);
837 }
838
839 /**
840  * adj_nbr_interface_add_del
841  *
842  * Registered to receive interface Add and delete notifications
843  */
844 static clib_error_t *
845 adj_nbr_interface_add_del (vnet_main_t * vnm,
846                            u32 sw_if_index,
847                            u32 is_add)
848 {
849     fib_protocol_t proto;
850
851     if (is_add)
852     {
853         /*
854          * not interested in interface additions. we will not back walk
855          * to resolve paths through newly added interfaces. Why? The control
856          * plane should have the brains to add interfaces first, then routes.
857          * So the case where there are paths with a interface that matches
858          * one just created is the case where the path resolved through an
859          * interface that was deleted, and still has not been removed. The
860          * new interface added, is NO GUARANTEE that the interface being
861          * added now, even though it may have the same sw_if_index, is the
862          * same interface that the path needs. So tough!
863          * If the control plane wants these routes to resolve it needs to
864          * remove and add them again.
865          */
866         return (NULL);
867     }
868
869     for (proto = FIB_PROTOCOL_IP4; proto <= FIB_PROTOCOL_IP6; proto++)
870     {
871         adj_nbr_walk(sw_if_index, proto,
872                      adj_nbr_interface_delete_one,
873                      NULL);
874     }
875
876     return (NULL);
877    
878 }
879
880 VNET_SW_INTERFACE_ADD_DEL_FUNCTION(adj_nbr_interface_add_del);
881
882
883 static adj_walk_rc_t
884 adj_nbr_show_one (adj_index_t ai,
885                   void *arg)
886 {
887     vlib_cli_output (arg, "[@%d]  %U",
888                      ai,
889                      format_ip_adjacency, ai,
890                      FORMAT_IP_ADJACENCY_NONE);
891
892     return (ADJ_WALK_RC_CONTINUE);
893 }
894
895 static clib_error_t *
896 adj_nbr_show (vlib_main_t * vm,
897               unformat_input_t * input,
898               vlib_cli_command_t * cmd)
899 {
900     adj_index_t ai = ADJ_INDEX_INVALID;
901     u32 sw_if_index = ~0;
902
903     while (unformat_check_input (input) != UNFORMAT_END_OF_INPUT)
904     {
905         if (unformat (input, "%d", &ai))
906             ;
907         else if (unformat (input, "%U",
908                            unformat_vnet_sw_interface, vnet_get_main(),
909                            &sw_if_index))
910             ;
911         else
912             break;
913     }
914
915     if (ADJ_INDEX_INVALID != ai)
916     {
917         vlib_cli_output (vm, "[@%d] %U",
918                          ai,
919                          format_ip_adjacency, ai,
920                          FORMAT_IP_ADJACENCY_DETAIL);
921     }
922     else if (~0 != sw_if_index)
923     {
924         fib_protocol_t proto;
925
926         for (proto = FIB_PROTOCOL_IP4; proto <= FIB_PROTOCOL_IP6; proto++)
927         {
928             adj_nbr_walk(sw_if_index, proto,
929                          adj_nbr_show_one,
930                          vm);
931         }
932     }
933     else
934     {
935         fib_protocol_t proto;
936
937         for (proto = FIB_PROTOCOL_IP4; proto <= FIB_PROTOCOL_IP6; proto++)
938         {
939             vec_foreach_index(sw_if_index, adj_nbr_tables[proto])
940             {
941                 adj_nbr_walk(sw_if_index, proto,
942                              adj_nbr_show_one,
943                              vm);
944             }
945         }
946     }
947
948     return 0;
949 }
950
951 /*?
952  * Show all neighbour adjacencies.
953  * @cliexpar
954  * @cliexstart{sh adj nbr}
955  * [@2] ipv4 via 1.0.0.2 loop0: IP4: 00:00:22:aa:bb:cc -> 00:00:11:aa:bb:cc
956  * [@3] mpls via 1.0.0.2 loop0: MPLS_UNICAST: 00:00:22:aa:bb:cc -> 00:00:11:aa:bb:cc
957  * [@4] ipv4 via 1.0.0.3 loop0: IP4: 00:00:22:aa:bb:cc -> 00:00:11:aa:bb:cc
958  * [@5] mpls via 1.0.0.3 loop0: MPLS_UNICAST: 00:00:22:aa:bb:cc -> 00:00:11:aa:bb:cc
959  * @cliexend
960  ?*/
961 VLIB_CLI_COMMAND (ip4_show_fib_command, static) = {
962     .path = "show adj nbr",
963     .short_help = "show adj nbr [<adj_index>] [interface]",
964     .function = adj_nbr_show,
965 };
966
967 u8*
968 format_adj_nbr_incomplete (u8* s, va_list *ap)
969 {
970     index_t index = va_arg(*ap, index_t);
971     CLIB_UNUSED(u32 indent) = va_arg(*ap, u32);
972     vnet_main_t * vnm = vnet_get_main();
973     ip_adjacency_t * adj = adj_get(index);
974
975     s = format (s, "arp-%U", format_vnet_link, adj->ia_link);
976     s = format (s, ": via %U",
977                 format_ip46_address, &adj->sub_type.nbr.next_hop,
978                 adj_proto_to_46(adj->ia_nh_proto));
979     s = format (s, " %U",
980                 format_vnet_sw_if_index_name,
981                 vnm, adj->rewrite_header.sw_if_index);
982
983     return (s);
984 }
985
986 u8*
987 format_adj_nbr (u8* s, va_list *ap)
988 {
989     index_t index = va_arg(*ap, index_t);
990     CLIB_UNUSED(u32 indent) = va_arg(*ap, u32);
991     ip_adjacency_t * adj = adj_get(index);
992
993     s = format (s, "%U", format_vnet_link, adj->ia_link);
994     s = format (s, " via %U ",
995                 format_ip46_address, &adj->sub_type.nbr.next_hop,
996                 adj_proto_to_46(adj->ia_nh_proto));
997     s = format (s, "%U",
998                 format_vnet_rewrite,
999                 &adj->rewrite_header, sizeof (adj->rewrite_data), 0);
1000
1001     return (s);
1002 }
1003
1004 static void
1005 adj_dpo_lock (dpo_id_t *dpo)
1006 {
1007     adj_lock(dpo->dpoi_index);
1008 }
1009 static void
1010 adj_dpo_unlock (dpo_id_t *dpo)
1011 {
1012     adj_unlock(dpo->dpoi_index);
1013 }
1014
1015 static void
1016 adj_mem_show (void)
1017 {
1018     fib_show_memory_usage("Adjacency",
1019                           pool_elts(adj_pool),
1020                           pool_len(adj_pool),
1021                           sizeof(ip_adjacency_t));
1022 }
1023
1024 const static dpo_vft_t adj_nbr_dpo_vft = {
1025     .dv_lock = adj_dpo_lock,
1026     .dv_unlock = adj_dpo_unlock,
1027     .dv_format = format_adj_nbr,
1028     .dv_mem_show = adj_mem_show,
1029     .dv_get_urpf = adj_dpo_get_urpf,
1030 };
1031 const static dpo_vft_t adj_nbr_incompl_dpo_vft = {
1032     .dv_lock = adj_dpo_lock,
1033     .dv_unlock = adj_dpo_unlock,
1034     .dv_format = format_adj_nbr_incomplete,
1035     .dv_get_urpf = adj_dpo_get_urpf,
1036 };
1037
1038 /**
1039  * @brief The per-protocol VLIB graph nodes that are assigned to an adjacency
1040  *        object.
1041  *
1042  * this means that these graph nodes are ones from which a nbr is the
1043  * parent object in the DPO-graph.
1044  */
1045 const static char* const nbr_ip4_nodes[] =
1046 {
1047     "ip4-rewrite",
1048     NULL,
1049 };
1050 const static char* const nbr_ip6_nodes[] =
1051 {
1052     "ip6-rewrite",
1053     NULL,
1054 };
1055 const static char* const nbr_mpls_nodes[] =
1056 {
1057     "mpls-output",
1058     NULL,
1059 };
1060 const static char* const nbr_ethernet_nodes[] =
1061 {
1062     "adj-l2-rewrite",
1063     NULL,
1064 };
1065 const static char* const * const nbr_nodes[DPO_PROTO_NUM] =
1066 {
1067     [DPO_PROTO_IP4]  = nbr_ip4_nodes,
1068     [DPO_PROTO_IP6]  = nbr_ip6_nodes,
1069     [DPO_PROTO_MPLS] = nbr_mpls_nodes,
1070     [DPO_PROTO_ETHERNET] = nbr_ethernet_nodes,
1071 };
1072
1073 const static char* const nbr_incomplete_ip4_nodes[] =
1074 {
1075     "ip4-arp",
1076     NULL,
1077 };
1078 const static char* const nbr_incomplete_ip6_nodes[] =
1079 {
1080     "ip6-discover-neighbor",
1081     NULL,
1082 };
1083 const static char* const nbr_incomplete_mpls_nodes[] =
1084 {
1085     "mpls-adj-incomplete",
1086     NULL,
1087 };
1088
1089 const static char* const * const nbr_incomplete_nodes[DPO_PROTO_NUM] =
1090 {
1091     [DPO_PROTO_IP4]  = nbr_incomplete_ip4_nodes,
1092     [DPO_PROTO_IP6]  = nbr_incomplete_ip6_nodes,
1093     [DPO_PROTO_MPLS] = nbr_incomplete_mpls_nodes,
1094 };
1095
1096 void
1097 adj_nbr_module_init (void)
1098 {
1099     dpo_register(DPO_ADJACENCY,
1100                  &adj_nbr_dpo_vft,
1101                  nbr_nodes);
1102     dpo_register(DPO_ADJACENCY_INCOMPLETE,
1103                  &adj_nbr_incompl_dpo_vft,
1104                  nbr_incomplete_nodes);
1105 }