udp session: jumbo frames and configurable mtu
[vpp.git] / src / vnet / udp / udp.h
1 /*
2  * Copyright (c) 2017-2019 Cisco and/or its affiliates.
3  * Licensed under the Apache License, Version 2.0 (the "License");
4  * you may not use this file except in compliance with the License.
5  * You may obtain a copy of the License at:
6  *
7  *     http://www.apache.org/licenses/LICENSE-2.0
8  *
9  * Unless required by applicable law or agreed to in writing, software
10  * distributed under the License is distributed on an "AS IS" BASIS,
11  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
12  * See the License for the specific language governing permissions and
13  * limitations under the License.
14  */
15 #ifndef __included_udp_h__
16 #define __included_udp_h__
17
18 #include <vnet/vnet.h>
19 #include <vnet/udp/udp_packet.h>
20 #include <vnet/ip/ip.h>
21 #include <vnet/ip/ip4.h>
22 #include <vnet/ip/ip4_packet.h>
23 #include <vnet/pg/pg.h>
24 #include <vnet/ip/format.h>
25
26 #include <vnet/ip/ip.h>
27 #include <vnet/session/transport.h>
28
29 typedef enum
30 {
31 #define udp_error(n,s) UDP_ERROR_##n,
32 #include <vnet/udp/udp_error.def>
33 #undef udp_error
34   UDP_N_ERROR,
35 } udp_error_t;
36
37 #define foreach_udp_connection_flag                                     \
38   _(CONNECTED, "CONNECTED")     /**< connected mode */                  \
39   _(OWNS_PORT, "OWNS_PORT")     /**< port belong to conn (UDPC) */      \
40   _(CLOSING, "CLOSING")         /**< conn closed with data */           \
41   _(LISTEN, "LISTEN")           /**< conn is listening */               \
42   _(MIGRATED, "MIGRATED")       /**< cloned to another thread */        \
43
44 enum udp_conn_flags_bits
45 {
46 #define _(sym, str) UDP_CONN_F_BIT_##sym,
47   foreach_udp_connection_flag
48 #undef _
49   UDP_CONN_N_FLAGS
50 };
51
52 typedef enum udp_conn_flags_
53 {
54 #define _(sym, str) UDP_CONN_F_##sym = 1 << UDP_CONN_F_BIT_##sym,
55   foreach_udp_connection_flag
56 #undef _
57 } udp_conn_flags_t;
58
59 typedef struct
60 {
61   /** Required for pool_get_aligned */
62   CLIB_CACHE_LINE_ALIGN_MARK (cacheline0);
63   transport_connection_t connection;    /**< must be first */
64   clib_spinlock_t rx_lock;              /**< rx fifo lock */
65   u8 flags;                             /**< connection flags */
66   u16 mss;                              /**< connection mss */
67 } udp_connection_t;
68
69 #define foreach_udp4_dst_port                   \
70 _ (53, dns)                                     \
71 _ (67, dhcp_to_server)                          \
72 _ (68, dhcp_to_client)                          \
73 _ (500, ikev2)                                  \
74 _ (2152, GTPU)                                  \
75 _ (3784, bfd4)                                  \
76 _ (3785, bfd_echo4)                             \
77 _ (4341, lisp_gpe)                              \
78 _ (4342, lisp_cp)                               \
79 _ (4500, ipsec)                                 \
80 _ (4739, ipfix)                                 \
81 _ (4789, vxlan)                                 \
82 _ (4789, vxlan6)                                \
83 _ (48879, vxlan_gbp)                            \
84 _ (4790, VXLAN_GPE)                             \
85 _ (6633, vpath_3)                               \
86 _ (6081, geneve)                                \
87 _ (53053, dns_reply)
88
89
90 #define foreach_udp6_dst_port                   \
91 _ (53, dns6)                                    \
92 _ (547, dhcpv6_to_server)                       \
93 _ (546, dhcpv6_to_client)                       \
94 _ (2152, GTPU6)                                 \
95 _ (3784, bfd6)                                  \
96 _ (3785, bfd_echo6)                             \
97 _ (4341, lisp_gpe6)                             \
98 _ (4342, lisp_cp6)                              \
99 _ (48879, vxlan6_gbp)                           \
100 _ (4790, VXLAN6_GPE)                            \
101 _ (6633, vpath6_3)                              \
102 _ (6081, geneve6)                               \
103 _ (8138, BIER)                                  \
104 _ (53053, dns_reply6)
105
106 typedef enum
107 {
108 #define _(n,f) UDP_DST_PORT_##f = n,
109   foreach_udp4_dst_port foreach_udp6_dst_port
110 #undef _
111 } udp_dst_port_t;
112
113 typedef enum
114 {
115 #define _(n,f) UDP6_DST_PORT_##f = n,
116   foreach_udp6_dst_port
117 #undef _
118 } udp6_dst_port_t;
119
120 typedef struct
121 {
122   /* Name (a c string). */
123   char *name;
124
125   /* Port number in host byte order. */
126   udp_dst_port_t dst_port;
127
128   /* Node which handles this type. */
129   u32 node_index;
130
131   /* Next index for this type. */
132   u32 next_index;
133
134   /* UDP sessions refcount (not tunnels) */
135   u32 n_connections;
136
137   /* Parser for packet generator edits for this protocol */
138   unformat_function_t *unformat_pg_edit;
139 } udp_dst_port_info_t;
140
141 typedef enum
142 {
143   UDP_IP6 = 0,
144   UDP_IP4,                      /* the code is full of is_ip4... */
145   N_UDP_AF,
146 } udp_af_t;
147
148 typedef struct
149 {
150   udp_dst_port_info_t *dst_port_infos[N_UDP_AF];
151
152   /* Hash tables mapping name/protocol to protocol info index. */
153   uword *dst_port_info_by_name[N_UDP_AF];
154   uword *dst_port_info_by_dst_port[N_UDP_AF];
155
156   /* Sparse vector mapping udp dst_port in network byte order
157      to next index. */
158   u16 *next_by_dst_port4;
159   u16 *next_by_dst_port6;
160   u8 punt_unknown4;
161   u8 punt_unknown6;
162
163   /* Udp local to input arc index */
164   u32 local_to_input_edge[N_UDP_AF];
165
166   /*
167    * Per-worker thread udp connection pools used with session layer
168    */
169   udp_connection_t **connections;
170   u32 *connection_peekers;
171   clib_spinlock_t *peekers_readers_locks;
172   clib_spinlock_t *peekers_write_locks;
173   udp_connection_t *listener_pool;
174
175   u16 default_mtu;
176 } udp_main_t;
177
178 extern udp_main_t udp_main;
179 extern vlib_node_registration_t udp4_input_node;
180 extern vlib_node_registration_t udp6_input_node;
181 extern vlib_node_registration_t udp4_local_node;
182 extern vlib_node_registration_t udp6_local_node;
183
184 always_inline udp_connection_t *
185 udp_connection_get (u32 conn_index, u32 thread_index)
186 {
187   if (pool_is_free_index (udp_main.connections[thread_index], conn_index))
188     return 0;
189   return pool_elt_at_index (udp_main.connections[thread_index], conn_index);
190 }
191
192 always_inline udp_connection_t *
193 udp_listener_get (u32 conn_index)
194 {
195   return pool_elt_at_index (udp_main.listener_pool, conn_index);
196 }
197
198 always_inline udp_main_t *
199 vnet_get_udp_main ()
200 {
201   return &udp_main;
202 }
203
204 always_inline udp_connection_t *
205 udp_get_connection_from_transport (transport_connection_t * tc)
206 {
207   return ((udp_connection_t *) tc);
208 }
209
210 always_inline u32
211 udp_connection_index (udp_connection_t * uc)
212 {
213   return (uc - udp_main.connections[uc->c_thread_index]);
214 }
215
216 udp_connection_t *udp_connection_alloc (u32 thread_index);
217
218 /**
219  * Acquires a lock that blocks a connection pool from expanding.
220  */
221 always_inline void
222 udp_pool_add_peeker (u32 thread_index)
223 {
224   if (thread_index != vlib_get_thread_index ())
225     return;
226   clib_spinlock_lock_if_init (&udp_main.peekers_readers_locks[thread_index]);
227   udp_main.connection_peekers[thread_index] += 1;
228   if (udp_main.connection_peekers[thread_index] == 1)
229     clib_spinlock_lock_if_init (&udp_main.peekers_write_locks[thread_index]);
230   clib_spinlock_unlock_if_init (&udp_main.peekers_readers_locks
231                                 [thread_index]);
232 }
233
234 always_inline void
235 udp_pool_remove_peeker (u32 thread_index)
236 {
237   if (thread_index != vlib_get_thread_index ())
238     return;
239   ASSERT (udp_main.connection_peekers[thread_index] > 0);
240   clib_spinlock_lock_if_init (&udp_main.peekers_readers_locks[thread_index]);
241   udp_main.connection_peekers[thread_index] -= 1;
242   if (udp_main.connection_peekers[thread_index] == 0)
243     clib_spinlock_unlock_if_init (&udp_main.peekers_write_locks
244                                   [thread_index]);
245   clib_spinlock_unlock_if_init (&udp_main.peekers_readers_locks
246                                 [thread_index]);
247 }
248
249 always_inline udp_connection_t *
250 udp_connection_clone_safe (u32 connection_index, u32 thread_index)
251 {
252   udp_connection_t *old_c, *new_c;
253   u32 current_thread_index = vlib_get_thread_index ();
254   new_c = udp_connection_alloc (current_thread_index);
255
256   /* If during the memcpy pool is reallocated AND the memory allocator
257    * decides to give the old chunk of memory to somebody in a hurry to
258    * scribble something on it, we have a problem. So add this thread as
259    * a session pool peeker.
260    */
261   udp_pool_add_peeker (thread_index);
262   old_c = udp_main.connections[thread_index] + connection_index;
263   clib_memcpy_fast (new_c, old_c, sizeof (*new_c));
264   old_c->flags |= UDP_CONN_F_MIGRATED;
265   udp_pool_remove_peeker (thread_index);
266   new_c->c_thread_index = current_thread_index;
267   new_c->c_c_index = udp_connection_index (new_c);
268   new_c->c_fib_index = old_c->c_fib_index;
269   return new_c;
270 }
271
272
273 always_inline udp_dst_port_info_t *
274 udp_get_dst_port_info (udp_main_t * um, udp_dst_port_t dst_port, u8 is_ip4)
275 {
276   uword *p = hash_get (um->dst_port_info_by_dst_port[is_ip4], dst_port);
277   return p ? vec_elt_at_index (um->dst_port_infos[is_ip4], p[0]) : 0;
278 }
279
280 format_function_t format_udp_header;
281 format_function_t format_udp_rx_trace;
282 unformat_function_t unformat_udp_header;
283
284 void udp_add_dst_port (udp_main_t * um, udp_dst_port_t dst_port,
285                        char *dst_port_name, u8 is_ip4);
286 void udp_register_dst_port (vlib_main_t * vm,
287                             udp_dst_port_t dst_port,
288                             u32 node_index, u8 is_ip4);
289 void udp_unregister_dst_port (vlib_main_t * vm,
290                               udp_dst_port_t dst_port, u8 is_ip4);
291 bool udp_is_valid_dst_port (udp_dst_port_t dst_port, u8 is_ip4);
292
293 void udp_connection_share_port (u16 lcl_port, u8 is_ip4);
294
295 void udp_punt_unknown (vlib_main_t * vm, u8 is_ip4, u8 is_add);
296
297 always_inline void *
298 vlib_buffer_push_udp (vlib_buffer_t * b, u16 sp, u16 dp, u8 offload_csum)
299 {
300   udp_header_t *uh;
301   u16 udp_len = sizeof (udp_header_t) + b->current_length;
302   if (PREDICT_FALSE (b->flags & VLIB_BUFFER_TOTAL_LENGTH_VALID))
303     udp_len += b->total_length_not_including_first_buffer;
304
305   uh = vlib_buffer_push_uninit (b, sizeof (udp_header_t));
306   uh->src_port = sp;
307   uh->dst_port = dp;
308   uh->checksum = 0;
309   uh->length = clib_host_to_net_u16 (udp_len);
310   if (offload_csum)
311     {
312       b->flags |= VNET_BUFFER_F_OFFLOAD_UDP_CKSUM;
313       vnet_buffer (b)->l4_hdr_offset = (u8 *) uh - b->data;
314     }
315   return uh;
316 }
317
318 always_inline void
319 ip_udp_fixup_one (vlib_main_t * vm, vlib_buffer_t * b0, u8 is_ip4)
320 {
321   u16 new_l0;
322   udp_header_t *udp0;
323
324   if (is_ip4)
325     {
326       ip4_header_t *ip0;
327       ip_csum_t sum0;
328       u16 old_l0 = 0;
329
330       ip0 = vlib_buffer_get_current (b0);
331
332       /* fix the <bleep>ing outer-IP checksum */
333       sum0 = ip0->checksum;
334       /* old_l0 always 0, see the rewrite setup */
335       new_l0 = clib_host_to_net_u16 (vlib_buffer_length_in_chain (vm, b0));
336
337       sum0 = ip_csum_update (sum0, old_l0, new_l0, ip4_header_t,
338                              length /* changed member */ );
339       ip0->checksum = ip_csum_fold (sum0);
340       ip0->length = new_l0;
341
342       /* Fix UDP length */
343       udp0 = (udp_header_t *) (ip0 + 1);
344       new_l0 = clib_host_to_net_u16 (vlib_buffer_length_in_chain (vm, b0)
345                                      - sizeof (*ip0));
346       udp0->length = new_l0;
347     }
348   else
349     {
350       ip6_header_t *ip0;
351       int bogus0;
352
353       ip0 = vlib_buffer_get_current (b0);
354
355       new_l0 = clib_host_to_net_u16 (vlib_buffer_length_in_chain (vm, b0)
356                                      - sizeof (*ip0));
357       ip0->payload_length = new_l0;
358
359       /* Fix UDP length */
360       udp0 = (udp_header_t *) (ip0 + 1);
361       udp0->length = new_l0;
362
363       udp0->checksum =
364         ip6_tcp_udp_icmp_compute_checksum (vm, b0, ip0, &bogus0);
365       ASSERT (bogus0 == 0);
366
367       if (udp0->checksum == 0)
368         udp0->checksum = 0xffff;
369     }
370 }
371
372 always_inline void
373 ip_udp_encap_one (vlib_main_t * vm, vlib_buffer_t * b0, u8 * ec0, word ec_len,
374                   u8 is_ip4)
375 {
376   vlib_buffer_advance (b0, -ec_len);
377
378   if (is_ip4)
379     {
380       ip4_header_t *ip0;
381
382       ip0 = vlib_buffer_get_current (b0);
383
384       /* Apply the encap string. */
385       clib_memcpy_fast (ip0, ec0, ec_len);
386       ip_udp_fixup_one (vm, b0, 1);
387     }
388   else
389     {
390       ip6_header_t *ip0;
391
392       ip0 = vlib_buffer_get_current (b0);
393
394       /* Apply the encap string. */
395       clib_memcpy_fast (ip0, ec0, ec_len);
396       ip_udp_fixup_one (vm, b0, 0);
397     }
398 }
399
400 always_inline void
401 ip_udp_encap_two (vlib_main_t * vm, vlib_buffer_t * b0, vlib_buffer_t * b1,
402                   u8 * ec0, u8 * ec1, word ec_len, u8 is_v4)
403 {
404   u16 new_l0, new_l1;
405   udp_header_t *udp0, *udp1;
406
407   ASSERT (_vec_len (ec0) == _vec_len (ec1));
408
409   vlib_buffer_advance (b0, -ec_len);
410   vlib_buffer_advance (b1, -ec_len);
411
412   if (is_v4)
413     {
414       ip4_header_t *ip0, *ip1;
415       ip_csum_t sum0, sum1;
416       u16 old_l0 = 0, old_l1 = 0;
417
418       ip0 = vlib_buffer_get_current (b0);
419       ip1 = vlib_buffer_get_current (b1);
420
421       /* Apply the encap string */
422       clib_memcpy_fast (ip0, ec0, ec_len);
423       clib_memcpy_fast (ip1, ec1, ec_len);
424
425       /* fix the <bleep>ing outer-IP checksum */
426       sum0 = ip0->checksum;
427       sum1 = ip1->checksum;
428
429       /* old_l0 always 0, see the rewrite setup */
430       new_l0 = clib_host_to_net_u16 (vlib_buffer_length_in_chain (vm, b0));
431       new_l1 = clib_host_to_net_u16 (vlib_buffer_length_in_chain (vm, b1));
432
433       sum0 = ip_csum_update (sum0, old_l0, new_l0, ip4_header_t,
434                              length /* changed member */ );
435       sum1 = ip_csum_update (sum1, old_l1, new_l1, ip4_header_t,
436                              length /* changed member */ );
437
438       ip0->checksum = ip_csum_fold (sum0);
439       ip1->checksum = ip_csum_fold (sum1);
440
441       ip0->length = new_l0;
442       ip1->length = new_l1;
443
444       /* Fix UDP length */
445       udp0 = (udp_header_t *) (ip0 + 1);
446       udp1 = (udp_header_t *) (ip1 + 1);
447
448       new_l0 =
449         clib_host_to_net_u16 (vlib_buffer_length_in_chain (vm, b0) -
450                               sizeof (*ip0));
451       new_l1 =
452         clib_host_to_net_u16 (vlib_buffer_length_in_chain (vm, b1) -
453                               sizeof (*ip1));
454       udp0->length = new_l0;
455       udp1->length = new_l1;
456     }
457   else
458     {
459       ip6_header_t *ip0, *ip1;
460       int bogus0, bogus1;
461
462       ip0 = vlib_buffer_get_current (b0);
463       ip1 = vlib_buffer_get_current (b1);
464
465       /* Apply the encap string. */
466       clib_memcpy_fast (ip0, ec0, ec_len);
467       clib_memcpy_fast (ip1, ec1, ec_len);
468
469       new_l0 = clib_host_to_net_u16 (vlib_buffer_length_in_chain (vm, b0)
470                                      - sizeof (*ip0));
471       new_l1 = clib_host_to_net_u16 (vlib_buffer_length_in_chain (vm, b1)
472                                      - sizeof (*ip1));
473       ip0->payload_length = new_l0;
474       ip1->payload_length = new_l1;
475
476       /* Fix UDP length */
477       udp0 = (udp_header_t *) (ip0 + 1);
478       udp1 = (udp_header_t *) (ip1 + 1);
479
480       udp0->length = new_l0;
481       udp1->length = new_l1;
482
483       udp0->checksum =
484         ip6_tcp_udp_icmp_compute_checksum (vm, b0, ip0, &bogus0);
485       udp1->checksum =
486         ip6_tcp_udp_icmp_compute_checksum (vm, b1, ip1, &bogus1);
487       ASSERT (bogus0 == 0);
488       ASSERT (bogus1 == 0);
489
490       if (udp0->checksum == 0)
491         udp0->checksum = 0xffff;
492       if (udp1->checksum == 0)
493         udp1->checksum = 0xffff;
494     }
495 }
496
497 /*
498  * fd.io coding-style-patch-verification: ON
499  *
500  * Local Variables:
501  * eval: (c-set-style "gnu")
502  * End:
503  */
504
505 #endif /* __included_udp_h__ */