e0b67a8e5e56bb3f7961c2d7345fc9d284f0534a
[vpp.git] / src / vnet / tcp / tcp.c
1 /*
2  * Copyright (c) 2016 Cisco and/or its affiliates.
3  * Licensed under the Apache License, Version 2.0 (the "License");
4  * you may not use this file except in compliance with the License.
5  * You may obtain a copy of the License at:
6  *
7  *     http://www.apache.org/licenses/LICENSE-2.0
8  *
9  * Unless required by applicable law or agreed to in writing, software
10  * distributed under the License is distributed on an "AS IS" BASIS,
11  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
12  * See the License for the specific language governing permissions and
13  * limitations under the License.
14  */
15
16 #include <vnet/tcp/tcp.h>
17 #include <vnet/session/session.h>
18 #include <vnet/fib/fib.h>
19 #include <math.h>
20
21 tcp_main_t tcp_main;
22
23 static u32
24 tcp_connection_bind (u32 session_index, ip46_address_t * ip,
25                      u16 port_host_byte_order, u8 is_ip4)
26 {
27   tcp_main_t *tm = &tcp_main;
28   tcp_connection_t *listener;
29
30   pool_get (tm->listener_pool, listener);
31   memset (listener, 0, sizeof (*listener));
32
33   listener->c_c_index = listener - tm->listener_pool;
34   listener->c_lcl_port = clib_host_to_net_u16 (port_host_byte_order);
35
36   if (is_ip4)
37     {
38       listener->c_lcl_ip4.as_u32 = ip->ip4.as_u32;
39       listener->c_is_ip4 = 1;
40       listener->c_proto = SESSION_TYPE_IP4_TCP;
41     }
42   else
43     {
44       clib_memcpy (&listener->c_lcl_ip6, &ip->ip6, sizeof (ip6_address_t));
45       listener->c_proto = SESSION_TYPE_IP6_TCP;
46     }
47
48   listener->c_s_index = session_index;
49   listener->state = TCP_STATE_LISTEN;
50
51   tcp_connection_timers_init (listener);
52
53   TCP_EVT_DBG (TCP_EVT_BIND, listener);
54
55   return listener->c_c_index;
56 }
57
58 u32
59 tcp_session_bind_ip4 (u32 session_index, ip46_address_t * ip,
60                       u16 port_host_byte_order)
61 {
62   return tcp_connection_bind (session_index, ip, port_host_byte_order, 1);
63 }
64
65 u32
66 tcp_session_bind_ip6 (u32 session_index, ip46_address_t * ip,
67                       u16 port_host_byte_order)
68 {
69   return tcp_connection_bind (session_index, ip, port_host_byte_order, 0);
70 }
71
72 static void
73 tcp_connection_unbind (u32 listener_index)
74 {
75   tcp_main_t *tm = vnet_get_tcp_main ();
76   TCP_EVT_DBG (TCP_EVT_UNBIND,
77                pool_elt_at_index (tm->listener_pool, listener_index));
78   pool_put_index (tm->listener_pool, listener_index);
79 }
80
81 u32
82 tcp_session_unbind (u32 listener_index)
83 {
84   tcp_connection_unbind (listener_index);
85   return 0;
86 }
87
88 transport_connection_t *
89 tcp_session_get_listener (u32 listener_index)
90 {
91   tcp_main_t *tm = vnet_get_tcp_main ();
92   tcp_connection_t *tc;
93   tc = pool_elt_at_index (tm->listener_pool, listener_index);
94   return &tc->connection;
95 }
96
97 /**
98  * Cleans up connection state.
99  *
100  * No notifications.
101  */
102 void
103 tcp_connection_cleanup (tcp_connection_t * tc)
104 {
105   tcp_main_t *tm = &tcp_main;
106   u32 tepi;
107   transport_endpoint_t *tep;
108
109   /* Cleanup local endpoint if this was an active connect */
110   tepi = transport_endpoint_lookup (&tm->local_endpoints_table, &tc->c_lcl_ip,
111                                     tc->c_lcl_port);
112
113   /*XXX lock */
114   if (tepi != TRANSPORT_ENDPOINT_INVALID_INDEX)
115     {
116       tep = pool_elt_at_index (tm->local_endpoints, tepi);
117       transport_endpoint_table_del (&tm->local_endpoints_table, tep);
118       pool_put (tm->local_endpoints, tep);
119     }
120
121   /* Make sure all timers are cleared */
122   tcp_connection_timers_reset (tc);
123
124   /* Check if half-open */
125   if (tc->state == TCP_STATE_SYN_SENT)
126     pool_put (tm->half_open_connections, tc);
127   else
128     pool_put (tm->connections[tc->c_thread_index], tc);
129 }
130
131 /**
132  * Connection removal.
133  *
134  * This should be called only once connection enters CLOSED state. Note
135  * that it notifies the session of the removal event, so if the goal is to
136  * just remove the connection, call tcp_connection_cleanup instead.
137  */
138 void
139 tcp_connection_del (tcp_connection_t * tc)
140 {
141   TCP_EVT_DBG (TCP_EVT_DELETE, tc);
142   stream_session_delete_notify (&tc->connection);
143   tcp_connection_cleanup (tc);
144 }
145
146 /** Notify session that connection has been reset.
147  *
148  * Switch state to closed and wait for session to call cleanup.
149  */
150 void
151 tcp_connection_reset (tcp_connection_t * tc)
152 {
153   switch (tc->state)
154     {
155     case TCP_STATE_SYN_RCVD:
156       /* Cleanup everything. App wasn't notified yet */
157       stream_session_delete_notify (&tc->connection);
158       tcp_connection_cleanup (tc);
159       break;
160     case TCP_STATE_SYN_SENT:
161     case TCP_STATE_ESTABLISHED:
162     case TCP_STATE_CLOSE_WAIT:
163     case TCP_STATE_FIN_WAIT_1:
164     case TCP_STATE_FIN_WAIT_2:
165     case TCP_STATE_CLOSING:
166       tc->state = TCP_STATE_CLOSED;
167
168       /* Make sure all timers are cleared */
169       tcp_connection_timers_reset (tc);
170
171       stream_session_reset_notify (&tc->connection);
172       break;
173     case TCP_STATE_CLOSED:
174       return;
175     }
176
177 }
178
179 /**
180  * Begin connection closing procedure.
181  *
182  * If at the end the connection is not in CLOSED state, it is not removed.
183  * Instead, we rely on on TCP to advance through state machine to either
184  * 1) LAST_ACK (passive close) whereby when the last ACK is received
185  * tcp_connection_del is called. This notifies session of the delete and
186  * calls cleanup.
187  * 2) TIME_WAIT (active close) whereby after 2MSL the 2MSL timer triggers
188  * and cleanup is called.
189  *
190  * N.B. Half-close connections are not supported
191  */
192 void
193 tcp_connection_close (tcp_connection_t * tc)
194 {
195   TCP_EVT_DBG (TCP_EVT_CLOSE, tc);
196
197   /* Send FIN if needed */
198   if (tc->state == TCP_STATE_ESTABLISHED
199       || tc->state == TCP_STATE_SYN_RCVD || tc->state == TCP_STATE_CLOSE_WAIT)
200     tcp_send_fin (tc);
201
202   /* Switch state */
203   if (tc->state == TCP_STATE_ESTABLISHED || tc->state == TCP_STATE_SYN_RCVD)
204     tc->state = TCP_STATE_FIN_WAIT_1;
205   else if (tc->state == TCP_STATE_SYN_SENT)
206     tc->state = TCP_STATE_CLOSED;
207   else if (tc->state == TCP_STATE_CLOSE_WAIT)
208     tc->state = TCP_STATE_LAST_ACK;
209
210   /* If in CLOSED and WAITCLOSE timer is not set, delete connection now */
211   if (tc->timers[TCP_TIMER_WAITCLOSE] == TCP_TIMER_HANDLE_INVALID
212       && tc->state == TCP_STATE_CLOSED)
213     tcp_connection_del (tc);
214 }
215
216 void
217 tcp_session_close (u32 conn_index, u32 thread_index)
218 {
219   tcp_connection_t *tc;
220   tc = tcp_connection_get (conn_index, thread_index);
221   tcp_connection_close (tc);
222 }
223
224 void
225 tcp_session_cleanup (u32 conn_index, u32 thread_index)
226 {
227   tcp_connection_t *tc;
228   tc = tcp_connection_get (conn_index, thread_index);
229
230   /* Wait for the session tx events to clear */
231   tc->state = TCP_STATE_CLOSED;
232   tcp_timer_update (tc, TCP_TIMER_WAITCLOSE, TCP_CLEANUP_TIME);
233 }
234
235 void *
236 ip_interface_get_first_ip (u32 sw_if_index, u8 is_ip4)
237 {
238   ip_lookup_main_t *lm4 = &ip4_main.lookup_main;
239   ip_lookup_main_t *lm6 = &ip6_main.lookup_main;
240   ip_interface_address_t *ia = 0;
241
242   if (is_ip4)
243     {
244       /* *INDENT-OFF* */
245       foreach_ip_interface_address (lm4, ia, sw_if_index, 1 /* unnumbered */ ,
246       ({
247         return ip_interface_address_get_address (lm4, ia);
248       }));
249       /* *INDENT-ON* */
250     }
251   else
252     {
253       /* *INDENT-OFF* */
254       foreach_ip_interface_address (lm6, ia, sw_if_index, 1 /* unnumbered */ ,
255       ({
256         return ip_interface_address_get_address (lm6, ia);
257       }));
258       /* *INDENT-ON* */
259     }
260
261   return 0;
262 }
263
264 #define PORT_MASK ((1 << 16)- 1)
265 /**
266  * Allocate local port and add if successful add entry to local endpoint
267  * table to mark the pair as used.
268  */
269 u16
270 tcp_allocate_local_port (tcp_main_t * tm, ip46_address_t * ip)
271 {
272   transport_endpoint_t *tep;
273   u32 time_now, tei;
274   u16 min = 1024, max = 65535;  /* XXX configurable ? */
275   int tries;
276
277   tries = max - min;
278   time_now = tcp_time_now ();
279
280   /* Start at random point or max */
281   pool_get (tm->local_endpoints, tep);
282   clib_memcpy (&tep->ip, ip, sizeof (*ip));
283
284   /* Search for first free slot */
285   for (; tries >= 0; tries--)
286     {
287       u16 port = 0;
288
289       /* Find a port in the specified range */
290       while (1)
291         {
292           port = random_u32 (&time_now) & PORT_MASK;
293           if (PREDICT_TRUE (port >= min && port < max))
294             break;
295         }
296
297       tep->port = port;
298
299       /* Look it up */
300       tei = transport_endpoint_lookup (&tm->local_endpoints_table, &tep->ip,
301                                        tep->port);
302       /* If not found, we're done */
303       if (tei == TRANSPORT_ENDPOINT_INVALID_INDEX)
304         {
305           transport_endpoint_table_add (&tm->local_endpoints_table, tep,
306                                         tep - tm->local_endpoints);
307           return tep->port;
308         }
309     }
310   /* No free ports */
311   pool_put (tm->local_endpoints, tep);
312   return -1;
313 }
314
315 /**
316  * Initialize all connection timers as invalid
317  */
318 void
319 tcp_connection_timers_init (tcp_connection_t * tc)
320 {
321   int i;
322
323   /* Set all to invalid */
324   for (i = 0; i < TCP_N_TIMERS; i++)
325     {
326       tc->timers[i] = TCP_TIMER_HANDLE_INVALID;
327     }
328
329   tc->rto = TCP_RTO_INIT;
330 }
331
332 /**
333  * Stop all connection timers
334  */
335 void
336 tcp_connection_timers_reset (tcp_connection_t * tc)
337 {
338   int i;
339   for (i = 0; i < TCP_N_TIMERS; i++)
340     {
341       tcp_timer_reset (tc, i);
342     }
343 }
344
345 /** Initialize tcp connection variables
346  *
347  * Should be called after having received a msg from the peer, i.e., a SYN or
348  * a SYNACK, such that connection options have already been exchanged. */
349 void
350 tcp_connection_init_vars (tcp_connection_t * tc)
351 {
352   tcp_connection_timers_init (tc);
353   tcp_init_mss (tc);
354   scoreboard_init (&tc->sack_sb);
355   tcp_cc_init (tc);
356 }
357
358 int
359 tcp_connection_open (ip46_address_t * rmt_addr, u16 rmt_port, u8 is_ip4)
360 {
361   tcp_main_t *tm = vnet_get_tcp_main ();
362   tcp_connection_t *tc;
363   fib_prefix_t prefix;
364   u32 fei, sw_if_index;
365   ip46_address_t lcl_addr;
366   u16 lcl_port;
367
368   /*
369    * Find the local address and allocate port
370    */
371   memset (&lcl_addr, 0, sizeof (lcl_addr));
372
373   /* Find a FIB path to the destination */
374   clib_memcpy (&prefix.fp_addr, rmt_addr, sizeof (*rmt_addr));
375   prefix.fp_proto = is_ip4 ? FIB_PROTOCOL_IP4 : FIB_PROTOCOL_IP6;
376   prefix.fp_len = is_ip4 ? 32 : 128;
377
378   fei = fib_table_lookup (0, &prefix);
379
380   /* Couldn't find route to destination. Bail out. */
381   if (fei == FIB_NODE_INDEX_INVALID)
382     return -1;
383
384   sw_if_index = fib_entry_get_resolving_interface (fei);
385
386   if (sw_if_index == (u32) ~ 0)
387     return -1;
388
389   if (is_ip4)
390     {
391       ip4_address_t *ip4;
392       ip4 = ip_interface_get_first_ip (sw_if_index, 1);
393       lcl_addr.ip4.as_u32 = ip4->as_u32;
394     }
395   else
396     {
397       ip6_address_t *ip6;
398       ip6 = ip_interface_get_first_ip (sw_if_index, 0);
399       clib_memcpy (&lcl_addr.ip6, ip6, sizeof (*ip6));
400     }
401
402   /* Allocate source port */
403   lcl_port = tcp_allocate_local_port (tm, &lcl_addr);
404   if (lcl_port < 1)
405     {
406       clib_warning ("Failed to allocate src port");
407       return -1;
408     }
409
410   /*
411    * Create connection and send SYN
412    */
413
414   pool_get (tm->half_open_connections, tc);
415   memset (tc, 0, sizeof (*tc));
416
417   clib_memcpy (&tc->c_rmt_ip, rmt_addr, sizeof (ip46_address_t));
418   clib_memcpy (&tc->c_lcl_ip, &lcl_addr, sizeof (ip46_address_t));
419   tc->c_rmt_port = clib_host_to_net_u16 (rmt_port);
420   tc->c_lcl_port = clib_host_to_net_u16 (lcl_port);
421   tc->c_c_index = tc - tm->half_open_connections;
422   tc->c_is_ip4 = is_ip4;
423   tc->c_proto = is_ip4 ? SESSION_TYPE_IP4_TCP : SESSION_TYPE_IP6_TCP;
424
425   /* The other connection vars will be initialized after SYN ACK */
426   tcp_connection_timers_init (tc);
427
428   tcp_send_syn (tc);
429
430   tc->state = TCP_STATE_SYN_SENT;
431
432   TCP_EVT_DBG (TCP_EVT_OPEN, tc);
433
434   return tc->c_c_index;
435 }
436
437 int
438 tcp_session_open_ip4 (ip46_address_t * addr, u16 port)
439 {
440   return tcp_connection_open (addr, port, 1);
441 }
442
443 int
444 tcp_session_open_ip6 (ip46_address_t * addr, u16 port)
445 {
446   return tcp_connection_open (addr, port, 0);
447 }
448
449 const char *tcp_dbg_evt_str[] = {
450 #define _(sym, str) str,
451   foreach_tcp_dbg_evt
452 #undef _
453 };
454
455 const char *tcp_fsm_states[] = {
456 #define _(sym, str) str,
457   foreach_tcp_fsm_state
458 #undef _
459 };
460
461 u8 *
462 format_tcp_state (u8 * s, va_list * args)
463 {
464   u32 state = va_arg (*args, u32);
465
466   if (state < TCP_N_STATES)
467     s = format (s, "%s", tcp_fsm_states[state]);
468   else
469     s = format (s, "UNKNOWN (%d (0x%x))", state, state);
470   return s;
471 }
472
473 const char *tcp_conn_timers[] = {
474 #define _(sym, str) str,
475   foreach_tcp_timer
476 #undef _
477 };
478
479 u8 *
480 format_tcp_timers (u8 * s, va_list * args)
481 {
482   tcp_connection_t *tc = va_arg (*args, tcp_connection_t *);
483   int i, last = -1;
484
485   for (i = 0; i < TCP_N_TIMERS; i++)
486     if (tc->timers[i] != TCP_TIMER_HANDLE_INVALID)
487       last = i;
488
489   s = format (s, "[");
490   for (i = 0; i < last; i++)
491     {
492       if (tc->timers[i] != TCP_TIMER_HANDLE_INVALID)
493         s = format (s, "%s,", tcp_conn_timers[i]);
494     }
495
496   if (last >= 0)
497     s = format (s, "%s]", tcp_conn_timers[i]);
498   else
499     s = format (s, "]");
500
501   return s;
502 }
503
504 u8 *
505 format_tcp_congestion_status (u8 * s, va_list * args)
506 {
507   tcp_connection_t *tc = va_arg (*args, tcp_connection_t *);
508   if (tcp_in_recovery (tc))
509     s = format (s, "recovery");
510   else if (tcp_in_fastrecovery (tc))
511     s = format (s, "fastrecovery");
512   else
513     s = format (s, "none");
514   return s;
515 }
516
517 u8 *
518 format_tcp_vars (u8 * s, va_list * args)
519 {
520   tcp_connection_t *tc = va_arg (*args, tcp_connection_t *);
521   s = format (s, " snd_una %u snd_nxt %u snd_una_max %u\n",
522               tc->snd_una - tc->iss, tc->snd_nxt - tc->iss,
523               tc->snd_una_max - tc->iss);
524   s = format (s, " rcv_nxt %u rcv_las %u\n",
525               tc->rcv_nxt - tc->irs, tc->rcv_las - tc->irs);
526   s = format (s, " snd_wnd %u rcv_wnd %u snd_wl1 %u snd_wl2 %u\n",
527               tc->snd_wnd, tc->rcv_wnd, tc->snd_wl1 - tc->irs,
528               tc->snd_wl2 - tc->iss);
529   s = format (s, " flight size %u send space %u rcv_wnd_av %d\n",
530               tcp_flight_size (tc), tcp_available_snd_space (tc),
531               tcp_rcv_wnd_available (tc));
532   s = format (s, " cong %U ", format_tcp_congestion_status, tc);
533   s = format (s, "cwnd %u ssthresh %u rtx_bytes %u bytes_acked %u\n",
534               tc->cwnd, tc->ssthresh, tc->snd_rxt_bytes, tc->bytes_acked);
535   s = format (s, " prev_ssthresh %u snd_congestion %u dupack %u\n",
536               tc->prev_ssthresh, tc->snd_congestion - tc->iss,
537               tc->rcv_dupacks);
538   s = format (s, " rto %u rto_boff %u srtt %u rttvar %u rtt_ts %u ", tc->rto,
539               tc->rto_boff, tc->srtt, tc->rttvar, tc->rtt_ts);
540   s = format (s, "rtt_seq %u\n", tc->rtt_seq);
541   s = format (s, " scoreboard: %U\n", format_tcp_scoreboard, &tc->sack_sb);
542   if (vec_len (tc->snd_sacks))
543     s = format (s, " sacks tx: %U\n", format_tcp_sacks, tc);
544
545   return s;
546 }
547
548 u8 *
549 format_tcp_connection_id (u8 * s, va_list * args)
550 {
551   tcp_connection_t *tc = va_arg (*args, tcp_connection_t *);
552   if (!tc)
553     return s;
554   if (tc->c_is_ip4)
555     {
556       s = format (s, "[#%d][%s] %U:%d->%U:%d", tc->c_thread_index, "T",
557                   format_ip4_address, &tc->c_lcl_ip4,
558                   clib_net_to_host_u16 (tc->c_lcl_port), format_ip4_address,
559                   &tc->c_rmt_ip4, clib_net_to_host_u16 (tc->c_rmt_port));
560     }
561   else
562     {
563       s = format (s, "[#%d][%s] %U:%d->%U:%d", tc->c_thread_index, "T",
564                   format_ip6_address, &tc->c_lcl_ip6,
565                   clib_net_to_host_u16 (tc->c_lcl_port), format_ip6_address,
566                   &tc->c_rmt_ip6, clib_net_to_host_u16 (tc->c_rmt_port));
567     }
568
569   return s;
570 }
571
572 u8 *
573 format_tcp_connection (u8 * s, va_list * args)
574 {
575   tcp_connection_t *tc = va_arg (*args, tcp_connection_t *);
576   u32 verbose = va_arg (*args, u32);
577
578   s = format (s, "%-50U", format_tcp_connection_id, tc);
579   if (verbose)
580     {
581       s = format (s, "%-15U", format_tcp_state, tc->state);
582       if (verbose > 1)
583         s = format (s, " %U\n%U", format_tcp_timers, tc, format_tcp_vars, tc);
584     }
585   return s;
586 }
587
588 u8 *
589 format_tcp_session (u8 * s, va_list * args)
590 {
591   u32 tci = va_arg (*args, u32);
592   u32 thread_index = va_arg (*args, u32);
593   u32 verbose = va_arg (*args, u32);
594   tcp_connection_t *tc;
595
596   tc = tcp_connection_get (tci, thread_index);
597   if (tc)
598     s = format (s, "%U", format_tcp_connection, tc, verbose);
599   else
600     s = format (s, "empty");
601   return s;
602 }
603
604 u8 *
605 format_tcp_listener_session (u8 * s, va_list * args)
606 {
607   u32 tci = va_arg (*args, u32);
608   tcp_connection_t *tc = tcp_listener_get (tci);
609   return format (s, "%U", format_tcp_connection_id, tc);
610 }
611
612 u8 *
613 format_tcp_half_open_session (u8 * s, va_list * args)
614 {
615   u32 tci = va_arg (*args, u32);
616   tcp_connection_t *tc = tcp_half_open_connection_get (tci);
617   return format (s, "%U", format_tcp_connection_id, tc);
618 }
619
620 u8 *
621 format_tcp_sacks (u8 * s, va_list * args)
622 {
623   tcp_connection_t *tc = va_arg (*args, tcp_connection_t *);
624   sack_block_t *sacks = tc->snd_sacks;
625   sack_block_t *block;
626   vec_foreach (block, sacks)
627   {
628     s = format (s, " start %u end %u\n", block->start - tc->irs,
629                 block->end - tc->irs);
630   }
631   return s;
632 }
633
634 u8 *
635 format_tcp_sack_hole (u8 * s, va_list * args)
636 {
637   sack_scoreboard_hole_t *hole = va_arg (*args, sack_scoreboard_hole_t *);
638   s = format (s, "[%u, %u]", hole->start, hole->end);
639   return s;
640 }
641
642 u8 *
643 format_tcp_scoreboard (u8 * s, va_list * args)
644 {
645   sack_scoreboard_t *sb = va_arg (*args, sack_scoreboard_t *);
646   sack_scoreboard_hole_t *hole;
647   s = format (s, "sacked_bytes %u last_sacked_bytes %u lost_bytes %u\n",
648               sb->sacked_bytes, sb->last_sacked_bytes, sb->lost_bytes);
649   s = format (s, " last_bytes_delivered %u high_sacked %u snd_una_adv %u\n",
650               sb->last_bytes_delivered, sb->high_sacked, sb->snd_una_adv);
651   s = format (s, " cur_rxt_hole %u high_rxt %u rescue_rxt %u",
652               sb->cur_rxt_hole, sb->high_rxt, sb->rescue_rxt);
653
654   hole = scoreboard_first_hole (sb);
655   if (hole)
656     s = format (s, "\n head %u tail %u holes:\n", sb->head, sb->tail);
657
658   while (hole)
659     {
660       s = format (s, "%U", format_tcp_sack_hole, hole);
661       hole = scoreboard_next_hole (sb, hole);
662     }
663   return s;
664 }
665
666 transport_connection_t *
667 tcp_session_get_transport (u32 conn_index, u32 thread_index)
668 {
669   tcp_connection_t *tc = tcp_connection_get (conn_index, thread_index);
670   return &tc->connection;
671 }
672
673 transport_connection_t *
674 tcp_half_open_session_get_transport (u32 conn_index)
675 {
676   tcp_connection_t *tc = tcp_half_open_connection_get (conn_index);
677   return &tc->connection;
678 }
679
680 /**
681  * Compute maximum segment size for session layer.
682  *
683  * Since the result needs to be the actual data length, it first computes
684  * the tcp options to be used in the next burst and subtracts their
685  * length from the connection's snd_mss.
686  */
687 u16
688 tcp_session_send_mss (transport_connection_t * trans_conn)
689 {
690   tcp_connection_t *tc = (tcp_connection_t *) trans_conn;
691
692   /* Ensure snd_mss does accurately reflect the amount of data we can push
693    * in a segment. This also makes sure that options are updated according to
694    * the current state of the connection. */
695   tcp_update_snd_mss (tc);
696
697   return tc->snd_mss;
698 }
699
700 always_inline u32
701 tcp_round_snd_space (tcp_connection_t * tc, u32 snd_space)
702 {
703   if (tc->snd_wnd < tc->snd_mss)
704     {
705       return tc->snd_wnd <= snd_space ? tc->snd_wnd : 0;
706     }
707
708   /* If we can't write at least a segment, don't try at all */
709   if (snd_space < tc->snd_mss)
710     return 0;
711
712   /* round down to mss multiple */
713   return snd_space - (snd_space % tc->snd_mss);
714 }
715
716 /**
717  * Compute tx window session is allowed to fill.
718  *
719  * Takes into account available send space, snd_mss and the congestion
720  * state of the connection. If possible, the value returned is a multiple
721  * of snd_mss.
722  *
723  * @param tc tcp connection
724  * @return number of bytes session is allowed to write
725  */
726 u32
727 tcp_snd_space (tcp_connection_t * tc)
728 {
729   int snd_space;
730
731   /* If we haven't gotten dupacks or if we did and have gotten sacked bytes
732    * then we can still send */
733   if (PREDICT_TRUE (tcp_in_cong_recovery (tc) == 0
734                     && (tc->rcv_dupacks == 0
735                         || tc->sack_sb.last_sacked_bytes)))
736     {
737       snd_space = tcp_available_snd_space (tc);
738       return tcp_round_snd_space (tc, snd_space);
739     }
740
741   if (tcp_in_recovery (tc))
742     {
743       tc->snd_nxt = tc->snd_una_max;
744       snd_space = tcp_available_wnd (tc) - tc->snd_rxt_bytes
745         - (tc->snd_una_max - tc->snd_congestion);
746       if (snd_space <= 0 || (tc->snd_una_max - tc->snd_una) >= tc->snd_wnd)
747         return 0;
748       return tcp_round_snd_space (tc, snd_space);
749     }
750
751   /* If in fast recovery, send 1 SMSS if wnd allows */
752   if (tcp_in_fastrecovery (tc)
753       && tcp_available_snd_space (tc) && !tcp_fastrecovery_sent_1_smss (tc))
754     {
755       tcp_fastrecovery_1_smss_on (tc);
756       return tc->snd_mss;
757     }
758
759   return 0;
760 }
761
762 u32
763 tcp_session_send_space (transport_connection_t * trans_conn)
764 {
765   tcp_connection_t *tc = (tcp_connection_t *) trans_conn;
766   return tcp_snd_space (tc);
767 }
768
769 i32
770 tcp_rcv_wnd_available (tcp_connection_t * tc)
771 {
772   return (i32) tc->rcv_wnd - (tc->rcv_nxt - tc->rcv_las);
773 }
774
775 u32
776 tcp_session_tx_fifo_offset (transport_connection_t * trans_conn)
777 {
778   tcp_connection_t *tc = (tcp_connection_t *) trans_conn;
779
780   ASSERT (seq_geq (tc->snd_nxt, tc->snd_una));
781
782   /* This still works if fast retransmit is on */
783   return (tc->snd_nxt - tc->snd_una);
784 }
785
786 /* *INDENT-OFF* */
787 const static transport_proto_vft_t tcp4_proto = {
788   .bind = tcp_session_bind_ip4,
789   .unbind = tcp_session_unbind,
790   .push_header = tcp_push_header,
791   .get_connection = tcp_session_get_transport,
792   .get_listener = tcp_session_get_listener,
793   .get_half_open = tcp_half_open_session_get_transport,
794   .open = tcp_session_open_ip4,
795   .close = tcp_session_close,
796   .cleanup = tcp_session_cleanup,
797   .send_mss = tcp_session_send_mss,
798   .send_space = tcp_session_send_space,
799   .tx_fifo_offset = tcp_session_tx_fifo_offset,
800   .format_connection = format_tcp_session,
801   .format_listener = format_tcp_listener_session,
802   .format_half_open = format_tcp_half_open_session,
803 };
804
805 const static transport_proto_vft_t tcp6_proto = {
806   .bind = tcp_session_bind_ip6,
807   .unbind = tcp_session_unbind,
808   .push_header = tcp_push_header,
809   .get_connection = tcp_session_get_transport,
810   .get_listener = tcp_session_get_listener,
811   .get_half_open = tcp_half_open_session_get_transport,
812   .open = tcp_session_open_ip6,
813   .close = tcp_session_close,
814   .cleanup = tcp_session_cleanup,
815   .send_mss = tcp_session_send_mss,
816   .send_space = tcp_session_send_space,
817   .tx_fifo_offset = tcp_session_tx_fifo_offset,
818   .format_connection = format_tcp_session,
819   .format_listener = format_tcp_listener_session,
820   .format_half_open = format_tcp_half_open_session,
821 };
822 /* *INDENT-ON* */
823
824 void
825 tcp_timer_keep_handler (u32 conn_index)
826 {
827   u32 thread_index = vlib_get_thread_index ();
828   tcp_connection_t *tc;
829
830   tc = tcp_connection_get (conn_index, thread_index);
831   tc->timers[TCP_TIMER_KEEP] = TCP_TIMER_HANDLE_INVALID;
832
833   tcp_connection_close (tc);
834 }
835
836 void
837 tcp_timer_establish_handler (u32 conn_index)
838 {
839   tcp_connection_t *tc;
840   u8 sst;
841
842   tc = tcp_half_open_connection_get (conn_index);
843   tc->timers[TCP_TIMER_ESTABLISH] = TCP_TIMER_HANDLE_INVALID;
844
845   ASSERT (tc->state == TCP_STATE_SYN_SENT);
846
847   sst = tc->c_is_ip4 ? SESSION_TYPE_IP4_TCP : SESSION_TYPE_IP6_TCP;
848   stream_session_connect_notify (&tc->connection, sst, 1 /* fail */ );
849
850   tcp_connection_cleanup (tc);
851 }
852
853 void
854 tcp_timer_waitclose_handler (u32 conn_index)
855 {
856   u32 thread_index = vlib_get_thread_index ();
857   tcp_connection_t *tc;
858
859   tc = tcp_connection_get (conn_index, thread_index);
860   tc->timers[TCP_TIMER_WAITCLOSE] = TCP_TIMER_HANDLE_INVALID;
861
862   /* Session didn't come back with a close(). Send FIN either way
863    * and switch to LAST_ACK. */
864   if (tc->state == TCP_STATE_CLOSE_WAIT)
865     {
866       if (tc->flags & TCP_CONN_FINSNT)
867         {
868           clib_warning ("FIN was sent and still in CLOSE WAIT. Weird!");
869         }
870
871       tcp_send_fin (tc);
872       tc->state = TCP_STATE_LAST_ACK;
873
874       /* Make sure we don't wait in LAST ACK forever */
875       tcp_timer_set (tc, TCP_TIMER_WAITCLOSE, TCP_2MSL_TIME);
876
877       /* Don't delete the connection yet */
878       return;
879     }
880
881   tcp_connection_del (tc);
882 }
883
884 /* *INDENT-OFF* */
885 static timer_expiration_handler *timer_expiration_handlers[TCP_N_TIMERS] =
886 {
887     tcp_timer_retransmit_handler,
888     tcp_timer_delack_handler,
889     tcp_timer_persist_handler,
890     tcp_timer_keep_handler,
891     tcp_timer_waitclose_handler,
892     tcp_timer_retransmit_syn_handler,
893     tcp_timer_establish_handler
894 };
895 /* *INDENT-ON* */
896
897 static void
898 tcp_expired_timers_dispatch (u32 * expired_timers)
899 {
900   int i;
901   u32 connection_index, timer_id;
902
903   for (i = 0; i < vec_len (expired_timers); i++)
904     {
905       /* Get session index and timer id */
906       connection_index = expired_timers[i] & 0x0FFFFFFF;
907       timer_id = expired_timers[i] >> 28;
908
909       TCP_EVT_DBG (TCP_EVT_TIMER_POP, connection_index, timer_id);
910
911       /* Handle expiration */
912       (*timer_expiration_handlers[timer_id]) (connection_index);
913     }
914 }
915
916 void
917 tcp_initialize_timer_wheels (tcp_main_t * tm)
918 {
919   tw_timer_wheel_16t_2w_512sl_t *tw;
920   /* *INDENT-OFF* */
921   foreach_vlib_main (({
922     tw = &tm->timer_wheels[ii];
923     tw_timer_wheel_init_16t_2w_512sl (tw, tcp_expired_timers_dispatch,
924                                       100e-3 /* timer period 100ms */ , ~0);
925     tw->last_run_time = vlib_time_now (this_vlib_main);
926   }));
927   /* *INDENT-ON* */
928 }
929
930 clib_error_t *
931 tcp_main_enable (vlib_main_t * vm)
932 {
933   tcp_main_t *tm = vnet_get_tcp_main ();
934   ip_protocol_info_t *pi;
935   ip_main_t *im = &ip_main;
936   vlib_thread_main_t *vtm = vlib_get_thread_main ();
937   clib_error_t *error = 0;
938   u32 num_threads;
939
940   if ((error = vlib_call_init_function (vm, ip_main_init)))
941     return error;
942   if ((error = vlib_call_init_function (vm, ip4_lookup_init)))
943     return error;
944   if ((error = vlib_call_init_function (vm, ip6_lookup_init)))
945     return error;
946
947   /*
948    * Registrations
949    */
950
951   /* Register with IP */
952   pi = ip_get_protocol_info (im, IP_PROTOCOL_TCP);
953   if (pi == 0)
954     return clib_error_return (0, "TCP protocol info AWOL");
955   pi->format_header = format_tcp_header;
956   pi->unformat_pg_edit = unformat_pg_tcp_header;
957
958   ip4_register_protocol (IP_PROTOCOL_TCP, tcp4_input_node.index);
959
960   /* Register as transport with URI */
961   session_register_transport (SESSION_TYPE_IP4_TCP, &tcp4_proto);
962   session_register_transport (SESSION_TYPE_IP6_TCP, &tcp6_proto);
963
964   /*
965    * Initialize data structures
966    */
967
968   num_threads = 1 /* main thread */  + vtm->n_threads;
969   vec_validate (tm->connections, num_threads - 1);
970
971   /* Initialize per worker thread tx buffers (used for control messages) */
972   vec_validate (tm->tx_buffers, num_threads - 1);
973
974   /* Initialize timer wheels */
975   vec_validate (tm->timer_wheels, num_threads - 1);
976   tcp_initialize_timer_wheels (tm);
977
978 //  vec_validate (tm->delack_connections, num_threads - 1);
979
980   /* Initialize clocks per tick for TCP timestamp. Used to compute
981    * monotonically increasing timestamps. */
982   tm->tstamp_ticks_per_clock = vm->clib_time.seconds_per_clock
983     / TCP_TSTAMP_RESOLUTION;
984
985   clib_bihash_init_24_8 (&tm->local_endpoints_table, "local endpoint table",
986                          200000 /* $$$$ config parameter nbuckets */ ,
987                          (64 << 20) /*$$$ config parameter table size */ );
988
989   return error;
990 }
991
992 clib_error_t *
993 vnet_tcp_enable_disable (vlib_main_t * vm, u8 is_en)
994 {
995   if (is_en)
996     {
997       if (tcp_main.is_enabled)
998         return 0;
999
1000       return tcp_main_enable (vm);
1001     }
1002   else
1003     {
1004       tcp_main.is_enabled = 0;
1005     }
1006
1007   return 0;
1008 }
1009
1010 clib_error_t *
1011 tcp_init (vlib_main_t * vm)
1012 {
1013   tcp_main_t *tm = vnet_get_tcp_main ();
1014
1015   tm->vlib_main = vm;
1016   tm->vnet_main = vnet_get_main ();
1017   tm->is_enabled = 0;
1018
1019   return 0;
1020 }
1021
1022 VLIB_INIT_FUNCTION (tcp_init);
1023
1024 /*
1025  * fd.io coding-style-patch-verification: ON
1026  *
1027  * Local Variables:
1028  * eval: (c-set-style "gnu")
1029  * End:
1030  */