vnet/tcp/tcp.c: address a corner case.
[vpp.git] / src / vnet / tcp / tcp.c
index e32b5c4..5fadef0 100644 (file)
@@ -555,6 +555,16 @@ tcp_init_snd_vars (tcp_connection_t * tc)
   tc->snd_una_max = tc->snd_nxt;
 }
 
+void
+tcp_enable_pacing (tcp_connection_t * tc)
+{
+  u32 max_burst, byte_rate;
+  max_burst = 16 * tc->snd_mss;
+  byte_rate = 2 << 16;
+  transport_connection_tx_pacer_init (&tc->connection, byte_rate, max_burst);
+  tc->mrtt_us = (u32) ~ 0;
+}
+
 /** Initialize tcp connection variables
  *
  * Should be called after having received a msg from the peer, i.e., a SYN or
@@ -572,7 +582,11 @@ tcp_connection_init_vars (tcp_connection_t * tc)
   if (!tc->c_is_ip4 && ip6_address_is_link_local_unicast (&tc->c_rmt_ip6))
     tcp_add_del_adjacency (tc, 1);
 
-  //  tcp_connection_fib_attach (tc);
+  /*  tcp_connection_fib_attach (tc); */
+
+  if (transport_connection_is_tx_paced (&tc->connection)
+      || tcp_main.tx_pacing)
+    tcp_enable_pacing (tc);
 }
 
 static int
@@ -723,7 +737,6 @@ format_tcp_timers (u8 * s, va_list * args)
     if (tc->timers[i] != TCP_TIMER_HANDLE_INVALID)
       last = i;
 
-  s = format (s, "[");
   for (i = 0; i < last; i++)
     {
       if (tc->timers[i] != TCP_TIMER_HANDLE_INVALID)
@@ -731,9 +744,7 @@ format_tcp_timers (u8 * s, va_list * args)
     }
 
   if (last >= 0)
-    s = format (s, "%s]", tcp_conn_timers[i]);
-  else
-    s = format (s, "]");
+    s = format (s, "%s", tcp_conn_timers[i]);
 
   return s;
 }
@@ -757,12 +768,31 @@ tcp_rcv_wnd_available (tcp_connection_t * tc)
   return (i32) tc->rcv_wnd - (tc->rcv_nxt - tc->rcv_las);
 }
 
+static u8 *
+format_tcp_congestion (u8 * s, va_list * args)
+{
+  tcp_connection_t *tc = va_arg (*args, tcp_connection_t *);
+  u32 indent = format_get_indent (s);
+
+  s = format (s, "%U ", format_tcp_congestion_status, tc);
+  s = format (s, "cwnd %u ssthresh %u rtx_bytes %u bytes_acked %u\n",
+             tc->cwnd, tc->ssthresh, tc->snd_rxt_bytes, tc->bytes_acked);
+  s = format (s, "%Ucc space %u prev_ssthresh %u snd_congestion %u"
+             " dupack %u\n", format_white_space, indent,
+             tcp_available_cc_snd_space (tc), tc->prev_ssthresh,
+             tc->snd_congestion - tc->iss, tc->rcv_dupacks);
+  s = format (s, "%Utsecr %u tsecr_last_ack %u limited_transmit %u\n",
+             format_white_space, indent, tc->rcv_opts.tsecr,
+             tc->tsecr_last_ack, tc->limited_transmit - tc->iss);
+  return s;
+}
+
 static u8 *
 format_tcp_vars (u8 * s, va_list * args)
 {
   tcp_connection_t *tc = va_arg (*args, tcp_connection_t *);
-  s = format (s, " flags: %U timers: %U\n", format_tcp_connection_flags, tc,
-             format_tcp_timers, tc);
+  s = format (s, " index: %u flags: %U timers: %U\n", tc->c_c_index,
+             format_tcp_connection_flags, tc, format_tcp_timers, tc);
   s = format (s, " snd_una %u snd_nxt %u snd_una_max %u",
              tc->snd_una - tc->iss, tc->snd_nxt - tc->iss,
              tc->snd_una_max - tc->iss);
@@ -772,26 +802,21 @@ format_tcp_vars (u8 * s, va_list * args)
              tc->snd_wnd, tc->rcv_wnd, tc->rcv_wscale);
   s = format (s, "snd_wl1 %u snd_wl2 %u\n", tc->snd_wl1 - tc->irs,
              tc->snd_wl2 - tc->iss);
-  s = format (s, " flight size %u out space %u cc space %u rcv_wnd_av %u\n",
+  s = format (s, " flight size %u out space %u rcv_wnd_av %u\n",
              tcp_flight_size (tc), tcp_available_output_snd_space (tc),
-             tcp_available_cc_snd_space (tc), tcp_rcv_wnd_available (tc));
-  s = format (s, " cong %U ", format_tcp_congestion_status, tc);
-  s = format (s, "cwnd %u ssthresh %u rtx_bytes %u bytes_acked %u\n",
-             tc->cwnd, tc->ssthresh, tc->snd_rxt_bytes, tc->bytes_acked);
-  s = format (s, " prev_ssthresh %u snd_congestion %u dupack %u",
-             tc->prev_ssthresh, tc->snd_congestion - tc->iss,
-             tc->rcv_dupacks);
-  s = format (s, " limited_transmit %u\n", tc->limited_transmit - tc->iss);
-  s = format (s, " tsecr %u tsecr_last_ack %u\n", tc->rcv_opts.tsecr,
-             tc->tsecr_last_ack);
-  s = format (s, " rto %u rto_boff %u srtt %u rttvar %u rtt_ts %u ", tc->rto,
-             tc->rto_boff, tc->srtt, tc->rttvar, tc->rtt_ts);
-  s = format (s, "rtt_seq %u\n", tc->rtt_seq);
+             tcp_rcv_wnd_available (tc));
   s = format (s, " tsval_recent %u tsval_recent_age %u\n", tc->tsval_recent,
              tcp_time_now () - tc->tsval_recent_age);
+  s = format (s, " rto %u rto_boff %u srtt %u rttvar %u rtt_ts %2.5f ",
+             tc->rto, tc->rto_boff, tc->srtt, tc->rttvar, tc->rtt_ts);
+  s = format (s, "rtt_seq %u\n", tc->rtt_seq - tc->iss);
+  s = format (s, " cong:   %U", format_tcp_congestion, tc);
+
   if (tc->state >= TCP_STATE_ESTABLISHED)
-    s = format (s, " scoreboard: %U\n", format_tcp_scoreboard, &tc->sack_sb,
-               tc);
+    {
+      s = format (s, " sboard: %U\n", format_tcp_scoreboard, &tc->sack_sb,
+                 tc);
+    }
   if (vec_len (tc->snd_sacks))
     s = format (s, " sacks tx: %U\n", format_tcp_sacks, tc);
 
@@ -806,15 +831,15 @@ format_tcp_connection_id (u8 * s, va_list * args)
     return s;
   if (tc->c_is_ip4)
     {
-      s = format (s, "[#%d][%s] %U:%d->%U:%d", tc->c_thread_index, "T",
-                 format_ip4_address, &tc->c_lcl_ip4,
+      s = format (s, "[%d:%d][%s] %U:%d->%U:%d", tc->c_thread_index,
+                 tc->c_s_index, "T", format_ip4_address, &tc->c_lcl_ip4,
                  clib_net_to_host_u16 (tc->c_lcl_port), format_ip4_address,
                  &tc->c_rmt_ip4, clib_net_to_host_u16 (tc->c_rmt_port));
     }
   else
     {
-      s = format (s, "[#%d][%s] %U:%d->%U:%d", tc->c_thread_index, "T",
-                 format_ip6_address, &tc->c_lcl_ip6,
+      s = format (s, "[%d:%d][%s] %U:%d->%U:%d", tc->c_thread_index,
+                 tc->c_s_index, "T", format_ip6_address, &tc->c_lcl_ip6,
                  clib_net_to_host_u16 (tc->c_lcl_port), format_ip6_address,
                  &tc->c_rmt_ip6, clib_net_to_host_u16 (tc->c_rmt_port));
     }
@@ -939,22 +964,26 @@ format_tcp_scoreboard (u8 * s, va_list * args)
   sack_scoreboard_t *sb = va_arg (*args, sack_scoreboard_t *);
   tcp_connection_t *tc = va_arg (*args, tcp_connection_t *);
   sack_scoreboard_hole_t *hole;
+  u32 indent = format_get_indent (s);
+
   s = format (s, "sacked_bytes %u last_sacked_bytes %u lost_bytes %u\n",
              sb->sacked_bytes, sb->last_sacked_bytes, sb->lost_bytes);
-  s = format (s, " last_bytes_delivered %u high_sacked %u snd_una_adv %u\n",
-             sb->last_bytes_delivered, sb->high_sacked - tc->iss,
-             sb->snd_una_adv);
-  s = format (s, " cur_rxt_hole %u high_rxt %u rescue_rxt %u",
-             sb->cur_rxt_hole, sb->high_rxt - tc->iss,
-             sb->rescue_rxt - tc->iss);
+  s = format (s, "%Ulast_bytes_delivered %u high_sacked %u snd_una_adv %u\n",
+             format_white_space, indent, sb->last_bytes_delivered,
+             sb->high_sacked - tc->iss, sb->snd_una_adv);
+  s = format (s, "%Ucur_rxt_hole %u high_rxt %u rescue_rxt %u",
+             format_white_space, indent, sb->cur_rxt_hole,
+             sb->high_rxt - tc->iss, sb->rescue_rxt - tc->iss);
 
   hole = scoreboard_first_hole (sb);
   if (hole)
-    s = format (s, "\n head %u tail %u holes:\n", sb->head, sb->tail);
+    s = format (s, "\n%Uhead %u tail %u %u holes:\n", format_white_space,
+               indent, sb->head, sb->tail, pool_elts (sb->holes));
 
   while (hole)
     {
-      s = format (s, "%U", format_tcp_sack_hole, hole, tc);
+      s = format (s, "%U%U", format_white_space, indent, format_tcp_sack_hole,
+                 hole, tc);
       hole = scoreboard_next_hole (sb, hole);
     }
 
@@ -1027,7 +1056,7 @@ tcp_snd_space_inline (tcp_connection_t * tc)
 {
   int snd_space, snt_limited;
 
-  if (PREDICT_TRUE (tcp_in_cong_recovery (tc) == 0))
+  if (PREDICT_TRUE (!tcp_in_fastrecovery (tc)))
     {
       snd_space = tcp_available_output_snd_space (tc);
 
@@ -1047,16 +1076,6 @@ tcp_snd_space_inline (tcp_connection_t * tc)
       return tcp_round_snd_space (tc, snd_space);
     }
 
-  if (tcp_in_recovery (tc))
-    {
-      tc->snd_nxt = tc->snd_una_max;
-      snd_space = tcp_available_snd_wnd (tc) - tc->snd_rxt_bytes
-       - (tc->snd_una_max - tc->snd_congestion);
-      if (snd_space <= 0 || (tc->snd_una_max - tc->snd_una) >= tc->snd_wnd)
-       return 0;
-      return tcp_round_snd_space (tc, snd_space);
-    }
-
   /* RFC 5681: When previously unsent data is available and the new value of
    * cwnd and the receiver's advertised window allow, a TCP SHOULD send 1*SMSS
    * bytes of previously unsent data. */
@@ -1103,6 +1122,7 @@ tcp_update_time (f64 now, u8 thread_index)
   tw_timer_expire_timers_16t_2w_512sl (&tcp_main.
                                       wrk_ctx[thread_index].timer_wheel,
                                       now);
+  tcp_do_fastretransmits (thread_index);
   tcp_flush_frames_to_output (thread_index);
 }
 
@@ -1137,6 +1157,19 @@ const static transport_proto_vft_t tcp_proto = {
 };
 /* *INDENT-ON* */
 
+void
+tcp_update_pacer (tcp_connection_t * tc)
+{
+  f64 srtt;
+
+  if (!transport_connection_is_tx_paced (&tc->connection))
+    return;
+
+  srtt = clib_min ((f64) tc->srtt * TCP_TICK, tc->mrtt_us);
+  transport_connection_tx_pacer_update (&tc->connection,
+                                       ((f64) tc->cwnd) / srtt);
+}
+
 static void
 tcp_timer_keep_handler (u32 conn_index)
 {
@@ -1416,6 +1449,8 @@ tcp_config_fn (vlib_main_t * vm, unformat_input_t * input)
       else if (unformat (input, "max-rx-fifo %U", unformat_memory_size,
                         &tm->max_rx_fifo))
        ;
+      else if (unformat (input, "tx-pacing"))
+       tm->tx_pacing = 1;
       else
        return clib_error_return (0, "unknown input `%U'",
                                  format_unformat_error, input);
@@ -1768,12 +1803,15 @@ tcp_scoreboard_replay (u8 * s, tcp_connection_t * tc, u8 verbose)
   scoreboard_init (&dummy_tc->sack_sb);
   dummy_tc->rcv_opts.flags |= TCP_OPTS_FLAG_SACK;
 
-#if TCP_SCOREBOARD_TRACE
+/* Since this is also accessible via decl. in tcp.h.
+ * Otherwise, it is gated earlier by cli parser.
+ */
+#if (!TCP_SCOREBOARD_TRACE)
+  s = format (0, "scoreboard tracing not enabled");
+  return s;
+#else
   trace = tc->sack_sb.trace;
   trace_len = vec_len (tc->sack_sb.trace);
-#else
-  trace = 0;
-  trace_len = 0;
 #endif
 
   for (i = 0; i < trace_len; i++)