tcp: validate the IP address while checking TCP connection
[vpp.git] / src / vnet / tcp / tcp_input.c
index f177f5f..15dae3d 100755 (executable)
@@ -136,7 +136,7 @@ tcp_options_parse (tcp_header_t * th, tcp_options_t * to, u8 is_syn)
 
   /* Zero out all flags but those set in SYN */
   to->flags &= (TCP_OPTS_FLAG_SACK_PERMITTED | TCP_OPTS_FLAG_WSCALE
-               | TCP_OPTS_FLAG_TSTAMP | TCP_OPTION_MSS);
+               | TCP_OPTS_FLAG_TSTAMP | TCP_OPTS_FLAG_MSS);
 
   for (; opts_len > 0; opts_len -= opt_len, data += opt_len)
     {
@@ -503,7 +503,8 @@ tcp_update_rtt (tcp_connection_t * tc, tcp_rate_sample_t * rs, u32 ack)
   if (tcp_in_cong_recovery (tc))
     {
       /* Accept rtt estimates for samples that have not been retransmitted */
-      if ((tc->flags & TCP_CONN_RATE_SAMPLE) && !(rs->flags & TCP_BTS_IS_RXT))
+      if ((tc->cfg_flags & TCP_CFG_F_RATE_SAMPLE)
+         && !(rs->flags & TCP_BTS_IS_RXT))
        {
          mrtt = rs->rtt_time * THZ;
          goto estimate_rtt;
@@ -574,6 +575,15 @@ tcp_estimate_initial_rtt (tcp_connection_t * tc)
   tcp_update_rto (tc);
 }
 
+always_inline u8
+tcp_recovery_no_snd_space (tcp_connection_t * tc)
+{
+  return (tcp_in_fastrecovery (tc)
+         && tcp_fastrecovery_prr_snd_space (tc) < tc->snd_mss)
+    || (tcp_in_recovery (tc)
+       && tcp_available_output_snd_space (tc) < tc->snd_mss);
+}
+
 /**
  * Dequeue bytes for connections that have received acks in last burst
  */
@@ -594,26 +604,33 @@ tcp_handle_postponed_dequeues (tcp_worker_ctx_t * wrk)
       tc = tcp_connection_get (pending_deq_acked[i], thread_index);
       tc->flags &= ~TCP_CONN_DEQ_PENDING;
 
-      if (PREDICT_FALSE (!tc->burst_acked))
-       continue;
+      if (tc->burst_acked)
+       {
+         /* Dequeue the newly ACKed bytes */
+         session_tx_fifo_dequeue_drop (&tc->connection, tc->burst_acked);
+         tc->burst_acked = 0;
+         tcp_validate_txf_size (tc, tc->snd_una_max - tc->snd_una);
+
+         if (PREDICT_FALSE (tc->flags & TCP_CONN_PSH_PENDING))
+           {
+             if (seq_leq (tc->psh_seq, tc->snd_una))
+               tc->flags &= ~TCP_CONN_PSH_PENDING;
+           }
 
-      /* Dequeue the newly ACKed bytes */
-      session_tx_fifo_dequeue_drop (&tc->connection, tc->burst_acked);
-      tc->burst_acked = 0;
-      tcp_validate_txf_size (tc, tc->snd_una_max - tc->snd_una);
+         /* If everything has been acked, stop retransmit timer
+          * otherwise update. */
+         tcp_retransmit_timer_update (tc);
 
-      if (PREDICT_FALSE (tc->flags & TCP_CONN_PSH_PENDING))
-       {
-         if (seq_leq (tc->psh_seq, tc->snd_una))
-           tc->flags &= ~TCP_CONN_PSH_PENDING;
+         /* Update pacer based on our new cwnd estimate */
+         tcp_connection_tx_pacer_update (tc);
        }
 
-      /* If everything has been acked, stop retransmit timer
-       * otherwise update. */
-      tcp_retransmit_timer_update (tc);
-
-      /* Update pacer based on our new cwnd estimate */
-      tcp_connection_tx_pacer_update (tc);
+      /* Reset the pacer if we've been idle, i.e., no data sent or if
+       * we're in recovery and snd space constrained */
+      if (tc->data_segs_out == tc->prev_dsegs_out
+         || tcp_recovery_no_snd_space (tc))
+       transport_connection_tx_pacer_reset_bucket (&tc->connection);
+      tc->prev_dsegs_out = tc->data_segs_out;
     }
   _vec_len (wrk->pending_deq_acked) = 0;
 }
@@ -871,6 +888,12 @@ scoreboard_next_rxt_hole (sack_scoreboard_t * sb,
       /* Rule (3): if hole not lost */
       else if (seq_lt (hole->start, sb->high_sacked))
        {
+         /* And we didn't already retransmit it */
+         if (seq_leq (hole->end, sb->high_rxt))
+           {
+             sb->cur_rxt_hole = TCP_INVALID_SACK_HOLE_INDEX;
+             return 0;
+           }
          *snd_limited = 0;
          sb->cur_rxt_hole = scoreboard_hole_index (sb, hole);
        }
@@ -926,8 +949,6 @@ scoreboard_clear (sack_scoreboard_t * sb)
   sb->sacked_bytes = 0;
   sb->last_sacked_bytes = 0;
   sb->last_bytes_delivered = 0;
-  sb->high_sacked = 0;
-  sb->high_rxt = 0;
   sb->lost_bytes = 0;
   sb->last_lost_bytes = 0;
   sb->cur_rxt_hole = TCP_INVALID_SACK_HOLE_INDEX;
@@ -1335,6 +1356,8 @@ tcp_cc_recover (tcp_connection_t * tc)
   tc->rtt_ts = 0;
   tc->flags &= ~TCP_CONN_RXT_PENDING;
 
+  tcp_connection_tx_pacer_reset (tc, tc->cwnd, 0 /* start bucket */ );
+
   /* Previous recovery left us congested. Continue sending as part
    * of the current recovery event with an updated snd_congestion */
   if (tc->sack_sb.sacked_bytes)
@@ -1354,8 +1377,6 @@ tcp_cc_recover (tcp_connection_t * tc)
   if (!tcp_in_recovery (tc) && !is_spurious)
     tcp_cc_recovered (tc);
 
-  tcp_connection_tx_pacer_reset (tc, tc->cwnd, 0 /* start bucket */ );
-
   tcp_fastrecovery_off (tc);
   tcp_fastrecovery_first_off (tc);
   tcp_recovery_off (tc);
@@ -1586,14 +1607,13 @@ process_ack:
   tc->snd_una = vnet_buffer (b)->tcp.ack_number;
   tcp_validate_txf_size (tc, tc->bytes_acked);
 
-  if (tc->flags & TCP_CONN_RATE_SAMPLE)
+  if (tc->cfg_flags & TCP_CFG_F_RATE_SAMPLE)
     tcp_bt_sample_delivery_rate (tc, &rs);
 
+  tcp_program_dequeue (wrk, tc);
+
   if (tc->bytes_acked)
-    {
-      tcp_program_dequeue (wrk, tc);
-      tcp_update_rtt (tc, &rs, vnet_buffer (b)->tcp.ack_number);
-    }
+    tcp_update_rtt (tc, &rs, vnet_buffer (b)->tcp.ack_number);
 
   TCP_EVT (TCP_EVT_ACK_RCVD, tc);
 
@@ -1665,6 +1685,7 @@ tcp_rcv_fin (tcp_worker_ctx_t * wrk, tcp_connection_t * tc, vlib_buffer_t * b,
 
   /* Account for the FIN and send ack */
   tc->rcv_nxt += 1;
+  tc->flags |= TCP_CONN_FINRCVD;
   tcp_program_ack (tc);
   /* Enter CLOSE-WAIT and notify session. To avoid lingering
    * in CLOSE-WAIT, set timer (reuse WAITCLOSE). */
@@ -2240,7 +2261,8 @@ VLIB_REGISTER_NODE (tcp6_established_node) =
 
 
 static u8
-tcp_lookup_is_valid (tcp_connection_t * tc, tcp_header_t * hdr)
+tcp_lookup_is_valid (tcp_connection_t * tc, vlib_buffer_t * b,
+                    tcp_header_t * hdr)
 {
   transport_connection_t *tmp = 0;
   u64 handle;
@@ -2252,9 +2274,30 @@ tcp_lookup_is_valid (tcp_connection_t * tc, tcp_header_t * hdr)
   if (tc->c_lcl_port == 0 && tc->state == TCP_STATE_LISTEN)
     return 1;
 
+
+  u8 is_ip_valid = 0;
+  if (tc->connection.is_ip4)
+    {
+      ip4_header_t *ip4_hdr = (ip4_header_t *) vlib_buffer_get_current (b);
+      is_ip_valid =
+       (!(ip4_address_compare
+          (&ip4_hdr->src_address, &tc->connection.rmt_ip.ip4)
+          && ip4_address_compare (&ip4_hdr->dst_address,
+                                  &tc->connection.lcl_ip.ip4)));
+    }
+  else
+    {
+      ip6_header_t *ip6_hdr = (ip6_header_t *) vlib_buffer_get_current (b);
+      is_ip_valid =
+       (!(ip6_address_compare
+          (&ip6_hdr->src_address, &tc->connection.rmt_ip.ip6)
+          && ip6_address_compare (&ip6_hdr->dst_address,
+                                  &tc->connection.lcl_ip.ip6)));
+    }
+
   u8 is_valid = (tc->c_lcl_port == hdr->dst_port
                 && (tc->state == TCP_STATE_LISTEN
-                    || tc->c_rmt_port == hdr->src_port));
+                    || tc->c_rmt_port == hdr->src_port) && is_ip_valid);
 
   if (!is_valid)
     {
@@ -2268,6 +2311,7 @@ tcp_lookup_is_valid (tcp_connection_t * tc, tcp_header_t * hdr)
              && tmp->rmt_port == hdr->src_port)
            {
              TCP_DBG ("half-open is valid!");
+             is_valid = 1;
            }
        }
     }
@@ -2298,7 +2342,7 @@ tcp_lookup_connection (u32 fib_index, vlib_buffer_t * b, u8 thread_index,
                                             TRANSPORT_PROTO_TCP,
                                             thread_index, &is_filtered);
       tc = tcp_get_connection_from_transport (tconn);
-      ASSERT (tcp_lookup_is_valid (tc, tcp));
+      ASSERT (tcp_lookup_is_valid (tc, b, tcp));
     }
   else
     {
@@ -2313,7 +2357,7 @@ tcp_lookup_connection (u32 fib_index, vlib_buffer_t * b, u8 thread_index,
                                             TRANSPORT_PROTO_TCP,
                                             thread_index, &is_filtered);
       tc = tcp_get_connection_from_transport (tconn);
-      ASSERT (tcp_lookup_is_valid (tc, tcp));
+      ASSERT (tcp_lookup_is_valid (tc, b, tcp));
     }
   return tc;
 }
@@ -2344,11 +2388,10 @@ tcp_check_tx_offload (tcp_connection_t * tc, int is_ipv4)
   sw_if_idx = dpo->dpoi_index;
   hw_if = vnet_get_sup_hw_interface (vnm, sw_if_idx);
 
-  tc->is_tso =
-    ((hw_if->flags & VNET_HW_INTERFACE_FLAG_SUPPORTS_GSO) == 0) ? 0 : 1;
+  if (hw_if->flags & VNET_HW_INTERFACE_FLAG_SUPPORTS_GSO)
+    tc->cfg_flags |= TCP_CFG_F_TSO;
 }
 
-
 always_inline uword
 tcp46_syn_sent_inline (vlib_main_t * vm, vlib_node_runtime_t * node,
                       vlib_frame_t * from_frame, int is_ip4)
@@ -2565,7 +2608,8 @@ tcp46_syn_sent_inline (vlib_main_t * vm, vlib_node_runtime_t * node,
          goto drop;
        }
 
-      tcp_check_tx_offload (new_tc0, is_ip4);
+      if (!(new_tc0->cfg_flags & TCP_CFG_F_NO_TSO))
+       tcp_check_tx_offload (new_tc0, is_ip4);
 
       /* Read data, if any */
       if (PREDICT_FALSE (vnet_buffer (b0)->tcp.data_len))
@@ -2577,7 +2621,9 @@ tcp46_syn_sent_inline (vlib_main_t * vm, vlib_node_runtime_t * node,
        }
       else
        {
-         tcp_program_ack (new_tc0);
+         /* Send ack now instead of programming it because connection was
+          * just established and it's not optional. */
+         tcp_send_ack (new_tc0);
        }
 
     drop:
@@ -2693,14 +2739,17 @@ tcp46_rcv_process_inline (vlib_main_t * vm, vlib_node_runtime_t * node,
 
       if (CLIB_DEBUG)
        {
-         tcp_connection_t *tmp;
-         tmp = tcp_lookup_connection (tc0->c_fib_index, b0, thread_index,
-                                      is_ip4);
-         if (tmp->state != tc0->state)
+         if (!(tc0->connection.flags & TRANSPORT_CONNECTION_F_NO_LOOKUP))
            {
-             if (tc0->state != TCP_STATE_CLOSED)
-               clib_warning ("state changed");
-             goto drop;
+             tcp_connection_t *tmp;
+             tmp = tcp_lookup_connection (tc0->c_fib_index, b0, thread_index,
+                                          is_ip4);
+             if (tmp->state != tc0->state)
+               {
+                 if (tc0->state != TCP_STATE_CLOSED)
+                   clib_warning ("state changed");
+                 goto drop;
+               }
            }
        }
 
@@ -2754,7 +2803,8 @@ tcp46_rcv_process_inline (vlib_main_t * vm, vlib_node_runtime_t * node,
          tc0->state = TCP_STATE_ESTABLISHED;
          TCP_EVT (TCP_EVT_STATE_CHANGE, tc0);
 
-         tcp_check_tx_offload (tc0, is_ip4);
+         if (!(tc0->cfg_flags & TCP_CFG_F_NO_TSO))
+           tcp_check_tx_offload (tc0, is_ip4);
 
          /* Initialize session variables */
          tc0->snd_una = vnet_buffer (b0)->tcp.ack_number;
@@ -3520,8 +3570,8 @@ tcp46_input_inline (vlib_main_t * vm, vlib_node_runtime_t * node,
 
       if (PREDICT_TRUE (!tc0 + !tc1 == 0))
        {
-         ASSERT (tcp_lookup_is_valid (tc0, tcp_buffer_hdr (b[0])));
-         ASSERT (tcp_lookup_is_valid (tc1, tcp_buffer_hdr (b[1])));
+         ASSERT (tcp_lookup_is_valid (tc0, b[0], tcp_buffer_hdr (b[0])));
+         ASSERT (tcp_lookup_is_valid (tc1, b[1], tcp_buffer_hdr (b[1])));
 
          vnet_buffer (b[0])->tcp.connection_index = tc0->c_c_index;
          vnet_buffer (b[1])->tcp.connection_index = tc1->c_c_index;
@@ -3533,7 +3583,7 @@ tcp46_input_inline (vlib_main_t * vm, vlib_node_runtime_t * node,
        {
          if (PREDICT_TRUE (tc0 != 0))
            {
-             ASSERT (tcp_lookup_is_valid (tc0, tcp_buffer_hdr (b[0])));
+             ASSERT (tcp_lookup_is_valid (tc0, b[0], tcp_buffer_hdr (b[0])));
              vnet_buffer (b[0])->tcp.connection_index = tc0->c_c_index;
              tcp_input_dispatch_buffer (tm, tc0, b[0], &next[0], &error0);
            }
@@ -3542,7 +3592,7 @@ tcp46_input_inline (vlib_main_t * vm, vlib_node_runtime_t * node,
 
          if (PREDICT_TRUE (tc1 != 0))
            {
-             ASSERT (tcp_lookup_is_valid (tc1, tcp_buffer_hdr (b[1])));
+             ASSERT (tcp_lookup_is_valid (tc1, b[1], tcp_buffer_hdr (b[1])));
              vnet_buffer (b[1])->tcp.connection_index = tc1->c_c_index;
              tcp_input_dispatch_buffer (tm, tc1, b[1], &next[1], &error1);
            }
@@ -3570,7 +3620,7 @@ tcp46_input_inline (vlib_main_t * vm, vlib_node_runtime_t * node,
                                     is_nolookup);
       if (PREDICT_TRUE (tc0 != 0))
        {
-         ASSERT (tcp_lookup_is_valid (tc0, tcp_buffer_hdr (b[0])));
+         ASSERT (tcp_lookup_is_valid (tc0, b[0], tcp_buffer_hdr (b[0])));
          vnet_buffer (b[0])->tcp.connection_index = tc0->c_c_index;
          tcp_input_dispatch_buffer (tm, tc0, b[0], &next[0], &error0);
        }