SCTP: data retransmission & snd_space fix
[vpp.git] / src / vnet / sctp / sctp.h
1 /*
2  * Copyright (c) 2017 SUSE LLC.
3  * Licensed under the Apache License, Version 2.0 (the "License");
4  * you may not use this file except in compliance with the License.
5  * You may obtain a copy of the License at:
6  *
7  *     http://www.apache.org/licenses/LICENSE-2.0
8  *
9  * Unless required by applicable law or agreed to in writing, software
10  * distributed under the License is distributed on an "AS IS" BASIS,
11  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
12  * See the License for the specific language governing permissions and
13  * limitations under the License.
14  */
15 #ifndef included_vnet_sctp_h
16 #define included_vnet_sctp_h
17
18 #include <vnet/vnet.h>
19 #include <vnet/ip/ip.h>
20 #include <vnet/sctp/sctp_timer.h>
21 #include <vnet/sctp/sctp_packet.h>
22 #include <vnet/session/transport.h>
23 #include <vnet/session/session.h>
24
25 /* SCTP timers */
26 #define foreach_sctp_timer                      \
27   _(T1_INIT, "T1_INIT")                                 \
28   _(T1_COOKIE, "T1_COOKIE")                             \
29   _(T2_SHUTDOWN, "T2_SHUTDOWN")                 \
30   _(T3_RXTX, "T3_RXTX")                                         \
31   _(T4_HEARTBEAT, "T4_HB")                                      \
32   _(T5_SHUTDOWN_GUARD, "T5_SHUTDOWN_GUARD")
33
34 typedef enum _sctp_timers
35 {
36 #define _(sym, str) SCTP_TIMER_##sym,
37   foreach_sctp_timer
38 #undef _
39   SCTP_N_TIMERS
40 } sctp_timers_e;
41
42 #define SCTP_TIMER_HANDLE_INVALID ((u32) ~0)
43
44 always_inline char *
45 sctp_timer_to_string (u8 timer_id)
46 {
47   switch (timer_id)
48     {
49     case SCTP_TIMER_T1_INIT:
50       return "SCTP_TIMER_T1_INIT";
51     case SCTP_TIMER_T1_COOKIE:
52       return "SCTP_TIMER_T1_COOKIE";
53     case SCTP_TIMER_T2_SHUTDOWN:
54       return "SCTP_TIMER_T2_SHUTDOWN";
55     case SCTP_TIMER_T3_RXTX:
56       return "SCTP_TIMER_T3_RXTX";
57     case SCTP_TIMER_T4_HEARTBEAT:
58       return "SCTP_TIMER_T4_HEARTBEAT";
59     case SCTP_TIMER_T5_SHUTDOWN_GUARD:
60       return "SCTP_TIMER_T5_SHUTDOWN_GUARD";
61     }
62   return NULL;
63 }
64
65 typedef enum _sctp_error
66 {
67 #define sctp_error(n,s) SCTP_ERROR_##n,
68 #include <vnet/sctp/sctp_error.def>
69 #undef sctp_error
70   SCTP_N_ERROR,
71 } sctp_error_t;
72
73 #define NO_FLAG 0
74
75 #define IS_T_BIT_SET(var) ((var) & (1))
76 #define IS_E_BIT_SET(var) ((var) & (1))
77 #define IS_B_BIT_SET(var) ((var) & (1<<1))
78 #define IS_U_BIT_SET(var) ((var) & (1<<2))
79
80 #define MAX_SCTP_CONNECTIONS 8
81 #define SCTP_PRIMARY_PATH_IDX 0
82
83 #if (VLIB_BUFFER_TRACE_TRAJECTORY)
84 #define sctp_trajectory_add_start(b, start)                     \
85 {                                                               \
86     (*vlib_buffer_trace_trajectory_cb) (b, start);              \
87 }
88 #else
89 #define sctp_trajectory_add_start(b, start)
90 #endif
91
92 enum _sctp_subconn_state
93 {
94   SCTP_SUBCONN_STATE_DOWN = 0,
95   SCTP_SUBCONN_STATE_UP,
96   SCTP_SUBCONN_STATE_ALLOW_HB,
97   SCTP_SUBCONN_AWAITING_SACK,
98   SCTP_SUBCONN_SACK_RECEIVED
99 };
100
101 #define SCTP_INITIAL_SSHTRESH 65535
102 typedef struct _sctp_sub_connection
103 {
104   transport_connection_t connection;          /**< Common transport data. First! */
105
106   u8 subconn_idx; /**< This indicates the position of this sub-connection in the super-set container of connections pool */
107   u32 error_count; /**< The current error count for this destination. */
108   u32 error_threshold; /**< Current error threshold for this destination,
109                                 i.e. what value marks the destination down if error count reaches this value. */
110   u32 cwnd; /**< Congestion control window (cwnd, in bytes), which is adjusted by
111       the sender based on observed network conditions. */
112   u32 ssthresh; /**< Slow-start threshold (in bytes), which is used by the
113       sender to distinguish slow-start and congestion avoidance phases. */
114
115   u32 rtt_ts;   /**< USED to hold the timestamp of when the packet has been sent */
116
117   u32 RTO; /**< The current retransmission timeout value. */
118   u32 SRTT; /**< The current smoothed round-trip time. */
119   f32 RTTVAR; /**< The current RTT variation. */
120
121   u32 partially_acked_bytes; /**< The tracking method for increase of cwnd when in
122                                   congestion avoidance mode (see Section 7.2.2).*/
123
124   u8 state; /**< The current state of this destination, i.e., DOWN, UP, ALLOW-HB, NO-HEARTBEAT, etc. */
125
126   u16 PMTU; /**< The current known path MTU. */
127
128   u32 timers[SCTP_N_TIMERS]; /**< A timer used by each destination. */
129
130   u8 RTO_pending; /**< A flag used to track if one of the DATA chunks sent to
131                                   this address is currently being used to compute an RTT.
132                                   If this flag is 0, the next DATA chunk sent to this destination
133                                   should be used to compute an RTT and this flag should be set.
134                                   Every time the RTT calculation completes (i.e., the DATA chunk is SACK'd),
135                                   clear this flag. */
136
137   u32 last_seen; /**< The time to which this destination was last sent a packet to.
138                                   This can be used to determine if a HEARTBEAT is needed. */
139
140   u32 last_data_ts; /**< Used to hold the timestamp value of last time we sent a DATA chunk */
141
142   u8 unacknowledged_hb; /**< Used to track how many unacknowledged heartbeats we had;
143                                   If more than SCTP_PATH_MAX_RETRANS then connection is considered unreachable. */
144
145   u8 is_retransmitting; /**< A flag (0 = no, 1 = yes) indicating whether the connection is retransmitting a previous packet */
146
147   u8 enqueue_state; /**< if set to 1 indicates that DATA is still being handled hence cannot shutdown this connection yet */
148
149 } sctp_sub_connection_t;
150
151 typedef struct
152 {
153   u32 a_rwnd; /**< Maximum segment size advertised */
154
155 } sctp_options_t;
156
157 /* Useful macros to deal with the out_of_order_map (array of bit) */
158 #define SET_BIT(A,k)     ( A[(k/32)] |= (1 << (k%32)) )
159 #define CLEAR_BIT(A,k)   ( A[(k/32)] &= ~(1 << (k%32)) )
160 #define TEST_BIT(A,k)    ( A[(k/32)] & (1 << (k%32)) )
161
162 always_inline void
163 _bytes_swap (void *pv, size_t n)
164 {
165   char *p = pv;
166   size_t lo, hi;
167   for (lo = 0, hi = n - 1; hi > lo; lo++, hi--)
168     {
169       char tmp = p[lo];
170       p[lo] = p[hi];
171       p[hi] = tmp;
172     }
173 }
174
175 #define ENDIANESS_SWAP(x) _bytes_swap(&x, sizeof(x));
176
177 #define MAX_INFLIGHT_PACKETS    128
178 #define MAX_ENQUEABLE_SACKS 2
179
180 /* This parameter indicates to the receiver how much increment in
181  * milliseconds the sender wishes the receiver to add to its default
182  * cookie life-span.
183  */
184 #define SUGGESTED_COOKIE_LIFE_SPAN_INCREMENT 1000
185
186 typedef struct _sctp_user_configuration
187 {
188   u8 never_delay_sack;
189   u8 never_bundle;
190
191 } sctp_user_configuration_t;
192
193 typedef struct _sctp_connection
194 {
195   sctp_sub_connection_t sub_conn[MAX_SCTP_CONNECTIONS]; /**< Common transport data. First! */
196   sctp_user_configuration_t conn_config; /**< Allows tuning of some SCTP behaviors */
197
198   u8 state;                     /**< SCTP state as per sctp_state_t */
199   u16 flags;            /**< Chunk flag (see sctp_chunks_common_hdr_t) */
200
201   u32 local_tag;        /**< INIT_TAG generated locally */
202   u32 remote_tag;       /**< INIT_TAG generated by the remote peer */
203
204   u32 local_initial_tsn; /**< Initial TSN generated locally */
205   u32 remote_initial_tsn; /**< Initial TSN generated by the remote-peer */
206
207   u32 peer_cookie_life_span_increment;
208
209   u32 overall_err_count; /**< The overall association error count. */
210   u32 overall_err_treshold; /**< The threshold for this association that if the Overall Error Count
211                                   reaches will cause this association to be torn down. */
212
213   u8 init_retransmit_err; /**< Error counter for the INIT transmission phase */
214
215   u32 peer_rwnd; /**< Current calculated value of the peer's rwnd. */
216
217   u32 next_tsn; /**< The next TSN number to be assigned to a new DATA chunk.
218                  This is sent in the INIT or INIT ACK chunk to the peer
219                  and incremented each time a DATA chunk is assigned a
220                  TSN (normally just prior to transmit or during
221                  fragmentation). */
222
223   u32 last_unacked_tsn; /** < Last TSN number still unacked */
224   u32 next_tsn_expected; /**< The next TSN number expected to be received. */
225
226   u32 last_rcvd_tsn; /**< This is the last TSN received in sequence. This value
227                          is set initially by taking the peer's initial TSN,
228                  received in the INIT or INIT ACK chunk, and
229                  subtracting one from it. */
230
231   u32 out_of_order_map[MAX_INFLIGHT_PACKETS]; /**< An array of bits or bytes indicating which out-of-order
232                                 TSNs have been received (relative to the Last Rcvd TSN).
233                                 If no gaps exist, i.e., no out-of-order packets have been received,
234                                 this array will be set to all zero. */
235
236   u8 ack_state; /**< This flag indicates if the next received packet is set to be responded to with a SACK.
237                                 This is initialized to 0. When a packet is received it is incremented.
238                                 If this value reaches 2 or more, a SACK is sent and the value is reset to 0.
239                                 Note: This is used only when no DATA chunks are received out-of-order.
240                                 When DATA chunks are out-of-order, SACKs are not delayed (see Section 6). */
241
242   u8 smallest_PMTU_idx; /** The index of the sub-connection with the smallest PMTU discovered across all peer's transport addresses. */
243
244   u8 overall_sending_status; /**< 0 indicates first fragment of a user message
245                                                                   1 indicates normal stream
246                                                                   2 indicates last fragment of a user message */
247
248   u8 forming_association_changed; /**< This is a flag indicating whether the original association has been modified during
249                                   the life-span of the association itself. For instance, a new sub-connection might have been added. */
250
251   sctp_state_cookie_param_t cookie_param; /**< Temporary location to save cookie information; it can be used to
252                                   when timeout expires and sending again a COOKIE is require. */
253
254 } sctp_connection_t;
255
256 typedef void (sctp_timer_expiration_handler) (u32 conn_index, u32 timer_id);
257
258 sctp_connection_t *sctp_connection_new (u8 thread_index);
259
260 u8
261 sctp_sub_connection_add_ip4 (vlib_main_t * vm,
262                              ip4_address_t * lcl_addr,
263                              ip4_address_t * rmt_addr);
264
265 u8
266 sctp_sub_connection_add_ip6 (vlib_main_t * vm,
267                              ip6_address_t * lcl_addr,
268                              ip6_address_t * rmt_addr);
269
270 u8
271 sctp_sub_connection_del_ip4 (ip4_address_t * lcl_addr,
272                              ip4_address_t * rmt_addr);
273
274 u8
275 sctp_sub_connection_del_ip6 (ip6_address_t * lcl_addr,
276                              ip6_address_t * rmt_addr);
277
278 u8 sctp_configure (sctp_user_configuration_t config);
279
280 void sctp_connection_close (sctp_connection_t * sctp_conn);
281 void sctp_connection_cleanup (sctp_connection_t * sctp_conn);
282 void sctp_connection_del (sctp_connection_t * sctp_conn);
283
284 u32 sctp_push_header (transport_connection_t * tconn, vlib_buffer_t * b);
285 void sctp_send_init (sctp_connection_t * sctp_conn);
286 void sctp_send_cookie_echo (sctp_connection_t * sctp_conn);
287 void sctp_send_shutdown (sctp_connection_t * sctp_conn);
288 void sctp_send_shutdown_ack (sctp_connection_t * sctp_conn, u8 idx,
289                              vlib_buffer_t * b);
290 void sctp_send_shutdown_complete (sctp_connection_t * sctp_conn, u8 idx,
291                                   vlib_buffer_t * b0);
292 void sctp_send_heartbeat (sctp_connection_t * sctp_conn);
293 void sctp_data_retransmit (sctp_connection_t * sctp_conn);
294 void sctp_flush_frame_to_output (vlib_main_t * vm, u8 thread_index,
295                                  u8 is_ip4);
296 void sctp_flush_frames_to_output (u8 thread_index);
297 void sctp_punt_unknown (vlib_main_t * vm, u8 is_ip4, u8 is_add);
298
299 format_function_t format_sctp_state;
300
301 u8 *format_sctp_connection_id (u8 * s, va_list * args);
302 u8 *format_sctp_connection (u8 * s, va_list * args);
303 u8 *format_sctp_scoreboard (u8 * s, va_list * args);
304 u8 *format_sctp_header (u8 * s, va_list * args);
305 u8 *format_sctp_tx_trace (u8 * s, va_list * args);
306
307 clib_error_t *sctp_init (vlib_main_t * vm);
308 void sctp_connection_timers_init (sctp_connection_t * sctp_conn);
309 void sctp_connection_timers_reset (sctp_connection_t * sctp_conn);
310 void sctp_init_snd_vars (sctp_connection_t * sctp_conn);
311 void sctp_init_mss (sctp_connection_t * sctp_conn);
312
313 void sctp_prepare_initack_chunk (sctp_connection_t * sctp_conn, u8 idx,
314                                  vlib_buffer_t * b, ip4_address_t * ip4_addr,
315                                  ip6_address_t * ip6_addr);
316 void
317 sctp_prepare_initack_chunk_for_collision (sctp_connection_t * sctp_conn,
318                                           u8 idx, vlib_buffer_t * b,
319                                           ip4_address_t * ip4_addr,
320                                           ip6_address_t * ip6_addr);
321 void sctp_prepare_abort_for_collision (sctp_connection_t * sctp_conn, u8 idx,
322                                        vlib_buffer_t * b,
323                                        ip4_address_t * ip4_addr,
324                                        ip6_address_t * ip6_addr);
325 void
326 sctp_prepare_operation_error (sctp_connection_t * sctp_conn, u8 idx,
327                               vlib_buffer_t * b, u8 err_cause);
328 void sctp_prepare_cookie_echo_chunk (sctp_connection_t * sctp_conn, u8 idx,
329                                      vlib_buffer_t * b, u8 reuse_buffer);
330 void sctp_prepare_cookie_ack_chunk (sctp_connection_t * sctp_conn, u8 idx,
331                                     vlib_buffer_t * b);
332 void sctp_prepare_sack_chunk (sctp_connection_t * sctp_conn, u8 idx,
333                               vlib_buffer_t * b);
334 void sctp_prepare_heartbeat_ack_chunk (sctp_connection_t * sctp_conn, u8 idx,
335                                        vlib_buffer_t * b);
336
337 u16 sctp_check_outstanding_data_chunks (sctp_connection_t * sctp_conn);
338
339 void sctp_api_reference (void);
340
341 #define IP_PROTOCOL_SCTP        132
342
343 /** SSCTP FSM state definitions as per RFC4960. */
344 #define foreach_sctp_fsm_state                \
345   _(CLOSED, "CLOSED")                         \
346   _(COOKIE_WAIT, "COOKIE_WAIT")               \
347   _(COOKIE_ECHOED, "COOKIE_ECHOED")           \
348   _(ESTABLISHED, "ESTABLISHED")               \
349   _(SHUTDOWN_PENDING, "SHUTDOWN_PENDING")     \
350   _(SHUTDOWN_SENT, "SHUTDOWN_SENT")           \
351   _(SHUTDOWN_RECEIVED, "SHUTDOWN_RECEIVED")   \
352   _(SHUTDOWN_ACK_SENT, "SHUTDOWN_ACK_SENT")
353
354 typedef enum _sctp_state
355 {
356 #define _(sym, str) SCTP_STATE_##sym,
357   foreach_sctp_fsm_state
358 #undef _
359   SCTP_N_STATES
360 } sctp_state_t;
361
362 always_inline char *
363 sctp_state_to_string (u8 state)
364 {
365   switch (state)
366     {
367     case SCTP_STATE_CLOSED:
368       return "SCTP_STATE_CLOSED";
369     case SCTP_STATE_COOKIE_WAIT:
370       return "SCTP_STATE_COOKIE_WAIT";
371     case SCTP_STATE_COOKIE_ECHOED:
372       return "SCTP_STATE_COOKIE_ECHOED";
373     case SCTP_STATE_ESTABLISHED:
374       return "SCTP_STATE_ESTABLISHED";
375     case SCTP_STATE_SHUTDOWN_PENDING:
376       return "SCTP_STATE_SHUTDOWN_PENDING";
377     case SCTP_STATE_SHUTDOWN_SENT:
378       return "SCTP_STATE_SHUTDOWN_SENT";
379     case SCTP_STATE_SHUTDOWN_RECEIVED:
380       return "SCTP_STATE_SHUTDOWN_RECEIVED";
381     case SCTP_STATE_SHUTDOWN_ACK_SENT:
382       return "SCTP_STATE_SHUTDOWN_ACK_SENT";
383     }
384   return NULL;
385 }
386
387 always_inline char *
388 sctp_chunk_to_string (u8 type)
389 {
390   switch (type)
391     {
392     case DATA:
393       return "DATA";
394     case INIT:
395       return "INIT";
396     case INIT_ACK:
397       return "INIT_ACK";
398     case SACK:
399       return "SACK";
400     case HEARTBEAT:
401       return "HEARTBEAT";
402     case HEARTBEAT_ACK:
403       return "HEARTBEAT_ACK";
404     case ABORT:
405       return "ABORT";
406     case SHUTDOWN:
407       return "SHUTDOWN";
408     case SHUTDOWN_ACK:
409       return "SHUTDOWN_ACK";
410     case OPERATION_ERROR:
411       return "OPERATION_ERROR";
412     case COOKIE_ECHO:
413       return "COOKIE_ECHO";
414     case COOKIE_ACK:
415       return "COOKIE_ACK";
416     case ECNE:
417       return "ECNE";
418     case CWR:
419       return "CWR";
420     case SHUTDOWN_COMPLETE:
421       return "SHUTDOWN_COMPLETE";
422     }
423   return NULL;
424 }
425
426 always_inline char *
427 sctp_optparam_type_to_string (u8 type)
428 {
429   switch (type)
430     {
431     case SCTP_IPV4_ADDRESS_TYPE:
432       return "SCTP_IPV4_ADDRESS_TYPE";
433     case SCTP_IPV6_ADDRESS_TYPE:
434       return "SCTP_IPV6_ADDRESS_TYPE";
435     case SCTP_STATE_COOKIE_TYPE:
436       return "SCTP_STATE_COOKIE_TYPE";
437     case SCTP_UNRECOGNIZED_TYPE:
438       return "SCTP_UNRECOGNIZED_TYPE";
439     case SCTP_COOKIE_PRESERVATIVE_TYPE:
440       return "SCTP_COOKIE_PRESERVATIVE_TYPE";
441     case SCTP_HOSTNAME_ADDRESS_TYPE:
442       return "SCTP_HOSTNAME_ADDRESS_TYPE";
443     case SCTP_SUPPORTED_ADDRESS_TYPES:
444       return "SCTP_SUPPORTED_ADDRESS_TYPES";
445     }
446   return NULL;
447 }
448
449 #define SCTP_TICK 0.001                 /**< SCTP tick period (s) */
450 #define SHZ (u32) (1/SCTP_TICK)         /**< SCTP tick frequency */
451 #define SCTP_TSTAMP_RESOLUTION SCTP_TICK        /**< Time stamp resolution */
452
453 /* As per RFC4960, page 83 */
454 #define SCTP_RTO_INIT 3 * SHZ   /* 3 seconds */
455 #define SCTP_RTO_MIN 1 * SHZ    /* 1 second */
456 #define SCTP_RTO_MAX 60 * SHZ   /* 60 seconds */
457 #define SCTP_RTO_BURST 4
458 #define SCTP_RTO_ALPHA 1/8
459 #define SCTP_RTO_BETA 1/4
460 #define SCTP_VALID_COOKIE_LIFE 60 * SHZ /* 60 seconds */
461 #define SCTP_ASSOCIATION_MAX_RETRANS 10 // the overall connection
462 #define SCTP_PATH_MAX_RETRANS 5 // number of attempts per destination address
463 #define SCTP_MAX_INIT_RETRANS 8 // number of attempts
464 #define SCTP_HB_INTERVAL 30 * SHZ
465 #define SCTP_HB_MAX_BURST 1
466 #define SCTP_DATA_IDLE_INTERVAL 15 * SHZ        /* 15 seconds; the time-interval after which the connetion is considered IDLE */
467 #define SCTP_TO_TIMER_TICK       SCTP_TICK*10   /* Period for converting from SCTP_TICK */
468
469 #define SCTP_CONN_RECOVERY 1 << 1
470 #define SCTP_FAST_RECOVERY 1 << 2
471
472 typedef struct _sctp_lookup_dispatch
473 {
474   u8 next, error;
475 } sctp_lookup_dispatch_t;
476
477 typedef struct _sctp_main
478 {
479   /* Per-worker thread SCTP connection pools */
480   sctp_connection_t **connections;
481
482   /* Pool of listeners. */
483   sctp_connection_t *listener_pool;
484
485           /** Dispatch table by state and flags */
486   sctp_lookup_dispatch_t dispatch_table[SCTP_N_STATES][64];
487
488   u8 log2_tstamp_clocks_per_tick;
489   f64 tstamp_ticks_per_clock;
490   u32 *time_now;
491
492           /** per-worker tx buffer free lists */
493   u32 **tx_buffers;
494           /** per-worker tx frames to SCTP 4/6 output nodes */
495   vlib_frame_t **tx_frames[2];
496           /** per-worker tx frames to ip 4/6 lookup nodes */
497   vlib_frame_t **ip_lookup_tx_frames[2];
498
499   /* Per worker-thread timer wheel for connections timers */
500   tw_timer_wheel_16t_2w_512sl_t *timer_wheels;
501
502   /* Pool of half-open connections on which we've sent a SYN */
503   sctp_connection_t *half_open_connections;
504   clib_spinlock_t half_open_lock;
505
506   /* TODO: Congestion control algorithms registered */
507   /* sctp_cc_algorithm_t *cc_algos; */
508
509   /* Flag that indicates if stack is on or off */
510   u8 is_enabled;
511
512           /** Number of preallocated connections */
513   u32 preallocated_connections;
514
515           /** Transport table (preallocation) size parameters */
516   u32 local_endpoints_table_memory;
517   u32 local_endpoints_table_buckets;
518
519           /** Vectors of src addresses. Optional unless one needs > 63K active-opens */
520   ip4_address_t *ip4_src_addresses;
521   u32 last_v4_address_rotor;
522   u32 last_v6_address_rotor;
523   ip6_address_t *ip6_src_addresses;
524
525           /** vlib buffer size */
526   u32 bytes_per_buffer;
527
528   u8 punt_unknown4;
529   u8 punt_unknown6;
530
531 } sctp_main_t;
532
533 extern sctp_main_t sctp_main;
534 extern vlib_node_registration_t sctp4_input_node;
535 extern vlib_node_registration_t sctp6_input_node;
536 extern vlib_node_registration_t sctp4_output_node;
537 extern vlib_node_registration_t sctp6_output_node;
538
539 always_inline sctp_main_t *
540 vnet_get_sctp_main ()
541 {
542   return &sctp_main;
543 }
544
545 always_inline sctp_header_t *
546 sctp_buffer_hdr (vlib_buffer_t * b)
547 {
548   ASSERT ((signed) b->current_data >= (signed) -VLIB_BUFFER_PRE_DATA_SIZE);
549   return (sctp_header_t *) (b->data + b->current_data
550                             + vnet_buffer (b)->sctp.hdr_offset);
551 }
552
553 clib_error_t *vnet_sctp_enable_disable (vlib_main_t * vm, u8 is_en);
554
555 always_inline sctp_connection_t *
556 sctp_half_open_connection_get (u32 conn_index)
557 {
558   sctp_connection_t *tc = 0;
559   clib_spinlock_lock_if_init (&sctp_main.half_open_lock);
560   if (!pool_is_free_index (sctp_main.half_open_connections, conn_index))
561     tc = pool_elt_at_index (sctp_main.half_open_connections, conn_index);
562   tc->sub_conn[SCTP_PRIMARY_PATH_IDX].subconn_idx = SCTP_PRIMARY_PATH_IDX;
563   clib_spinlock_unlock_if_init (&sctp_main.half_open_lock);
564   return tc;
565 }
566
567 /**
568  * Cleanup half-open connection
569  *
570  */
571 always_inline void
572 sctp_half_open_connection_del (sctp_connection_t * tc)
573 {
574   sctp_main_t *sctp_main = vnet_get_sctp_main ();
575   clib_spinlock_lock_if_init (&sctp_main->half_open_lock);
576   pool_put_index (sctp_main->half_open_connections,
577                   tc->sub_conn[SCTP_PRIMARY_PATH_IDX].c_c_index);
578   if (CLIB_DEBUG)
579     memset (tc, 0xFA, sizeof (*tc));
580   clib_spinlock_unlock_if_init (&sctp_main->half_open_lock);
581 }
582
583 always_inline u32
584 sctp_set_time_now (u32 thread_index)
585 {
586   sctp_main.time_now[thread_index] = clib_cpu_time_now ()
587     * sctp_main.tstamp_ticks_per_clock;
588   return sctp_main.time_now[thread_index];
589 }
590
591 always_inline void
592 sctp_timer_set (sctp_connection_t * tc, u8 conn_idx, u8 timer_id,
593                 u32 interval)
594 {
595   ASSERT (tc->sub_conn[conn_idx].connection.thread_index ==
596           vlib_get_thread_index ());
597   ASSERT (tc->sub_conn[conn_idx].timers[timer_id] ==
598           SCTP_TIMER_HANDLE_INVALID);
599
600   sctp_sub_connection_t *sub = &tc->sub_conn[conn_idx];
601   sub->timers[timer_id] =
602     tw_timer_start_16t_2w_512sl (&sctp_main.timer_wheels[sub->c_thread_index],
603                                  sub->c_c_index, timer_id, interval);
604 }
605
606 always_inline void
607 sctp_timer_reset (sctp_connection_t * tc, u8 conn_idx, u8 timer_id)
608 {
609   ASSERT (tc->sub_conn[conn_idx].c_thread_index == vlib_get_thread_index ());
610   if (tc->sub_conn[conn_idx].timers[timer_id] == SCTP_TIMER_HANDLE_INVALID)
611     return;
612
613   sctp_sub_connection_t *sub = &tc->sub_conn[conn_idx];
614
615   tw_timer_stop_16t_2w_512sl (&sctp_main.timer_wheels[sub->c_thread_index],
616                               sub->timers[timer_id]);
617   sub->timers[timer_id] = SCTP_TIMER_HANDLE_INVALID;
618 }
619
620 /**
621  * Try to cleanup half-open connection
622  *
623  * If called from a thread that doesn't own tc, the call won't have any
624  * effect.
625  *
626  * @param tc - connection to be cleaned up
627  * @return non-zero if cleanup failed.
628  */
629 always_inline int
630 sctp_half_open_connection_cleanup (sctp_connection_t * tc)
631 {
632   /* Make sure this is the owning thread */
633   if (tc->sub_conn[SCTP_PRIMARY_PATH_IDX].c_thread_index !=
634       vlib_get_thread_index ())
635     return 1;
636   sctp_timer_reset (tc, SCTP_PRIMARY_PATH_IDX, SCTP_TIMER_T1_INIT);
637   sctp_half_open_connection_del (tc);
638   return 0;
639 }
640
641 always_inline u32
642 sctp_header_bytes ()
643 {
644   return sizeof (sctp_header_t);
645 }
646
647 always_inline sctp_connection_t *
648 sctp_get_connection_from_transport (transport_connection_t * tconn)
649 {
650   ASSERT (tconn != NULL);
651
652   sctp_sub_connection_t *sub = (sctp_sub_connection_t *) tconn;
653 #if SCTP_ADV_DEBUG
654   if (sub == NULL)
655     SCTP_ADV_DBG ("sub == NULL");
656   if (sub->parent == NULL)
657     SCTP_ADV_DBG ("sub->parent == NULL");
658 #endif
659   if (sub->subconn_idx > 0)
660     return (sctp_connection_t *) sub -
661       (sizeof (sctp_sub_connection_t) * (sub->subconn_idx - 1));
662
663   return (sctp_connection_t *) sub;
664 }
665
666 always_inline u32
667 sctp_time_now (void)
668 {
669   return sctp_main.time_now[vlib_get_thread_index ()];
670 }
671
672 #define ABS(x) ((x) > 0) ? (x) : -(x);
673
674 always_inline void
675 sctp_calculate_rto (sctp_connection_t * sctp_conn, u8 conn_idx)
676 {
677   /* See RFC4960, 6.3.1.  RTO Calculation */
678   u32 RTO = 0;
679   f32 RTTVAR = 0;
680   u32 now = sctp_time_now ();
681   u32 prev_ts = sctp_conn->sub_conn[conn_idx].rtt_ts;
682   u32 R = prev_ts - now;
683
684   if (sctp_conn->sub_conn[conn_idx].RTO == 0)   // C1: Let's initialize our RTO
685     {
686       sctp_conn->sub_conn[conn_idx].RTO = SCTP_RTO_MIN;
687       return;
688     }
689
690   if (sctp_conn->sub_conn[conn_idx].RTO == SCTP_RTO_MIN && sctp_conn->sub_conn[conn_idx].SRTT == 0)     // C2: First RTT calculation
691     {
692       sctp_conn->sub_conn[conn_idx].SRTT = R;
693       RTTVAR = R / 2;
694
695       if (RTTVAR == 0)
696         RTTVAR = 100e-3;        /* 100 ms */
697
698       sctp_conn->sub_conn[conn_idx].RTTVAR = RTTVAR;
699     }
700   else                          // C3: RTT already exists; let's recalculate
701     {
702       RTTVAR = (1 - SCTP_RTO_BETA) * sctp_conn->sub_conn[conn_idx].RTTVAR +
703         SCTP_RTO_BETA * ABS (sctp_conn->sub_conn[conn_idx].SRTT - R);
704
705       if (RTTVAR == 0)
706         RTTVAR = 100e-3;        /* 100 ms */
707
708       sctp_conn->sub_conn[conn_idx].RTTVAR = RTTVAR;
709
710       sctp_conn->sub_conn[conn_idx].SRTT =
711         (1 - SCTP_RTO_ALPHA) * sctp_conn->sub_conn[conn_idx].SRTT +
712         SCTP_RTO_ALPHA * R;
713     }
714
715   RTO =
716     sctp_conn->sub_conn[conn_idx].SRTT +
717     4 * sctp_conn->sub_conn[conn_idx].RTTVAR;
718   if (RTO < SCTP_RTO_MIN)       // C6
719     RTO = SCTP_RTO_MIN;
720
721   if (RTO > SCTP_RTO_MAX)       // C7
722     RTO = SCTP_RTO_MAX;
723
724   sctp_conn->sub_conn[conn_idx].RTO = RTO;
725 }
726
727 always_inline void
728 sctp_timer_update (sctp_connection_t * tc, u8 conn_idx, u8 timer_id,
729                    u32 interval)
730 {
731   ASSERT (tc->sub_conn[conn_idx].connection.thread_index ==
732           vlib_get_thread_index ());
733   sctp_sub_connection_t *sub = &tc->sub_conn[conn_idx];
734
735   if (tc->sub_conn[conn_idx].timers[timer_id] != SCTP_TIMER_HANDLE_INVALID)
736     tw_timer_stop_16t_2w_512sl (&sctp_main.timer_wheels[sub->c_thread_index],
737                                 sub->timers[timer_id]);
738
739   tc->sub_conn[conn_idx].timers[timer_id] =
740     tw_timer_start_16t_2w_512sl (&sctp_main.timer_wheels[sub->c_thread_index],
741                                  sub->c_c_index, timer_id, interval);
742 }
743
744 always_inline sctp_connection_t *
745 sctp_listener_get (u32 tli)
746 {
747   return pool_elt_at_index (sctp_main.listener_pool, tli);
748 }
749
750 #endif
751
752 always_inline sctp_connection_t *
753 sctp_connection_get (u32 conn_index, u32 thread_index)
754 {
755   if (PREDICT_FALSE
756       (pool_is_free_index (sctp_main.connections[thread_index], conn_index)))
757     return 0;
758   return pool_elt_at_index (sctp_main.connections[thread_index], conn_index);
759 }
760
761 #define SELECT_MAX_RETRIES 8
762
763 always_inline u8
764 sctp_data_subconn_select (sctp_connection_t * sctp_conn)
765 {
766   u32 sub = SCTP_PRIMARY_PATH_IDX;
767   u8 i, cwnd = sctp_conn->sub_conn[SCTP_PRIMARY_PATH_IDX].cwnd;
768   for (i = 1; i < MAX_SCTP_CONNECTIONS; i++)
769     {
770       if (sctp_conn->sub_conn[i].state == SCTP_SUBCONN_STATE_DOWN)
771         continue;
772
773       if (sctp_conn->sub_conn[i].cwnd > cwnd)
774         {
775           sub = i;
776           cwnd = sctp_conn->sub_conn[i].cwnd;
777         }
778     }
779   return sub;
780 }
781
782 always_inline u8
783 sctp_sub_conn_id_via_ip6h (sctp_connection_t * sctp_conn, ip6_header_t * ip6h)
784 {
785   u8 i;
786
787   for (i = 0; i < MAX_SCTP_CONNECTIONS; i++)
788     {
789       if (sctp_conn->sub_conn[i].connection.lcl_ip.ip6.as_u64[0] ==
790           ip6h->dst_address.as_u64[0] &&
791           sctp_conn->sub_conn[i].connection.lcl_ip.ip6.as_u64[1] ==
792           ip6h->dst_address.as_u64[1] &&
793           sctp_conn->sub_conn[i].connection.rmt_ip.ip6.as_u64[0] ==
794           ip6h->src_address.as_u64[0] &&
795           sctp_conn->sub_conn[i].connection.rmt_ip.ip6.as_u64[1] ==
796           ip6h->src_address.as_u64[1])
797         return i;
798     }
799   clib_warning ("Did not find a sub-connection; defaulting to %u",
800                 SCTP_PRIMARY_PATH_IDX);
801   return SCTP_PRIMARY_PATH_IDX;
802 }
803
804 always_inline u8
805 sctp_sub_conn_id_via_ip4h (sctp_connection_t * sctp_conn, ip4_header_t * ip4h)
806 {
807   u8 i;
808
809   for (i = 0; i < MAX_SCTP_CONNECTIONS; i++)
810     {
811       if (sctp_conn->sub_conn[i].connection.lcl_ip.ip4.as_u32 ==
812           ip4h->dst_address.as_u32
813           && sctp_conn->sub_conn[i].connection.rmt_ip.ip4.as_u32 ==
814           ip4h->src_address.as_u32)
815         return i;
816     }
817   clib_warning ("Did not find a sub-connection; defaulting to %u",
818                 SCTP_PRIMARY_PATH_IDX);
819   return SCTP_PRIMARY_PATH_IDX;
820 }
821
822 /**
823  * Push SCTP header to buffer
824  *
825  * @param vm - vlib_main
826  * @param b - buffer to write the header to
827  * @param sp_net - source port net order
828  * @param dp_net - destination port net order
829  * @param sctp_hdr_opts_len - header and options length in bytes
830  *
831  * @return - pointer to start of SCTP header
832  */
833 always_inline void *
834 vlib_buffer_push_sctp_net_order (vlib_buffer_t * b, u16 sp, u16 dp,
835                                  u8 sctp_hdr_opts_len)
836 {
837   sctp_full_hdr_t *full_hdr;
838
839   full_hdr = vlib_buffer_push_uninit (b, sctp_hdr_opts_len);
840
841   full_hdr->hdr.src_port = sp;
842   full_hdr->hdr.dst_port = dp;
843   full_hdr->hdr.checksum = 0;
844   return full_hdr;
845 }
846
847 /**
848  * Push SCTP header to buffer
849  *
850  * @param b - buffer to write the header to
851  * @param sp_net - source port net order
852  * @param dp_net - destination port net order
853  * @param sctp_hdr_opts_len - header and options length in bytes
854  *
855  * @return - pointer to start of SCTP header
856  */
857 always_inline void *
858 vlib_buffer_push_sctp (vlib_buffer_t * b, u16 sp_net, u16 dp_net,
859                        u8 sctp_hdr_opts_len)
860 {
861   return vlib_buffer_push_sctp_net_order (b, sp_net, dp_net,
862                                           sctp_hdr_opts_len);
863 }
864
865 always_inline u8
866 sctp_next_avail_subconn (sctp_connection_t * sctp_conn)
867 {
868   u8 i;
869
870   for (i = 0; i < MAX_SCTP_CONNECTIONS; i++)
871     {
872       if (sctp_conn->sub_conn[i].state == SCTP_SUBCONN_STATE_DOWN)
873         return i;
874     }
875   return MAX_SCTP_CONNECTIONS;
876 }
877
878 always_inline void
879 update_smallest_pmtu_idx (sctp_connection_t * sctp_conn)
880 {
881   u8 i;
882   u8 smallest_pmtu_index = SCTP_PRIMARY_PATH_IDX;
883
884   for (i = 1; i < MAX_SCTP_CONNECTIONS; i++)
885     {
886       if (sctp_conn->sub_conn[i].state != SCTP_SUBCONN_STATE_DOWN)
887         {
888           if (sctp_conn->sub_conn[i].PMTU <
889               sctp_conn->sub_conn[smallest_pmtu_index].PMTU)
890             smallest_pmtu_index = i;
891         }
892     }
893
894   sctp_conn->smallest_PMTU_idx = smallest_pmtu_index;
895 }
896
897 /* As per RFC4960; section 7.2.1: Slow-Start */
898 always_inline void
899 sctp_init_cwnd (sctp_connection_t * sctp_conn)
900 {
901   u8 i;
902   for (i = 0; i < MAX_SCTP_CONNECTIONS; i++)
903     {
904       /* Section 7.2.1; point (1) */
905       sctp_conn->sub_conn[i].cwnd =
906         clib_min (4 * sctp_conn->sub_conn[i].PMTU,
907                   clib_max (2 * sctp_conn->sub_conn[i].PMTU, 4380));
908
909       /* Section 7.2.1; point (3) */
910       sctp_conn->sub_conn[i].ssthresh = SCTP_INITIAL_SSHTRESH;
911
912       /* Section 7.2.2; point (1) */
913       sctp_conn->sub_conn[i].partially_acked_bytes = 0;
914     }
915 }
916
917 always_inline u8
918 sctp_in_cong_recovery (sctp_connection_t * sctp_conn, u8 idx)
919 {
920   return 0;
921 }
922
923 always_inline u8
924 cwnd_fully_utilized (sctp_connection_t * sctp_conn, u8 idx)
925 {
926   if (sctp_conn->sub_conn[idx].cwnd == 0)
927     return 1;
928   return 0;
929 }
930
931 /* As per RFC4960; section 7.2.1: Slow-Start */
932 always_inline void
933 update_cwnd (sctp_connection_t * sctp_conn)
934 {
935   u8 i;
936   u32 inflight = sctp_conn->next_tsn - sctp_conn->last_unacked_tsn;
937
938   for (i = 0; i < MAX_SCTP_CONNECTIONS; i++)
939     {
940       /* Section 7.2.1; point (2) */
941       if (sctp_conn->sub_conn[i].is_retransmitting)
942         {
943           sctp_conn->sub_conn[i].cwnd = 1 * sctp_conn->sub_conn[i].PMTU;
944           continue;
945         }
946
947       /* Section 7.2.2; point (4) */
948       if (sctp_conn->sub_conn[i].last_data_ts >
949           sctp_time_now () + SCTP_DATA_IDLE_INTERVAL)
950         {
951           sctp_conn->sub_conn[i].cwnd =
952             clib_max (sctp_conn->sub_conn[i].cwnd / 2,
953                       4 * sctp_conn->sub_conn[i].PMTU);
954           continue;
955         }
956
957       /* Section 7.2.1; point (5) */
958       if (sctp_conn->sub_conn[i].cwnd <= sctp_conn->sub_conn[i].ssthresh)
959         {
960           if (!cwnd_fully_utilized (sctp_conn, i))
961             continue;
962
963           if (sctp_in_cong_recovery (sctp_conn, i))
964             continue;
965
966           sctp_conn->sub_conn[i].cwnd =
967             clib_min (sctp_conn->sub_conn[i].PMTU, 1);
968         }
969
970       /* Section 6.1; point (D) */
971       if ((inflight + SCTP_RTO_BURST * sctp_conn->sub_conn[i].PMTU) <
972           sctp_conn->sub_conn[i].cwnd)
973         sctp_conn->sub_conn[i].cwnd =
974           inflight + SCTP_RTO_BURST * sctp_conn->sub_conn[i].PMTU;
975     }
976 }
977
978 /*
979  * fd.io coding-style-patch-verification: ON
980  *
981  * Local Variables:
982  * eval: (c-set-style "gnu")
983  * End:
984  */