vcl: generate epoll events only if requested
[vpp.git] / src / vcl / vppcom.c
1 /*
2  * Copyright (c) 2017 Cisco and/or its affiliates.
3  * Licensed under the Apache License, Version 2.0 (the "License");
4  * you may not use this
5  * You may obtain a copy of the License at:
6  *
7  *     http://www.apache.org/licenses/LICENSE-2.0
8  *
9  * Unless required by applicable law or agreed to in writing, software
10  * distributed under the License is distributed on an "AS IS" BASIS,
11  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
12  * See the License for the specific language governing permissions and
13  * limitations under the License.
14  */
15
16 #include <stdio.h>
17 #include <stdlib.h>
18 #include <svm/svm_fifo_segment.h>
19 #include <vcl/vppcom.h>
20 #include <vcl/vcl_debug.h>
21 #include <vcl/vcl_private.h>
22
23 __thread uword __vcl_worker_index = ~0;
24
25 static int
26 vcl_wait_for_segment (u64 segment_handle)
27 {
28   vcl_worker_t *wrk = vcl_worker_get_current ();
29   u32 wait_for_seconds = 10, segment_index;
30   f64 timeout;
31
32   if (segment_handle == VCL_INVALID_SEGMENT_HANDLE)
33     return 1;
34
35   timeout = clib_time_now (&wrk->clib_time) + wait_for_seconds;
36   while (clib_time_now (&wrk->clib_time) < timeout)
37     {
38       segment_index = vcl_segment_table_lookup (segment_handle);
39       if (segment_index != VCL_INVALID_SEGMENT_INDEX)
40         return 0;
41       usleep (10);
42     }
43   return 1;
44 }
45
46 static inline int
47 vcl_mq_dequeue_batch (vcl_worker_t * wrk, svm_msg_q_t * mq)
48 {
49   svm_msg_q_msg_t *msg;
50   u32 n_msgs;
51   int i;
52
53   n_msgs = svm_msg_q_size (mq);
54   for (i = 0; i < n_msgs; i++)
55     {
56       vec_add2 (wrk->mq_msg_vector, msg, 1);
57       svm_msg_q_sub_w_lock (mq, msg);
58     }
59   return n_msgs;
60 }
61
62 const char *
63 vppcom_session_state_str (session_state_t state)
64 {
65   char *st;
66
67   switch (state)
68     {
69     case STATE_START:
70       st = "STATE_START";
71       break;
72
73     case STATE_CONNECT:
74       st = "STATE_CONNECT";
75       break;
76
77     case STATE_LISTEN:
78       st = "STATE_LISTEN";
79       break;
80
81     case STATE_ACCEPT:
82       st = "STATE_ACCEPT";
83       break;
84
85     case STATE_VPP_CLOSING:
86       st = "STATE_VPP_CLOSING";
87       break;
88
89     case STATE_DISCONNECT:
90       st = "STATE_DISCONNECT";
91       break;
92
93     case STATE_FAILED:
94       st = "STATE_FAILED";
95       break;
96
97     default:
98       st = "UNKNOWN_STATE";
99       break;
100     }
101
102   return st;
103 }
104
105 u8 *
106 format_ip4_address (u8 * s, va_list * args)
107 {
108   u8 *a = va_arg (*args, u8 *);
109   return format (s, "%d.%d.%d.%d", a[0], a[1], a[2], a[3]);
110 }
111
112 u8 *
113 format_ip6_address (u8 * s, va_list * args)
114 {
115   ip6_address_t *a = va_arg (*args, ip6_address_t *);
116   u32 i, i_max_n_zero, max_n_zeros, i_first_zero, n_zeros, last_double_colon;
117
118   i_max_n_zero = ARRAY_LEN (a->as_u16);
119   max_n_zeros = 0;
120   i_first_zero = i_max_n_zero;
121   n_zeros = 0;
122   for (i = 0; i < ARRAY_LEN (a->as_u16); i++)
123     {
124       u32 is_zero = a->as_u16[i] == 0;
125       if (is_zero && i_first_zero >= ARRAY_LEN (a->as_u16))
126         {
127           i_first_zero = i;
128           n_zeros = 0;
129         }
130       n_zeros += is_zero;
131       if ((!is_zero && n_zeros > max_n_zeros)
132           || (i + 1 >= ARRAY_LEN (a->as_u16) && n_zeros > max_n_zeros))
133         {
134           i_max_n_zero = i_first_zero;
135           max_n_zeros = n_zeros;
136           i_first_zero = ARRAY_LEN (a->as_u16);
137           n_zeros = 0;
138         }
139     }
140
141   last_double_colon = 0;
142   for (i = 0; i < ARRAY_LEN (a->as_u16); i++)
143     {
144       if (i == i_max_n_zero && max_n_zeros > 1)
145         {
146           s = format (s, "::");
147           i += max_n_zeros - 1;
148           last_double_colon = 1;
149         }
150       else
151         {
152           s = format (s, "%s%x",
153                       (last_double_colon || i == 0) ? "" : ":",
154                       clib_net_to_host_u16 (a->as_u16[i]));
155           last_double_colon = 0;
156         }
157     }
158
159   return s;
160 }
161
162 /* Format an IP46 address. */
163 u8 *
164 format_ip46_address (u8 * s, va_list * args)
165 {
166   ip46_address_t *ip46 = va_arg (*args, ip46_address_t *);
167   ip46_type_t type = va_arg (*args, ip46_type_t);
168   int is_ip4 = 1;
169
170   switch (type)
171     {
172     case IP46_TYPE_ANY:
173       is_ip4 = ip46_address_is_ip4 (ip46);
174       break;
175     case IP46_TYPE_IP4:
176       is_ip4 = 1;
177       break;
178     case IP46_TYPE_IP6:
179       is_ip4 = 0;
180       break;
181     }
182
183   return is_ip4 ?
184     format (s, "%U", format_ip4_address, &ip46->ip4) :
185     format (s, "%U", format_ip6_address, &ip46->ip6);
186 }
187
188 /*
189  * VPPCOM Utility Functions
190  */
191
192
193 static void
194 vcl_send_session_accepted_reply (svm_msg_q_t * mq, u32 context,
195                                  session_handle_t handle, int retval)
196 {
197   app_session_evt_t _app_evt, *app_evt = &_app_evt;
198   session_accepted_reply_msg_t *rmp;
199   app_alloc_ctrl_evt_to_vpp (mq, app_evt, SESSION_CTRL_EVT_ACCEPTED_REPLY);
200   rmp = (session_accepted_reply_msg_t *) app_evt->evt->data;
201   rmp->handle = handle;
202   rmp->context = context;
203   rmp->retval = retval;
204   app_send_ctrl_evt_to_vpp (mq, app_evt);
205 }
206
207 static void
208 vcl_send_session_disconnected_reply (svm_msg_q_t * mq, u32 context,
209                                      session_handle_t handle, int retval)
210 {
211   app_session_evt_t _app_evt, *app_evt = &_app_evt;
212   session_disconnected_reply_msg_t *rmp;
213   app_alloc_ctrl_evt_to_vpp (mq, app_evt,
214                              SESSION_CTRL_EVT_DISCONNECTED_REPLY);
215   rmp = (session_disconnected_reply_msg_t *) app_evt->evt->data;
216   rmp->handle = handle;
217   rmp->context = context;
218   rmp->retval = retval;
219   app_send_ctrl_evt_to_vpp (mq, app_evt);
220 }
221
222 static void
223 vcl_send_session_reset_reply (svm_msg_q_t * mq, u32 context,
224                               session_handle_t handle, int retval)
225 {
226   app_session_evt_t _app_evt, *app_evt = &_app_evt;
227   session_reset_reply_msg_t *rmp;
228   app_alloc_ctrl_evt_to_vpp (mq, app_evt, SESSION_CTRL_EVT_RESET_REPLY);
229   rmp = (session_reset_reply_msg_t *) app_evt->evt->data;
230   rmp->handle = handle;
231   rmp->context = context;
232   rmp->retval = retval;
233   app_send_ctrl_evt_to_vpp (mq, app_evt);
234 }
235
236 void
237 vcl_send_session_worker_update (vcl_worker_t * wrk, vcl_session_t * s,
238                                 u32 wrk_index)
239 {
240   app_session_evt_t _app_evt, *app_evt = &_app_evt;
241   session_worker_update_msg_t *mp;
242   svm_msg_q_t *mq;
243
244   mq = vcl_session_vpp_evt_q (wrk, s);
245   app_alloc_ctrl_evt_to_vpp (mq, app_evt, SESSION_CTRL_EVT_WORKER_UPDATE);
246   mp = (session_worker_update_msg_t *) app_evt->evt->data;
247   mp->client_index = wrk->my_client_index;
248   mp->handle = s->vpp_handle;
249   mp->req_wrk_index = wrk->vpp_wrk_index;
250   mp->wrk_index = wrk_index;
251   app_send_ctrl_evt_to_vpp (mq, app_evt);
252 }
253
254 static u32
255 vcl_session_accepted_handler (vcl_worker_t * wrk, session_accepted_msg_t * mp)
256 {
257   vcl_session_t *session, *listen_session;
258   svm_fifo_t *rx_fifo, *tx_fifo;
259   u32 vpp_wrk_index;
260   svm_msg_q_t *evt_q;
261
262   session = vcl_session_alloc (wrk);
263
264   listen_session = vcl_session_table_lookup_listener (wrk,
265                                                       mp->listener_handle);
266   if (!listen_session)
267     {
268       svm_msg_q_t *evt_q;
269       evt_q = uword_to_pointer (mp->vpp_event_queue_address, svm_msg_q_t *);
270       clib_warning ("VCL<%d>: ERROR: couldn't find listen session: "
271                     "unknown vpp listener handle %llx",
272                     getpid (), mp->listener_handle);
273       vcl_send_session_accepted_reply (evt_q, mp->context, mp->handle,
274                                        VNET_API_ERROR_INVALID_ARGUMENT);
275       vcl_session_free (wrk, session);
276       return VCL_INVALID_SESSION_INDEX;
277     }
278
279   rx_fifo = uword_to_pointer (mp->server_rx_fifo, svm_fifo_t *);
280   tx_fifo = uword_to_pointer (mp->server_tx_fifo, svm_fifo_t *);
281
282   if (mp->server_event_queue_address)
283     {
284       session->vpp_evt_q = uword_to_pointer (mp->client_event_queue_address,
285                                              svm_msg_q_t *);
286       session->our_evt_q = uword_to_pointer (mp->server_event_queue_address,
287                                              svm_msg_q_t *);
288       if (vcl_wait_for_segment (mp->segment_handle))
289         {
290           clib_warning ("segment for session %u couldn't be mounted!",
291                         session->session_index);
292           return VCL_INVALID_SESSION_INDEX;
293         }
294       rx_fifo->master_session_index = session->session_index;
295       tx_fifo->master_session_index = session->session_index;
296       rx_fifo->master_thread_index = vcl_get_worker_index ();
297       tx_fifo->master_thread_index = vcl_get_worker_index ();
298       vec_validate (wrk->vpp_event_queues, 0);
299       evt_q = uword_to_pointer (mp->vpp_event_queue_address, svm_msg_q_t *);
300       wrk->vpp_event_queues[0] = evt_q;
301     }
302   else
303     {
304       session->vpp_evt_q = uword_to_pointer (mp->vpp_event_queue_address,
305                                              svm_msg_q_t *);
306       rx_fifo->client_session_index = session->session_index;
307       tx_fifo->client_session_index = session->session_index;
308       rx_fifo->client_thread_index = vcl_get_worker_index ();
309       tx_fifo->client_thread_index = vcl_get_worker_index ();
310       vpp_wrk_index = tx_fifo->master_thread_index;
311       vec_validate (wrk->vpp_event_queues, vpp_wrk_index);
312       wrk->vpp_event_queues[vpp_wrk_index] = session->vpp_evt_q;
313     }
314
315   session->vpp_handle = mp->handle;
316   session->vpp_thread_index = rx_fifo->master_thread_index;
317   session->client_context = mp->context;
318   session->rx_fifo = rx_fifo;
319   session->tx_fifo = tx_fifo;
320
321   session->session_state = STATE_ACCEPT;
322   session->transport.rmt_port = mp->port;
323   session->transport.is_ip4 = mp->is_ip4;
324   clib_memcpy_fast (&session->transport.rmt_ip, mp->ip,
325                     sizeof (ip46_address_t));
326
327   vcl_session_table_add_vpp_handle (wrk, mp->handle, session->session_index);
328   session->transport.lcl_port = listen_session->transport.lcl_port;
329   session->transport.lcl_ip = listen_session->transport.lcl_ip;
330   session->session_type = listen_session->session_type;
331   session->is_dgram = session->session_type == VPPCOM_PROTO_UDP;
332
333   VDBG (1, "VCL<%d>: vpp handle 0x%llx, sid %u: client accept request from %s"
334         " address %U port %d queue %p!", getpid (), mp->handle,
335         session->session_index,
336         mp->is_ip4 ? "IPv4" : "IPv6", format_ip46_address, &mp->ip,
337         mp->is_ip4 ? IP46_TYPE_IP4 : IP46_TYPE_IP6,
338         clib_net_to_host_u16 (mp->port), session->vpp_evt_q);
339   vcl_evt (VCL_EVT_ACCEPT, session, listen_session, session_index);
340
341   return session->session_index;
342 }
343
344 static u32
345 vcl_session_connected_handler (vcl_worker_t * wrk,
346                                session_connected_msg_t * mp)
347 {
348   u32 session_index, vpp_wrk_index;
349   svm_fifo_t *rx_fifo, *tx_fifo;
350   vcl_session_t *session = 0;
351   svm_msg_q_t *evt_q;
352
353   session_index = mp->context;
354   session = vcl_session_get (wrk, session_index);
355   if (!session)
356     {
357       clib_warning ("[%s] ERROR: vpp handle 0x%llx, sid %u: "
358                     "Invalid session index (%u)!",
359                     getpid (), mp->handle, session_index);
360       return VCL_INVALID_SESSION_INDEX;
361     }
362   if (mp->retval)
363     {
364       clib_warning ("VCL<%d>: ERROR: sid %u: connect failed! %U", getpid (),
365                     session_index, format_api_error, ntohl (mp->retval));
366       session->session_state = STATE_FAILED;
367       session->vpp_handle = mp->handle;
368       return session_index;
369     }
370
371   rx_fifo = uword_to_pointer (mp->server_rx_fifo, svm_fifo_t *);
372   tx_fifo = uword_to_pointer (mp->server_tx_fifo, svm_fifo_t *);
373   if (vcl_wait_for_segment (mp->segment_handle))
374     {
375       clib_warning ("segment for session %u couldn't be mounted!",
376                     session->session_index);
377       return VCL_INVALID_SESSION_INDEX;
378     }
379
380   rx_fifo->client_session_index = session_index;
381   tx_fifo->client_session_index = session_index;
382   rx_fifo->client_thread_index = vcl_get_worker_index ();
383   tx_fifo->client_thread_index = vcl_get_worker_index ();
384
385   if (mp->client_event_queue_address)
386     {
387       session->vpp_evt_q = uword_to_pointer (mp->server_event_queue_address,
388                                              svm_msg_q_t *);
389       session->our_evt_q = uword_to_pointer (mp->client_event_queue_address,
390                                              svm_msg_q_t *);
391
392       vec_validate (wrk->vpp_event_queues, 0);
393       evt_q = uword_to_pointer (mp->vpp_event_queue_address, svm_msg_q_t *);
394       wrk->vpp_event_queues[0] = evt_q;
395     }
396   else
397     {
398       session->vpp_evt_q = uword_to_pointer (mp->vpp_event_queue_address,
399                                              svm_msg_q_t *);
400       vpp_wrk_index = tx_fifo->master_thread_index;
401       vec_validate (wrk->vpp_event_queues, vpp_wrk_index);
402       wrk->vpp_event_queues[vpp_wrk_index] = session->vpp_evt_q;
403     }
404
405   session->rx_fifo = rx_fifo;
406   session->tx_fifo = tx_fifo;
407   session->vpp_handle = mp->handle;
408   session->vpp_thread_index = rx_fifo->master_thread_index;
409   session->transport.is_ip4 = mp->is_ip4;
410   clib_memcpy_fast (&session->transport.lcl_ip, mp->lcl_ip,
411                     sizeof (session->transport.lcl_ip));
412   session->transport.lcl_port = mp->lcl_port;
413   session->session_state = STATE_CONNECT;
414
415   /* Add it to lookup table */
416   vcl_session_table_add_vpp_handle (wrk, mp->handle, session_index);
417
418   VDBG (1, "VCL<%d>: vpp handle 0x%llx, sid %u: connect succeeded! "
419         "session_rx_fifo %p, refcnt %d, session_tx_fifo %p, refcnt %d",
420         getpid (), mp->handle, session_index, session->rx_fifo,
421         session->rx_fifo->refcnt, session->tx_fifo, session->tx_fifo->refcnt);
422
423   return session_index;
424 }
425
426 static int
427 vcl_flag_accepted_session (vcl_session_t * session, u64 handle, u32 flags)
428 {
429   vcl_session_msg_t *accepted_msg;
430   int i;
431
432   for (i = 0; i < vec_len (session->accept_evts_fifo); i++)
433     {
434       accepted_msg = &session->accept_evts_fifo[i];
435       if (accepted_msg->accepted_msg.handle == handle)
436         {
437           accepted_msg->flags |= flags;
438           return 1;
439         }
440     }
441   return 0;
442 }
443
444 static u32
445 vcl_session_reset_handler (vcl_worker_t * wrk,
446                            session_reset_msg_t * reset_msg)
447 {
448   vcl_session_t *session;
449   u32 sid;
450
451   sid = vcl_session_index_from_vpp_handle (wrk, reset_msg->handle);
452   session = vcl_session_get (wrk, sid);
453   if (!session)
454     {
455       VDBG (0, "request to reset unknown handle 0x%llx", reset_msg->handle);
456       return VCL_INVALID_SESSION_INDEX;
457     }
458
459   /* Caught a reset before actually accepting the session */
460   if (session->session_state == STATE_LISTEN)
461     {
462
463       if (!vcl_flag_accepted_session (session, reset_msg->handle,
464                                       VCL_ACCEPTED_F_RESET))
465         VDBG (0, "session was not accepted!");
466       return VCL_INVALID_SESSION_INDEX;
467     }
468
469   session->session_state = STATE_DISCONNECT;
470   VDBG (0, "reset session %u [0x%llx]", sid, reset_msg->handle);
471   return sid;
472 }
473
474 static u32
475 vcl_session_bound_handler (vcl_worker_t * wrk, session_bound_msg_t * mp)
476 {
477   vcl_session_t *session;
478   u32 sid = mp->context;
479
480   session = vcl_session_get (wrk, sid);
481   if (mp->retval)
482     {
483       VERR ("vpp handle 0x%llx, sid %u: bind failed: %U", mp->handle, sid,
484             format_api_error, mp->retval);
485       if (session)
486         {
487           session->session_state = STATE_FAILED;
488           session->vpp_handle = mp->handle;
489           return sid;
490         }
491       else
492         {
493           clib_warning ("[%s] ERROR: vpp handle 0x%llx, sid %u: "
494                         "Invalid session index (%u)!",
495                         getpid (), mp->handle, sid);
496           return VCL_INVALID_SESSION_INDEX;
497         }
498     }
499
500   session->vpp_handle = mp->handle;
501   session->transport.is_ip4 = mp->lcl_is_ip4;
502   clib_memcpy_fast (&session->transport.lcl_ip, mp->lcl_ip,
503                     sizeof (ip46_address_t));
504   session->transport.lcl_port = mp->lcl_port;
505   vcl_session_table_add_listener (wrk, mp->handle, sid);
506   session->session_state = STATE_LISTEN;
507
508   if (session->is_dgram)
509     {
510       svm_fifo_t *rx_fifo, *tx_fifo;
511       session->vpp_evt_q = uword_to_pointer (mp->vpp_evt_q, svm_msg_q_t *);
512       rx_fifo = uword_to_pointer (mp->rx_fifo, svm_fifo_t *);
513       rx_fifo->client_session_index = sid;
514       tx_fifo = uword_to_pointer (mp->tx_fifo, svm_fifo_t *);
515       tx_fifo->client_session_index = sid;
516       session->rx_fifo = rx_fifo;
517       session->tx_fifo = tx_fifo;
518     }
519
520   VDBG (0, "session %u [0x%llx]: listen succeeded!", sid, mp->handle);
521   return sid;
522 }
523
524 static vcl_session_t *
525 vcl_session_accepted (vcl_worker_t * wrk, session_accepted_msg_t * msg)
526 {
527   vcl_session_msg_t *vcl_msg;
528   vcl_session_t *session;
529
530   session = vcl_session_get_w_vpp_handle (wrk, msg->handle);
531   if (PREDICT_FALSE (session != 0))
532     VWRN ("session overlap handle %lu state %u!", msg->handle,
533           session->session_state);
534
535   session = vcl_session_table_lookup_listener (wrk, msg->listener_handle);
536   if (!session)
537     {
538       VERR ("couldn't find listen session: listener handle %llx",
539             msg->listener_handle);
540       return 0;
541     }
542
543   clib_fifo_add2 (session->accept_evts_fifo, vcl_msg);
544   vcl_msg->accepted_msg = *msg;
545   /* Session handle points to listener until fully accepted by app */
546   vcl_session_table_add_vpp_handle (wrk, msg->handle, session->session_index);
547
548   return session;
549 }
550
551 static vcl_session_t *
552 vcl_session_disconnected_handler (vcl_worker_t * wrk,
553                                   session_disconnected_msg_t * msg)
554 {
555   vcl_session_t *session;
556
557   session = vcl_session_get_w_vpp_handle (wrk, msg->handle);
558   if (!session)
559     {
560       VDBG (0, "request to disconnect unknown handle 0x%llx", msg->handle);
561       return 0;
562     }
563
564   /* Caught a disconnect before actually accepting the session */
565   if (session->session_state == STATE_LISTEN)
566     {
567       if (!vcl_flag_accepted_session (session, msg->handle,
568                                       VCL_ACCEPTED_F_CLOSED))
569         VDBG (0, "session was not accepted!");
570       return 0;
571     }
572
573   session->session_state = STATE_VPP_CLOSING;
574   return session;
575 }
576
577 static void
578 vcl_session_req_worker_update_handler (vcl_worker_t * wrk, void *data)
579 {
580   session_req_worker_update_msg_t *msg;
581   vcl_session_t *s;
582
583   msg = (session_req_worker_update_msg_t *) data;
584   s = vcl_session_get_w_vpp_handle (wrk, msg->session_handle);
585   if (!s)
586     return;
587
588   vec_add1 (wrk->pending_session_wrk_updates, s->session_index);
589 }
590
591 static void
592 vcl_session_worker_update_reply_handler (vcl_worker_t * wrk, void *data)
593 {
594   session_worker_update_reply_msg_t *msg;
595   vcl_session_t *s;
596
597   msg = (session_worker_update_reply_msg_t *) data;
598   s = vcl_session_get_w_vpp_handle (wrk, msg->handle);
599   if (!s)
600     {
601       VDBG (0, "unknown handle 0x%llx", msg->handle);
602       return;
603     }
604   if (vcl_wait_for_segment (msg->segment_handle))
605     {
606       clib_warning ("segment for session %u couldn't be mounted!",
607                     s->session_index);
608       return;
609     }
610   s->rx_fifo = uword_to_pointer (msg->rx_fifo, svm_fifo_t *);
611   s->tx_fifo = uword_to_pointer (msg->tx_fifo, svm_fifo_t *);
612
613   s->rx_fifo->client_session_index = s->session_index;
614   s->tx_fifo->client_session_index = s->session_index;
615   s->rx_fifo->client_thread_index = wrk->wrk_index;
616   s->tx_fifo->client_thread_index = wrk->wrk_index;
617   s->session_state = STATE_UPDATED;
618
619   VDBG (0, "session %u[0x%llx] moved to worker %u", s->session_index,
620         s->vpp_handle, wrk->wrk_index);
621 }
622
623 static int
624 vcl_handle_mq_event (vcl_worker_t * wrk, session_event_t * e)
625 {
626   session_disconnected_msg_t *disconnected_msg;
627   vcl_session_t *session;
628
629   switch (e->event_type)
630     {
631     case FIFO_EVENT_APP_RX:
632     case FIFO_EVENT_APP_TX:
633     case SESSION_IO_EVT_CT_RX:
634     case SESSION_IO_EVT_CT_TX:
635       vec_add1 (wrk->unhandled_evts_vector, *e);
636       break;
637     case SESSION_CTRL_EVT_ACCEPTED:
638       vcl_session_accepted (wrk, (session_accepted_msg_t *) e->data);
639       break;
640     case SESSION_CTRL_EVT_CONNECTED:
641       vcl_session_connected_handler (wrk,
642                                      (session_connected_msg_t *) e->data);
643       break;
644     case SESSION_CTRL_EVT_DISCONNECTED:
645       disconnected_msg = (session_disconnected_msg_t *) e->data;
646       session = vcl_session_disconnected_handler (wrk, disconnected_msg);
647       if (!session)
648         break;
649       session->session_state = STATE_DISCONNECT;
650       VDBG (0, "disconnected session %u [0x%llx]", session->session_index,
651             session->vpp_handle);
652       break;
653     case SESSION_CTRL_EVT_RESET:
654       vcl_session_reset_handler (wrk, (session_reset_msg_t *) e->data);
655       break;
656     case SESSION_CTRL_EVT_BOUND:
657       vcl_session_bound_handler (wrk, (session_bound_msg_t *) e->data);
658       break;
659     case SESSION_CTRL_EVT_REQ_WORKER_UPDATE:
660       vcl_session_req_worker_update_handler (wrk, e->data);
661       break;
662     case SESSION_CTRL_EVT_WORKER_UPDATE_REPLY:
663       vcl_session_worker_update_reply_handler (wrk, e->data);
664       break;
665     default:
666       clib_warning ("unhandled %u", e->event_type);
667     }
668   return VPPCOM_OK;
669 }
670
671 static int
672 vppcom_wait_for_session_state_change (u32 session_index,
673                                       session_state_t state,
674                                       f64 wait_for_time)
675 {
676   vcl_worker_t *wrk = vcl_worker_get_current ();
677   f64 timeout = clib_time_now (&wrk->clib_time) + wait_for_time;
678   vcl_session_t *volatile session;
679   svm_msg_q_msg_t msg;
680   session_event_t *e;
681
682   do
683     {
684       session = vcl_session_get (wrk, session_index);
685       if (PREDICT_FALSE (!session))
686         {
687           return VPPCOM_EBADFD;
688         }
689       if (session->session_state & state)
690         {
691           return VPPCOM_OK;
692         }
693       if (session->session_state & STATE_FAILED)
694         {
695           return VPPCOM_ECONNREFUSED;
696         }
697
698       if (svm_msg_q_sub (wrk->app_event_queue, &msg, SVM_Q_NOWAIT, 0))
699         {
700           usleep (100);
701           continue;
702         }
703       e = svm_msg_q_msg_data (wrk->app_event_queue, &msg);
704       vcl_handle_mq_event (wrk, e);
705       svm_msg_q_free_msg (wrk->app_event_queue, &msg);
706     }
707   while (clib_time_now (&wrk->clib_time) < timeout);
708
709   VDBG (0, "timeout waiting for state 0x%x (%s)", state,
710         vppcom_session_state_str (state));
711   vcl_evt (VCL_EVT_SESSION_TIMEOUT, session, session_state);
712
713   return VPPCOM_ETIMEDOUT;
714 }
715
716 static void
717 vcl_handle_pending_wrk_updates (vcl_worker_t * wrk)
718 {
719   session_state_t state;
720   vcl_session_t *s;
721   u32 *sip;
722
723   if (PREDICT_TRUE (vec_len (wrk->pending_session_wrk_updates) == 0))
724     return;
725
726   vec_foreach (sip, wrk->pending_session_wrk_updates)
727   {
728     s = vcl_session_get (wrk, *sip);
729     vcl_send_session_worker_update (wrk, s, wrk->wrk_index);
730     state = s->session_state;
731     vppcom_wait_for_session_state_change (s->session_index, STATE_UPDATED, 5);
732     s->session_state = state;
733   }
734   vec_reset_length (wrk->pending_session_wrk_updates);
735 }
736
737 void
738 vcl_flush_mq_events (void)
739 {
740   vcl_worker_t *wrk = vcl_worker_get_current ();
741   svm_msg_q_msg_t *msg;
742   session_event_t *e;
743   svm_msg_q_t *mq;
744   int i;
745
746   mq = wrk->app_event_queue;
747   svm_msg_q_lock (mq);
748   vcl_mq_dequeue_batch (wrk, mq);
749   svm_msg_q_unlock (mq);
750
751   for (i = 0; i < vec_len (wrk->mq_msg_vector); i++)
752     {
753       msg = vec_elt_at_index (wrk->mq_msg_vector, i);
754       e = svm_msg_q_msg_data (mq, msg);
755       vcl_handle_mq_event (wrk, e);
756       svm_msg_q_free_msg (mq, msg);
757     }
758   vec_reset_length (wrk->mq_msg_vector);
759   vcl_handle_pending_wrk_updates (wrk);
760 }
761
762 static int
763 vppcom_app_session_enable (void)
764 {
765   int rv;
766
767   if (vcm->app_state != STATE_APP_ENABLED)
768     {
769       vppcom_send_session_enable_disable (1 /* is_enabled == TRUE */ );
770       rv = vcl_wait_for_app_state_change (STATE_APP_ENABLED);
771       if (PREDICT_FALSE (rv))
772         {
773           VDBG (0, "VCL<%d>: application session enable timed out! "
774                 "returning %d (%s)", getpid (), rv, vppcom_retval_str (rv));
775           return rv;
776         }
777     }
778   return VPPCOM_OK;
779 }
780
781 static int
782 vppcom_app_attach (void)
783 {
784   int rv;
785
786   vppcom_app_send_attach ();
787   rv = vcl_wait_for_app_state_change (STATE_APP_ATTACHED);
788   if (PREDICT_FALSE (rv))
789     {
790       VDBG (0, "VCL<%d>: application attach timed out! returning %d (%s)",
791             getpid (), rv, vppcom_retval_str (rv));
792       return rv;
793     }
794
795   return VPPCOM_OK;
796 }
797
798 static int
799 vppcom_session_unbind (u32 session_handle)
800 {
801   vcl_worker_t *wrk = vcl_worker_get_current ();
802   vcl_session_t *session = 0;
803   u64 vpp_handle;
804
805   session = vcl_session_get_w_handle (wrk, session_handle);
806   if (!session)
807     return VPPCOM_EBADFD;
808
809   vpp_handle = session->vpp_handle;
810   vcl_session_table_del_listener (wrk, vpp_handle);
811   session->vpp_handle = ~0;
812   session->session_state = STATE_DISCONNECT;
813
814   VDBG (1, "VCL<%d>: vpp handle 0x%llx, sid %u: sending unbind msg! new state"
815         " 0x%x (%s)", getpid (), vpp_handle, session_handle, STATE_DISCONNECT,
816         vppcom_session_state_str (STATE_DISCONNECT));
817   vcl_evt (VCL_EVT_UNBIND, session);
818   vppcom_send_unbind_sock (vpp_handle);
819
820   return VPPCOM_OK;
821 }
822
823 static int
824 vppcom_session_disconnect (u32 session_handle)
825 {
826   vcl_worker_t *wrk = vcl_worker_get_current ();
827   svm_msg_q_t *vpp_evt_q;
828   vcl_session_t *session;
829   session_state_t state;
830   u64 vpp_handle;
831
832   session = vcl_session_get_w_handle (wrk, session_handle);
833   if (!session)
834     return VPPCOM_EBADFD;
835
836   vpp_handle = session->vpp_handle;
837   state = session->session_state;
838
839   VDBG (1, "VCL<%d>: vpp handle 0x%llx, sid %u state 0x%x (%s)", getpid (),
840         vpp_handle, session_handle, state, vppcom_session_state_str (state));
841
842   if (PREDICT_FALSE (state & STATE_LISTEN))
843     {
844       clib_warning ("VCL<%d>: ERROR: vpp handle 0x%llx, sid %u: "
845                     "Cannot disconnect a listen socket!",
846                     getpid (), vpp_handle, session_handle);
847       return VPPCOM_EBADFD;
848     }
849
850   if (state & STATE_VPP_CLOSING)
851     {
852       vpp_evt_q = vcl_session_vpp_evt_q (wrk, session);
853       vcl_send_session_disconnected_reply (vpp_evt_q, wrk->my_client_index,
854                                            vpp_handle, 0);
855       VDBG (1, "VCL<%d>: vpp handle 0x%llx, sid %u: sending disconnect "
856             "REPLY...", getpid (), vpp_handle, session_handle);
857     }
858   else
859     {
860       VDBG (1, "VCL<%d>: vpp handle 0x%llx, sid %u: sending disconnect...",
861             getpid (), vpp_handle, session_handle);
862       vppcom_send_disconnect_session (vpp_handle);
863     }
864
865   return VPPCOM_OK;
866 }
867
868 /**
869  * Handle app exit
870  *
871  * Notify vpp of the disconnect and mark the worker as free. If we're the
872  * last worker, do a full cleanup otherwise, since we're probably a forked
873  * child, avoid syscalls as much as possible. We might've lost privileges.
874  */
875 void
876 vppcom_app_exit (void)
877 {
878   if (!pool_elts (vcm->workers))
879     return;
880   vcl_worker_cleanup (vcl_worker_get_current (), 1 /* notify vpp */ );
881   vcl_set_worker_index (~0);
882   vcl_elog_stop (vcm);
883   if (vec_len (vcm->workers) == 1)
884     vl_client_disconnect_from_vlib ();
885   else
886     vl_client_send_disconnect (1 /* vpp should cleanup */ );
887 }
888
889 /*
890  * VPPCOM Public API functions
891  */
892 int
893 vppcom_app_create (char *app_name)
894 {
895   vppcom_cfg_t *vcl_cfg = &vcm->cfg;
896   int rv;
897
898   if (vcm->is_init)
899     {
900       VDBG (1, "already initialized");
901       return VPPCOM_EEXIST;
902     }
903
904   vcm->is_init = 1;
905   vppcom_cfg (&vcm->cfg);
906   vcl_cfg = &vcm->cfg;
907
908   vcm->main_cpu = pthread_self ();
909   vcm->main_pid = getpid ();
910   vcm->app_name = format (0, "%s", app_name);
911   vppcom_init_error_string_table ();
912   svm_fifo_segment_main_init (&vcm->segment_main, vcl_cfg->segment_baseva,
913                               20 /* timeout in secs */ );
914   pool_alloc (vcm->workers, vcl_cfg->max_workers);
915   clib_spinlock_init (&vcm->workers_lock);
916   clib_rwlock_init (&vcm->segment_table_lock);
917   atexit (vppcom_app_exit);
918
919   /* Allocate default worker */
920   vcl_worker_alloc_and_init ();
921
922   /* API hookup and connect to VPP */
923   vppcom_api_hookup ();
924   vcl_elog_init (vcm);
925   vcm->app_state = STATE_APP_START;
926   rv = vppcom_connect_to_vpp (app_name);
927   if (rv)
928     {
929       VERR ("couldn't connect to VPP!");
930       return rv;
931     }
932   VDBG (0, "sending session enable");
933   rv = vppcom_app_session_enable ();
934   if (rv)
935     {
936       VERR ("vppcom_app_session_enable() failed!");
937       return rv;
938     }
939
940   VDBG (0, "sending app attach");
941   rv = vppcom_app_attach ();
942   if (rv)
943     {
944       VERR ("vppcom_app_attach() failed!");
945       return rv;
946     }
947
948   VDBG (0, "app_name '%s', my_client_index %d (0x%x)", app_name,
949         vcm->workers[0].my_client_index, vcm->workers[0].my_client_index);
950
951   return VPPCOM_OK;
952 }
953
954 void
955 vppcom_app_destroy (void)
956 {
957   int rv;
958   f64 orig_app_timeout;
959
960   if (!pool_elts (vcm->workers))
961     return;
962
963   vcl_evt (VCL_EVT_DETACH, vcm);
964
965   if (pool_elts (vcm->workers) == 1)
966     {
967       vppcom_app_send_detach ();
968       orig_app_timeout = vcm->cfg.app_timeout;
969       vcm->cfg.app_timeout = 2.0;
970       rv = vcl_wait_for_app_state_change (STATE_APP_ENABLED);
971       vcm->cfg.app_timeout = orig_app_timeout;
972       if (PREDICT_FALSE (rv))
973         VDBG (0, "application detach timed out! returning %d (%s)", rv,
974               vppcom_retval_str (rv));
975       vec_free (vcm->app_name);
976       vcl_worker_cleanup (vcl_worker_get_current (), 0 /* notify vpp */ );
977     }
978   else
979     {
980       vcl_worker_cleanup (vcl_worker_get_current (), 1 /* notify vpp */ );
981     }
982
983   vcl_set_worker_index (~0);
984   vcl_elog_stop (vcm);
985   vl_client_disconnect_from_vlib ();
986 }
987
988 int
989 vppcom_session_create (u8 proto, u8 is_nonblocking)
990 {
991   vcl_worker_t *wrk = vcl_worker_get_current ();
992   vcl_session_t *session;
993
994   session = vcl_session_alloc (wrk);
995
996   session->session_type = proto;
997   session->session_state = STATE_START;
998   session->vpp_handle = ~0;
999   session->is_dgram = proto == VPPCOM_PROTO_UDP;
1000
1001   if (is_nonblocking)
1002     VCL_SESS_ATTR_SET (session->attr, VCL_SESS_ATTR_NONBLOCK);
1003
1004   vcl_evt (VCL_EVT_CREATE, session, session_type, session->session_state,
1005            is_nonblocking, session_index);
1006
1007   VDBG (0, "created sid %u", session->session_index);
1008
1009   return vcl_session_handle (session);
1010 }
1011
1012 int
1013 vcl_session_cleanup (vcl_worker_t * wrk, vcl_session_t * session,
1014                      vcl_session_handle_t sh, u8 do_disconnect)
1015 {
1016   session_state_t state;
1017   u32 next_sh, vep_sh;
1018   int rv = VPPCOM_OK;
1019   u64 vpp_handle;
1020   u8 is_vep;
1021
1022   is_vep = session->is_vep;
1023   next_sh = session->vep.next_sh;
1024   vep_sh = session->vep.vep_sh;
1025   state = session->session_state;
1026   vpp_handle = session->vpp_handle;
1027
1028   VDBG (1, "session %u [0x%llx] closing", session->session_index, vpp_handle);
1029
1030   if (is_vep)
1031     {
1032       while (next_sh != ~0)
1033         {
1034           rv = vppcom_epoll_ctl (sh, EPOLL_CTL_DEL, next_sh, 0);
1035           if (PREDICT_FALSE (rv < 0))
1036             VDBG (0, "vpp handle 0x%llx, sid %u: EPOLL_CTL_DEL vep_idx %u"
1037                   " failed! rv %d (%s)", vpp_handle, next_sh, vep_sh, rv,
1038                   vppcom_retval_str (rv));
1039
1040           next_sh = session->vep.next_sh;
1041         }
1042     }
1043   else
1044     {
1045       if (session->is_vep_session)
1046         {
1047           rv = vppcom_epoll_ctl (vep_sh, EPOLL_CTL_DEL, sh, 0);
1048           if (rv < 0)
1049             VDBG (0, "session %u [0x%llx]: EPOLL_CTL_DEL vep_idx %u "
1050                   "failed! rv %d (%s)", session->session_index, vpp_handle,
1051                   vep_sh, rv, vppcom_retval_str (rv));
1052         }
1053
1054       if (!do_disconnect)
1055         {
1056           VDBG (0, "session %u [0x%llx] disconnect skipped",
1057                 session->session_index, vpp_handle);
1058           goto cleanup;
1059         }
1060
1061       if (state & STATE_LISTEN)
1062         {
1063           rv = vppcom_session_unbind (sh);
1064           if (PREDICT_FALSE (rv < 0))
1065             VDBG (0, "session %u [0x%llx]: listener unbind failed! "
1066                   "rv %d (%s)", session->session_index, vpp_handle, rv,
1067                   vppcom_retval_str (rv));
1068         }
1069       else if (state & STATE_OPEN)
1070         {
1071           rv = vppcom_session_disconnect (sh);
1072           if (PREDICT_FALSE (rv < 0))
1073             VDBG (0, "ERROR: session %u [0x%llx]: disconnect failed!"
1074                   " rv %d (%s)", session->session_index, vpp_handle,
1075                   rv, vppcom_retval_str (rv));
1076         }
1077       else if (state == STATE_DISCONNECT)
1078         {
1079           svm_msg_q_t *mq = vcl_session_vpp_evt_q (wrk, session);
1080           vcl_send_session_reset_reply (mq, wrk->my_client_index,
1081                                         session->vpp_handle, 0);
1082         }
1083     }
1084
1085   if (vcl_session_is_ct (session))
1086     {
1087       vcl_cut_through_registration_t *ctr;
1088       uword mq_addr;
1089
1090       mq_addr = pointer_to_uword (session->our_evt_q);
1091       ctr = vcl_ct_registration_lock_and_lookup (wrk, mq_addr);
1092       ASSERT (ctr);
1093       if (ctr->epoll_evt_conn_index != ~0)
1094         vcl_mq_epoll_del_evfd (wrk, ctr->epoll_evt_conn_index);
1095       VDBG (0, "Removing ct registration %u",
1096             vcl_ct_registration_index (wrk, ctr));
1097       vcl_ct_registration_del (wrk, ctr);
1098       vcl_ct_registration_lookup_del (wrk, mq_addr);
1099       vcl_ct_registration_unlock (wrk);
1100     }
1101
1102 cleanup:
1103   vcl_session_table_del_vpp_handle (wrk, vpp_handle);
1104   vcl_session_free (wrk, session);
1105
1106   VDBG (0, "session %u [0x%llx] removed", session->session_index, vpp_handle);
1107   vcl_evt (VCL_EVT_CLOSE, session, rv);
1108
1109   return rv;
1110 }
1111
1112 int
1113 vppcom_session_close (uint32_t session_handle)
1114 {
1115   vcl_worker_t *wrk = vcl_worker_get_current ();
1116   vcl_session_t *session;
1117
1118   session = vcl_session_get_w_handle (wrk, session_handle);
1119   if (!session)
1120     return VPPCOM_EBADFD;
1121   return vcl_session_cleanup (wrk, session, session_handle,
1122                               1 /* do_disconnect */ );
1123 }
1124
1125 int
1126 vppcom_session_bind (uint32_t session_handle, vppcom_endpt_t * ep)
1127 {
1128   vcl_worker_t *wrk = vcl_worker_get_current ();
1129   vcl_session_t *session = 0;
1130
1131   if (!ep || !ep->ip)
1132     return VPPCOM_EINVAL;
1133
1134   session = vcl_session_get_w_handle (wrk, session_handle);
1135   if (!session)
1136     return VPPCOM_EBADFD;
1137
1138   if (session->is_vep)
1139     {
1140       clib_warning ("VCL<%d>: ERROR: sid %u: cannot "
1141                     "bind to an epoll session!", getpid (), session_handle);
1142       return VPPCOM_EBADFD;
1143     }
1144
1145   session->transport.is_ip4 = ep->is_ip4;
1146   if (ep->is_ip4)
1147     clib_memcpy_fast (&session->transport.lcl_ip.ip4, ep->ip,
1148                       sizeof (ip4_address_t));
1149   else
1150     clib_memcpy_fast (&session->transport.lcl_ip.ip6, ep->ip,
1151                       sizeof (ip6_address_t));
1152   session->transport.lcl_port = ep->port;
1153
1154   VDBG (0, "VCL<%d>: sid %u: binding to local %s address %U port %u, "
1155         "proto %s", getpid (), session_handle,
1156         session->transport.is_ip4 ? "IPv4" : "IPv6",
1157         format_ip46_address, &session->transport.lcl_ip,
1158         session->transport.is_ip4 ? IP46_TYPE_IP4 : IP46_TYPE_IP6,
1159         clib_net_to_host_u16 (session->transport.lcl_port),
1160         vppcom_proto_str (session->session_type));
1161   vcl_evt (VCL_EVT_BIND, session);
1162
1163   if (session->session_type == VPPCOM_PROTO_UDP)
1164     vppcom_session_listen (session_handle, 10);
1165
1166   return VPPCOM_OK;
1167 }
1168
1169 int
1170 vppcom_session_listen (uint32_t listen_sh, uint32_t q_len)
1171 {
1172   vcl_worker_t *wrk = vcl_worker_get_current ();
1173   vcl_session_t *listen_session = 0;
1174   u64 listen_vpp_handle;
1175   int rv;
1176
1177   listen_session = vcl_session_get_w_handle (wrk, listen_sh);
1178   if (!listen_session || listen_session->is_vep)
1179     return VPPCOM_EBADFD;
1180
1181   if (q_len == 0 || q_len == ~0)
1182     q_len = vcm->cfg.listen_queue_size;
1183
1184   listen_vpp_handle = listen_session->vpp_handle;
1185   if (listen_session->session_state & STATE_LISTEN)
1186     {
1187       VDBG (0, "session %u [0x%llx]: already in listen state!",
1188             listen_sh, listen_vpp_handle);
1189       return VPPCOM_OK;
1190     }
1191
1192   VDBG (0, "session %u [0x%llx]: sending vpp listen request...",
1193         listen_sh, listen_vpp_handle);
1194
1195   /*
1196    * Send listen request to vpp and wait for reply
1197    */
1198   vppcom_send_bind_sock (listen_session);
1199   rv = vppcom_wait_for_session_state_change (listen_session->session_index,
1200                                              STATE_LISTEN,
1201                                              vcm->cfg.session_timeout);
1202
1203   if (PREDICT_FALSE (rv))
1204     {
1205       listen_session = vcl_session_get_w_handle (wrk, listen_sh);
1206       VDBG (0, "session %u [0x%llx]: listen failed! returning %d (%s)",
1207             listen_sh, listen_session->vpp_handle, rv,
1208             vppcom_retval_str (rv));
1209       return rv;
1210     }
1211
1212   return VPPCOM_OK;
1213 }
1214
1215 int
1216 vppcom_session_tls_add_cert (uint32_t session_handle, char *cert,
1217                              uint32_t cert_len)
1218 {
1219
1220   vcl_worker_t *wrk = vcl_worker_get_current ();
1221   vcl_session_t *session = 0;
1222
1223   session = vcl_session_get_w_handle (wrk, session_handle);
1224   if (!session)
1225     return VPPCOM_EBADFD;
1226
1227   if (cert_len == 0 || cert_len == ~0)
1228     return VPPCOM_EBADFD;
1229
1230   /*
1231    * Send listen request to vpp and wait for reply
1232    */
1233   vppcom_send_application_tls_cert_add (session, cert, cert_len);
1234
1235   return VPPCOM_OK;
1236
1237 }
1238
1239 int
1240 vppcom_session_tls_add_key (uint32_t session_handle, char *key,
1241                             uint32_t key_len)
1242 {
1243
1244   vcl_worker_t *wrk = vcl_worker_get_current ();
1245   vcl_session_t *session = 0;
1246
1247   session = vcl_session_get_w_handle (wrk, session_handle);
1248   if (!session)
1249     return VPPCOM_EBADFD;
1250
1251   if (key_len == 0 || key_len == ~0)
1252     return VPPCOM_EBADFD;
1253
1254   /*
1255    * Send listen request to vpp and wait for reply
1256    */
1257   vppcom_send_application_tls_key_add (session, key, key_len);
1258
1259   return VPPCOM_OK;
1260
1261
1262 }
1263
1264 static int
1265 validate_args_session_accept_ (vcl_worker_t * wrk,
1266                                vcl_session_t * listen_session)
1267 {
1268   /* Input validation - expects spinlock on sessions_lockp */
1269   if (listen_session->is_vep)
1270     {
1271       clib_warning ("VCL<%d>: ERROR: sid %u: cannot accept on an "
1272                     "epoll session!", getpid (),
1273                     listen_session->session_index);
1274       return VPPCOM_EBADFD;
1275     }
1276
1277   if (listen_session->session_state != STATE_LISTEN)
1278     {
1279       clib_warning ("VCL<%d>: ERROR: vpp handle 0x%llx, sid %u: "
1280                     "not in listen state! state 0x%x (%s)", getpid (),
1281                     listen_session->vpp_handle, listen_session->session_index,
1282                     listen_session->session_state,
1283                     vppcom_session_state_str (listen_session->session_state));
1284       return VPPCOM_EBADFD;
1285     }
1286   return VPPCOM_OK;
1287 }
1288
1289 int
1290 vppcom_session_accept (uint32_t listen_session_handle, vppcom_endpt_t * ep,
1291                        uint32_t flags)
1292 {
1293   u32 client_session_index = ~0, listen_session_index, accept_flags = 0;
1294   vcl_worker_t *wrk = vcl_worker_get_current ();
1295   session_accepted_msg_t accepted_msg;
1296   vcl_session_t *listen_session = 0;
1297   vcl_session_t *client_session = 0;
1298   svm_msg_q_t *vpp_evt_q;
1299   vcl_session_msg_t *evt;
1300   u64 listen_vpp_handle;
1301   svm_msg_q_msg_t msg;
1302   session_event_t *e;
1303   u8 is_nonblocking;
1304   int rv;
1305
1306   listen_session = vcl_session_get_w_handle (wrk, listen_session_handle);
1307   if (!listen_session)
1308     return VPPCOM_EBADFD;
1309
1310   listen_session_index = listen_session->session_index;
1311   if ((rv = validate_args_session_accept_ (wrk, listen_session)))
1312     return rv;
1313
1314   if (clib_fifo_elts (listen_session->accept_evts_fifo))
1315     {
1316       clib_fifo_sub2 (listen_session->accept_evts_fifo, evt);
1317       accept_flags = evt->flags;
1318       accepted_msg = evt->accepted_msg;
1319       goto handle;
1320     }
1321
1322   is_nonblocking = VCL_SESS_ATTR_TEST (listen_session->attr,
1323                                        VCL_SESS_ATTR_NONBLOCK);
1324   if (svm_msg_q_is_empty (wrk->app_event_queue) && is_nonblocking)
1325     return VPPCOM_EAGAIN;
1326
1327   while (1)
1328     {
1329       if (svm_msg_q_sub (wrk->app_event_queue, &msg, SVM_Q_WAIT, 0))
1330         return VPPCOM_EAGAIN;
1331
1332       e = svm_msg_q_msg_data (wrk->app_event_queue, &msg);
1333       if (e->event_type != SESSION_CTRL_EVT_ACCEPTED)
1334         {
1335           clib_warning ("discarded event: %u", e->event_type);
1336           svm_msg_q_free_msg (wrk->app_event_queue, &msg);
1337           continue;
1338         }
1339       clib_memcpy_fast (&accepted_msg, e->data, sizeof (accepted_msg));
1340       svm_msg_q_free_msg (wrk->app_event_queue, &msg);
1341       break;
1342     }
1343
1344 handle:
1345
1346   client_session_index = vcl_session_accepted_handler (wrk, &accepted_msg);
1347   listen_session = vcl_session_get (wrk, listen_session_index);
1348   client_session = vcl_session_get (wrk, client_session_index);
1349
1350   if (flags & O_NONBLOCK)
1351     VCL_SESS_ATTR_SET (client_session->attr, VCL_SESS_ATTR_NONBLOCK);
1352
1353   listen_vpp_handle = listen_session->vpp_handle;
1354   VDBG (1, "vpp handle 0x%llx, sid %u: Got a client request! "
1355         "vpp handle 0x%llx, sid %u, flags %d, is_nonblocking %u",
1356         listen_vpp_handle, listen_session_handle,
1357         client_session->vpp_handle, client_session_index,
1358         flags, VCL_SESS_ATTR_TEST (client_session->attr,
1359                                    VCL_SESS_ATTR_NONBLOCK));
1360
1361   if (ep)
1362     {
1363       ep->is_ip4 = client_session->transport.is_ip4;
1364       ep->port = client_session->transport.rmt_port;
1365       if (client_session->transport.is_ip4)
1366         clib_memcpy_fast (ep->ip, &client_session->transport.rmt_ip.ip4,
1367                           sizeof (ip4_address_t));
1368       else
1369         clib_memcpy_fast (ep->ip, &client_session->transport.rmt_ip.ip6,
1370                           sizeof (ip6_address_t));
1371     }
1372
1373   if (accepted_msg.server_event_queue_address)
1374     vpp_evt_q = uword_to_pointer (accepted_msg.vpp_event_queue_address,
1375                                   svm_msg_q_t *);
1376   else
1377     vpp_evt_q = client_session->vpp_evt_q;
1378
1379   vcl_send_session_accepted_reply (vpp_evt_q, client_session->client_context,
1380                                    client_session->vpp_handle, 0);
1381
1382   VDBG (0, "listener %u [0x%llx] accepted %u [0x%llx] peer: %U:%u "
1383         "local: %U:%u", listen_session_handle, listen_vpp_handle,
1384         client_session_index, client_session->vpp_handle,
1385         format_ip46_address, &client_session->transport.rmt_ip,
1386         client_session->transport.is_ip4 ? IP46_TYPE_IP4 : IP46_TYPE_IP6,
1387         clib_net_to_host_u16 (client_session->transport.rmt_port),
1388         format_ip46_address, &client_session->transport.lcl_ip,
1389         client_session->transport.is_ip4 ? IP46_TYPE_IP4 : IP46_TYPE_IP6,
1390         clib_net_to_host_u16 (client_session->transport.lcl_port));
1391   vcl_evt (VCL_EVT_ACCEPT, client_session, listen_session,
1392            client_session_index);
1393
1394   /*
1395    * Session might have been closed already
1396    */
1397   if (accept_flags)
1398     {
1399       if (accept_flags & VCL_ACCEPTED_F_CLOSED)
1400         client_session->session_state = STATE_VPP_CLOSING;
1401       else if (accept_flags & VCL_ACCEPTED_F_RESET)
1402         client_session->session_state = STATE_DISCONNECT;
1403     }
1404   return vcl_session_handle (client_session);
1405 }
1406
1407 int
1408 vppcom_session_connect (uint32_t session_handle, vppcom_endpt_t * server_ep)
1409 {
1410   vcl_worker_t *wrk = vcl_worker_get_current ();
1411   vcl_session_t *session = 0;
1412   u32 session_index;
1413   int rv;
1414
1415   session = vcl_session_get_w_handle (wrk, session_handle);
1416   if (!session)
1417     return VPPCOM_EBADFD;
1418   session_index = session->session_index;
1419
1420   if (PREDICT_FALSE (session->is_vep))
1421     {
1422       clib_warning ("VCL<%d>: ERROR: sid %u: cannot "
1423                     "connect on an epoll session!", getpid (),
1424                     session_handle);
1425       return VPPCOM_EBADFD;
1426     }
1427
1428   if (PREDICT_FALSE (session->session_state & CLIENT_STATE_OPEN))
1429     {
1430       VDBG (0, "session handle %u [0x%llx]: session already "
1431             "connected to %s %U port %d proto %s, state 0x%x (%s)",
1432             session_handle, session->vpp_handle,
1433             session->transport.is_ip4 ? "IPv4" : "IPv6",
1434             format_ip46_address,
1435             &session->transport.rmt_ip, session->transport.is_ip4 ?
1436             IP46_TYPE_IP4 : IP46_TYPE_IP6,
1437             clib_net_to_host_u16 (session->transport.rmt_port),
1438             vppcom_proto_str (session->session_type), session->session_state,
1439             vppcom_session_state_str (session->session_state));
1440       return VPPCOM_OK;
1441     }
1442
1443   session->transport.is_ip4 = server_ep->is_ip4;
1444   if (session->transport.is_ip4)
1445     clib_memcpy_fast (&session->transport.rmt_ip.ip4, server_ep->ip,
1446                       sizeof (ip4_address_t));
1447   else
1448     clib_memcpy_fast (&session->transport.rmt_ip.ip6, server_ep->ip,
1449                       sizeof (ip6_address_t));
1450   session->transport.rmt_port = server_ep->port;
1451
1452   VDBG (0, "session handle %u [0x%llx]: connecting to server %s %U "
1453         "port %d proto %s", session_handle, session->vpp_handle,
1454         session->transport.is_ip4 ? "IPv4" : "IPv6",
1455         format_ip46_address,
1456         &session->transport.rmt_ip, session->transport.is_ip4 ?
1457         IP46_TYPE_IP4 : IP46_TYPE_IP6,
1458         clib_net_to_host_u16 (session->transport.rmt_port),
1459         vppcom_proto_str (session->session_type));
1460
1461   /*
1462    * Send connect request and wait for reply from vpp
1463    */
1464   vppcom_send_connect_sock (session);
1465   rv = vppcom_wait_for_session_state_change (session_index, STATE_CONNECT,
1466                                              vcm->cfg.session_timeout);
1467
1468   session = vcl_session_get (wrk, session_index);
1469
1470   if (PREDICT_FALSE (rv))
1471     {
1472       if (VPPCOM_DEBUG > 0)
1473         {
1474           if (session)
1475             clib_warning ("VCL<%d>: vpp handle 0x%llx, sid %u: connect "
1476                           "failed! returning %d (%s)", getpid (),
1477                           session->vpp_handle, session_handle, rv,
1478                           vppcom_retval_str (rv));
1479           else
1480             clib_warning ("VCL<%d>: no session for sid %u: connect failed! "
1481                           "returning %d (%s)", getpid (),
1482                           session_handle, rv, vppcom_retval_str (rv));
1483         }
1484     }
1485   else
1486     VDBG (0, "VCL<%d>: vpp handle 0x%llx, sid %u: connected!",
1487           getpid (), session->vpp_handle, session_handle);
1488
1489   return rv;
1490 }
1491
1492 static u8
1493 vcl_is_rx_evt_for_session (session_event_t * e, u32 sid, u8 is_ct)
1494 {
1495   if (!is_ct)
1496     return (e->event_type == FIFO_EVENT_APP_RX
1497             && e->fifo->client_session_index == sid);
1498   else
1499     return (e->event_type == SESSION_IO_EVT_CT_TX);
1500 }
1501
1502 static inline u8
1503 vcl_session_is_readable (vcl_session_t * s)
1504 {
1505   return ((s->session_state & STATE_OPEN)
1506           || (s->session_state == STATE_LISTEN
1507               && s->session_type == VPPCOM_PROTO_UDP));
1508 }
1509
1510 static inline int
1511 vppcom_session_read_internal (uint32_t session_handle, void *buf, int n,
1512                               u8 peek)
1513 {
1514   vcl_worker_t *wrk = vcl_worker_get_current ();
1515   int n_read = 0, rv, is_nonblocking;
1516   vcl_session_t *s = 0;
1517   svm_fifo_t *rx_fifo;
1518   svm_msg_q_msg_t msg;
1519   session_event_t *e;
1520   svm_msg_q_t *mq;
1521   u8 is_ct;
1522
1523   if (PREDICT_FALSE (!buf))
1524     return VPPCOM_EINVAL;
1525
1526   s = vcl_session_get_w_handle (wrk, session_handle);
1527   if (PREDICT_FALSE (!s || s->is_vep))
1528     return VPPCOM_EBADFD;
1529
1530   if (PREDICT_FALSE (!vcl_session_is_readable (s)))
1531     {
1532       session_state_t state = s->session_state;
1533       rv = ((state & STATE_DISCONNECT) ? VPPCOM_ECONNRESET : VPPCOM_ENOTCONN);
1534
1535       VDBG (0, "session handle %u[0x%llx] is not open! state 0x%x (%s),"
1536             " returning %d (%s)", session_handle, s->vpp_handle, state,
1537             vppcom_session_state_str (state), rv, vppcom_retval_str (rv));
1538       return rv;
1539     }
1540
1541   is_nonblocking = VCL_SESS_ATTR_TEST (s->attr, VCL_SESS_ATTR_NONBLOCK);
1542   is_ct = vcl_session_is_ct (s);
1543   mq = is_ct ? s->our_evt_q : wrk->app_event_queue;
1544   rx_fifo = s->rx_fifo;
1545   s->has_rx_evt = 0;
1546
1547   if (svm_fifo_is_empty (rx_fifo))
1548     {
1549       if (is_nonblocking)
1550         {
1551           svm_fifo_unset_event (rx_fifo);
1552           return VPPCOM_EWOULDBLOCK;
1553         }
1554       while (svm_fifo_is_empty (rx_fifo))
1555         {
1556           svm_fifo_unset_event (rx_fifo);
1557           svm_msg_q_lock (mq);
1558           if (svm_msg_q_is_empty (mq))
1559             svm_msg_q_wait (mq);
1560
1561           svm_msg_q_sub_w_lock (mq, &msg);
1562           e = svm_msg_q_msg_data (mq, &msg);
1563           svm_msg_q_unlock (mq);
1564           if (!vcl_is_rx_evt_for_session (e, s->session_index, is_ct))
1565             vcl_handle_mq_event (wrk, e);
1566           svm_msg_q_free_msg (mq, &msg);
1567
1568           if (PREDICT_FALSE (s->session_state == STATE_DISCONNECT))
1569             return VPPCOM_ECONNRESET;
1570         }
1571     }
1572
1573   if (s->is_dgram)
1574     n_read = app_recv_dgram_raw (rx_fifo, buf, n, &s->transport, 0, peek);
1575   else
1576     n_read = app_recv_stream_raw (rx_fifo, buf, n, 0, peek);
1577
1578   if (svm_fifo_is_empty (rx_fifo))
1579     svm_fifo_unset_event (rx_fifo);
1580
1581   if (is_ct && svm_fifo_needs_tx_ntf (rx_fifo, n_read))
1582     {
1583       svm_fifo_clear_tx_ntf (s->rx_fifo);
1584       app_send_io_evt_to_vpp (s->vpp_evt_q, s->rx_fifo, SESSION_IO_EVT_CT_RX,
1585                               SVM_Q_WAIT);
1586     }
1587
1588   VDBG (2, "vpp handle 0x%llx, sid %u: read %d bytes from (%p)",
1589         s->vpp_handle, session_handle, n_read, rx_fifo);
1590
1591   return n_read;
1592 }
1593
1594 int
1595 vppcom_session_read (uint32_t session_handle, void *buf, size_t n)
1596 {
1597   return (vppcom_session_read_internal (session_handle, buf, n, 0));
1598 }
1599
1600 static int
1601 vppcom_session_peek (uint32_t session_handle, void *buf, int n)
1602 {
1603   return (vppcom_session_read_internal (session_handle, buf, n, 1));
1604 }
1605
1606 int
1607 vppcom_session_read_segments (uint32_t session_handle,
1608                               vppcom_data_segments_t ds)
1609 {
1610   vcl_worker_t *wrk = vcl_worker_get_current ();
1611   int n_read = 0, rv, is_nonblocking;
1612   vcl_session_t *s = 0;
1613   svm_fifo_t *rx_fifo;
1614   svm_msg_q_msg_t msg;
1615   session_event_t *e;
1616   svm_msg_q_t *mq;
1617   u8 is_ct;
1618
1619   s = vcl_session_get_w_handle (wrk, session_handle);
1620   if (PREDICT_FALSE (!s || s->is_vep))
1621     return VPPCOM_EBADFD;
1622
1623   if (PREDICT_FALSE (!vcl_session_is_readable (s)))
1624     {
1625       session_state_t state = s->session_state;
1626       rv = ((state & STATE_DISCONNECT) ? VPPCOM_ECONNRESET : VPPCOM_ENOTCONN);
1627       return rv;
1628     }
1629
1630   is_nonblocking = VCL_SESS_ATTR_TEST (s->attr, VCL_SESS_ATTR_NONBLOCK);
1631   is_ct = vcl_session_is_ct (s);
1632   mq = is_ct ? s->our_evt_q : wrk->app_event_queue;
1633   rx_fifo = s->rx_fifo;
1634   s->has_rx_evt = 0;
1635
1636   if (svm_fifo_is_empty (rx_fifo))
1637     {
1638       if (is_nonblocking)
1639         {
1640           svm_fifo_unset_event (rx_fifo);
1641           return VPPCOM_EWOULDBLOCK;
1642         }
1643       while (svm_fifo_is_empty (rx_fifo))
1644         {
1645           svm_fifo_unset_event (rx_fifo);
1646           svm_msg_q_lock (mq);
1647           if (svm_msg_q_is_empty (mq))
1648             svm_msg_q_wait (mq);
1649
1650           svm_msg_q_sub_w_lock (mq, &msg);
1651           e = svm_msg_q_msg_data (mq, &msg);
1652           svm_msg_q_unlock (mq);
1653           if (!vcl_is_rx_evt_for_session (e, s->session_index, is_ct))
1654             vcl_handle_mq_event (wrk, e);
1655           svm_msg_q_free_msg (mq, &msg);
1656
1657           if (PREDICT_FALSE (s->session_state == STATE_DISCONNECT))
1658             return VPPCOM_ECONNRESET;
1659         }
1660     }
1661
1662   n_read = svm_fifo_segments (rx_fifo, (svm_fifo_segment_t *) ds);
1663   svm_fifo_unset_event (rx_fifo);
1664
1665   if (is_ct && n_read + svm_fifo_max_dequeue (rx_fifo) == rx_fifo->nitems)
1666     {
1667       /* If the peer is not polling send notification */
1668       if (!svm_fifo_has_event (s->rx_fifo))
1669         app_send_io_evt_to_vpp (s->vpp_evt_q, s->rx_fifo,
1670                                 SESSION_IO_EVT_CT_RX, SVM_Q_WAIT);
1671     }
1672
1673   return n_read;
1674 }
1675
1676 void
1677 vppcom_session_free_segments (uint32_t session_handle,
1678                               vppcom_data_segments_t ds)
1679 {
1680   vcl_worker_t *wrk = vcl_worker_get_current ();
1681   vcl_session_t *s;
1682
1683   s = vcl_session_get_w_handle (wrk, session_handle);
1684   if (PREDICT_FALSE (!s || s->is_vep))
1685     return;
1686
1687   svm_fifo_segments_free (s->rx_fifo, (svm_fifo_segment_t *) ds);
1688 }
1689
1690 static inline int
1691 vppcom_session_read_ready (vcl_session_t * session)
1692 {
1693   /* Assumes caller has acquired spinlock: vcm->sessions_lockp */
1694   if (PREDICT_FALSE (session->is_vep))
1695     {
1696       clib_warning ("VCL<%d>: ERROR: sid %u: cannot read from an "
1697                     "epoll session!", getpid (), session->session_index);
1698       return VPPCOM_EBADFD;
1699     }
1700
1701   if (PREDICT_FALSE (!(session->session_state & (STATE_OPEN | STATE_LISTEN))))
1702     {
1703       session_state_t state = session->session_state;
1704       int rv;
1705
1706       rv = ((state & STATE_DISCONNECT) ? VPPCOM_ECONNRESET : VPPCOM_ENOTCONN);
1707
1708       VDBG (1, "VCL<%d>: vpp handle 0x%llx, sid %u: session is not open!"
1709             " state 0x%x (%s), returning %d (%s)", getpid (),
1710             session->vpp_handle, session->session_index, state,
1711             vppcom_session_state_str (state), rv, vppcom_retval_str (rv));
1712       return rv;
1713     }
1714
1715   if (session->session_state & STATE_LISTEN)
1716     return clib_fifo_elts (session->accept_evts_fifo);
1717
1718   return svm_fifo_max_dequeue (session->rx_fifo);
1719 }
1720
1721 int
1722 vppcom_data_segment_copy (void *buf, vppcom_data_segments_t ds, u32 max_bytes)
1723 {
1724   u32 first_copy = clib_min (ds[0].len, max_bytes);
1725   clib_memcpy_fast (buf, ds[0].data, first_copy);
1726   if (first_copy < max_bytes)
1727     {
1728       clib_memcpy_fast (buf + first_copy, ds[1].data,
1729                         clib_min (ds[1].len, max_bytes - first_copy));
1730     }
1731   return 0;
1732 }
1733
1734 static u8
1735 vcl_is_tx_evt_for_session (session_event_t * e, u32 sid, u8 is_ct)
1736 {
1737   if (!is_ct)
1738     return (e->event_type == FIFO_EVENT_APP_TX
1739             && e->fifo->client_session_index == sid);
1740   else
1741     return (e->event_type == SESSION_IO_EVT_CT_RX);
1742 }
1743
1744 static inline int
1745 vppcom_session_write_inline (uint32_t session_handle, void *buf, size_t n,
1746                              u8 is_flush)
1747 {
1748   vcl_worker_t *wrk = vcl_worker_get_current ();
1749   int rv, n_write, is_nonblocking;
1750   vcl_session_t *s = 0;
1751   svm_fifo_t *tx_fifo = 0;
1752   session_evt_type_t et;
1753   svm_msg_q_msg_t msg;
1754   session_event_t *e;
1755   svm_msg_q_t *mq;
1756   u8 is_ct;
1757
1758   if (PREDICT_FALSE (!buf))
1759     return VPPCOM_EINVAL;
1760
1761   s = vcl_session_get_w_handle (wrk, session_handle);
1762   if (PREDICT_FALSE (!s))
1763     return VPPCOM_EBADFD;
1764
1765   if (PREDICT_FALSE (s->is_vep))
1766     {
1767       clib_warning ("VCL<%d>: ERROR: vpp handle 0x%llx, sid %u: "
1768                     "cannot write to an epoll session!",
1769                     getpid (), s->vpp_handle, session_handle);
1770
1771       return VPPCOM_EBADFD;
1772     }
1773
1774   if (PREDICT_FALSE (!(s->session_state & STATE_OPEN)))
1775     {
1776       session_state_t state = s->session_state;
1777       rv = ((state & STATE_DISCONNECT) ? VPPCOM_ECONNRESET : VPPCOM_ENOTCONN);
1778       VDBG (1, "VCL<%d>: vpp handle 0x%llx, sid %u: session is not open! "
1779             "state 0x%x (%s)", getpid (), s->vpp_handle, session_handle,
1780             state, vppcom_session_state_str (state));
1781       return rv;
1782     }
1783
1784   tx_fifo = s->tx_fifo;
1785   is_ct = vcl_session_is_ct (s);
1786   is_nonblocking = VCL_SESS_ATTR_TEST (s->attr, VCL_SESS_ATTR_NONBLOCK);
1787   mq = is_ct ? s->our_evt_q : wrk->app_event_queue;
1788   if (svm_fifo_is_full (tx_fifo))
1789     {
1790       if (is_nonblocking)
1791         {
1792           return VPPCOM_EWOULDBLOCK;
1793         }
1794       while (svm_fifo_is_full (tx_fifo))
1795         {
1796           svm_fifo_add_want_tx_ntf (tx_fifo, SVM_FIFO_WANT_TX_NOTIF);
1797           svm_msg_q_lock (mq);
1798           if (svm_msg_q_is_empty (mq))
1799             svm_msg_q_wait (mq);
1800
1801           svm_msg_q_sub_w_lock (mq, &msg);
1802           e = svm_msg_q_msg_data (mq, &msg);
1803           svm_msg_q_unlock (mq);
1804
1805           if (!vcl_is_tx_evt_for_session (e, s->session_index, is_ct))
1806             vcl_handle_mq_event (wrk, e);
1807           svm_msg_q_free_msg (mq, &msg);
1808
1809           if (PREDICT_FALSE (!(s->session_state & STATE_OPEN)))
1810             return VPPCOM_ECONNRESET;
1811         }
1812     }
1813
1814   ASSERT (FIFO_EVENT_APP_TX + 1 == SESSION_IO_EVT_CT_TX);
1815   et = FIFO_EVENT_APP_TX + vcl_session_is_ct (s);
1816   if (is_flush && !vcl_session_is_ct (s))
1817     et = SESSION_IO_EVT_TX_FLUSH;
1818
1819   if (s->is_dgram)
1820     n_write = app_send_dgram_raw (tx_fifo, &s->transport,
1821                                   s->vpp_evt_q, buf, n, et, SVM_Q_WAIT);
1822   else
1823     n_write = app_send_stream_raw (tx_fifo, s->vpp_evt_q, buf, n, et,
1824                                    SVM_Q_WAIT);
1825
1826   ASSERT (n_write > 0);
1827
1828   VDBG (2, "VCL<%d>: vpp handle 0x%llx, sid %u: wrote %d bytes", getpid (),
1829         s->vpp_handle, session_handle, n_write);
1830
1831   return n_write;
1832 }
1833
1834 int
1835 vppcom_session_write (uint32_t session_handle, void *buf, size_t n)
1836 {
1837   return vppcom_session_write_inline (session_handle, buf, n,
1838                                       0 /* is_flush */ );
1839 }
1840
1841 int
1842 vppcom_session_write_msg (uint32_t session_handle, void *buf, size_t n)
1843 {
1844   return vppcom_session_write_inline (session_handle, buf, n,
1845                                       1 /* is_flush */ );
1846 }
1847
1848
1849 static vcl_session_t *
1850 vcl_ct_session_get_from_fifo (vcl_worker_t * wrk, svm_fifo_t * f, u8 type)
1851 {
1852   vcl_session_t *s;
1853   s = vcl_session_get (wrk, f->client_session_index);
1854   if (s)
1855     {
1856       /* rx fifo */
1857       if (type == 0 && s->rx_fifo == f)
1858         return s;
1859       /* tx fifo */
1860       if (type == 1 && s->tx_fifo == f)
1861         return s;
1862     }
1863   s = vcl_session_get (wrk, f->master_session_index);
1864   if (s)
1865     {
1866       if (type == 0 && s->rx_fifo == f)
1867         return s;
1868       if (type == 1 && s->tx_fifo == f)
1869         return s;
1870     }
1871   return 0;
1872 }
1873
1874 static inline int
1875 vppcom_session_write_ready (vcl_session_t * session)
1876 {
1877   /* Assumes caller has acquired spinlock: vcm->sessions_lockp */
1878   if (PREDICT_FALSE (session->is_vep))
1879     {
1880       VDBG (0, "session %u [0x%llx]: cannot write to an epoll session!",
1881             session->session_index, session->vpp_handle);
1882       return VPPCOM_EBADFD;
1883     }
1884
1885   if (PREDICT_FALSE (session->session_state & STATE_LISTEN))
1886     {
1887       if (session->tx_fifo)
1888         return svm_fifo_max_enqueue (session->tx_fifo);
1889       else
1890         return VPPCOM_EBADFD;
1891     }
1892
1893   if (PREDICT_FALSE (!(session->session_state & STATE_OPEN)))
1894     {
1895       session_state_t state = session->session_state;
1896       int rv;
1897
1898       rv = ((state & STATE_DISCONNECT) ? VPPCOM_ECONNRESET : VPPCOM_ENOTCONN);
1899       VDBG (0, "session %u [0x%llx]: session is not open! state 0x%x (%s), "
1900             "returning %d (%s)", session->session_index, session->vpp_handle,
1901             state, vppcom_session_state_str (state), rv,
1902             vppcom_retval_str (rv));
1903       return rv;
1904     }
1905
1906   return svm_fifo_max_enqueue (session->tx_fifo);
1907 }
1908
1909 #define vcl_fifo_rx_evt_valid_or_break(_fifo)                   \
1910 if (PREDICT_FALSE (svm_fifo_is_empty (_fifo)))                  \
1911   {                                                             \
1912     svm_fifo_unset_event (_fifo);                               \
1913     if (svm_fifo_is_empty (_fifo))                              \
1914       break;                                                    \
1915   }                                                             \
1916
1917 static void
1918 vcl_select_handle_mq_event (vcl_worker_t * wrk, session_event_t * e,
1919                             unsigned long n_bits, unsigned long *read_map,
1920                             unsigned long *write_map,
1921                             unsigned long *except_map, u32 * bits_set)
1922 {
1923   session_disconnected_msg_t *disconnected_msg;
1924   session_connected_msg_t *connected_msg;
1925   vcl_session_t *session;
1926   u32 sid;
1927
1928   switch (e->event_type)
1929     {
1930     case FIFO_EVENT_APP_RX:
1931       vcl_fifo_rx_evt_valid_or_break (e->fifo);
1932       sid = e->fifo->client_session_index;
1933       session = vcl_session_get (wrk, sid);
1934       if (!session)
1935         break;
1936       if (sid < n_bits && read_map)
1937         {
1938           clib_bitmap_set_no_check ((uword *) read_map, sid, 1);
1939           *bits_set += 1;
1940         }
1941       break;
1942     case FIFO_EVENT_APP_TX:
1943       sid = e->fifo->client_session_index;
1944       session = vcl_session_get (wrk, sid);
1945       if (!session)
1946         break;
1947       if (sid < n_bits && write_map)
1948         {
1949           clib_bitmap_set_no_check ((uword *) write_map, sid, 1);
1950           *bits_set += 1;
1951         }
1952       break;
1953     case SESSION_IO_EVT_CT_TX:
1954       vcl_fifo_rx_evt_valid_or_break (e->fifo);
1955       session = vcl_ct_session_get_from_fifo (wrk, e->fifo, 0);
1956       if (!session)
1957         break;
1958       sid = session->session_index;
1959       if (sid < n_bits && read_map)
1960         {
1961           clib_bitmap_set_no_check ((uword *) read_map, sid, 1);
1962           *bits_set += 1;
1963         }
1964       break;
1965     case SESSION_IO_EVT_CT_RX:
1966       session = vcl_ct_session_get_from_fifo (wrk, e->fifo, 1);
1967       if (!session)
1968         break;
1969       sid = session->session_index;
1970       if (sid < n_bits && write_map)
1971         {
1972           clib_bitmap_set_no_check ((uword *) write_map, sid, 1);
1973           *bits_set += 1;
1974         }
1975       break;
1976     case SESSION_CTRL_EVT_ACCEPTED:
1977       session = vcl_session_accepted (wrk,
1978                                       (session_accepted_msg_t *) e->data);
1979       if (!session)
1980         break;
1981       sid = session->session_index;
1982       if (sid < n_bits && read_map)
1983         {
1984           clib_bitmap_set_no_check ((uword *) read_map, sid, 1);
1985           *bits_set += 1;
1986         }
1987       break;
1988     case SESSION_CTRL_EVT_CONNECTED:
1989       connected_msg = (session_connected_msg_t *) e->data;
1990       vcl_session_connected_handler (wrk, connected_msg);
1991       break;
1992     case SESSION_CTRL_EVT_DISCONNECTED:
1993       disconnected_msg = (session_disconnected_msg_t *) e->data;
1994       session = vcl_session_disconnected_handler (wrk, disconnected_msg);
1995       if (!session)
1996         break;
1997       sid = session->session_index;
1998       if (sid < n_bits && except_map)
1999         {
2000           clib_bitmap_set_no_check ((uword *) except_map, sid, 1);
2001           *bits_set += 1;
2002         }
2003       break;
2004     case SESSION_CTRL_EVT_RESET:
2005       sid = vcl_session_reset_handler (wrk, (session_reset_msg_t *) e->data);
2006       if (sid < n_bits && except_map)
2007         {
2008           clib_bitmap_set_no_check ((uword *) except_map, sid, 1);
2009           *bits_set += 1;
2010         }
2011       break;
2012     case SESSION_CTRL_EVT_WORKER_UPDATE_REPLY:
2013       vcl_session_worker_update_reply_handler (wrk, e->data);
2014       break;
2015     case SESSION_CTRL_EVT_REQ_WORKER_UPDATE:
2016       vcl_session_req_worker_update_handler (wrk, e->data);
2017       break;
2018     default:
2019       clib_warning ("unhandled: %u", e->event_type);
2020       break;
2021     }
2022 }
2023
2024 static int
2025 vcl_select_handle_mq (vcl_worker_t * wrk, svm_msg_q_t * mq,
2026                       unsigned long n_bits, unsigned long *read_map,
2027                       unsigned long *write_map, unsigned long *except_map,
2028                       double time_to_wait, u32 * bits_set)
2029 {
2030   svm_msg_q_msg_t *msg;
2031   session_event_t *e;
2032   u32 i;
2033
2034   svm_msg_q_lock (mq);
2035   if (svm_msg_q_is_empty (mq))
2036     {
2037       if (*bits_set)
2038         {
2039           svm_msg_q_unlock (mq);
2040           return 0;
2041         }
2042
2043       if (!time_to_wait)
2044         {
2045           svm_msg_q_unlock (mq);
2046           return 0;
2047         }
2048       else if (time_to_wait < 0)
2049         {
2050           svm_msg_q_wait (mq);
2051         }
2052       else
2053         {
2054           if (svm_msg_q_timedwait (mq, time_to_wait))
2055             {
2056               svm_msg_q_unlock (mq);
2057               return 0;
2058             }
2059         }
2060     }
2061   vcl_mq_dequeue_batch (wrk, mq);
2062   svm_msg_q_unlock (mq);
2063
2064   for (i = 0; i < vec_len (wrk->mq_msg_vector); i++)
2065     {
2066       msg = vec_elt_at_index (wrk->mq_msg_vector, i);
2067       e = svm_msg_q_msg_data (mq, msg);
2068       vcl_select_handle_mq_event (wrk, e, n_bits, read_map, write_map,
2069                                   except_map, bits_set);
2070       svm_msg_q_free_msg (mq, msg);
2071     }
2072   vec_reset_length (wrk->mq_msg_vector);
2073   vcl_handle_pending_wrk_updates (wrk);
2074   return *bits_set;
2075 }
2076
2077 static int
2078 vppcom_select_condvar (vcl_worker_t * wrk, int n_bits,
2079                        vcl_si_set * read_map, vcl_si_set * write_map,
2080                        vcl_si_set * except_map, double time_to_wait,
2081                        u32 * bits_set)
2082 {
2083   double total_wait = 0, wait_slice;
2084   vcl_cut_through_registration_t *cr;
2085
2086   time_to_wait = (time_to_wait == -1) ? 1e6 : time_to_wait;
2087   wait_slice = wrk->cut_through_registrations ? 10e-6 : time_to_wait;
2088   do
2089     {
2090       vcl_ct_registration_lock (wrk);
2091       /* *INDENT-OFF* */
2092       pool_foreach (cr, wrk->cut_through_registrations, ({
2093         vcl_select_handle_mq (wrk, cr->mq, n_bits, read_map, write_map, except_map,
2094                               0, bits_set);
2095       }));
2096       /* *INDENT-ON* */
2097       vcl_ct_registration_unlock (wrk);
2098
2099       vcl_select_handle_mq (wrk, wrk->app_event_queue, n_bits, read_map,
2100                             write_map, except_map, wait_slice, bits_set);
2101       total_wait += wait_slice;
2102       if (*bits_set)
2103         return *bits_set;
2104     }
2105   while (total_wait < time_to_wait);
2106
2107   return 0;
2108 }
2109
2110 static int
2111 vppcom_select_eventfd (vcl_worker_t * wrk, int n_bits,
2112                        vcl_si_set * read_map, vcl_si_set * write_map,
2113                        vcl_si_set * except_map, double time_to_wait,
2114                        u32 * bits_set)
2115 {
2116   vcl_mq_evt_conn_t *mqc;
2117   int __clib_unused n_read;
2118   int n_mq_evts, i;
2119   u64 buf;
2120
2121   vec_validate (wrk->mq_events, pool_elts (wrk->mq_evt_conns));
2122   n_mq_evts = epoll_wait (wrk->mqs_epfd, wrk->mq_events,
2123                           vec_len (wrk->mq_events), time_to_wait);
2124   for (i = 0; i < n_mq_evts; i++)
2125     {
2126       mqc = vcl_mq_evt_conn_get (wrk, wrk->mq_events[i].data.u32);
2127       n_read = read (mqc->mq_fd, &buf, sizeof (buf));
2128       vcl_select_handle_mq (wrk, mqc->mq, n_bits, read_map, write_map,
2129                             except_map, 0, bits_set);
2130     }
2131
2132   return (n_mq_evts > 0 ? (int) *bits_set : 0);
2133 }
2134
2135 int
2136 vppcom_select (int n_bits, vcl_si_set * read_map, vcl_si_set * write_map,
2137                vcl_si_set * except_map, double time_to_wait)
2138 {
2139   u32 sid, minbits = clib_max (n_bits, BITS (uword)), bits_set = 0;
2140   vcl_worker_t *wrk = vcl_worker_get_current ();
2141   vcl_session_t *session = 0;
2142   int rv, i;
2143
2144   if (n_bits && read_map)
2145     {
2146       clib_bitmap_validate (wrk->rd_bitmap, minbits);
2147       clib_memcpy_fast (wrk->rd_bitmap, read_map,
2148                         vec_len (wrk->rd_bitmap) * sizeof (vcl_si_set));
2149       memset (read_map, 0, vec_len (wrk->rd_bitmap) * sizeof (vcl_si_set));
2150     }
2151   if (n_bits && write_map)
2152     {
2153       clib_bitmap_validate (wrk->wr_bitmap, minbits);
2154       clib_memcpy_fast (wrk->wr_bitmap, write_map,
2155                         vec_len (wrk->wr_bitmap) * sizeof (vcl_si_set));
2156       memset (write_map, 0, vec_len (wrk->wr_bitmap) * sizeof (vcl_si_set));
2157     }
2158   if (n_bits && except_map)
2159     {
2160       clib_bitmap_validate (wrk->ex_bitmap, minbits);
2161       clib_memcpy_fast (wrk->ex_bitmap, except_map,
2162                         vec_len (wrk->ex_bitmap) * sizeof (vcl_si_set));
2163       memset (except_map, 0, vec_len (wrk->ex_bitmap) * sizeof (vcl_si_set));
2164     }
2165
2166   if (!n_bits)
2167     return 0;
2168
2169   if (!write_map)
2170     goto check_rd;
2171
2172   /* *INDENT-OFF* */
2173   clib_bitmap_foreach (sid, wrk->wr_bitmap, ({
2174     if (!(session = vcl_session_get (wrk, sid)))
2175       {
2176         if (except_map && sid < minbits)
2177           clib_bitmap_set_no_check (except_map, sid, 1);
2178         continue;
2179       }
2180
2181     rv = svm_fifo_is_full (session->tx_fifo);
2182     if (!rv)
2183       {
2184         clib_bitmap_set_no_check ((uword*)write_map, sid, 1);
2185         bits_set++;
2186       }
2187     else
2188       svm_fifo_add_want_tx_ntf (session->tx_fifo, SVM_FIFO_WANT_TX_NOTIF);
2189   }));
2190
2191 check_rd:
2192   if (!read_map)
2193     goto check_mq;
2194
2195   clib_bitmap_foreach (sid, wrk->rd_bitmap, ({
2196     if (!(session = vcl_session_get (wrk, sid)))
2197       {
2198         if (except_map && sid < minbits)
2199           clib_bitmap_set_no_check (except_map, sid, 1);
2200         continue;
2201       }
2202
2203     rv = vppcom_session_read_ready (session);
2204     if (rv)
2205       {
2206         clib_bitmap_set_no_check ((uword*)read_map, sid, 1);
2207         bits_set++;
2208       }
2209   }));
2210   /* *INDENT-ON* */
2211
2212 check_mq:
2213
2214   for (i = 0; i < vec_len (wrk->unhandled_evts_vector); i++)
2215     {
2216       vcl_select_handle_mq_event (wrk, &wrk->unhandled_evts_vector[i], n_bits,
2217                                   read_map, write_map, except_map, &bits_set);
2218     }
2219   vec_reset_length (wrk->unhandled_evts_vector);
2220
2221   if (vcm->cfg.use_mq_eventfd)
2222     vppcom_select_eventfd (wrk, n_bits, read_map, write_map, except_map,
2223                            time_to_wait, &bits_set);
2224   else
2225     vppcom_select_condvar (wrk, n_bits, read_map, write_map, except_map,
2226                            time_to_wait, &bits_set);
2227
2228   return (bits_set);
2229 }
2230
2231 static inline void
2232 vep_verify_epoll_chain (vcl_worker_t * wrk, u32 vep_idx)
2233 {
2234   vcl_session_t *session;
2235   vppcom_epoll_t *vep;
2236   u32 sid = vep_idx;
2237
2238   if (VPPCOM_DEBUG <= 1)
2239     return;
2240
2241   /* Assumes caller has acquired spinlock: vcm->sessions_lockp */
2242   session = vcl_session_get (wrk, vep_idx);
2243   if (PREDICT_FALSE (!session))
2244     {
2245       clib_warning ("VCL<%d>: ERROR: Invalid vep_idx (%u)!",
2246                     getpid (), vep_idx);
2247       goto done;
2248     }
2249   if (PREDICT_FALSE (!session->is_vep))
2250     {
2251       clib_warning ("VCL<%d>: ERROR: vep_idx (%u) is not a vep!",
2252                     getpid (), vep_idx);
2253       goto done;
2254     }
2255   vep = &session->vep;
2256   clib_warning ("VCL<%d>: vep_idx (%u): Dumping epoll chain\n"
2257                 "{\n"
2258                 "   is_vep         = %u\n"
2259                 "   is_vep_session = %u\n"
2260                 "   next_sid       = 0x%x (%u)\n"
2261                 "   wait_cont_idx  = 0x%x (%u)\n"
2262                 "}\n", getpid (), vep_idx,
2263                 session->is_vep, session->is_vep_session,
2264                 vep->next_sh, vep->next_sh,
2265                 session->wait_cont_idx, session->wait_cont_idx);
2266
2267   for (sid = vep->next_sh; sid != ~0; sid = vep->next_sh)
2268     {
2269       session = vcl_session_get (wrk, sid);
2270       if (PREDICT_FALSE (!session))
2271         {
2272           clib_warning ("VCL<%d>: ERROR: Invalid sid (%u)!", getpid (), sid);
2273           goto done;
2274         }
2275       if (PREDICT_FALSE (session->is_vep))
2276         clib_warning ("VCL<%d>: ERROR: sid (%u) is a vep!",
2277                       getpid (), vep_idx);
2278       else if (PREDICT_FALSE (!session->is_vep_session))
2279         {
2280           clib_warning ("VCL<%d>: ERROR: session (%u) "
2281                         "is not a vep session!", getpid (), sid);
2282           goto done;
2283         }
2284       vep = &session->vep;
2285       if (PREDICT_FALSE (vep->vep_sh != vep_idx))
2286         clib_warning ("VCL<%d>: ERROR: session (%u) vep_idx (%u) != "
2287                       "vep_idx (%u)!", getpid (),
2288                       sid, session->vep.vep_sh, vep_idx);
2289       if (session->is_vep_session)
2290         {
2291           clib_warning ("vep_idx[%u]: sid 0x%x (%u)\n"
2292                         "{\n"
2293                         "   next_sid       = 0x%x (%u)\n"
2294                         "   prev_sid       = 0x%x (%u)\n"
2295                         "   vep_idx        = 0x%x (%u)\n"
2296                         "   ev.events      = 0x%x\n"
2297                         "   ev.data.u64    = 0x%llx\n"
2298                         "   et_mask        = 0x%x\n"
2299                         "}\n",
2300                         vep_idx, sid, sid,
2301                         vep->next_sh, vep->next_sh,
2302                         vep->prev_sh, vep->prev_sh,
2303                         vep->vep_sh, vep->vep_sh,
2304                         vep->ev.events, vep->ev.data.u64, vep->et_mask);
2305         }
2306     }
2307
2308 done:
2309   clib_warning ("VCL<%d>: vep_idx (%u): Dump complete!\n",
2310                 getpid (), vep_idx);
2311 }
2312
2313 int
2314 vppcom_epoll_create (void)
2315 {
2316   vcl_worker_t *wrk = vcl_worker_get_current ();
2317   vcl_session_t *vep_session;
2318
2319   vep_session = vcl_session_alloc (wrk);
2320
2321   vep_session->is_vep = 1;
2322   vep_session->vep.vep_sh = ~0;
2323   vep_session->vep.next_sh = ~0;
2324   vep_session->vep.prev_sh = ~0;
2325   vep_session->wait_cont_idx = ~0;
2326   vep_session->vpp_handle = ~0;
2327
2328   vcl_evt (VCL_EVT_EPOLL_CREATE, vep_session, vep_session->session_index);
2329   VDBG (0, "Created vep_idx %u", vep_session->session_index);
2330
2331   return vcl_session_handle (vep_session);
2332 }
2333
2334 int
2335 vppcom_epoll_ctl (uint32_t vep_handle, int op, uint32_t session_handle,
2336                   struct epoll_event *event)
2337 {
2338   vcl_worker_t *wrk = vcl_worker_get_current ();
2339   vcl_session_t *vep_session;
2340   vcl_session_t *session;
2341   int rv = VPPCOM_OK;
2342
2343   if (vep_handle == session_handle)
2344     {
2345       VDBG (0, "vep_sh == session handle (%u)!", vep_handle);
2346       return VPPCOM_EINVAL;
2347     }
2348
2349   vep_session = vcl_session_get_w_handle (wrk, vep_handle);
2350   if (PREDICT_FALSE (!vep_session))
2351     {
2352       VDBG (0, "Invalid vep_sh (%u)!", vep_handle);
2353       return VPPCOM_EBADFD;
2354     }
2355   if (PREDICT_FALSE (!vep_session->is_vep))
2356     {
2357       VDBG (0, "vep_sh (%u) is not a vep!", vep_handle);
2358       return VPPCOM_EINVAL;
2359     }
2360
2361   ASSERT (vep_session->vep.vep_sh == ~0);
2362   ASSERT (vep_session->vep.prev_sh == ~0);
2363
2364   session = vcl_session_get_w_handle (wrk, session_handle);
2365   if (PREDICT_FALSE (!session))
2366     {
2367       VDBG (0, "Invalid session_handle (%u)!", session_handle);
2368       return VPPCOM_EBADFD;
2369     }
2370   if (PREDICT_FALSE (session->is_vep))
2371     {
2372       VDBG (0, "session_handle (%u) is a vep!", vep_handle);
2373       return VPPCOM_EINVAL;
2374     }
2375
2376   switch (op)
2377     {
2378     case EPOLL_CTL_ADD:
2379       if (PREDICT_FALSE (!event))
2380         {
2381           VDBG (0, "EPOLL_CTL_ADD: NULL pointer to epoll_event structure!");
2382           return VPPCOM_EINVAL;
2383         }
2384       if (vep_session->vep.next_sh != ~0)
2385         {
2386           vcl_session_t *next_session;
2387           next_session = vcl_session_get_w_handle (wrk,
2388                                                    vep_session->vep.next_sh);
2389           if (PREDICT_FALSE (!next_session))
2390             {
2391               VDBG (0, "EPOLL_CTL_ADD: Invalid vep.next_sid (%u) on "
2392                     "vep_idx (%u)!", vep_session->vep.next_sh, vep_handle);
2393               return VPPCOM_EBADFD;
2394             }
2395           ASSERT (next_session->vep.prev_sh == vep_handle);
2396           next_session->vep.prev_sh = session_handle;
2397         }
2398       session->vep.next_sh = vep_session->vep.next_sh;
2399       session->vep.prev_sh = vep_handle;
2400       session->vep.vep_sh = vep_handle;
2401       session->vep.et_mask = VEP_DEFAULT_ET_MASK;
2402       session->vep.ev = *event;
2403       session->is_vep = 0;
2404       session->is_vep_session = 1;
2405       vep_session->vep.next_sh = session_handle;
2406
2407       if (session->tx_fifo)
2408         svm_fifo_add_want_tx_ntf (session->tx_fifo,
2409                                   SVM_FIFO_WANT_TX_NOTIF_IF_FULL);
2410
2411       VDBG (1, "EPOLL_CTL_ADD: vep_sh %u, sh %u, events 0x%x, data 0x%llx!",
2412             vep_handle, session_handle, event->events, event->data.u64);
2413       vcl_evt (VCL_EVT_EPOLL_CTLADD, session, event->events, event->data.u64);
2414       break;
2415
2416     case EPOLL_CTL_MOD:
2417       if (PREDICT_FALSE (!event))
2418         {
2419           VDBG (0, "EPOLL_CTL_MOD: NULL pointer to epoll_event structure!");
2420           rv = VPPCOM_EINVAL;
2421           goto done;
2422         }
2423       else if (PREDICT_FALSE (!session->is_vep_session))
2424         {
2425           VDBG (0, "sid %u EPOLL_CTL_MOD: not a vep session!",
2426                 session_handle);
2427           rv = VPPCOM_EINVAL;
2428           goto done;
2429         }
2430       else if (PREDICT_FALSE (session->vep.vep_sh != vep_handle))
2431         {
2432           VDBG (0, "EPOLL_CTL_MOD: sh %u vep_sh (%u) != vep_sh (%u)!",
2433                 session_handle, session->vep.vep_sh, vep_handle);
2434           rv = VPPCOM_EINVAL;
2435           goto done;
2436         }
2437       session->vep.et_mask = VEP_DEFAULT_ET_MASK;
2438       session->vep.ev = *event;
2439       VDBG (1, "EPOLL_CTL_MOD: vep_sh %u, sh %u, events 0x%x, data 0x%llx!",
2440             vep_handle, session_handle, event->events, event->data.u64);
2441       break;
2442
2443     case EPOLL_CTL_DEL:
2444       if (PREDICT_FALSE (!session->is_vep_session))
2445         {
2446           VDBG (0, "EPOLL_CTL_DEL: %u not a vep session!", session_handle);
2447           rv = VPPCOM_EINVAL;
2448           goto done;
2449         }
2450       else if (PREDICT_FALSE (session->vep.vep_sh != vep_handle))
2451         {
2452           VDBG (0, "EPOLL_CTL_DEL: sh %u vep_sh (%u) != vep_sh (%u)!",
2453                 session_handle, session->vep.vep_sh, vep_handle);
2454           rv = VPPCOM_EINVAL;
2455           goto done;
2456         }
2457
2458       vep_session->wait_cont_idx =
2459         (vep_session->wait_cont_idx == session_handle) ?
2460         session->vep.next_sh : vep_session->wait_cont_idx;
2461
2462       if (session->vep.prev_sh == vep_handle)
2463         vep_session->vep.next_sh = session->vep.next_sh;
2464       else
2465         {
2466           vcl_session_t *prev_session;
2467           prev_session = vcl_session_get_w_handle (wrk, session->vep.prev_sh);
2468           if (PREDICT_FALSE (!prev_session))
2469             {
2470               VDBG (0, "EPOLL_CTL_DEL: Invalid prev_sid (%u) on sid (%u)!",
2471                     session->vep.prev_sh, session_handle);
2472               return VPPCOM_EBADFD;
2473             }
2474           ASSERT (prev_session->vep.next_sh == session_handle);
2475           prev_session->vep.next_sh = session->vep.next_sh;
2476         }
2477       if (session->vep.next_sh != ~0)
2478         {
2479           vcl_session_t *next_session;
2480           next_session = vcl_session_get_w_handle (wrk, session->vep.next_sh);
2481           if (PREDICT_FALSE (!next_session))
2482             {
2483               VDBG (0, "EPOLL_CTL_DEL: Invalid next_sid (%u) on sid (%u)!",
2484                     session->vep.next_sh, session_handle);
2485               return VPPCOM_EBADFD;
2486             }
2487           ASSERT (next_session->vep.prev_sh == session_handle);
2488           next_session->vep.prev_sh = session->vep.prev_sh;
2489         }
2490
2491       memset (&session->vep, 0, sizeof (session->vep));
2492       session->vep.next_sh = ~0;
2493       session->vep.prev_sh = ~0;
2494       session->vep.vep_sh = ~0;
2495       session->is_vep_session = 0;
2496
2497       if (session->tx_fifo)
2498         svm_fifo_del_want_tx_ntf (session->tx_fifo, SVM_FIFO_NO_TX_NOTIF);
2499
2500       VDBG (1, "EPOLL_CTL_DEL: vep_idx %u, sid %u!", vep_handle,
2501             session_handle);
2502       vcl_evt (VCL_EVT_EPOLL_CTLDEL, session, vep_sh);
2503       break;
2504
2505     default:
2506       VDBG (0, "Invalid operation (%d)!", op);
2507       rv = VPPCOM_EINVAL;
2508     }
2509
2510   vep_verify_epoll_chain (wrk, vep_handle);
2511
2512 done:
2513   return rv;
2514 }
2515
2516 static inline void
2517 vcl_epoll_wait_handle_mq_event (vcl_worker_t * wrk, session_event_t * e,
2518                                 struct epoll_event *events, u32 * num_ev)
2519 {
2520   session_disconnected_msg_t *disconnected_msg;
2521   session_connected_msg_t *connected_msg;
2522   u32 sid = ~0, session_events;
2523   u64 session_evt_data = ~0;
2524   vcl_session_t *session;
2525   u8 add_event = 0;
2526
2527   switch (e->event_type)
2528     {
2529     case FIFO_EVENT_APP_RX:
2530       ASSERT (e->fifo->client_thread_index == vcl_get_worker_index ());
2531       vcl_fifo_rx_evt_valid_or_break (e->fifo);
2532       sid = e->fifo->client_session_index;
2533       if (!(session = vcl_session_get (wrk, sid)))
2534         break;
2535       session_events = session->vep.ev.events;
2536       if (!(EPOLLIN & session->vep.ev.events) || session->has_rx_evt)
2537         break;
2538       add_event = 1;
2539       events[*num_ev].events |= EPOLLIN;
2540       session_evt_data = session->vep.ev.data.u64;
2541       session->has_rx_evt = 1;
2542       break;
2543     case FIFO_EVENT_APP_TX:
2544       sid = e->fifo->client_session_index;
2545       if (!(session = vcl_session_get (wrk, sid)))
2546         break;
2547       session_events = session->vep.ev.events;
2548       if (!(EPOLLOUT & session_events))
2549         break;
2550       add_event = 1;
2551       events[*num_ev].events |= EPOLLOUT;
2552       session_evt_data = session->vep.ev.data.u64;
2553       svm_fifo_reset_tx_ntf (session->tx_fifo);
2554       break;
2555     case SESSION_IO_EVT_CT_TX:
2556       vcl_fifo_rx_evt_valid_or_break (e->fifo);
2557       session = vcl_ct_session_get_from_fifo (wrk, e->fifo, 0);
2558       if (PREDICT_FALSE (!session))
2559         break;
2560       sid = session->session_index;
2561       session_events = session->vep.ev.events;
2562       if (!(EPOLLIN & session->vep.ev.events) || session->has_rx_evt)
2563         break;
2564       add_event = 1;
2565       events[*num_ev].events |= EPOLLIN;
2566       session_evt_data = session->vep.ev.data.u64;
2567       session->has_rx_evt = 1;
2568       break;
2569     case SESSION_IO_EVT_CT_RX:
2570       session = vcl_ct_session_get_from_fifo (wrk, e->fifo, 1);
2571       if (PREDICT_FALSE (!session))
2572         break;
2573       sid = session->session_index;
2574       session_events = session->vep.ev.events;
2575       if (!(EPOLLOUT & session_events))
2576         break;
2577       add_event = 1;
2578       events[*num_ev].events |= EPOLLOUT;
2579       session_evt_data = session->vep.ev.data.u64;
2580       svm_fifo_reset_tx_ntf (session->tx_fifo);
2581       break;
2582     case SESSION_CTRL_EVT_ACCEPTED:
2583       session = vcl_session_accepted (wrk,
2584                                       (session_accepted_msg_t *) e->data);
2585       if (!session)
2586         break;
2587
2588       session_events = session->vep.ev.events;
2589       if (!(EPOLLIN & session_events))
2590         break;
2591
2592       add_event = 1;
2593       events[*num_ev].events |= EPOLLIN;
2594       session_evt_data = session->vep.ev.data.u64;
2595       break;
2596     case SESSION_CTRL_EVT_CONNECTED:
2597       connected_msg = (session_connected_msg_t *) e->data;
2598       vcl_session_connected_handler (wrk, connected_msg);
2599       /* Generate EPOLLOUT because there's no connected event */
2600       sid = vcl_session_index_from_vpp_handle (wrk, connected_msg->handle);
2601       if (!(session = vcl_session_get (wrk, sid)))
2602         break;
2603       session_events = session->vep.ev.events;
2604       if (!(EPOLLOUT & session_events))
2605         break;
2606       add_event = 1;
2607       events[*num_ev].events |= EPOLLOUT;
2608       session_evt_data = session->vep.ev.data.u64;
2609       break;
2610     case SESSION_CTRL_EVT_DISCONNECTED:
2611       disconnected_msg = (session_disconnected_msg_t *) e->data;
2612       session = vcl_session_disconnected_handler (wrk, disconnected_msg);
2613       if (!session)
2614         break;
2615       session_events = session->vep.ev.events;
2616       if (!((EPOLLHUP | EPOLLRDHUP) & session_events))
2617         break;
2618       add_event = 1;
2619       events[*num_ev].events |= EPOLLHUP | EPOLLRDHUP;
2620       session_evt_data = session->vep.ev.data.u64;
2621       break;
2622     case SESSION_CTRL_EVT_RESET:
2623       sid = vcl_session_reset_handler (wrk, (session_reset_msg_t *) e->data);
2624       if (!(session = vcl_session_get (wrk, sid)))
2625         break;
2626       session_events = session->vep.ev.events;
2627       if (!((EPOLLHUP | EPOLLRDHUP) & session_events))
2628         break;
2629       add_event = 1;
2630       events[*num_ev].events |= EPOLLHUP | EPOLLRDHUP;
2631       session_evt_data = session->vep.ev.data.u64;
2632       break;
2633     case SESSION_CTRL_EVT_REQ_WORKER_UPDATE:
2634       vcl_session_req_worker_update_handler (wrk, e->data);
2635       break;
2636     case SESSION_CTRL_EVT_WORKER_UPDATE_REPLY:
2637       vcl_session_worker_update_reply_handler (wrk, e->data);
2638       break;
2639     default:
2640       VDBG (0, "unhandled: %u", e->event_type);
2641       break;
2642     }
2643
2644   if (add_event)
2645     {
2646       events[*num_ev].data.u64 = session_evt_data;
2647       if (EPOLLONESHOT & session_events)
2648         {
2649           session = vcl_session_get (wrk, sid);
2650           session->vep.ev.events = 0;
2651         }
2652       *num_ev += 1;
2653     }
2654 }
2655
2656 static int
2657 vcl_epoll_wait_handle_mq (vcl_worker_t * wrk, svm_msg_q_t * mq,
2658                           struct epoll_event *events, u32 maxevents,
2659                           double wait_for_time, u32 * num_ev)
2660 {
2661   svm_msg_q_msg_t *msg;
2662   session_event_t *e;
2663   int i;
2664
2665   if (vec_len (wrk->mq_msg_vector) && svm_msg_q_is_empty (mq))
2666     goto handle_dequeued;
2667
2668   svm_msg_q_lock (mq);
2669   if (svm_msg_q_is_empty (mq))
2670     {
2671       if (!wait_for_time)
2672         {
2673           svm_msg_q_unlock (mq);
2674           return 0;
2675         }
2676       else if (wait_for_time < 0)
2677         {
2678           svm_msg_q_wait (mq);
2679         }
2680       else
2681         {
2682           if (svm_msg_q_timedwait (mq, wait_for_time / 1e3))
2683             {
2684               svm_msg_q_unlock (mq);
2685               return 0;
2686             }
2687         }
2688     }
2689   vcl_mq_dequeue_batch (wrk, mq);
2690   svm_msg_q_unlock (mq);
2691
2692 handle_dequeued:
2693   for (i = 0; i < vec_len (wrk->mq_msg_vector); i++)
2694     {
2695       msg = vec_elt_at_index (wrk->mq_msg_vector, i);
2696       e = svm_msg_q_msg_data (mq, msg);
2697       if (*num_ev < maxevents)
2698         vcl_epoll_wait_handle_mq_event (wrk, e, events, num_ev);
2699       else
2700         vec_add1 (wrk->unhandled_evts_vector, *e);
2701       svm_msg_q_free_msg (mq, msg);
2702     }
2703   vec_reset_length (wrk->mq_msg_vector);
2704   vcl_handle_pending_wrk_updates (wrk);
2705   return *num_ev;
2706 }
2707
2708 static int
2709 vppcom_epoll_wait_condvar (vcl_worker_t * wrk, struct epoll_event *events,
2710                            int maxevents, u32 n_evts, double wait_for_time)
2711 {
2712   vcl_cut_through_registration_t *cr;
2713   double total_wait = 0, wait_slice;
2714   int rv;
2715
2716   wait_for_time = (wait_for_time == -1) ? (double) 1e6 : wait_for_time;
2717   wait_slice = wrk->cut_through_registrations ? 10e-6 : wait_for_time;
2718
2719   do
2720     {
2721       vcl_ct_registration_lock (wrk);
2722       /* *INDENT-OFF* */
2723       pool_foreach (cr, wrk->cut_through_registrations, ({
2724         vcl_epoll_wait_handle_mq (wrk, cr->mq, events, maxevents, 0, &n_evts);
2725       }));
2726       /* *INDENT-ON* */
2727       vcl_ct_registration_unlock (wrk);
2728
2729       rv = vcl_epoll_wait_handle_mq (wrk, wrk->app_event_queue, events,
2730                                      maxevents, n_evts ? 0 : wait_slice,
2731                                      &n_evts);
2732       if (rv)
2733         total_wait += wait_slice;
2734       if (n_evts)
2735         return n_evts;
2736     }
2737   while (total_wait < wait_for_time);
2738   return n_evts;
2739 }
2740
2741 static int
2742 vppcom_epoll_wait_eventfd (vcl_worker_t * wrk, struct epoll_event *events,
2743                            int maxevents, u32 n_evts, double wait_for_time)
2744 {
2745   vcl_mq_evt_conn_t *mqc;
2746   int __clib_unused n_read;
2747   int n_mq_evts, i;
2748   u64 buf;
2749
2750   vec_validate (wrk->mq_events, pool_elts (wrk->mq_evt_conns));
2751 again:
2752   n_mq_evts = epoll_wait (wrk->mqs_epfd, wrk->mq_events,
2753                           vec_len (wrk->mq_events), wait_for_time);
2754   for (i = 0; i < n_mq_evts; i++)
2755     {
2756       mqc = vcl_mq_evt_conn_get (wrk, wrk->mq_events[i].data.u32);
2757       n_read = read (mqc->mq_fd, &buf, sizeof (buf));
2758       vcl_epoll_wait_handle_mq (wrk, mqc->mq, events, maxevents, 0, &n_evts);
2759     }
2760   if (!n_evts && n_mq_evts > 0)
2761     goto again;
2762
2763   return (int) n_evts;
2764 }
2765
2766 int
2767 vppcom_epoll_wait (uint32_t vep_handle, struct epoll_event *events,
2768                    int maxevents, double wait_for_time)
2769 {
2770   vcl_worker_t *wrk = vcl_worker_get_current ();
2771   vcl_session_t *vep_session;
2772   u32 n_evts = 0;
2773   int i;
2774
2775   if (PREDICT_FALSE (maxevents <= 0))
2776     {
2777       clib_warning ("VCL<%d>: ERROR: Invalid maxevents (%d)!",
2778                     getpid (), maxevents);
2779       return VPPCOM_EINVAL;
2780     }
2781
2782   vep_session = vcl_session_get_w_handle (wrk, vep_handle);
2783   if (!vep_session)
2784     return VPPCOM_EBADFD;
2785
2786   if (PREDICT_FALSE (!vep_session->is_vep))
2787     {
2788       clib_warning ("VCL<%d>: ERROR: vep_idx (%u) is not a vep!",
2789                     getpid (), vep_handle);
2790       return VPPCOM_EINVAL;
2791     }
2792
2793   memset (events, 0, sizeof (*events) * maxevents);
2794
2795   if (vec_len (wrk->unhandled_evts_vector))
2796     {
2797       for (i = 0; i < vec_len (wrk->unhandled_evts_vector); i++)
2798         {
2799           vcl_epoll_wait_handle_mq_event (wrk, &wrk->unhandled_evts_vector[i],
2800                                           events, &n_evts);
2801           if (n_evts == maxevents)
2802             {
2803               i += 1;
2804               break;
2805             }
2806         }
2807
2808       vec_delete (wrk->unhandled_evts_vector, i, 0);
2809     }
2810
2811   if (vcm->cfg.use_mq_eventfd)
2812     return vppcom_epoll_wait_eventfd (wrk, events, maxevents, n_evts,
2813                                       wait_for_time);
2814
2815   return vppcom_epoll_wait_condvar (wrk, events, maxevents, n_evts,
2816                                     wait_for_time);
2817 }
2818
2819 int
2820 vppcom_session_attr (uint32_t session_handle, uint32_t op,
2821                      void *buffer, uint32_t * buflen)
2822 {
2823   vcl_worker_t *wrk = vcl_worker_get_current ();
2824   vcl_session_t *session;
2825   int rv = VPPCOM_OK;
2826   u32 *flags = buffer, tmp_flags = 0;
2827   vppcom_endpt_t *ep = buffer;
2828
2829   session = vcl_session_get_w_handle (wrk, session_handle);
2830   if (!session)
2831     return VPPCOM_EBADFD;
2832
2833   switch (op)
2834     {
2835     case VPPCOM_ATTR_GET_NREAD:
2836       rv = vppcom_session_read_ready (session);
2837       VDBG (2, "VPPCOM_ATTR_GET_NREAD: sid %u, nread = %d", rv);
2838       break;
2839
2840     case VPPCOM_ATTR_GET_NWRITE:
2841       rv = vppcom_session_write_ready (session);
2842       VDBG (2, "VCL<%d>: VPPCOM_ATTR_GET_NWRITE: sid %u, nwrite = %d",
2843             getpid (), session_handle, rv);
2844       break;
2845
2846     case VPPCOM_ATTR_GET_FLAGS:
2847       if (PREDICT_TRUE (buffer && buflen && (*buflen >= sizeof (*flags))))
2848         {
2849           *flags = O_RDWR | (VCL_SESS_ATTR_TEST (session->attr,
2850                                                  VCL_SESS_ATTR_NONBLOCK));
2851           *buflen = sizeof (*flags);
2852           VDBG (2, "VCL<%d>: VPPCOM_ATTR_GET_FLAGS: sid %u, flags = 0x%08x, "
2853                 "is_nonblocking = %u", getpid (),
2854                 session_handle, *flags,
2855                 VCL_SESS_ATTR_TEST (session->attr, VCL_SESS_ATTR_NONBLOCK));
2856         }
2857       else
2858         rv = VPPCOM_EINVAL;
2859       break;
2860
2861     case VPPCOM_ATTR_SET_FLAGS:
2862       if (PREDICT_TRUE (buffer && buflen && (*buflen == sizeof (*flags))))
2863         {
2864           if (*flags & O_NONBLOCK)
2865             VCL_SESS_ATTR_SET (session->attr, VCL_SESS_ATTR_NONBLOCK);
2866           else
2867             VCL_SESS_ATTR_CLR (session->attr, VCL_SESS_ATTR_NONBLOCK);
2868
2869           VDBG (2, "VCL<%d>: VPPCOM_ATTR_SET_FLAGS: sid %u, flags = 0x%08x,"
2870                 " is_nonblocking = %u",
2871                 getpid (), session_handle, *flags,
2872                 VCL_SESS_ATTR_TEST (session->attr, VCL_SESS_ATTR_NONBLOCK));
2873         }
2874       else
2875         rv = VPPCOM_EINVAL;
2876       break;
2877
2878     case VPPCOM_ATTR_GET_PEER_ADDR:
2879       if (PREDICT_TRUE (buffer && buflen &&
2880                         (*buflen >= sizeof (*ep)) && ep->ip))
2881         {
2882           ep->is_ip4 = session->transport.is_ip4;
2883           ep->port = session->transport.rmt_port;
2884           if (session->transport.is_ip4)
2885             clib_memcpy_fast (ep->ip, &session->transport.rmt_ip.ip4,
2886                               sizeof (ip4_address_t));
2887           else
2888             clib_memcpy_fast (ep->ip, &session->transport.rmt_ip.ip6,
2889                               sizeof (ip6_address_t));
2890           *buflen = sizeof (*ep);
2891           VDBG (1, "VCL<%d>: VPPCOM_ATTR_GET_PEER_ADDR: sid %u, is_ip4 = %u, "
2892                 "addr = %U, port %u", getpid (),
2893                 session_handle, ep->is_ip4, format_ip46_address,
2894                 &session->transport.rmt_ip,
2895                 ep->is_ip4 ? IP46_TYPE_IP4 : IP46_TYPE_IP6,
2896                 clib_net_to_host_u16 (ep->port));
2897         }
2898       else
2899         rv = VPPCOM_EINVAL;
2900       break;
2901
2902     case VPPCOM_ATTR_GET_LCL_ADDR:
2903       if (PREDICT_TRUE (buffer && buflen &&
2904                         (*buflen >= sizeof (*ep)) && ep->ip))
2905         {
2906           ep->is_ip4 = session->transport.is_ip4;
2907           ep->port = session->transport.lcl_port;
2908           if (session->transport.is_ip4)
2909             clib_memcpy_fast (ep->ip, &session->transport.lcl_ip.ip4,
2910                               sizeof (ip4_address_t));
2911           else
2912             clib_memcpy_fast (ep->ip, &session->transport.lcl_ip.ip6,
2913                               sizeof (ip6_address_t));
2914           *buflen = sizeof (*ep);
2915           VDBG (1, "VCL<%d>: VPPCOM_ATTR_GET_LCL_ADDR: sid %u, is_ip4 = %u,"
2916                 " addr = %U port %d", getpid (),
2917                 session_handle, ep->is_ip4, format_ip46_address,
2918                 &session->transport.lcl_ip,
2919                 ep->is_ip4 ? IP46_TYPE_IP4 : IP46_TYPE_IP6,
2920                 clib_net_to_host_u16 (ep->port));
2921         }
2922       else
2923         rv = VPPCOM_EINVAL;
2924       break;
2925
2926     case VPPCOM_ATTR_GET_LIBC_EPFD:
2927       rv = session->libc_epfd;
2928       VDBG (2, "VCL<%d>: VPPCOM_ATTR_GET_LIBC_EPFD: libc_epfd %d",
2929             getpid (), rv);
2930       break;
2931
2932     case VPPCOM_ATTR_SET_LIBC_EPFD:
2933       if (PREDICT_TRUE (buffer && buflen &&
2934                         (*buflen == sizeof (session->libc_epfd))))
2935         {
2936           session->libc_epfd = *(int *) buffer;
2937           *buflen = sizeof (session->libc_epfd);
2938
2939           VDBG (2, "VCL<%d>: VPPCOM_ATTR_SET_LIBC_EPFD: libc_epfd %d, "
2940                 "buflen %d", getpid (), session->libc_epfd, *buflen);
2941         }
2942       else
2943         rv = VPPCOM_EINVAL;
2944       break;
2945
2946     case VPPCOM_ATTR_GET_PROTOCOL:
2947       if (buffer && buflen && (*buflen >= sizeof (int)))
2948         {
2949           *(int *) buffer = session->session_type;
2950           *buflen = sizeof (int);
2951
2952           VDBG (2, "VCL<%d>: VPPCOM_ATTR_GET_PROTOCOL: %d (%s), buflen %d",
2953                 getpid (), *(int *) buffer, *(int *) buffer ? "UDP" : "TCP",
2954                 *buflen);
2955         }
2956       else
2957         rv = VPPCOM_EINVAL;
2958       break;
2959
2960     case VPPCOM_ATTR_GET_LISTEN:
2961       if (buffer && buflen && (*buflen >= sizeof (int)))
2962         {
2963           *(int *) buffer = VCL_SESS_ATTR_TEST (session->attr,
2964                                                 VCL_SESS_ATTR_LISTEN);
2965           *buflen = sizeof (int);
2966
2967           VDBG (2, "VCL<%d>: VPPCOM_ATTR_GET_LISTEN: %d, buflen %d",
2968                 getpid (), *(int *) buffer, *buflen);
2969         }
2970       else
2971         rv = VPPCOM_EINVAL;
2972       break;
2973
2974     case VPPCOM_ATTR_GET_ERROR:
2975       if (buffer && buflen && (*buflen >= sizeof (int)))
2976         {
2977           *(int *) buffer = 0;
2978           *buflen = sizeof (int);
2979
2980           VDBG (2, "VCL<%d>: VPPCOM_ATTR_GET_ERROR: %d, buflen %d, #VPP-TBD#",
2981                 getpid (), *(int *) buffer, *buflen);
2982         }
2983       else
2984         rv = VPPCOM_EINVAL;
2985       break;
2986
2987     case VPPCOM_ATTR_GET_TX_FIFO_LEN:
2988       if (buffer && buflen && (*buflen >= sizeof (u32)))
2989         {
2990
2991           /* VPP-TBD */
2992           *(size_t *) buffer = (session->sndbuf_size ? session->sndbuf_size :
2993                                 session->tx_fifo ? session->tx_fifo->nitems :
2994                                 vcm->cfg.tx_fifo_size);
2995           *buflen = sizeof (u32);
2996
2997           VDBG (2, "VCL<%d>: VPPCOM_ATTR_GET_TX_FIFO_LEN: %u (0x%x), "
2998                 "buflen %d, #VPP-TBD#", getpid (),
2999                 *(size_t *) buffer, *(size_t *) buffer, *buflen);
3000         }
3001       else
3002         rv = VPPCOM_EINVAL;
3003       break;
3004
3005     case VPPCOM_ATTR_SET_TX_FIFO_LEN:
3006       if (buffer && buflen && (*buflen == sizeof (u32)))
3007         {
3008           /* VPP-TBD */
3009           session->sndbuf_size = *(u32 *) buffer;
3010           VDBG (2, "VCL<%d>: VPPCOM_ATTR_SET_TX_FIFO_LEN: %u (0x%x), "
3011                 "buflen %d, #VPP-TBD#", getpid (),
3012                 session->sndbuf_size, session->sndbuf_size, *buflen);
3013         }
3014       else
3015         rv = VPPCOM_EINVAL;
3016       break;
3017
3018     case VPPCOM_ATTR_GET_RX_FIFO_LEN:
3019       if (buffer && buflen && (*buflen >= sizeof (u32)))
3020         {
3021
3022           /* VPP-TBD */
3023           *(size_t *) buffer = (session->rcvbuf_size ? session->rcvbuf_size :
3024                                 session->rx_fifo ? session->rx_fifo->nitems :
3025                                 vcm->cfg.rx_fifo_size);
3026           *buflen = sizeof (u32);
3027
3028           VDBG (2, "VCL<%d>: VPPCOM_ATTR_GET_RX_FIFO_LEN: %u (0x%x), "
3029                 "buflen %d, #VPP-TBD#", getpid (),
3030                 *(size_t *) buffer, *(size_t *) buffer, *buflen);
3031         }
3032       else
3033         rv = VPPCOM_EINVAL;
3034       break;
3035
3036     case VPPCOM_ATTR_SET_RX_FIFO_LEN:
3037       if (buffer && buflen && (*buflen == sizeof (u32)))
3038         {
3039           /* VPP-TBD */
3040           session->rcvbuf_size = *(u32 *) buffer;
3041           VDBG (2, "VCL<%d>: VPPCOM_ATTR_SET_RX_FIFO_LEN: %u (0x%x), "
3042                 "buflen %d, #VPP-TBD#", getpid (),
3043                 session->sndbuf_size, session->sndbuf_size, *buflen);
3044         }
3045       else
3046         rv = VPPCOM_EINVAL;
3047       break;
3048
3049     case VPPCOM_ATTR_GET_REUSEADDR:
3050       if (buffer && buflen && (*buflen >= sizeof (int)))
3051         {
3052           /* VPP-TBD */
3053           *(int *) buffer = VCL_SESS_ATTR_TEST (session->attr,
3054                                                 VCL_SESS_ATTR_REUSEADDR);
3055           *buflen = sizeof (int);
3056
3057           VDBG (2, "VCL<%d>: VPPCOM_ATTR_GET_REUSEADDR: %d, "
3058                 "buflen %d, #VPP-TBD#", getpid (), *(int *) buffer, *buflen);
3059         }
3060       else
3061         rv = VPPCOM_EINVAL;
3062       break;
3063
3064     case VPPCOM_ATTR_SET_REUSEADDR:
3065       if (buffer && buflen && (*buflen == sizeof (int)) &&
3066           !VCL_SESS_ATTR_TEST (session->attr, VCL_SESS_ATTR_LISTEN))
3067         {
3068           /* VPP-TBD */
3069           if (*(int *) buffer)
3070             VCL_SESS_ATTR_SET (session->attr, VCL_SESS_ATTR_REUSEADDR);
3071           else
3072             VCL_SESS_ATTR_CLR (session->attr, VCL_SESS_ATTR_REUSEADDR);
3073
3074           VDBG (2, "VCL<%d>: VPPCOM_ATTR_SET_REUSEADDR: %d, buflen %d,"
3075                 " #VPP-TBD#", getpid (),
3076                 VCL_SESS_ATTR_TEST (session->attr,
3077                                     VCL_SESS_ATTR_REUSEADDR), *buflen);
3078         }
3079       else
3080         rv = VPPCOM_EINVAL;
3081       break;
3082
3083     case VPPCOM_ATTR_GET_REUSEPORT:
3084       if (buffer && buflen && (*buflen >= sizeof (int)))
3085         {
3086           /* VPP-TBD */
3087           *(int *) buffer = VCL_SESS_ATTR_TEST (session->attr,
3088                                                 VCL_SESS_ATTR_REUSEPORT);
3089           *buflen = sizeof (int);
3090
3091           VDBG (2, "VCL<%d>: VPPCOM_ATTR_GET_REUSEPORT: %d, buflen %d,"
3092                 " #VPP-TBD#", getpid (), *(int *) buffer, *buflen);
3093         }
3094       else
3095         rv = VPPCOM_EINVAL;
3096       break;
3097
3098     case VPPCOM_ATTR_SET_REUSEPORT:
3099       if (buffer && buflen && (*buflen == sizeof (int)) &&
3100           !VCL_SESS_ATTR_TEST (session->attr, VCL_SESS_ATTR_LISTEN))
3101         {
3102           /* VPP-TBD */
3103           if (*(int *) buffer)
3104             VCL_SESS_ATTR_SET (session->attr, VCL_SESS_ATTR_REUSEPORT);
3105           else
3106             VCL_SESS_ATTR_CLR (session->attr, VCL_SESS_ATTR_REUSEPORT);
3107
3108           VDBG (2, "VCL<%d>: VPPCOM_ATTR_SET_REUSEPORT: %d, buflen %d,"
3109                 " #VPP-TBD#", getpid (),
3110                 VCL_SESS_ATTR_TEST (session->attr,
3111                                     VCL_SESS_ATTR_REUSEPORT), *buflen);
3112         }
3113       else
3114         rv = VPPCOM_EINVAL;
3115       break;
3116
3117     case VPPCOM_ATTR_GET_BROADCAST:
3118       if (buffer && buflen && (*buflen >= sizeof (int)))
3119         {
3120           /* VPP-TBD */
3121           *(int *) buffer = VCL_SESS_ATTR_TEST (session->attr,
3122                                                 VCL_SESS_ATTR_BROADCAST);
3123           *buflen = sizeof (int);
3124
3125           VDBG (2, "VCL<%d>: VPPCOM_ATTR_GET_BROADCAST: %d, buflen %d,"
3126                 " #VPP-TBD#", getpid (), *(int *) buffer, *buflen);
3127         }
3128       else
3129         rv = VPPCOM_EINVAL;
3130       break;
3131
3132     case VPPCOM_ATTR_SET_BROADCAST:
3133       if (buffer && buflen && (*buflen == sizeof (int)))
3134         {
3135           /* VPP-TBD */
3136           if (*(int *) buffer)
3137             VCL_SESS_ATTR_SET (session->attr, VCL_SESS_ATTR_BROADCAST);
3138           else
3139             VCL_SESS_ATTR_CLR (session->attr, VCL_SESS_ATTR_BROADCAST);
3140
3141           VDBG (2, "VCL<%d>: VPPCOM_ATTR_SET_BROADCAST: %d, buflen %d, "
3142                 "#VPP-TBD#", getpid (),
3143                 VCL_SESS_ATTR_TEST (session->attr,
3144                                     VCL_SESS_ATTR_BROADCAST), *buflen);
3145         }
3146       else
3147         rv = VPPCOM_EINVAL;
3148       break;
3149
3150     case VPPCOM_ATTR_GET_V6ONLY:
3151       if (buffer && buflen && (*buflen >= sizeof (int)))
3152         {
3153           /* VPP-TBD */
3154           *(int *) buffer = VCL_SESS_ATTR_TEST (session->attr,
3155                                                 VCL_SESS_ATTR_V6ONLY);
3156           *buflen = sizeof (int);
3157
3158           VDBG (2, "VCL<%d>: VPPCOM_ATTR_GET_V6ONLY: %d, buflen %d, "
3159                 "#VPP-TBD#", getpid (), *(int *) buffer, *buflen);
3160         }
3161       else
3162         rv = VPPCOM_EINVAL;
3163       break;
3164
3165     case VPPCOM_ATTR_SET_V6ONLY:
3166       if (buffer && buflen && (*buflen == sizeof (int)))
3167         {
3168           /* VPP-TBD */
3169           if (*(int *) buffer)
3170             VCL_SESS_ATTR_SET (session->attr, VCL_SESS_ATTR_V6ONLY);
3171           else
3172             VCL_SESS_ATTR_CLR (session->attr, VCL_SESS_ATTR_V6ONLY);
3173
3174           VDBG (2, "VCL<%d>: VPPCOM_ATTR_SET_V6ONLY: %d, buflen %d, "
3175                 "#VPP-TBD#", getpid (),
3176                 VCL_SESS_ATTR_TEST (session->attr,
3177                                     VCL_SESS_ATTR_V6ONLY), *buflen);
3178         }
3179       else
3180         rv = VPPCOM_EINVAL;
3181       break;
3182
3183     case VPPCOM_ATTR_GET_KEEPALIVE:
3184       if (buffer && buflen && (*buflen >= sizeof (int)))
3185         {
3186           /* VPP-TBD */
3187           *(int *) buffer = VCL_SESS_ATTR_TEST (session->attr,
3188                                                 VCL_SESS_ATTR_KEEPALIVE);
3189           *buflen = sizeof (int);
3190
3191           VDBG (2, "VCL<%d>: VPPCOM_ATTR_GET_KEEPALIVE: %d, buflen %d, "
3192                 "#VPP-TBD#", getpid (), *(int *) buffer, *buflen);
3193         }
3194       else
3195         rv = VPPCOM_EINVAL;
3196       break;
3197
3198     case VPPCOM_ATTR_SET_KEEPALIVE:
3199       if (buffer && buflen && (*buflen == sizeof (int)))
3200         {
3201           /* VPP-TBD */
3202           if (*(int *) buffer)
3203             VCL_SESS_ATTR_SET (session->attr, VCL_SESS_ATTR_KEEPALIVE);
3204           else
3205             VCL_SESS_ATTR_CLR (session->attr, VCL_SESS_ATTR_KEEPALIVE);
3206
3207           VDBG (2, "VCL<%d>: VPPCOM_ATTR_SET_KEEPALIVE: %d, buflen %d, "
3208                 "#VPP-TBD#", getpid (),
3209                 VCL_SESS_ATTR_TEST (session->attr,
3210                                     VCL_SESS_ATTR_KEEPALIVE), *buflen);
3211         }
3212       else
3213         rv = VPPCOM_EINVAL;
3214       break;
3215
3216     case VPPCOM_ATTR_GET_TCP_NODELAY:
3217       if (buffer && buflen && (*buflen >= sizeof (int)))
3218         {
3219           /* VPP-TBD */
3220           *(int *) buffer = VCL_SESS_ATTR_TEST (session->attr,
3221                                                 VCL_SESS_ATTR_TCP_NODELAY);
3222           *buflen = sizeof (int);
3223
3224           VDBG (2, "VCL<%d>: VPPCOM_ATTR_GET_TCP_NODELAY: %d, buflen %d, "
3225                 "#VPP-TBD#", getpid (), *(int *) buffer, *buflen);
3226         }
3227       else
3228         rv = VPPCOM_EINVAL;
3229       break;
3230
3231     case VPPCOM_ATTR_SET_TCP_NODELAY:
3232       if (buffer && buflen && (*buflen == sizeof (int)))
3233         {
3234           /* VPP-TBD */
3235           if (*(int *) buffer)
3236             VCL_SESS_ATTR_SET (session->attr, VCL_SESS_ATTR_TCP_NODELAY);
3237           else
3238             VCL_SESS_ATTR_CLR (session->attr, VCL_SESS_ATTR_TCP_NODELAY);
3239
3240           VDBG (2, "VCL<%d>: VPPCOM_ATTR_SET_TCP_NODELAY: %d, buflen %d, "
3241                 "#VPP-TBD#", getpid (),
3242                 VCL_SESS_ATTR_TEST (session->attr,
3243                                     VCL_SESS_ATTR_TCP_NODELAY), *buflen);
3244         }
3245       else
3246         rv = VPPCOM_EINVAL;
3247       break;
3248
3249     case VPPCOM_ATTR_GET_TCP_KEEPIDLE:
3250       if (buffer && buflen && (*buflen >= sizeof (int)))
3251         {
3252           /* VPP-TBD */
3253           *(int *) buffer = VCL_SESS_ATTR_TEST (session->attr,
3254                                                 VCL_SESS_ATTR_TCP_KEEPIDLE);
3255           *buflen = sizeof (int);
3256
3257           VDBG (2, "VCL<%d>: VPPCOM_ATTR_GET_TCP_KEEPIDLE: %d, buflen %d, "
3258                 "#VPP-TBD#", getpid (), *(int *) buffer, *buflen);
3259         }
3260       else
3261         rv = VPPCOM_EINVAL;
3262       break;
3263
3264     case VPPCOM_ATTR_SET_TCP_KEEPIDLE:
3265       if (buffer && buflen && (*buflen == sizeof (int)))
3266         {
3267           /* VPP-TBD */
3268           if (*(int *) buffer)
3269             VCL_SESS_ATTR_SET (session->attr, VCL_SESS_ATTR_TCP_KEEPIDLE);
3270           else
3271             VCL_SESS_ATTR_CLR (session->attr, VCL_SESS_ATTR_TCP_KEEPIDLE);
3272
3273           VDBG (2, "VCL<%d>: VPPCOM_ATTR_SET_TCP_KEEPIDLE: %d, buflen %d, "
3274                 "#VPP-TBD#", getpid (),
3275                 VCL_SESS_ATTR_TEST (session->attr,
3276                                     VCL_SESS_ATTR_TCP_KEEPIDLE), *buflen);
3277         }
3278       else
3279         rv = VPPCOM_EINVAL;
3280       break;
3281
3282     case VPPCOM_ATTR_GET_TCP_KEEPINTVL:
3283       if (buffer && buflen && (*buflen >= sizeof (int)))
3284         {
3285           /* VPP-TBD */
3286           *(int *) buffer = VCL_SESS_ATTR_TEST (session->attr,
3287                                                 VCL_SESS_ATTR_TCP_KEEPINTVL);
3288           *buflen = sizeof (int);
3289
3290           VDBG (2, "VCL<%d>: VPPCOM_ATTR_GET_TCP_KEEPINTVL: %d, buflen %d, "
3291                 "#VPP-TBD#", getpid (), *(int *) buffer, *buflen);
3292         }
3293       else
3294         rv = VPPCOM_EINVAL;
3295       break;
3296
3297     case VPPCOM_ATTR_SET_TCP_KEEPINTVL:
3298       if (buffer && buflen && (*buflen == sizeof (int)))
3299         {
3300           /* VPP-TBD */
3301           if (*(int *) buffer)
3302             VCL_SESS_ATTR_SET (session->attr, VCL_SESS_ATTR_TCP_KEEPINTVL);
3303           else
3304             VCL_SESS_ATTR_CLR (session->attr, VCL_SESS_ATTR_TCP_KEEPINTVL);
3305
3306           VDBG (2, "VCL<%d>: VPPCOM_ATTR_SET_TCP_KEEPINTVL: %d, buflen %d, "
3307                 "#VPP-TBD#", getpid (),
3308                 VCL_SESS_ATTR_TEST (session->attr,
3309                                     VCL_SESS_ATTR_TCP_KEEPINTVL), *buflen);
3310         }
3311       else
3312         rv = VPPCOM_EINVAL;
3313       break;
3314
3315     case VPPCOM_ATTR_GET_TCP_USER_MSS:
3316       if (buffer && buflen && (*buflen >= sizeof (u32)))
3317         {
3318           /* VPP-TBD */
3319           *(u32 *) buffer = session->user_mss;
3320           *buflen = sizeof (int);
3321
3322           VDBG (2, "VCL<%d>: VPPCOM_ATTR_GET_TCP_USER_MSS: %d, buflen %d,"
3323                 " #VPP-TBD#", getpid (), *(int *) buffer, *buflen);
3324         }
3325       else
3326         rv = VPPCOM_EINVAL;
3327       break;
3328
3329     case VPPCOM_ATTR_SET_TCP_USER_MSS:
3330       if (buffer && buflen && (*buflen == sizeof (u32)))
3331         {
3332           /* VPP-TBD */
3333           session->user_mss = *(u32 *) buffer;
3334
3335           VDBG (2, "VCL<%d>: VPPCOM_ATTR_SET_TCP_USER_MSS: %u, buflen %d, "
3336                 "#VPP-TBD#", getpid (), session->user_mss, *buflen);
3337         }
3338       else
3339         rv = VPPCOM_EINVAL;
3340       break;
3341
3342     case VPPCOM_ATTR_SET_SHUT:
3343       if (*flags == SHUT_RD || *flags == SHUT_RDWR)
3344         VCL_SESS_ATTR_SET (session->attr, VCL_SESS_ATTR_SHUT_RD);
3345       if (*flags == SHUT_WR || *flags == SHUT_RDWR)
3346         VCL_SESS_ATTR_SET (session->attr, VCL_SESS_ATTR_SHUT_WR);
3347       break;
3348
3349     case VPPCOM_ATTR_GET_SHUT:
3350       if (VCL_SESS_ATTR_TEST (session->attr, VCL_SESS_ATTR_SHUT_RD))
3351         tmp_flags = 1;
3352       if (VCL_SESS_ATTR_TEST (session->attr, VCL_SESS_ATTR_SHUT_WR))
3353         tmp_flags |= 2;
3354       if (tmp_flags == 1)
3355         *(int *) buffer = SHUT_RD;
3356       else if (tmp_flags == 2)
3357         *(int *) buffer = SHUT_WR;
3358       else if (tmp_flags == 3)
3359         *(int *) buffer = SHUT_RDWR;
3360       *buflen = sizeof (int);
3361       break;
3362     default:
3363       rv = VPPCOM_EINVAL;
3364       break;
3365     }
3366
3367   return rv;
3368 }
3369
3370 int
3371 vppcom_session_recvfrom (uint32_t session_handle, void *buffer,
3372                          uint32_t buflen, int flags, vppcom_endpt_t * ep)
3373 {
3374   vcl_worker_t *wrk = vcl_worker_get_current ();
3375   int rv = VPPCOM_OK;
3376   vcl_session_t *session = 0;
3377
3378   if (ep)
3379     {
3380       session = vcl_session_get_w_handle (wrk, session_handle);
3381       if (PREDICT_FALSE (!session))
3382         {
3383           VDBG (0, "VCL<%d>: invalid session, sid (%u) has been closed!",
3384                 getpid (), session_handle);
3385           return VPPCOM_EBADFD;
3386         }
3387       ep->is_ip4 = session->transport.is_ip4;
3388       ep->port = session->transport.rmt_port;
3389     }
3390
3391   if (flags == 0)
3392     rv = vppcom_session_read (session_handle, buffer, buflen);
3393   else if (flags & MSG_PEEK)
3394     rv = vppcom_session_peek (session_handle, buffer, buflen);
3395   else
3396     {
3397       VDBG (0, "Unsupport flags for recvfrom %d", flags);
3398       return VPPCOM_EAFNOSUPPORT;
3399     }
3400
3401   if (ep)
3402     {
3403       if (session->transport.is_ip4)
3404         clib_memcpy_fast (ep->ip, &session->transport.rmt_ip.ip4,
3405                           sizeof (ip4_address_t));
3406       else
3407         clib_memcpy_fast (ep->ip, &session->transport.rmt_ip.ip6,
3408                           sizeof (ip6_address_t));
3409     }
3410
3411   return rv;
3412 }
3413
3414 int
3415 vppcom_session_sendto (uint32_t session_handle, void *buffer,
3416                        uint32_t buflen, int flags, vppcom_endpt_t * ep)
3417 {
3418   if (!buffer)
3419     return VPPCOM_EINVAL;
3420
3421   if (ep)
3422     {
3423       // TBD
3424       return VPPCOM_EINVAL;
3425     }
3426
3427   if (flags)
3428     {
3429       // TBD check the flags and do the right thing
3430       VDBG (2, "VCL<%d>: handling flags 0x%u (%d) not implemented yet.",
3431             getpid (), flags, flags);
3432     }
3433
3434   return (vppcom_session_write_inline (session_handle, buffer, buflen, 1));
3435 }
3436
3437 int
3438 vppcom_poll (vcl_poll_t * vp, uint32_t n_sids, double wait_for_time)
3439 {
3440   vcl_worker_t *wrk = vcl_worker_get_current ();
3441   f64 timeout = clib_time_now (&wrk->clib_time) + wait_for_time;
3442   u32 i, keep_trying = 1;
3443   svm_msg_q_msg_t msg;
3444   session_event_t *e;
3445   int rv, num_ev = 0;
3446
3447   VDBG (3, "VCL<%d>: vp %p, nsids %u, wait_for_time %f",
3448         getpid (), vp, n_sids, wait_for_time);
3449
3450   if (!vp)
3451     return VPPCOM_EFAULT;
3452
3453   do
3454     {
3455       vcl_session_t *session;
3456
3457       /* Dequeue all events and drop all unhandled io events */
3458       while (svm_msg_q_sub (wrk->app_event_queue, &msg, SVM_Q_NOWAIT, 0) == 0)
3459         {
3460           e = svm_msg_q_msg_data (wrk->app_event_queue, &msg);
3461           vcl_handle_mq_event (wrk, e);
3462           svm_msg_q_free_msg (wrk->app_event_queue, &msg);
3463         }
3464       vec_reset_length (wrk->unhandled_evts_vector);
3465
3466       for (i = 0; i < n_sids; i++)
3467         {
3468           session = vcl_session_get (wrk, vp[i].sh);
3469           if (!session)
3470             {
3471               vp[i].revents = POLLHUP;
3472               num_ev++;
3473               continue;
3474             }
3475
3476           vp[i].revents = 0;
3477
3478           if (POLLIN & vp[i].events)
3479             {
3480               rv = vppcom_session_read_ready (session);
3481               if (rv > 0)
3482                 {
3483                   vp[i].revents |= POLLIN;
3484                   num_ev++;
3485                 }
3486               else if (rv < 0)
3487                 {
3488                   switch (rv)
3489                     {
3490                     case VPPCOM_ECONNRESET:
3491                       vp[i].revents = POLLHUP;
3492                       break;
3493
3494                     default:
3495                       vp[i].revents = POLLERR;
3496                       break;
3497                     }
3498                   num_ev++;
3499                 }
3500             }
3501
3502           if (POLLOUT & vp[i].events)
3503             {
3504               rv = vppcom_session_write_ready (session);
3505               if (rv > 0)
3506                 {
3507                   vp[i].revents |= POLLOUT;
3508                   num_ev++;
3509                 }
3510               else if (rv < 0)
3511                 {
3512                   switch (rv)
3513                     {
3514                     case VPPCOM_ECONNRESET:
3515                       vp[i].revents = POLLHUP;
3516                       break;
3517
3518                     default:
3519                       vp[i].revents = POLLERR;
3520                       break;
3521                     }
3522                   num_ev++;
3523                 }
3524             }
3525
3526           if (0)                // Note "done:" label used by VCL_SESSION_LOCK_AND_GET()
3527             {
3528               vp[i].revents = POLLNVAL;
3529               num_ev++;
3530             }
3531         }
3532       if (wait_for_time != -1)
3533         keep_trying = (clib_time_now (&wrk->clib_time) <= timeout) ? 1 : 0;
3534     }
3535   while ((num_ev == 0) && keep_trying);
3536
3537   if (VPPCOM_DEBUG > 3)
3538     {
3539       clib_warning ("VCL<%d>: returning %d", getpid (), num_ev);
3540       for (i = 0; i < n_sids; i++)
3541         {
3542           clib_warning ("VCL<%d>: vp[%d].sid %d (0x%x), .events 0x%x, "
3543                         ".revents 0x%x", getpid (), i, vp[i].sh, vp[i].sh,
3544                         vp[i].events, vp[i].revents);
3545         }
3546     }
3547   return num_ev;
3548 }
3549
3550 int
3551 vppcom_mq_epoll_fd (void)
3552 {
3553   vcl_worker_t *wrk = vcl_worker_get_current ();
3554   return wrk->mqs_epfd;
3555 }
3556
3557 int
3558 vppcom_session_index (vcl_session_handle_t session_handle)
3559 {
3560   return session_handle & 0xFFFFFF;
3561 }
3562
3563 int
3564 vppcom_session_worker (vcl_session_handle_t session_handle)
3565 {
3566   return session_handle >> 24;
3567 }
3568
3569 int
3570 vppcom_worker_register (void)
3571 {
3572   if (!vcl_worker_alloc_and_init ())
3573     return VPPCOM_EEXIST;
3574
3575   if (vcl_worker_set_bapi ())
3576     return VPPCOM_EEXIST;
3577
3578   if (vcl_worker_register_with_vpp ())
3579     return VPPCOM_EEXIST;
3580
3581   return VPPCOM_OK;
3582 }
3583
3584 int
3585 vppcom_worker_index (void)
3586 {
3587   return vcl_get_worker_index ();
3588 }
3589
3590 /*
3591  * fd.io coding-style-patch-verification: ON
3592  *
3593  * Local Variables:
3594  * eval: (c-set-style "gnu")
3595  * End:
3596  */