Imported Upstream version 16.04
[deb_dpdk.git] / lib / librte_eal / linuxapp / kni / kni_vhost.c
1 /*-
2  * GPL LICENSE SUMMARY
3  *
4  *   Copyright(c) 2010-2014 Intel Corporation. All rights reserved.
5  *
6  *   This program is free software; you can redistribute it and/or modify
7  *   it under the terms of version 2 of the GNU General Public License as
8  *   published by the Free Software Foundation.
9  *
10  *   This program is distributed in the hope that it will be useful, but
11  *   WITHOUT ANY WARRANTY; without even the implied warranty of
12  *   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
13  *   General Public License for more details.
14  *
15  *   You should have received a copy of the GNU General Public License
16  *   along with this program; if not, write to the Free Software
17  *   Foundation, Inc., 51 Franklin St - Fifth Floor, Boston, MA 02110-1301 USA.
18  *   The full GNU General Public License is included in this distribution
19  *   in the file called LICENSE.GPL.
20  *
21  *   Contact Information:
22  *   Intel Corporation
23  */
24
25 #include <linux/module.h>
26 #include <linux/net.h>
27 #include <net/sock.h>
28 #include <linux/virtio_net.h>
29 #include <linux/wait.h>
30 #include <linux/mm.h>
31 #include <linux/nsproxy.h>
32 #include <linux/sched.h>
33 #include <linux/if_tun.h>
34 #include <linux/version.h>
35
36 #include "compat.h"
37 #include "kni_dev.h"
38 #include "kni_fifo.h"
39
40 #define RX_BURST_SZ 4
41
42 extern void put_unused_fd(unsigned int fd);
43
44 #if LINUX_VERSION_CODE >= KERNEL_VERSION(3,7,0)
45 extern struct file*
46 sock_alloc_file(struct socket *sock,
47                 int flags, const char *dname);
48
49 extern int get_unused_fd_flags(unsigned flags);
50
51 extern void fd_install(unsigned int fd, struct file *file);
52
53 static int kni_sock_map_fd(struct socket *sock)
54 {
55         struct file *file;
56         int fd = get_unused_fd_flags(0);
57         if (fd < 0)
58                 return fd;
59
60         file = sock_alloc_file(sock, 0, NULL);
61         if (IS_ERR(file)) {
62                 put_unused_fd(fd);
63                 return PTR_ERR(file);
64         }
65         fd_install(fd, file);
66         return fd;
67 }
68 #else
69 #define kni_sock_map_fd(s)             sock_map_fd(s, 0)
70 #endif
71
72 static struct proto kni_raw_proto = {
73         .name = "kni_vhost",
74         .owner = THIS_MODULE,
75         .obj_size = sizeof(struct kni_vhost_queue),
76 };
77
78 static inline int
79 kni_vhost_net_tx(struct kni_dev *kni, struct msghdr *m,
80                  unsigned offset, unsigned len)
81 {
82         struct rte_kni_mbuf *pkt_kva = NULL;
83         struct rte_kni_mbuf *pkt_va = NULL;
84         int ret;
85
86         KNI_DBG_TX("tx offset=%d, len=%d, iovlen=%d\n",
87 #ifdef HAVE_IOV_ITER_MSGHDR
88                    offset, len, (int)m->msg_iter.iov->iov_len);
89 #else
90                    offset, len, (int)m->msg_iov->iov_len);
91 #endif
92
93         /**
94          * Check if it has at least one free entry in tx_q and
95          * one entry in alloc_q.
96          */
97         if (kni_fifo_free_count(kni->tx_q) == 0 ||
98             kni_fifo_count(kni->alloc_q) == 0) {
99                 /**
100                  * If no free entry in tx_q or no entry in alloc_q,
101                  * drops skb and goes out.
102                  */
103                 goto drop;
104         }
105
106         /* dequeue a mbuf from alloc_q */
107         ret = kni_fifo_get(kni->alloc_q, (void **)&pkt_va, 1);
108         if (likely(ret == 1)) {
109                 void *data_kva;
110
111                 pkt_kva = (void *)pkt_va - kni->mbuf_va + kni->mbuf_kva;
112                 data_kva = pkt_kva->buf_addr + pkt_kva->data_off
113                            - kni->mbuf_va + kni->mbuf_kva;
114
115 #ifdef HAVE_IOV_ITER_MSGHDR
116                 copy_from_iter(data_kva, len, &m->msg_iter);
117 #else
118                 memcpy_fromiovecend(data_kva, m->msg_iov, offset, len);
119 #endif
120
121                 if (unlikely(len < ETH_ZLEN)) {
122                         memset(data_kva + len, 0, ETH_ZLEN - len);
123                         len = ETH_ZLEN;
124                 }
125                 pkt_kva->pkt_len = len;
126                 pkt_kva->data_len = len;
127
128                 /* enqueue mbuf into tx_q */
129                 ret = kni_fifo_put(kni->tx_q, (void **)&pkt_va, 1);
130                 if (unlikely(ret != 1)) {
131                         /* Failing should not happen */
132                         KNI_ERR("Fail to enqueue mbuf into tx_q\n");
133                         goto drop;
134                 }
135         } else {
136                 /* Failing should not happen */
137                 KNI_ERR("Fail to dequeue mbuf from alloc_q\n");
138                 goto drop;
139         }
140
141         /* update statistics */
142         kni->stats.tx_bytes += len;
143         kni->stats.tx_packets++;
144
145         return 0;
146
147 drop:
148         /* update statistics */
149         kni->stats.tx_dropped++;
150
151         return 0;
152 }
153
154 static inline int
155 kni_vhost_net_rx(struct kni_dev *kni, struct msghdr *m,
156                  unsigned offset, unsigned len)
157 {
158         uint32_t pkt_len;
159         struct rte_kni_mbuf *kva;
160         struct rte_kni_mbuf *va;
161         void * data_kva;
162         struct sk_buff *skb;
163         struct kni_vhost_queue *q = kni->vhost_queue;
164
165         if (unlikely(q == NULL))
166                 return 0;
167
168         /* ensure at least one entry in free_q */
169         if (unlikely(kni_fifo_free_count(kni->free_q) == 0))
170                 return 0;
171
172         skb = skb_dequeue(&q->sk.sk_receive_queue);
173         if (unlikely(skb == NULL))
174                 return 0;
175
176         kva = (struct rte_kni_mbuf*)skb->data;
177
178         /* free skb to cache */
179         skb->data = NULL;
180         if (unlikely(1 != kni_fifo_put(q->fifo, (void **)&skb, 1)))
181                 /* Failing should not happen */
182                 KNI_ERR("Fail to enqueue entries into rx cache fifo\n");
183
184         pkt_len = kva->data_len;
185         if (unlikely(pkt_len > len))
186                 goto drop;
187
188         KNI_DBG_RX("rx offset=%d, len=%d, pkt_len=%d, iovlen=%d\n",
189 #ifdef HAVE_IOV_ITER_MSGHDR
190                    offset, len, pkt_len, (int)m->msg_iter.iov->iov_len);
191 #else
192                    offset, len, pkt_len, (int)m->msg_iov->iov_len);
193 #endif
194
195         data_kva = kva->buf_addr + kva->data_off - kni->mbuf_va + kni->mbuf_kva;
196 #ifdef HAVE_IOV_ITER_MSGHDR
197         if (unlikely(copy_to_iter(data_kva, pkt_len, &m->msg_iter)))
198 #else
199         if (unlikely(memcpy_toiovecend(m->msg_iov, data_kva, offset, pkt_len)))
200 #endif
201                 goto drop;
202
203         /* Update statistics */
204         kni->stats.rx_bytes += pkt_len;
205         kni->stats.rx_packets++;
206
207         /* enqueue mbufs into free_q */
208         va = (void*)kva - kni->mbuf_kva + kni->mbuf_va;
209         if (unlikely(1 != kni_fifo_put(kni->free_q, (void **)&va, 1)))
210                 /* Failing should not happen */
211                 KNI_ERR("Fail to enqueue entries into free_q\n");
212
213         KNI_DBG_RX("receive done %d\n", pkt_len);
214
215         return pkt_len;
216
217 drop:
218         /* Update drop statistics */
219         kni->stats.rx_dropped++;
220
221         return 0;
222 }
223
224 static unsigned int
225 kni_sock_poll(struct file *file, struct socket *sock, poll_table * wait)
226 {
227         struct kni_vhost_queue *q =
228                 container_of(sock->sk, struct kni_vhost_queue, sk);
229         struct kni_dev *kni;
230         unsigned int mask = 0;
231
232         if (unlikely(q == NULL || q->kni == NULL))
233                 return POLLERR;
234
235         kni = q->kni;
236 #if LINUX_VERSION_CODE >= KERNEL_VERSION(2,6,35)
237         KNI_DBG("start kni_poll on group %d, wq 0x%16llx\n",
238                   kni->group_id, (uint64_t)sock->wq);
239 #else
240         KNI_DBG("start kni_poll on group %d, wait at 0x%16llx\n",
241                   kni->group_id, (uint64_t)&sock->wait);
242 #endif
243
244 #if LINUX_VERSION_CODE >= KERNEL_VERSION(2,6,35)
245         poll_wait(file, &sock->wq->wait, wait);
246 #else
247         poll_wait(file, &sock->wait, wait);
248 #endif
249
250         if (kni_fifo_count(kni->rx_q) > 0)
251                 mask |= POLLIN | POLLRDNORM;
252
253         if (sock_writeable(&q->sk) ||
254 #ifdef SOCKWQ_ASYNC_NOSPACE
255             (!test_and_set_bit(SOCKWQ_ASYNC_NOSPACE, &q->sock->flags) &&
256 #else
257             (!test_and_set_bit(SOCK_ASYNC_NOSPACE, &q->sock->flags) &&
258 #endif
259              sock_writeable(&q->sk)))
260                 mask |= POLLOUT | POLLWRNORM;
261
262         return mask;
263 }
264
265 static inline void
266 kni_vhost_enqueue(struct kni_dev *kni, struct kni_vhost_queue *q,
267                   struct sk_buff *skb, struct rte_kni_mbuf *va)
268 {
269         struct rte_kni_mbuf *kva;
270
271         kva = (void *)(va) - kni->mbuf_va + kni->mbuf_kva;
272         (skb)->data = (unsigned char*)kva;
273         (skb)->len = kva->data_len;
274         skb_queue_tail(&q->sk.sk_receive_queue, skb);
275 }
276
277 static inline void
278 kni_vhost_enqueue_burst(struct kni_dev *kni, struct kni_vhost_queue *q,
279           struct sk_buff **skb, struct rte_kni_mbuf **va)
280 {
281         int i;
282         for (i = 0; i < RX_BURST_SZ; skb++, va++, i++)
283                 kni_vhost_enqueue(kni, q, *skb, *va);
284 }
285
286 int
287 kni_chk_vhost_rx(struct kni_dev *kni)
288 {
289         struct kni_vhost_queue *q = kni->vhost_queue;
290         unsigned nb_in, nb_mbuf, nb_skb;
291         const unsigned BURST_MASK = RX_BURST_SZ - 1;
292         unsigned nb_burst, nb_backlog, i;
293         struct sk_buff *skb[RX_BURST_SZ];
294         struct rte_kni_mbuf *va[RX_BURST_SZ];
295
296         if (unlikely(BE_STOP & kni->vq_status)) {
297                 kni->vq_status |= BE_FINISH;
298                 return 0;
299         }
300
301         if (unlikely(q == NULL))
302                 return 0;
303
304         nb_skb = kni_fifo_count(q->fifo);
305         nb_mbuf = kni_fifo_count(kni->rx_q);
306
307         nb_in = min(nb_mbuf, nb_skb);
308         nb_in = min(nb_in, (unsigned)RX_BURST_SZ);
309         nb_burst   = (nb_in & ~BURST_MASK);
310         nb_backlog = (nb_in & BURST_MASK);
311
312         /* enqueue skb_queue per BURST_SIZE bulk */
313         if (0 != nb_burst) {
314                 if (unlikely(RX_BURST_SZ != kni_fifo_get(
315                                      kni->rx_q, (void **)&va,
316                                      RX_BURST_SZ)))
317                         goto except;
318
319                 if (unlikely(RX_BURST_SZ != kni_fifo_get(
320                                      q->fifo, (void **)&skb,
321                                      RX_BURST_SZ)))
322                         goto except;
323
324                 kni_vhost_enqueue_burst(kni, q, skb, va);
325         }
326
327         /* all leftover, do one by one */
328         for (i = 0; i < nb_backlog; ++i) {
329                 if (unlikely(1 != kni_fifo_get(
330                                      kni->rx_q,(void **)&va, 1)))
331                         goto except;
332
333                 if (unlikely(1 != kni_fifo_get(
334                                      q->fifo, (void **)&skb, 1)))
335                         goto except;
336
337                 kni_vhost_enqueue(kni, q, *skb, *va);
338         }
339
340         /* Ondemand wake up */
341         if ((nb_in == RX_BURST_SZ) || (nb_skb == 0) ||
342             ((nb_mbuf < RX_BURST_SZ) && (nb_mbuf != 0))) {
343                 wake_up_interruptible_poll(sk_sleep(&q->sk),
344                                    POLLIN | POLLRDNORM | POLLRDBAND);
345                 KNI_DBG_RX("RX CHK KICK nb_mbuf %d, nb_skb %d, nb_in %d\n",
346                            nb_mbuf, nb_skb, nb_in);
347         }
348
349         return 0;
350
351 except:
352         /* Failing should not happen */
353         KNI_ERR("Fail to enqueue fifo, it shouldn't happen \n");
354         BUG_ON(1);
355
356         return 0;
357 }
358
359 static int
360 #ifdef HAVE_KIOCB_MSG_PARAM
361 kni_sock_sndmsg(struct kiocb *iocb, struct socket *sock,
362            struct msghdr *m, size_t total_len)
363 #else
364 kni_sock_sndmsg(struct socket *sock,
365            struct msghdr *m, size_t total_len)
366 #endif /* HAVE_KIOCB_MSG_PARAM */
367 {
368         struct kni_vhost_queue *q =
369                 container_of(sock->sk, struct kni_vhost_queue, sk);
370         int vnet_hdr_len = 0;
371         unsigned long len = total_len;
372
373         if (unlikely(q == NULL || q->kni == NULL))
374                 return 0;
375
376         KNI_DBG_TX("kni_sndmsg len %ld, flags 0x%08x, nb_iov %d\n",
377 #ifdef HAVE_IOV_ITER_MSGHDR
378                    len, q->flags, (int)m->msg_iter.iov->iov_len);
379 #else
380                    len, q->flags, (int)m->msg_iovlen);
381 #endif
382
383 #ifdef RTE_KNI_VHOST_VNET_HDR_EN
384         if (likely(q->flags & IFF_VNET_HDR)) {
385                 vnet_hdr_len = q->vnet_hdr_sz;
386                 if (unlikely(len < vnet_hdr_len))
387                         return -EINVAL;
388                 len -= vnet_hdr_len;
389         }
390 #endif
391
392         if (unlikely(len < ETH_HLEN + q->vnet_hdr_sz))
393                 return -EINVAL;
394
395         return kni_vhost_net_tx(q->kni, m, vnet_hdr_len, len);
396 }
397
398 static int
399 #ifdef HAVE_KIOCB_MSG_PARAM
400 kni_sock_rcvmsg(struct kiocb *iocb, struct socket *sock,
401            struct msghdr *m, size_t len, int flags)
402 #else
403 kni_sock_rcvmsg(struct socket *sock,
404            struct msghdr *m, size_t len, int flags)
405 #endif /* HAVE_KIOCB_MSG_PARAM */
406 {
407         int vnet_hdr_len = 0;
408         int pkt_len = 0;
409         struct kni_vhost_queue *q =
410                 container_of(sock->sk, struct kni_vhost_queue, sk);
411         static struct virtio_net_hdr
412                 __attribute__ ((unused)) vnet_hdr = {
413                 .flags = 0,
414                 .gso_type = VIRTIO_NET_HDR_GSO_NONE
415         };
416
417         if (unlikely(q == NULL || q->kni == NULL))
418                 return 0;
419
420 #ifdef RTE_KNI_VHOST_VNET_HDR_EN
421         if (likely(q->flags & IFF_VNET_HDR)) {
422                 vnet_hdr_len = q->vnet_hdr_sz;
423                 if ((len -= vnet_hdr_len) < 0)
424                         return -EINVAL;
425         }
426 #endif
427
428         if (unlikely(0 == (pkt_len = kni_vhost_net_rx(q->kni,
429                 m, vnet_hdr_len, len))))
430                 return 0;
431
432 #ifdef RTE_KNI_VHOST_VNET_HDR_EN
433         /* no need to copy hdr when no pkt received */
434 #ifdef HAVE_IOV_ITER_MSGHDR
435         if (unlikely(copy_to_iter((void *)&vnet_hdr, vnet_hdr_len,
436                 &m->msg_iter)))
437 #else
438         if (unlikely(memcpy_toiovecend(m->msg_iov,
439                 (void *)&vnet_hdr, 0, vnet_hdr_len)))
440 #endif /* HAVE_IOV_ITER_MSGHDR */
441                 return -EFAULT;
442 #endif /* RTE_KNI_VHOST_VNET_HDR_EN */
443         KNI_DBG_RX("kni_rcvmsg expect_len %ld, flags 0x%08x, pkt_len %d\n",
444                    (unsigned long)len, q->flags, pkt_len);
445
446         return pkt_len + vnet_hdr_len;
447 }
448
449 /* dummy tap like ioctl */
450 static int
451 kni_sock_ioctl(struct socket *sock, unsigned int cmd,
452               unsigned long arg)
453 {
454         void __user *argp = (void __user *)arg;
455         struct ifreq __user *ifr = argp;
456         unsigned int __user *up = argp;
457         struct kni_vhost_queue *q =
458                 container_of(sock->sk, struct kni_vhost_queue, sk);
459         struct kni_dev *kni;
460         unsigned int u;
461         int __user *sp = argp;
462         int s;
463         int ret;
464
465         KNI_DBG("tap ioctl cmd 0x%08x\n", cmd);
466
467         switch (cmd) {
468         case TUNSETIFF:
469                 KNI_DBG("TUNSETIFF\n");
470                 /* ignore the name, just look at flags */
471                 if (get_user(u, &ifr->ifr_flags))
472                         return -EFAULT;
473
474                 ret = 0;
475                 if ((u & ~IFF_VNET_HDR) != (IFF_NO_PI | IFF_TAP))
476                         ret = -EINVAL;
477                 else
478                         q->flags = u;
479
480                 return ret;
481
482         case TUNGETIFF:
483                 KNI_DBG("TUNGETIFF\n");
484                 rcu_read_lock_bh();
485                 kni = rcu_dereference_bh(q->kni);
486                 if (kni)
487                         dev_hold(kni->net_dev);
488                 rcu_read_unlock_bh();
489
490                 if (!kni)
491                         return -ENOLINK;
492
493                 ret = 0;
494                 if (copy_to_user(&ifr->ifr_name, kni->net_dev->name, IFNAMSIZ) ||
495                     put_user(q->flags, &ifr->ifr_flags))
496                         ret = -EFAULT;
497                 dev_put(kni->net_dev);
498                 return ret;
499
500         case TUNGETFEATURES:
501                 KNI_DBG("TUNGETFEATURES\n");
502                 u = IFF_TAP | IFF_NO_PI;
503 #ifdef RTE_KNI_VHOST_VNET_HDR_EN
504                 u |= IFF_VNET_HDR;
505 #endif
506                 if (put_user(u, up))
507                         return -EFAULT;
508                 return 0;
509
510         case TUNSETSNDBUF:
511                 KNI_DBG("TUNSETSNDBUF\n");
512                 if (get_user(u, up))
513                         return -EFAULT;
514
515                 q->sk.sk_sndbuf = u;
516                 return 0;
517
518         case TUNGETVNETHDRSZ:
519                 s = q->vnet_hdr_sz;
520                 if (put_user(s, sp))
521                         return -EFAULT;
522                 KNI_DBG("TUNGETVNETHDRSZ %d\n", s);
523                 return 0;
524
525         case TUNSETVNETHDRSZ:
526                 if (get_user(s, sp))
527                         return -EFAULT;
528                 if (s < (int)sizeof(struct virtio_net_hdr))
529                         return -EINVAL;
530
531                 KNI_DBG("TUNSETVNETHDRSZ %d\n", s);
532                 q->vnet_hdr_sz = s;
533                 return 0;
534
535         case TUNSETOFFLOAD:
536                 KNI_DBG("TUNSETOFFLOAD %lx\n", arg);
537 #ifdef RTE_KNI_VHOST_VNET_HDR_EN
538                 /* not support any offload yet */
539                 if (!(q->flags & IFF_VNET_HDR))
540                         return  -EINVAL;
541
542                 return 0;
543 #else
544                 return -EINVAL;
545 #endif
546
547         default:
548                 KNI_DBG("NOT SUPPORT\n");
549                 return -EINVAL;
550         }
551 }
552
553 static int
554 kni_sock_compat_ioctl(struct socket *sock, unsigned int cmd,
555                      unsigned long arg)
556 {
557         /* 32 bits app on 64 bits OS to be supported later */
558         KNI_PRINT("Not implemented.\n");
559
560         return -EINVAL;
561 }
562
563 #define KNI_VHOST_WAIT_WQ_SAFE()                        \
564 do {                                                    \
565         while ((BE_FINISH | BE_STOP) == kni->vq_status) \
566                 msleep(1);                              \
567 }while(0)                                               \
568
569
570 static int
571 kni_sock_release(struct socket *sock)
572 {
573         struct kni_vhost_queue *q =
574                 container_of(sock->sk, struct kni_vhost_queue, sk);
575         struct kni_dev *kni;
576
577         if (q == NULL)
578                 return 0;
579
580         if (NULL != (kni = q->kni)) {
581                 kni->vq_status = BE_STOP;
582                 KNI_VHOST_WAIT_WQ_SAFE();
583                 kni->vhost_queue = NULL;
584                 q->kni = NULL;
585         }
586
587         if (q->sockfd != -1)
588                 q->sockfd = -1;
589
590         sk_set_socket(&q->sk, NULL);
591         sock->sk = NULL;
592
593         sock_put(&q->sk);
594
595         KNI_DBG("dummy sock release done\n");
596
597         return 0;
598 }
599
600 int
601 kni_sock_getname (struct socket *sock,
602                   struct sockaddr *addr,
603                   int *sockaddr_len, int peer)
604 {
605         KNI_DBG("dummy sock getname\n");
606         ((struct sockaddr_ll*)addr)->sll_family = AF_PACKET;
607         return 0;
608 }
609
610 static const struct proto_ops kni_socket_ops = {
611         .getname = kni_sock_getname,
612         .sendmsg = kni_sock_sndmsg,
613         .recvmsg = kni_sock_rcvmsg,
614         .release = kni_sock_release,
615         .poll    = kni_sock_poll,
616         .ioctl   = kni_sock_ioctl,
617         .compat_ioctl = kni_sock_compat_ioctl,
618 };
619
620 static void
621 kni_sk_write_space(struct sock *sk)
622 {
623         wait_queue_head_t *wqueue;
624
625         if (!sock_writeable(sk) ||
626 #ifdef SOCKWQ_ASYNC_NOSPACE
627             !test_and_clear_bit(SOCKWQ_ASYNC_NOSPACE, &sk->sk_socket->flags))
628 #else
629             !test_and_clear_bit(SOCK_ASYNC_NOSPACE, &sk->sk_socket->flags))
630 #endif
631                 return;
632         wqueue = sk_sleep(sk);
633         if (wqueue && waitqueue_active(wqueue))
634                 wake_up_interruptible_poll(
635                         wqueue, POLLOUT | POLLWRNORM | POLLWRBAND);
636 }
637
638 static void
639 kni_sk_destruct(struct sock *sk)
640 {
641         struct kni_vhost_queue *q =
642                 container_of(sk, struct kni_vhost_queue, sk);
643
644         if (!q)
645                 return;
646
647         /* make sure there's no packet in buffer */
648         while (skb_dequeue(&sk->sk_receive_queue) != NULL)
649                ;
650
651         mb();
652
653         if (q->fifo != NULL) {
654                 kfree(q->fifo);
655                 q->fifo = NULL;
656         }
657
658         if (q->cache != NULL) {
659                 kfree(q->cache);
660                 q->cache = NULL;
661         }
662 }
663
664 static int
665 kni_vhost_backend_init(struct kni_dev *kni)
666 {
667         struct kni_vhost_queue *q;
668         struct net *net = current->nsproxy->net_ns;
669         int err, i, sockfd;
670         struct rte_kni_fifo *fifo;
671         struct sk_buff *elem;
672
673         if (kni->vhost_queue != NULL)
674                 return -1;
675
676 #if LINUX_VERSION_CODE >= KERNEL_VERSION(4, 2, 0)
677         q = (struct kni_vhost_queue *)sk_alloc(net, AF_UNSPEC, GFP_KERNEL,
678                         &kni_raw_proto, 0);
679 #else
680         q = (struct kni_vhost_queue *)sk_alloc(net, AF_UNSPEC, GFP_KERNEL,
681                         &kni_raw_proto);
682 #endif
683         if (!q)
684                 return -ENOMEM;
685
686         err = sock_create_lite(AF_UNSPEC, SOCK_RAW, IPPROTO_RAW, &q->sock);
687         if (err)
688                 goto free_sk;
689
690         sockfd = kni_sock_map_fd(q->sock);
691         if (sockfd < 0) {
692                 err = sockfd;
693                 goto free_sock;
694         }
695
696         /* cache init */
697         q->cache = kzalloc(RTE_KNI_VHOST_MAX_CACHE_SIZE * sizeof(struct sk_buff),
698                            GFP_KERNEL);
699         if (!q->cache)
700                 goto free_fd;
701
702         fifo = kzalloc(RTE_KNI_VHOST_MAX_CACHE_SIZE * sizeof(void *)
703                         + sizeof(struct rte_kni_fifo), GFP_KERNEL);
704         if (!fifo)
705                 goto free_cache;
706
707         kni_fifo_init(fifo, RTE_KNI_VHOST_MAX_CACHE_SIZE);
708
709         for (i = 0; i < RTE_KNI_VHOST_MAX_CACHE_SIZE; i++) {
710                 elem = &q->cache[i];
711                 kni_fifo_put(fifo, (void**)&elem, 1);
712         }
713         q->fifo = fifo;
714
715         /* store sockfd in vhost_queue */
716         q->sockfd = sockfd;
717
718         /* init socket */
719         q->sock->type = SOCK_RAW;
720         q->sock->state = SS_CONNECTED;
721         q->sock->ops = &kni_socket_ops;
722         sock_init_data(q->sock, &q->sk);
723
724         /* init sock data */
725         q->sk.sk_write_space = kni_sk_write_space;
726         q->sk.sk_destruct = kni_sk_destruct;
727         q->flags = IFF_NO_PI | IFF_TAP;
728         q->vnet_hdr_sz = sizeof(struct virtio_net_hdr);
729 #ifdef RTE_KNI_VHOST_VNET_HDR_EN
730         q->flags |= IFF_VNET_HDR;
731 #endif
732
733         /* bind kni_dev with vhost_queue */
734         q->kni = kni;
735         kni->vhost_queue = q;
736
737         wmb();
738
739         kni->vq_status = BE_START;
740
741 #if LINUX_VERSION_CODE >= KERNEL_VERSION(2,6,35)
742         KNI_DBG("backend init sockfd=%d, sock->wq=0x%16llx,"
743                   "sk->sk_wq=0x%16llx",
744                   q->sockfd, (uint64_t)q->sock->wq,
745                   (uint64_t)q->sk.sk_wq);
746 #else
747         KNI_DBG("backend init sockfd=%d, sock->wait at 0x%16llx,"
748                   "sk->sk_sleep=0x%16llx",
749                   q->sockfd, (uint64_t)&q->sock->wait,
750                   (uint64_t)q->sk.sk_sleep);
751 #endif
752
753         return 0;
754
755 free_cache:
756         kfree(q->cache);
757         q->cache = NULL;
758
759 free_fd:
760         put_unused_fd(sockfd);
761
762 free_sock:
763         q->kni = NULL;
764         kni->vhost_queue = NULL;
765         kni->vq_status |= BE_FINISH;
766         sock_release(q->sock);
767         q->sock->ops = NULL;
768         q->sock = NULL;
769
770 free_sk:
771         sk_free((struct sock*)q);
772
773         return err;
774 }
775
776 /* kni vhost sock sysfs */
777 static ssize_t
778 show_sock_fd(struct device *dev, struct device_attribute *attr,
779              char *buf)
780 {
781         struct net_device *net_dev = container_of(dev, struct net_device, dev);
782         struct kni_dev *kni = netdev_priv(net_dev);
783         int sockfd = -1;
784         if (kni->vhost_queue != NULL)
785                 sockfd = kni->vhost_queue->sockfd;
786         return snprintf(buf, 10, "%d\n", sockfd);
787 }
788
789 static ssize_t
790 show_sock_en(struct device *dev, struct device_attribute *attr,
791              char *buf)
792 {
793         struct net_device *net_dev = container_of(dev, struct net_device, dev);
794         struct kni_dev *kni = netdev_priv(net_dev);
795         return snprintf(buf, 10, "%u\n", (kni->vhost_queue == NULL ? 0 : 1));
796 }
797
798 static ssize_t
799 set_sock_en(struct device *dev, struct device_attribute *attr,
800               const char *buf, size_t count)
801 {
802         struct net_device *net_dev = container_of(dev, struct net_device, dev);
803         struct kni_dev *kni = netdev_priv(net_dev);
804         unsigned long en;
805         int err = 0;
806
807         if (0 != kstrtoul(buf, 0, &en))
808                 return -EINVAL;
809
810         if (en)
811                 err = kni_vhost_backend_init(kni);
812
813         return err ? err : count;
814 }
815
816 static DEVICE_ATTR(sock_fd, S_IRUGO | S_IRUSR, show_sock_fd, NULL);
817 static DEVICE_ATTR(sock_en, S_IRUGO | S_IWUSR, show_sock_en, set_sock_en);
818 static struct attribute *dev_attrs[] = {
819         &dev_attr_sock_fd.attr,
820         &dev_attr_sock_en.attr,
821         NULL,
822 };
823
824 static const struct attribute_group dev_attr_grp = {
825         .attrs = dev_attrs,
826 };
827
828 int
829 kni_vhost_backend_release(struct kni_dev *kni)
830 {
831         struct kni_vhost_queue *q = kni->vhost_queue;
832
833         if (q == NULL)
834                 return 0;
835
836         /* dettach from kni */
837         q->kni = NULL;
838
839         KNI_DBG("release backend done\n");
840
841         return 0;
842 }
843
844 int
845 kni_vhost_init(struct kni_dev *kni)
846 {
847         struct net_device *dev = kni->net_dev;
848
849         if (sysfs_create_group(&dev->dev.kobj, &dev_attr_grp))
850                 sysfs_remove_group(&dev->dev.kobj, &dev_attr_grp);
851
852         kni->vq_status = BE_STOP;
853
854         KNI_DBG("kni_vhost_init done\n");
855
856         return 0;
857 }