CSIT-1397: Create Heatmap graphs
[csit.git] / docs / vpp-device.rst
1 Integration Tests
2 =================
3
4 Abstract
5 --------
6
7 FD.io VPP software data plane technology has become very popular across
8 a wide range of VPP eco-system use cases, putting higher pressure on
9 continuous verification of VPP software quality.
10
11 This document describes a proposal for design and implementation of extended
12 continuous VPP testing by extending existing test environments.
13 Furthermore it describes and summarizes implementation details of Integration
14 and System tests platform *1-Node VPP_Device*. It aims to provide a complete
15 end-to-end view of *1-Node VPP_Device* environment in order to improve
16 extendibility and maintenance, under the guideline of VPP core team.
17
18 The key words "MUST", "MUST NOT", "REQUIRED", "SHALL", "SHALL NOT", "SHOULD",
19 "SHOULD NOT", "RECOMMENDED",  "MAY", and "OPTIONAL" in this document are to be
20 interpreted as described in :rfc:`8174`.
21
22 Overview
23 --------
24
25 .. todo: Covert to SVG
26
27 .. image:: vpp-device.png
28
29 Physical Testbeds
30 -----------------
31
32 All :abbr:`FD.io (Fast Data Input/Ouput)` :abbr:`CSIT (Continuous System
33 Integration and Testing)` vpp-device tests are executed on physical testbeds
34 built with bare-metal servers hosted by :abbr:`LF (Linux Foundation)` FD.io
35 project. Two 1-node testbed topologies are used:
36
37 - **2-Container Topology**: Consisting of one Docker container acting as SUT
38   (System Under Test) and one Docker container as TG (Traffic Generator), both
39   connected in ring topology via physical NIC crossconnecting.
40
41 Current FD.io production testbeds are built with servers based on one
42 processor generation of Intel Xeons: Skylake (Platinum 8180). Testbeds built
43 with servers based on Arm processors are in the process of being added to FD.io
44 production.
45
46 Following section describe existing production 1n-skx testbed.
47
48 1-Node Xeon Skylake (1n-skx)
49 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~
50
51 1n-skx testbed is based on single SuperMicro SYS-7049GP-TRT server equipped with
52 two Intel Xeon Skylake Platinum 8180 2.5 GHz 28 core processors. Physical
53 testbed topology is depicted in a figure below.
54
55 .. only:: latex
56
57     .. raw:: latex
58
59         \begin{figure}[H]
60             \centering
61                 \graphicspath{{../_tmp/src/vpp_device_tests/}}
62                 \includegraphics[width=0.90\textwidth]{vf-2n-nic2nic}
63                 \label{fig:vf-2n-nic2nic}
64         \end{figure}
65
66 .. only:: html
67
68     .. figure:: vf-2n-nic2nic.svg
69         :alt: vf-2n-nic2nic
70         :align: center
71
72 Server is populated with the following NIC models:
73
74 #. NIC-1: x710-da4 4p10GE Intel.
75 #. NIC-2: x710-da4 4p10GE Intel.
76
77 All Intel Xeon Skylake servers run with Intel Hyper-Threading enabled,
78 doubling the number of logical cores exposed to Linux, with 56 logical
79 cores and 28 physical cores per processor socket.
80
81 NIC interfaces are shared using Linux vfio_pci and VPP VF drivers:
82
83 - DPDK VF driver,
84 - Fortville AVF driver.
85
86 Provided Intel x710-da4 4p10GE NICs suppport 32 VFs per interface, 128 per NIC.
87
88 Complete 1n-skx testbeds specification is available on `CSIT LF Testbeds
89 <https://wiki.fd.io/view/CSIT/Testbeds:_Xeon_Skx,_Arm,_Atom.>`_ wiki page.
90
91 Total of two 1n-skx testbeds are in operation in FD.io labs.
92
93 1-Node Virtualbox (1n-vbox)
94 ~~~~~~~~~~~~~~~~~~~~~~~~~~~
95
96 1n-skx testbed can run in single VirtualBox VM machine. This solution replaces
97 the previously used Vagrant environment based on 3 VMs.
98
99 VirtualBox VM MAY be created by Vagrant and MUST have additional 4 virtio NICs
100 each pair attached to separate private networks to simulate back-to-back
101 connections. It SHOULD be 82545EM device model (otherwise can be changed in
102 boostrap scripts). Example of Vagrant configuration:
103
104 ::
105
106     Vagrant.configure(2) do |c|
107       c.vm.network "private_network", type: "dhcp", auto_config: false,
108           virtualbox__intnet: "port1", nic_type: "82545EM"
109       c.vm.network "private_network", type: "dhcp", auto_config: false,
110           virtualbox__intnet: "port2", nic_type: "82545EM"
111
112       c.vm.provider :virtualbox do |v|
113         v.customize ["modifyvm", :id, "--nicpromisc2", "allow-all"]
114         v.customize ["modifyvm", :id, "--nicpromisc3", "allow-all"]
115         v.customize ["modifyvm", :id, "--nicpromisc4", "allow-all"]
116         v.customize ["modifyvm", :id, "--nicpromisc5", "allow-all"]
117
118 Vagrant VM is populated with the following NIC models:
119
120 #. NIC-1: 82545EM Intel.
121 #. NIC-2: 82545EM Intel.
122 #. NIC-3: 82545EM Intel.
123 #. NIC-4: 82545EM Intel.
124
125 Containers
126 ----------
127
128 It was agreed on :abbr:`TWS (Technical Work Stream)` call to continue with
129 Ubuntu 18.04 LTS as a baseline system with OPTIONAL extend to Centos 7 and
130 SuSE per demand [TWSLink]_.
131
132 All :abbr:`DCR (Docker container)` images are REQUIRED to be hosted on Docker
133 registry available from LF network, publicly available and trackable. For
134 backup, tracking and contributing purposes all Dockerfiles (including files
135 needed for building container) MUST be available and stored in [fdiocsitgerrit]_
136 repository under appropriate folders. This allows the peer review process to be
137 done for every change of infrastructure related to scope of this document.
138 Currently only **csit-shim-dcr** and **csit-sut-dcr** containers will be stored
139 and maintained under CSIT repository by CSIT contributors.
140
141 At the time of designing solution described in this document the interconnection
142 between [dockerhub]_ and  [fdiocsitgerrit]_ for automated build purposes and
143 image hosting cannot be established with the trust and respectful to
144 security of FD.io project. Unless adressed, :abbr:`DCR` images will be placed in
145 custom registry service [fdioregistry]_. Automated Jenkins jobs will be created
146 in align of long term solution for container lifecycle and ability to build
147 new version of docker images.
148
149 In parallel, the effort is started to find the outsourced Docker registry
150 service.
151
152 Versioning
153 ~~~~~~~~~~
154
155 As of initial version of vpp-device, we do have only single `:latest` version of
156 Docker image hosted on [dockerhub]_. This will be addressed as further
157 improvement with proper semantic versioning.
158
159 jenkins-slave-dcr
160 ~~~~~~~~~~~~~~~~~
161
162 This :abbr:`DCR` acts as the Jenkins slave (known also as jenkins minion). It
163 can connect over SSH protocol to TCP port 6022 of **csit-shim-dcr** and executes
164 non-interactive reservation script. Nomad is responsible for scheduling this
165 container execution onto specific **1-Node VPP_Device** testbed. It executes
166 :abbr:`CSIT` environment including :abbr:`CSIT` framework.
167
168 All software dependencies including VPP/DPDK that are not present in
169 **csit-sut-dcr** container image and/or needs to be compiled prior running on
170 **csit-sut-dcr** SHOULD be compiled in this container.
171
172 - *Container Image Location*: Docker image at snergster/vpp-ubuntu18.
173
174 - *Container Definition*: Docker file specified at [JenkinsSlaveDcrFile]_.
175
176 - *Initializing*: Container is initialized from within *Consul by HashiCorp*
177   and *Nomad by HashiCorp*.
178
179 csit-shim-dcr
180 ~~~~~~~~~~~~~
181
182 This :abbr:`DCR` acts as an intermediate layer running script responsible for
183 orchestrating topologies under test and reservation. Responsible for managing VF
184 resources and allocation to :abbr:`DUT (Device Under Test)`, :abbr:`TG
185 (Traffic Generator)` containers. This MUST to be done on **csit-shim-dcr**.
186 This image also acts as the generic reservation mechanics arbiter to make sure
187 that only Y number of simulations are spawned on any given HW node.
188
189 - *Container Image Location*: Docker image at snergster/csit-shim.
190
191 - *Container Definition*: Docker file specified at [CsitShimDcrFile]_.
192
193 - *Initializing*: Container is initialized from within *Consul by HashiCorp*
194   and *Nomad by HashiCorp*. Required docker parameters, to be able to run
195   nested containers with VF reservation system are: privileged, net=host,
196   pid=host.
197
198 - *Connectivity*: Over SSH only, using <host>:6022 format. Currently using
199   *root* user account as primary. From the jenkins slave it will be able to
200   connect via env variable, since the jenkins slave doesn't actually know what
201   host its running on.
202
203   ::
204
205       ssh -p 6022 root@10.30.51.node
206
207 csit-sut-dcr
208 ~~~~~~~~~~~~
209
210 This :abbr:`DCR` acts as an :abbr:`SUT (System Under Test)`. Any :abbr:`DUT` or
211 :abbr:`TG` application is installed there. It is RECOMMENDED to install DUT and
212 all DUT dependencies via commands ``rpm -ihv`` on RedHat based OS or ``dpkg -i``
213 on Debian based OS.
214
215 Container is designed to be a very lightweight Docker image that only installs
216 packages and execute binaries (previously built or downloaded on
217 **jenkins-slave-dcr**) and contains libraries necessary to run CSIT framework
218 including those required by DUT/TG.
219
220 - *Container Image Location*: Docker image at snergster/csit-sut.
221
222 - *Container Definition*: Docker file specified at [CsitSutDcrFile]_.
223
224 - *Initializing*:
225   ::
226
227     docker run
228     # Run the container in the background and print the new container ID.
229     --detach=true
230     # Give extended privileges to this container. A "privileged" container is
231     # given access to all devices and able to run nested containers.
232     --privileged
233     # Publish all exposed ports to random ports on the host interfaces.
234     --publish-all
235     # Automatically remove the container when it exits.
236     --rm
237     # Size of /dev/shm.
238     --shm-size 512M
239     # Override access to PCI bus by attaching a filesystem mount to the
240     # container.
241     --mount type=tmpfs,destination=/sys/bus/pci/devices
242     # Mount vfio to be able to bind to see binded interfaces. We cannot use
243     # --device=/dev/vfio as this does not see newly binded interfaces.
244     --volume /dev/vfio:/dev/vfio
245     # Image of csit-sut-dcr
246     snergster/csit-vpp-device-test:latest
247
248   Container name is catenated from **csit-** prefix and uuid generated uniquely
249   for each container instance.
250
251 - *Connectivity*: Over SSH only, using <host>[:<port>] format. Currently using
252   *root* user account as primary.
253   ::
254
255     ssh -p <port> root@10.30.51.<node>
256
257 Container required to run as ``--privileged`` due to ability to create nested
258 containers and have full read/write access to sysfs (for bind/unbind). Docker
259 automatically pick free network port (``--publish-all``) for ability to connect
260 over ssh. To be able to limit access to PCI bus, container is creating tmpfs
261 mount type in PCI bus tree. CSIT reservation script is dynamically linking only
262 PCI devices (NIC cards) that are reserved for particular container. This
263 way it is not colliding with other containers. To make vfio work, access to
264 ``/dev/vfio`` must be granted.
265
266 .. todo: Change default user to testuser with non-privileged and install sudo.
267
268 Environment initialization
269 --------------------------
270
271 All 1-node servers are to be managed and provisioned via the [ansiblelink]_ set
272 of playbooks with *vpp-device* role. Full playbooks can be found under
273 [fdiocsitansible]_ directory. This way we are able to track all configuration
274 changes of physical servers in gerrit (in structured yaml format) as well as we
275 are able to extend *vpp-device* to additional servers with less effort or
276 re-stage servers in case of failure.
277
278 SR-IOV VF initialization is done via ``systemd`` service during host system boot
279 up. Service with name *csit-initialize-vfs.service* is created under systemd
280 system context (``/etc/systemd/system/``). By default service is calling
281 ``/usr/local/bin/csit-initialize-vfs.sh`` with single parameter:
282
283 - **start**: Creates maximum number of :abbr:`virtual functions (VFs)` (detected
284   from ``sriov_totalvfs``) for each whitelisted PCI device.
285 - **stop**: Removes all :abbr:`VFs` for all whitelisted PCI device.
286
287 Service is considered active even when all of its processes exited successfully.
288 Stopping service will automatically remove :abbr:`VFs`.
289
290 ::
291
292     [Unit]
293     Description=CSIT Initialize SR-IOV VFs
294     After=network.target
295
296     [Service]
297     Type=one-shot
298     RemainAfterExit=True
299     ExecStart=/usr/local/bin/csit-initialize-vfs.sh start
300     ExecStop=/usr/local/bin/csit-initialize-vfs.sh stop
301
302     [Install]
303     WantedBy=default.target
304
305 Script is driven by two array variables ``pci_blacklist``/``pci_whitelist``.
306 They MUST store all PCI addresses in **<domain>:<bus>:<device>.<func>** format,
307 where:
308
309 - **pci_blacklist**: PCI addresses to be skipped from :abbr:`VFs`
310   initialization (usefull for e.g. excluding management network interfaces).
311 - **pci_whitelist**: PCI addresses to be included for :abbr:`VFs`
312   initialization.
313
314 VF reservation
315 --------------
316
317 During topology initialization phase of script, mutex is used to avoid multiple
318 instances of script to interact with each other during resources allocation.
319 Mutal exclusion ensure that no two distinct instances of script will get same
320 resource list.
321
322 Reservation function reads the list of all available virtual function network
323 devices in system:
324
325 ::
326
327     net_path="/sys/bus/pci/devices/*/net/*"
328
329     for netdev in \
330         $(find ${net_path} -type d -name . -o -prune -exec basename '{}' ';');
331     do
332         if grep -q "${pci_id}" "/sys/class/net/${netdev}/device/device"; then
333             # found VF
334         fi
335     done
336
337 Where ``${pci_id}`` is ID of white-listed VF PCI ID. For more information please
338 see [pciids]_. This act as security constraint to prevent taking other unwanted
339 interfaces.
340 The output list of all VF network devices is split into two lists for TG and
341 SUT side of connection. First two items from each TG or SUT network devices
342 list are taken to expose directly to namespace of container. This can be done
343 via commands:
344
345 ::
346
347     $ ip link set ${netdev} netns ${DCR_CPIDS[tg]}
348     $ ip link set ${netdev} netns ${DCR_CPIDS[dut1]}
349
350 In this stage also symbolic links to PCI devices under sysfs bus directory tree
351 are created in running containers. Once VF devices are assigned to container
352 namespace and PCI deivces are linked to running containers and mutex is exited.
353 Selected VF network device automatically dissapear from parent container
354 namespace, so another instance of script will not find device under that
355 namespace.
356
357 Once Docker container exits, network device is returned back into parent
358 namespace and can be reused.
359
360 Network traffic isolation - Intel i40evf
361 ----------------------------------------
362
363 In a virtualized environment, on Intel(R) Server Adapters that support SR-IOV,
364 the virtual function (VF) may be subject to malicious behavior. Software-
365 generated layer two frames, like IEEE 802.3x (link flow control), IEEE 802.1Qbb
366 (priority based flow-control), and others of this type, are not expected and
367 can throttle traffic between the host and the virtual switch, reducing
368 performance. To resolve this issue, configure all SR-IOV enabled ports for
369 VLAN tagging. This configuration allows unexpected, and potentially malicious,
370 frames to be dropped. [inteli40e]_
371
372 To configure VLAN tagging for the ports on an SR-IOV enabled adapter,
373 use the following command. The VLAN configuration SHOULD be done
374 before the VF driver is loaded or the VM is booted. [inteli40e]_
375
376 ::
377
378     $ ip link set dev <PF netdev id> vf <id> vlan <vlan id>
379
380 For example, the following instructions will configure PF eth0 and
381 the first VF on VLAN 10.
382
383 ::
384
385     $ ip link set dev eth0 vf 0 vlan 10
386
387 VLAN Tag Packet Steering allows to send all packets with a specific VLAN tag to
388 a particular SR-IOV virtual function (VF). Further, this feature allows to
389 designate a particular VF as trusted, and allows that trusted VF to request
390 selective promiscuous mode on the Physical Function (PF). [inteli40e]_
391
392 To set a VF as trusted or untrusted, enter the following command in the
393 Hypervisor:
394
395 ::
396
397   $ ip link set dev eth0 vf 1 trust [on|off]
398
399 Once the VF is designated as trusted, use the following commands in the VM
400 to set the VF to promiscuous mode. [inteli40e]_
401
402 - For promiscuous all:
403   ::
404
405       $ ip link set eth2 promisc on
406
407 - For promiscuous Multicast:
408   ::
409
410       $ ip link set eth2 allmulti on
411
412 .. note::
413
414     By default, the ethtool priv-flag vf-true-promisc-support is set to
415     *off*, meaning that promiscuous mode for the VF will be limited. To set the
416     promiscuous mode for the VF to true promiscuous and allow the VF to see
417     all ingress traffic, use the following command.
418     $ ethtool set-priv-flags p261p1 vf-true-promisc-support on
419     The vf-true-promisc-support priv-flag does not enable promiscuous mode;
420     rather, it designates which type of promiscuous mode (limited or true)
421     you will get when you enable promiscuous mode using the ip link commands
422     above. Note that this is a global setting that affects the entire device.
423     However,the vf-true-promisc-support priv-flag is only exposed to the first
424     PF of the device. The PF remains in limited promiscuous mode (unless it
425     is in MFP mode) regardless of the vf-true-promisc-support setting.
426     [inteli40e]_
427
428 Service described earlier *csit-initialize-vfs.service* is responsible for
429 assigning 802.1Q vlan tagging to each vitual function via physical function
430 from list of white-listed PCI addresses by following (simplified) code.
431
432 ::
433
434     pci_idx=0
435     for pci_addr in ${pci_whitelist[@]}; do
436         pci_path="/sys/bus/pci/devices/${pci_addr}"
437         pf=$(basename "${pci_path}"/net/*)
438         for vf in $(seq "${sriov_totalvfs}"); do
439             # PCI address index in array (pairing siblings).
440             vlan_pf_idx=$(( pci_idx % (${#pci_whitelist[@]} / 2) ))
441             # 802.1Q base offset.
442             vlan_bs_off=1100
443             # 802.1Q PF PCI address offset.
444             vlan_pf_off=$(( vlan_pf_idx * 100 + vlan_bs_off ))
445             # 802.1Q VF PCI address offset.
446             vlan_vf_off=$(( vlan_pf_off + vf - 1 ))
447             # VLAN string.
448             vlan_str="vlan ${vlan_vf_off}"
449             # MAC string.
450             mac5="$(printf '%x' ${pci_idx})"
451             mac6="$(printf '%x' $(( vf - 1 )))"
452             mac_str="mac ba:dc:0f:fe:${mac5}:${mac6}"
453             # Set 802.1Q VLAN id and MAC address
454             ip link set ${pf} vf $(( vf - 1 )) ${mac_str} ${vlan_str}
455             ip link set ${pf} vf $(( vf - 1 )) trust on
456             ip link set ${pf} vf $(( vf - 1 )) spoof off
457         done
458         pci_idx=$(( pci_idx + 1 ))
459     done
460
461 Assignment starts at VLAN 1100 and incrementing by 1 for each VF and by 100 for
462 each white-listed PCI address up to the middle of the PCI list. Second half of
463 the lists is assumed to be directly (cable) paired siblings and assigned with
464 same 802.1Q VLANs as its siblings.
465
466 Open tasks
467 ----------
468
469 Security
470 ~~~~~~~~
471
472 .. note::
473
474     Switch to non-privileged containers: As of now all three container
475     flavors are using privileged containers to make it working. Explore options
476     to switch containers to non-privileged with explicit rather implicit
477     privileges.
478
479 .. note::
480
481     Switch to testuser account intead of root.
482
483 Maintainability
484 ~~~~~~~~~~~~~~~
485
486 .. note::
487
488     Docker image distribution: Create jenkins jobs with full pipiline of
489     CI/CD for CSIT Docker images.
490
491 Stability
492 ~~~~~~~~~
493
494 .. note::
495
496     Improve NIC selection pair-wise: As of now script is taking first two
497     interfaces from discovered list regardless of sibling pairing. Implement
498     more advance method of selection of interfaces based on VF 802.1Q siblings.
499
500 .. note::
501
502     Implement queueing mechanism: Currently there is no mechanics that
503     would place starving jobs in queue in case of no resources available.
504
505 .. note::
506
507     Replace reservation script with Docker network plugin written in
508     GOLANG/SH/Python - platform independent.
509
510 Links
511 -----
512
513 .. [TWSLink] `TWS <https://wiki.fd.io/view/CSIT/TWS>`_
514 .. [dockerhub] `Docker hub <https://hub.docker.com/>`_
515 .. [fdiocsitgerrit] `FD.io/CSIT gerrit <https://gerrit.fd.io/r/CSIT>`_
516 .. [fdioregistry] `FD.io registy <registry.fdiopoc.net>`_
517 .. [JenkinsSlaveDcrFile] `jenkins-slave-dcr-file <https://github.com/snergfdio/multivppcache/blob/master/ubuntu18/Dockerfile>`_
518 .. [CsitShimDcrFile] `csit-shim-dcr-file <https://github.com/snergfdio/multivppcache/blob/master/csit-shim/Dockerfile>`_
519 .. [CsitSutDcrFile] `csit-sut-dcr-file <https://github.com/snergfdio/multivppcache/blob/master/csit-sut/Dockerfile>`_
520 .. [ansiblelink] `ansible <https://www.ansible.com/>`_
521 .. [fdiocsitansible] `Fd.io/CSIT ansible <https://git.fd.io/csit/tree/resources/tools/testbed-setup/ansible>`_
522 .. [inteli40e] `Intel i40e <https://downloadmirror.intel.com/26370/eng/readme.txt>`_
523 .. [pciids] `pci ids <http://pci-ids.ucw.cz/v2.2/pci.ids>`_