Fix vpp crashing when attempting to run in kubernetes Pod
[vpp.git] / src / vppinfra / pmalloc.c
index 46ccd7f..f421665 100644 (file)
@@ -18,6 +18,7 @@
 #include <sys/types.h>
 #include <sys/stat.h>
 #include <fcntl.h>
+#include <unistd.h>
 #include <linux/mempolicy.h>
 #include <linux/memfd.h>
 
@@ -59,10 +60,11 @@ pmalloc_validate_numa_node (u32 * numa_node)
 }
 
 int
-clib_pmalloc_init (clib_pmalloc_main_t * pm, uword size)
+clib_pmalloc_init (clib_pmalloc_main_t * pm, uword base_addr, uword size)
 {
   uword off, pagesize;
   u64 *pt = 0;
+  int mmap_flags;
 
   ASSERT (pm->error == 0);
 
@@ -82,8 +84,13 @@ clib_pmalloc_init (clib_pmalloc_main_t * pm, uword size)
   pm->max_pages = size >> pm->def_log2_page_sz;
 
   /* reserve VA space for future growth */
-  pm->base = mmap (0, size + pagesize, PROT_NONE,
-                  MAP_PRIVATE | MAP_ANONYMOUS, -1, 0);
+  mmap_flags = MAP_PRIVATE | MAP_ANONYMOUS;
+
+  if (base_addr)
+    mmap_flags |= MAP_FIXED;
+
+  pm->base = mmap (uword_to_pointer (base_addr, void *), size + pagesize,
+                  PROT_NONE, mmap_flags, -1, 0);
 
   if (pm->base == MAP_FAILED)
     {
@@ -138,6 +145,9 @@ alloc_chunk_from_page (clib_pmalloc_main_t * pm, clib_pmalloc_page_t * pp,
       pp->n_free_chunks = a->subpages_per_page;
     }
 
+  if (pp->n_free_blocks < n_blocks)
+    return 0;
+
   alloc_chunk_index = pp->first_chunk_index;
 
 next_chunk:
@@ -212,7 +222,7 @@ pmalloc_update_lookup_table (clib_pmalloc_main_t * pm, u32 first, u32 count)
   vec_validate_aligned (pm->lookup_table, vec_len (pm->pages) *
                        elts_per_page - 1, CLIB_CACHE_LINE_BYTES);
 
-  p = first * elts_per_page;
+  p = (uword) first *elts_per_page;
   if (pm->flags & CLIB_PMALLOC_F_NO_PAGEMAP)
     {
       while (p < (uword) elts_per_page * count)
@@ -254,6 +264,7 @@ pmalloc_map_pages (clib_pmalloc_main_t * pm, clib_pmalloc_arena_t * a,
   int old_mpol = -1;
   long unsigned int mask[16] = { 0 };
   long unsigned int old_mask[16] = { 0 };
+  uword page_size = 1 << a->log2_subpage_sz;
   uword size = (uword) n_pages << pm->def_log2_page_sz;
 
   clib_error_free (pm->error);
@@ -295,13 +306,10 @@ pmalloc_map_pages (clib_pmalloc_main_t * pm, clib_pmalloc_arena_t * a,
   if ((pm->flags & CLIB_PMALLOC_F_NO_PAGEMAP) == 0)
     mmap_flags |= MAP_LOCKED;
 
-  if (a->log2_subpage_sz != pm->sys_log2_page_sz)
-    mmap_flags |= MAP_HUGETLB | MAP_LOCKED;
-
   if (a->flags & CLIB_PMALLOC_ARENA_F_SHARED_MEM)
     {
       mmap_flags |= MAP_SHARED;
-      if (mmap_flags & MAP_HUGETLB)
+      if (a->log2_subpage_sz != pm->sys_log2_page_sz)
        pm->error = clib_mem_create_hugetlb_fd ((char *) a->name, &a->fd);
       else
        pm->error = clib_mem_create_fd ((char *) a->name, &a->fd);
@@ -312,6 +320,9 @@ pmalloc_map_pages (clib_pmalloc_main_t * pm, clib_pmalloc_arena_t * a,
     }
   else
     {
+      if (a->log2_subpage_sz != pm->sys_log2_page_sz)
+       mmap_flags |= MAP_HUGETLB;
+
       mmap_flags |= MAP_PRIVATE | MAP_ANONYMOUS;
       a->fd = -1;
     }
@@ -326,6 +337,25 @@ pmalloc_map_pages (clib_pmalloc_main_t * pm, clib_pmalloc_arena_t * a,
       goto error;
     }
 
+  /* Check if huge page is not allocated,
+     wrong allocation will generate the SIGBUS */
+  if (a->log2_subpage_sz != pm->sys_log2_page_sz)
+    {
+      for (int i = 0; i < n_pages; i++)
+       {
+         unsigned char flag;
+         mincore (va + i * page_size, 1, &flag);
+         // flag is 1 if the page was successfully allocated and in memory
+         if (!flag)
+           {
+             pm->error =
+               clib_error_return_unix (0,
+                                       "Unable to fulfill huge page allocation request");
+             goto error;
+           }
+       }
+    }
+
   clib_memset (va, 0, size);
 
   rv = set_mempolicy (old_mpol, old_mask, sizeof (old_mask) * 8 + 1);
@@ -428,7 +458,7 @@ clib_pmalloc_create_shared_arena (clib_pmalloc_main_t * pm, char *name,
       return 0;
     }
 
-  return pm->base + (pp->index << pm->def_log2_page_sz);
+  return pm->base + ((uword) pp->index << pm->def_log2_page_sz);
 }
 
 static inline void *
@@ -607,8 +637,6 @@ format_pmalloc_page (u8 * s, va_list * va)
   int verbose = va_arg (*va, int);
   u32 indent = format_get_indent (s);
 
-  s = format (s, "page %u: phys-addr %p ", pp->index, pp->pa);
-
   if (pp->chunks == 0)
     return s;
 
@@ -687,6 +715,29 @@ format_pmalloc (u8 * s, va_list * va)
   return s;
 }
 
+u8 *
+format_pmalloc_map (u8 * s, va_list * va)
+{
+  clib_pmalloc_main_t *pm = va_arg (*va, clib_pmalloc_main_t *);
+
+  u32 index;
+  s = format (s, "%16s %13s %8s", "virtual-addr", "physical-addr", "size");
+  vec_foreach_index (index, pm->lookup_table)
+  {
+    uword *lookup_val, pa, va;
+    lookup_val = vec_elt_at_index (pm->lookup_table, index);
+    va =
+      pointer_to_uword (pm->base) +
+      ((uword) index << pm->lookup_log2_page_sz);
+    pa = va - *lookup_val;
+    s =
+      format (s, "\n %16p %13p %8U", uword_to_pointer (va, u64),
+             uword_to_pointer (pa, u64), format_log2_page_size,
+             pm->lookup_log2_page_sz);
+  }
+  return s;
+}
+
 /*
  * fd.io coding-style-patch-verification: ON
  *