pmalloc: always lock pages
[vpp.git] / src / vppinfra / pmalloc.c
index 5812f9f..ce78ca0 100644 (file)
 #include <sys/types.h>
 #include <sys/stat.h>
 #include <fcntl.h>
+#include <unistd.h>
 #include <linux/mempolicy.h>
 #include <linux/memfd.h>
+#include <sched.h>
 
 #include <vppinfra/format.h>
 #include <vppinfra/linux/syscall.h>
@@ -52,16 +54,18 @@ pmalloc_validate_numa_node (u32 * numa_node)
   if (*numa_node == CLIB_PMALLOC_NUMA_LOCAL)
     {
       u32 cpu;
-      if (getcpu (&cpu, numa_node, 0) != 0)
+      if (getcpu (&cpu, numa_node) != 0)
        return 1;
     }
   return 0;
 }
 
 int
-clib_pmalloc_init (clib_pmalloc_main_t * pm, uword size)
+clib_pmalloc_init (clib_pmalloc_main_t * pm, uword base_addr, uword size)
 {
   uword off, pagesize;
+  u64 *pt = 0;
+  int mmap_flags;
 
   ASSERT (pm->error == 0);
 
@@ -70,14 +74,24 @@ clib_pmalloc_init (clib_pmalloc_main_t * pm, uword size)
   pm->sys_log2_page_sz = min_log2 (sysconf (_SC_PAGESIZE));
   pm->lookup_log2_page_sz = pm->def_log2_page_sz;
 
+  /* check if pagemap is accessible */
+  pt = clib_mem_vm_get_paddr (&pt, pm->sys_log2_page_sz, 1);
+  if (pt == 0 || pt[0] == 0)
+    pm->flags |= CLIB_PMALLOC_F_NO_PAGEMAP;
+
   size = size ? size : ((u64) DEFAULT_RESERVED_MB) << 20;
   size = round_pow2 (size, pagesize);
 
   pm->max_pages = size >> pm->def_log2_page_sz;
 
   /* reserve VA space for future growth */
-  pm->base = mmap (0, size + pagesize, PROT_NONE,
-                  MAP_PRIVATE | MAP_ANONYMOUS, -1, 0);
+  mmap_flags = MAP_PRIVATE | MAP_ANONYMOUS;
+
+  if (base_addr)
+    mmap_flags |= MAP_FIXED;
+
+  pm->base = mmap (uword_to_pointer (base_addr, void *), size + pagesize,
+                  PROT_NONE, mmap_flags, -1, 0);
 
   if (pm->base == MAP_FAILED)
     {
@@ -95,7 +109,7 @@ clib_pmalloc_init (clib_pmalloc_main_t * pm, uword size)
       pm->base += off;
     }
 
-  munmap (pm->base + (pm->max_pages * pagesize), pagesize - off);
+  munmap (pm->base + ((uword) pm->max_pages * pagesize), pagesize - off);
   return 0;
 }
 
@@ -132,6 +146,9 @@ alloc_chunk_from_page (clib_pmalloc_main_t * pm, clib_pmalloc_page_t * pp,
       pp->n_free_chunks = a->subpages_per_page;
     }
 
+  if (pp->n_free_blocks < n_blocks)
+    return 0;
+
   alloc_chunk_index = pp->first_chunk_index;
 
 next_chunk:
@@ -206,12 +223,23 @@ pmalloc_update_lookup_table (clib_pmalloc_main_t * pm, u32 first, u32 count)
   vec_validate_aligned (pm->lookup_table, vec_len (pm->pages) *
                        elts_per_page - 1, CLIB_CACHE_LINE_BYTES);
 
-  fd = open ((char *) "/proc/self/pagemap", O_RDONLY);
+  p = (uword) first *elts_per_page;
+  if (pm->flags & CLIB_PMALLOC_F_NO_PAGEMAP)
+    {
+      while (p < (uword) elts_per_page * count)
+       {
+         pm->lookup_table[p] = pointer_to_uword (pm->base) +
+           (p << pm->lookup_log2_page_sz);
+         p++;
+       }
+      return;
+    }
 
-  p = first * elts_per_page;
-  while (p < elts_per_page * count)
+  fd = open ((char *) "/proc/self/pagemap", O_RDONLY);
+  while (p < (uword) elts_per_page * count)
     {
       va = pointer_to_uword (pm->base) + (p << pm->lookup_log2_page_sz);
+      pa = 0;
       seek = (va >> pm->sys_log2_page_sz) * sizeof (pa);
       if (fd != -1 && lseek (fd, seek, SEEK_SET) == seek &&
          read (fd, &pa, sizeof (pa)) == (sizeof (pa)) &&
@@ -233,7 +261,7 @@ pmalloc_map_pages (clib_pmalloc_main_t * pm, clib_pmalloc_arena_t * a,
 {
   clib_pmalloc_page_t *pp = 0;
   int status, rv, i, mmap_flags;
-  void *va;
+  void *va = MAP_FAILED;
   int old_mpol = -1;
   long unsigned int mask[16] = { 0 };
   long unsigned int old_mask[16] = { 0 };
@@ -273,24 +301,26 @@ pmalloc_map_pages (clib_pmalloc_main_t * pm, clib_pmalloc_arena_t * a,
       return 0;
     }
 
-  mmap_flags = MAP_FIXED | MAP_ANONYMOUS | MAP_LOCKED;
-
-  if (a->log2_subpage_sz != pm->sys_log2_page_sz)
-    mmap_flags |= MAP_HUGETLB;
+  mmap_flags = MAP_FIXED;
 
   if (a->flags & CLIB_PMALLOC_ARENA_F_SHARED_MEM)
     {
       mmap_flags |= MAP_SHARED;
-      if (mmap_flags & MAP_HUGETLB)
+      if (a->log2_subpage_sz != pm->sys_log2_page_sz)
        pm->error = clib_mem_create_hugetlb_fd ((char *) a->name, &a->fd);
       else
        pm->error = clib_mem_create_fd ((char *) a->name, &a->fd);
       if (a->fd == -1)
        goto error;
+      if ((ftruncate (a->fd, size)) == -1)
+       goto error;
     }
   else
     {
-      mmap_flags |= MAP_PRIVATE;
+      if (a->log2_subpage_sz != pm->sys_log2_page_sz)
+       mmap_flags |= MAP_HUGETLB;
+
+      mmap_flags |= MAP_PRIVATE | MAP_ANONYMOUS;
       a->fd = -1;
     }
 
@@ -304,6 +334,12 @@ pmalloc_map_pages (clib_pmalloc_main_t * pm, clib_pmalloc_arena_t * a,
       goto error;
     }
 
+  if (a->log2_subpage_sz != pm->sys_log2_page_sz && mlock (va, size) != 0)
+    {
+      pm->error = clib_error_return_unix (0, "Unable to lock pages");
+      goto error;
+    }
+
   clib_memset (va, 0, size);
 
   rv = set_mempolicy (old_mpol, old_mask, sizeof (old_mask) * 8 + 1);
@@ -324,10 +360,6 @@ pmalloc_map_pages (clib_pmalloc_main_t * pm, clib_pmalloc_arena_t * a,
        clib_error_return (0, "page allocated on wrong node, numa node "
                           "%u status %d", numa_node, status);
 
-      /* unmap & reesrve */
-      munmap (va, size);
-      mmap (va, size, PROT_NONE, MAP_FIXED | MAP_PRIVATE | MAP_ANONYMOUS,
-           -1, 0);
       goto error;
     }
 
@@ -357,6 +389,13 @@ pmalloc_map_pages (clib_pmalloc_main_t * pm, clib_pmalloc_arena_t * a,
   return pp - (n_pages - 1);
 
 error:
+  if (va != MAP_FAILED)
+    {
+      /* unmap & reserve */
+      munmap (va, size);
+      mmap (va, size, PROT_NONE, MAP_FIXED | MAP_PRIVATE | MAP_ANONYMOUS,
+           -1, 0);
+    }
   if (a->fd != -1)
     close (a->fd);
   return 0;
@@ -406,7 +445,7 @@ clib_pmalloc_create_shared_arena (clib_pmalloc_main_t * pm, char *name,
       return 0;
     }
 
-  return pm->base + (pp->index << pm->def_log2_page_sz);
+  return pm->base + ((uword) pp->index << pm->def_log2_page_sz);
 }
 
 static inline void *
@@ -585,8 +624,6 @@ format_pmalloc_page (u8 * s, va_list * va)
   int verbose = va_arg (*va, int);
   u32 indent = format_get_indent (s);
 
-  s = format (s, "page %u: phys-addr %p ", pp->index, pp->pa);
-
   if (pp->chunks == 0)
     return s;
 
@@ -628,9 +665,10 @@ format_pmalloc (u8 * s, va_list * va)
   clib_pmalloc_arena_t *a;
 
   s = format (s, "used-pages %u reserved-pages %u default-page-size %U "
-             "lookup-page-size %U", vec_len (pm->pages), pm->max_pages,
+             "lookup-page-size %U%s", vec_len (pm->pages), pm->max_pages,
              format_log2_page_size, pm->def_log2_page_sz,
-             format_log2_page_size, pm->lookup_log2_page_sz);
+             format_log2_page_size, pm->lookup_log2_page_sz,
+             pm->flags & CLIB_PMALLOC_F_NO_PAGEMAP ? " no-pagemap" : "");
 
 
   if (verbose >= 2)
@@ -664,6 +702,29 @@ format_pmalloc (u8 * s, va_list * va)
   return s;
 }
 
+u8 *
+format_pmalloc_map (u8 * s, va_list * va)
+{
+  clib_pmalloc_main_t *pm = va_arg (*va, clib_pmalloc_main_t *);
+
+  u32 index;
+  s = format (s, "%16s %13s %8s", "virtual-addr", "physical-addr", "size");
+  vec_foreach_index (index, pm->lookup_table)
+  {
+    uword *lookup_val, pa, va;
+    lookup_val = vec_elt_at_index (pm->lookup_table, index);
+    va =
+      pointer_to_uword (pm->base) +
+      ((uword) index << pm->lookup_log2_page_sz);
+    pa = va - *lookup_val;
+    s =
+      format (s, "\n %16p %13p %8U", uword_to_pointer (va, u64),
+             uword_to_pointer (pa, u64), format_log2_page_size,
+             pm->lookup_log2_page_sz);
+  }
+  return s;
+}
+
 /*
  * fd.io coding-style-patch-verification: ON
  *