[Linux服务器] Linux的命名空间

67 0
Honkers 13 小时前 | 显示全部楼层 |阅读模式

  本文中的代码摘自 Linux内核5.15.13版本。
  命名空间提供了虚拟化的一种轻量级形式,使得我们可以从不同的方面来查看运行系统的全局属性。

一、基本概念

  命名空间(Linux namespace)是linux内核针对实现容器虚拟化映入的一个特性。我们创建的每个容器都有自己的命名空间,运行在其中的应用都像是在独立的操作系统中运行一样,命名空间保证了容器之间互不影响。
  Linux的命名空间机制提供了一种资源隔离的解决方案。PID,IPC,Network等系统资源不再是全局性的,而是属于特定的Namespace。Namespace是对全局系统资源的一种封装隔离,使得处于不同namespace的进程拥有独立的全局系统资源,改变一个namespace中的系统资源只会影响当前namespace里的进程,对其他namespace中的进程没有影响。
  传统上,在Linux以及其他衍生的UNIX变体中,许多资源是全局管理的。例如,系统中的所有进程按照惯例是通过PID标识的,这意味着内核必须管理一个全局的PID列表。而且,所有调用者通过uname系统调用返回的系统相关信息(包括系统名称和有关内核的一些信息)都是相同的。用户ID的管理方式类似,即各个用户是通过一个全局唯一的UID号标识。
  全局ID使得内核可以有选择地允许或拒绝某些特权。虽然UID为0的root用户基本上允许做任何事,但其他用户ID则会受到限制。例如UID为n的用户,不允许杀死属于用户m的进程( m≠ n)。但这不能防止用户看到彼此,即用户n可以看到另一个用户m也在计算机上活动。只要用户只能操纵他们自己的进程,这就没什么问题,因为没有理由不允许用户看到其他用户的进程。
  但有些情况下,这种效果可能是不想要的。如果提供Web主机的供应商打算向用户提供Linux计算机的全部访问权限,包括root权限在内。传统上,这需要为每个用户准备一台计算机,代价太高。使用KVM或VMWare提供的虚拟化环境是一种解决问题的方法,但资源分配做得不是非常好。计算机的各个用户都需要一个独立的内核,以及一份完全安装好的配套的用户层应用。
  命名空间提供了一种不同的解决方案,所需资源较少。在虚拟化的系统中,一台物理计算机可以运行多个内核,可能是并行的多个不同的操作系统。而命名空间则只使用一个内核在一台物理计算机上运作,前述的所有全局资源都通过命名空间抽象起来。这使得可以将一组进程放置到容器中,各个容器彼此隔离。隔离可以使容器的成员与其他容器毫无关系。但也可以通过允许容器进行一定的共享,来降低容器之间的分隔。例如,容器可以设置为使用自身的PID集合,但仍然与其他容器共享部分文件系统。

二、实现

  命名空间的实现需要两个部分:每个子系统的命名空间结构,将此前所有的全局组件包装到命名空间中;将给定进程关联到所属各个命名空间的机制。
  子系统此前的全局属性现在封装到命名空间中,每个进程关联到一个选定的命名空间。每个可以感知命名空间的内核子系统都必须提供一个数据结构,将所有通过命名空间形式提供的对象集中起来。 struct nsproxy用于汇集指向特定于子系统的命名空间包装器的指针。在文件nsproxy.h中有:

  1. /*
  2. * A structure to contain pointers to all per-process
  3. * namespaces - fs (mount), uts, network, sysvipc, etc.
  4. *
  5. * The pid namespace is an exception -- it's accessed using
  6. * task_active_pid_ns. The pid namespace here is the
  7. * namespace that children will use.
  8. *
  9. * 'count' is the number of tasks holding a reference.
  10. * The count for each namespace, then, will be the number
  11. * of nsproxies pointing to it, not the number of tasks.
  12. *
  13. * The nsproxy is shared by tasks which share all namespaces.
  14. * As soon as a single namespace is cloned or unshared, the
  15. * nsproxy is copied.
  16. */
  17. struct nsproxy {
  18. atomic_t count;
  19. struct uts_namespace *uts_ns;
  20. struct ipc_namespace *ipc_ns;
  21. struct mnt_namespace *mnt_ns;
  22. struct pid_namespace *pid_ns_for_children;
  23. struct net *net_ns;
  24. struct time_namespace *time_ns;
  25. struct time_namespace *time_ns_for_children;
  26. struct cgroup_namespace *cgroup_ns;
  27. };
复制代码

  当前内核的以下范围可以感知到命名空间。
  1、 UTS命名空间包含了运行内核的名称、版本、底层体系结构类型等信息。 UTS是UNIXTimesharing System的简称。
  2、保存在struct ipc_namespace中的所有与进程间通信( IPC)有关的信息。
  3、 已经装载的文件系统的视图,在struct mnt_namespace中给出。
  4、 有关进程ID的信息,由struct pid_namespace提供。
  5、 struct user_namespace保存的用于限制每个用户资源使用的信息。
  6、struct net_ns包含所有网络相关的命名空间参数。
  当我讨论相应的子系统时,会介绍各个命名空间容器的内容。在由于在创建新进程时可使用fork建立一个新的命名空间,因此必须提供控制该行为的适当的标志。每个命名空间都有一个对应的标志,在sched.h文件内:

  1. #define CLONE_NEWCGROUP 0x02000000 /* New cgroup namespace */
  2. #define CLONE_NEWUTS 0x04000000 /* New utsname namespace */
  3. #define CLONE_NEWIPC 0x08000000 /* New ipc namespace */
  4. #define CLONE_NEWUSER 0x10000000 /* New user namespace */
  5. #define CLONE_NEWPID 0x20000000 /* New pid namespace */
  6. #define CLONE_NEWNET 0x40000000 /* New network namespace */
复制代码

  不同类型的命名空间的作用:
  IPC:用于隔离进程间通讯所需的资源( System V IPC, POSIX message queues),PID命名空间和IPC命名空间可以组合起来用,同一个IPC名字空间内的进程可以彼此看见,允许进行交互,不同空间进程无法交互
  Network:Network Namespace为进程提供了一个完全独立的网络协议栈的视图。包括网络设备接口,IPv4和IPv6协议栈,IP路由表,防火墙规则,sockets等等。一个Network Namespace提供了一份独立的网络环境,就跟一个独立的系统一样。
  Mount:每个进程都存在于一个mount Namespace里面,  mount Namespace为进程提供了一个文件层次视图。如果不设定这个flag,子进程和父进程将共享一个mount Namespace,其后子进程调用mount或umount将会影响到所有该Namespace内的进程。如果子进程在一个独立的mount Namespace里面,就可以调用mount或umount建立一份新的文件层次视图。
  PID::linux通过命名空间管理进程号,同一个进程,在不同的命名空间进程号不同!进程命名空间是一个父子结构,子空间对于父空间可见。
  User:用于隔离用户
  UTS:用于隔离主机名
  每个进程都关联到自身的命名空间视图,在任务定义的结构体task_struct中有如下定义:

  1. struct task_struct {
  2. ...
  3. /* 命名空间 */
  4. struct nsproxy *nsproxy;
  5. ...
  6. }
复制代码

  因为使用了指针,多个进程可以共享一组子命名空间。这样,修改给定的命名空间,对所有属于该命名空间的进程都是可见的。
  init_nsproxy定义了初始的全局命名空间,其中维护了指向各子系统初始的命名空间对象的指针。在kernel/nsproxy.c文件内有

  1. struct nsproxy init_nsproxy = {
  2. .count = ATOMIC_INIT(1),
  3. .uts_ns = &init_uts_ns,
  4. #if defined(CONFIG_POSIX_MQUEUE) || defined(CONFIG_SYSVIPC)
  5. .ipc_ns = &init_ipc_ns,
  6. #endif
  7. .mnt_ns = NULL,
  8. .pid_ns_for_children = &init_pid_ns,
  9. #ifdef CONFIG_NET
  10. .net_ns = &init_net,
  11. #endif
  12. #ifdef CONFIG_CGROUPS
  13. .cgroup_ns = &init_cgroup_ns,
  14. #endif
  15. #ifdef CONFIG_TIME_NS
  16. .time_ns = &init_time_ns,
  17. .time_ns_for_children = &init_time_ns,
  18. #endif
  19. };
复制代码

三、UTS命名空间

  UTS命名空间几乎不需要特别的处理,因为它只需要简单量,没有层次组织。所有相关信息都汇集到下列结构的一个实例中。在utsname.h文件内:

  1. struct uts_namespace {
  2. struct new_utsname name;
  3. struct user_namespace *user_ns;
  4. struct ucounts *ucounts;
  5. struct ns_common ns;
  6. } __randomize_layout;
复制代码

  uts_namespace所提供的属性信息本身包含在struct new_utsname中:

  1. struct oldold_utsname {
  2. char sysname[9];
  3. char nodename[9];
  4. char release[9];
  5. char version[9];
  6. char machine[9];
  7. };
  8. #define __NEW_UTS_LEN 64
  9. struct old_utsname {
  10. char sysname[65];
  11. char nodename[65];
  12. char release[65];
  13. char version[65];
  14. char machine[65];
  15. };
  16. struct new_utsname {
  17. char sysname[__NEW_UTS_LEN + 1];
  18. char nodename[__NEW_UTS_LEN + 1];
  19. char release[__NEW_UTS_LEN + 1];
  20. char version[__NEW_UTS_LEN + 1];
  21. char machine[__NEW_UTS_LEN + 1];
  22. char domainname[__NEW_UTS_LEN + 1];
  23. }
复制代码

  各个字符串分别存储了系统的名称( Linux…)、内核发布版本、机器名,等等。使用uname工具可以取得这些属性的当前值,也可以在/proc/sys/kernel/中看到

  1. z@z-virtual-machine:~$ cat /proc/sys/kernel/ostype
  2. Linux
  3. z@z-virtual-machine:~$ cat /proc/sys/kernel/osrelease
  4. 5.3.0-40-generic
复制代码

  初始设置保存在init_uts_ns中,在init/version.c文件内:

  1. struct uts_namespace init_uts_ns = {
  2. .ns.count = REFCOUNT_INIT(2),
  3. .name = {
  4. .sysname = UTS_SYSNAME,
  5. .nodename = UTS_NODENAME,
  6. .release = UTS_RELEASE,
  7. .version = UTS_VERSION,
  8. .machine = UTS_MACHINE,
  9. .domainname = UTS_DOMAINNAME,
  10. },
  11. .user_ns = &init_user_ns,
  12. .ns.inum = PROC_UTS_INIT_INO,
  13. #ifdef CONFIG_UTS_NS
  14. .ns.ops = &utsns_operations,
  15. #endif
  16. };
复制代码
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Honkers

特级红客

关注
  • 3280
    主题
  • 36
    粉丝
  • 0
    关注
这家伙很懒,什么都没留下!

中国红客联盟公众号

联系站长QQ:5520533

admin@chnhonker.com
Copyright © 2001-2025 Discuz Team. Powered by Discuz! X3.5 ( 粤ICP备13060014号 )|天天打卡 本站已运行