5 篇博文含有标签「containerd」

Dragonfly 完成安全审计!

2023年9月15日 · 4 分钟阅读

今年夏天，在四个工程师周的时间里，Trail of Bits 和 OSTIF 合作对 Dragonfly2 进行了安全审计。作为 CNCF 孵化项目，Dragonfly2 是基于 P2P 技术的文件分发系统。该范围包括用于镜像分发的 Dragonfly 子项目 Nydus。此次合作围绕与项目毕业时的安全性和寿命相关的几个目标进行了概述和构造。

Trail of Bits 审计团队通过使用静态和手动测试以及自动化和手动流程来进行审计。通过引入 semgrep 和 CodeQL 工具，对客户端、调度程序和管理器代码进行手动审查，并对 gRPC 处理程序进行模糊测试，审计团队能够识别项目的各种结果，以提高其安全性。通过将工作重点放在高级业务逻辑和外部可访问端上，Trail of Bits 审计团队能够在审计过程中确定重点，并为 Dragonfly2 未来的工作提供指导和建议。

审计报告记录了 19 项调查结果。其中 5 个调查结果被评为高，1 个为中，4 个为低，5 个为信息性， 4 个被认为是未确定的。其中 9 个调查结果被归类为数据验证，其中 3 个属于高严重性。 Dragonfly2 的代码库成熟度也进行了排名和审查，包括项目代码的 11 个方面，报告中对这些方面进行了单独分析。

这是一个很庞大的项目，由于时间和范围的限制，无法全面审查。由于这些原因，多个专门功能不在本次审核的范围之内。该项目是在毕业前继续进行审计工作以改进和提升代码并强化安全性的绝佳机会。持续的安全努力至关重要，因为安全是一个不断变化的目标。

我们要感谢 Trail of Bits 团队，特别是 Dan Guido、Jeff Braswell、Paweł Płatek 和 Sam Alws 在此项目上所做的工作。感谢 Dragonfly2 的维护者和贡献者，特别是戚文博，他们持续的工作和对本次活动的贡献。最后，我们感谢 CNCF 为此次审计提供资金并支持开源安全工作。

Dragonfly 和 Nydus Mirror 模式集成实践

2022年11月3日 · 11 分钟阅读

Gaius

Dragonfly Maintainer

简介

自 17 年开源以来，Dragonfly 被许多大规模互联网公司选用并投入生产使用，并在 18 年 10 月正式进入 CNCF，成为中国第三个进入 CNCF 沙箱级别的项目。 2020 年 4 月，CNCF 技术监督委员会（TOC）投票决定接受 Dragonfly 作为孵化级别的托管项目。 Dragonfly 多年生产实践经验打磨的下一代产品，它汲取了上一代 Dragonfly1.x 的优点并针对已知问题做了大量的优化。

Nydus 作为 Dragonfly 的子项目优化了 OCIv1 镜像格式，并以此设计了一个镜像文件系统，使容器可以按需下载镜像，不再需要下载完整镜像即可启动容器。在最新版本中 Dragonfly 完成了和子项目 Nydus 的集成，让容器启动即可以按需下载镜像，减少下载量。也可以在传输过程中利用 Dragonfly P2P 的传输方式，降低回源流量并且提升下载速度。

实践

依赖

所需软件	版本要求	文档
Kubernetes cluster	1.20+	kubernetes.io
Helm	3.8.0+	helm.sh
Containerd	v1.4.3+	containerd.io
Nerdctl	0.22+	containerd/nerdctl

注意: 如果没有可用的 Kubernetes 集群进行测试，推荐使用 Kind。

安装 Dragonfly

基于 Kubernetes cluster 详细安装文档可以参考 quick-start-kubernetes。

使用 Kind 安装 Kubernetes 集群

创建 Kind 多节点集群配置文件 kind-config.yaml, 配置如下:

kind: Cluster
apiVersion: kind.x-k8s.io/v1alpha4
nodes:
  - role: control-plane
  - role: worker
    extraPortMappings:
      - containerPort: 30950
        hostPort: 65001
      - containerPort: 30951
        hostPort: 40901
  - role: worker

使用配置文件创建 Kind 集群:

kind create cluster --config kind-config.yaml

切换 Kubectl 的 context 到 Kind 集群:

kubectl config use-context kind-kind

Kind 加载 Dragonfly 镜像

下载 Dragonfly latest 镜像:

docker pull dragonflyoss/scheduler:latest
docker pull dragonflyoss/manager:latest
docker pull dragonflyoss/dfdaemon:latest

Kind 集群加载 Dragonfly latest 镜像:

kind load docker-image dragonflyoss/scheduler:latest
kind load docker-image dragonflyoss/manager:latest
kind load docker-image dragonflyoss/dfdaemon:latest

基于 Helm Charts 创建 Dragonfly P2P 集群

创建 Helm Charts 配置文件 charts-config.yaml 并且开启 Peer 的预取功能, 配置如下:

scheduler:
  replicas: 1
  metrics:
    enable: true
  config:
    verbose: true
    pprofPort: 18066

seedPeer:
  replicas: 1
  metrics:
    enable: true
  config:
    verbose: true
    pprofPort: 18066
    download:
      prefetch: true

dfdaemon:
  hostNetwork: true
  metrics:
    enable: true
  config:
    verbose: true
    pprofPort: 18066
    download:
      prefetch: true
    proxy:
      defaultFilter: 'Expires&Signature&ns'
      security:
        insecure: true
      tcpListen:
        listen: 0.0.0.0
        port: 65001
      registryMirror:
        dynamic: true
        url: https://index.docker.io
      proxies:
        - regx: blobs/sha256.*

manager:
  replicas: 1
  metrics:
    enable: true
  config:
    verbose: true
    pprofPort: 18066

使用配置文件部署 Dragonfly Helm Charts:

$ helm repo add dragonfly https://dragonflyoss.github.io/helm-charts/
$ helm install --wait --create-namespace --namespace dragonfly-system dragonfly dragonfly/dragonfly -f charts-config.yaml
NAME: dragonfly
LAST DEPLOYED: Wed Oct 19 04:23:22 2022
NAMESPACE: dragonfly-system
STATUS: deployed
REVISION: 1
TEST SUITE: None
NOTES:
1. Get the scheduler address by running these commands:
  export SCHEDULER_POD_NAME=$(kubectl get pods --namespace dragonfly-system -l "app=dragonfly,release=dragonfly,component=scheduler" -o jsonpath={.items[0].metadata.name})
  export SCHEDULER_CONTAINER_PORT=$(kubectl get pod --namespace dragonfly-system $SCHEDULER_POD_NAME -o jsonpath="{.spec.containers[0].ports[0].containerPort}")
  kubectl --namespace dragonfly-system port-forward $SCHEDULER_POD_NAME 8002:$SCHEDULER_CONTAINER_PORT
  echo "Visit http://127.0.0.1:8002 to use your scheduler"

2. Get the dfdaemon port by running these commands:
  export DFDAEMON_POD_NAME=$(kubectl get pods --namespace dragonfly-system -l "app=dragonfly,release=dragonfly,component=dfdaemon" -o jsonpath={.items[0].metadata.name})
  export DFDAEMON_CONTAINER_PORT=$(kubectl get pod --namespace dragonfly-system $DFDAEMON_POD_NAME -o jsonpath="{.spec.containers[0].ports[0].containerPort}")
  You can use $DFDAEMON_CONTAINER_PORT as a proxy port in Node.

3. Configure runtime to use dragonfly:
  https://d7y.io/docs/getting-started/quick-start/kubernetes/

检查 Dragonfly 是否部署成功:

$ kubectl get po -n dragonfly-system
NAME                                 READY   STATUS    RESTARTS       AGE
dragonfly-dfdaemon-rhnr6             1/1     Running   4 (101s ago)   3m27s
dragonfly-dfdaemon-s6sv5             1/1     Running   5 (111s ago)   3m27s
dragonfly-manager-67f97d7986-8dgn8   1/1     Running   0              3m27s
dragonfly-mysql-0                    1/1     Running   0              3m27s
dragonfly-redis-master-0             1/1     Running   0              3m27s
dragonfly-redis-replicas-0           1/1     Running   1 (115s ago)   3m27s
dragonfly-redis-replicas-1           1/1     Running   0              95s
dragonfly-redis-replicas-2           1/1     Running   0              70s
dragonfly-scheduler-0                1/1     Running   0              3m27s
dragonfly-seed-peer-0                1/1     Running   2 (95s ago)    3m27s

创建 Peer Service 配置文件 peer-service-config.yaml 配置如下:

apiVersion: v1
kind: Service
metadata:
  name: peer
  namespace: dragonfly-system
spec:
  type: NodePort
  ports:
    - name: http-65001
      nodePort: 30950
      port: 65001
    - name: http-40901
      nodePort: 30951
      port: 40901
  selector:
    app: dragonfly
    component: dfdaemon
    release: dragonfly

使用配置文件部署 Peer Service:

kubectl apply -f peer-service-config.yaml

Containerd 集成 Nydus

生产环境 Containerd 集成 Nydus 详细文档可以参考 nydus-setup-for-containerd-environment。下面例子使用 Systemd 管理 nydus-snapshotter 服务。

下载安装 Nydus 工具

下载 containerd-nydus-grpc 二进制文件, 下载地址为 nydus-snapshotter/releases:

NYDUS_SNAPSHOTTER_VERSION=0.3.3
wget https://github.com/containerd/nydus-snapshotter/releases/download/v$NYDUS_SNAPSHOTTER_VERSION/nydus-snapshotter-v$NYDUS_SNAPSHOTTER_VERSION-x86_64.tgz
tar zxvf nydus-snapshotter-v$NYDUS_SNAPSHOTTER_VERSION-x86_64.tgz

安装 containerd-nydus-grpc 工具:

sudo cp nydus-snapshotter/containerd-nydus-grpc /usr/local/bin/

下载 nydus-image、nydusd 以及 nydusify 二进制文件, 下载地址为 dragonflyoss/image-service:

NYDUS_VERSION=2.1.1
wget https://github.com/dragonflyoss/image-service/releases/download/v$NYDUS_VERSION/nydus-static-v$NYDUS_VERSION-linux-amd64.tgz
tar zxvf nydus-static-v$NYDUS_VERSION-linux-amd64.tgz

安装 nydus-image、nydusd 以及 nydusify 工具:

sudo cp nydus-static/nydus-image nydus-static/nydusd nydus-static/nydusify /usr/local/bin/

Containerd 集成 Nydus Snapshotter 插件

配置 Containerd 使用 nydus-snapshotter 插件, 详细文档参考 configure-and-start-containerd。

127.0.0.1:65001 是 Dragonfly Peer 的 Proxy 地址， X-Dragonfly-Registry 自定义 Header 是提供给 Dragonfly 回源的源站仓库地址。

首先修改 Containerd 配置在 /etc/containerd/config.toml 添加下面内容:

[proxy_plugins]
  [proxy_plugins.nydus]
    type = "snapshot"
    address = "/run/containerd-nydus/containerd-nydus-grpc.sock"

[plugins.cri]
  [plugins.cri.containerd]
    snapshotter = "nydus"
    disable_snapshot_annotations = false

重启 Containerd 服务:

sudo systemctl restart containerd

验证 containerd 是否使用 nydus-snapshotter 插件:

$ ctr -a /run/containerd/containerd.sock plugin ls | grep nydus
io.containerd.snapshotter.v1          nydus                    -              ok

Systemd 启动 Nydus Snapshotter 服务

Nydusd 的 Mirror 模式配置详细文档可以参考 enable-mirrors-for-storage-backend。

创建 Nydusd 配置文件 nydusd-config.json, 配置如下:

{
  "device": {
    "backend": {
      "type": "registry",
      "config": {
        "mirrors": [
          {
            "host": "http://127.0.0.1:65001",
            "auth_through": false,
            "headers": {
              "X-Dragonfly-Registry": "https://index.docker.io"
            },
            "ping_url": "http://127.0.0.1:40901/server/ping"
          }
        ],
        "scheme": "https",
        "skip_verify": false,
        "timeout": 10,
        "connect_timeout": 10,
        "retry_limit": 2
      }
    },
    "cache": {
      "type": "blobcache",
      "config": {
        "work_dir": "/var/lib/nydus/cache/"
      }
    }
  },
  "mode": "direct",
  "digest_validate": false,
  "iostats_files": false,
  "enable_xattr": true,
  "fs_prefetch": {
    "enable": true,
    "threads_count": 10,
    "merging_size": 131072,
    "bandwidth_rate": 1048576
  }
}

复制配置文件至 /etc/nydus/config.json 文件:

sudo mkdir /etc/nydus && cp nydusd-config.json /etc/nydus/config.json

创建 Nydus Snapshotter Systemd 配置文件 nydus-snapshotter.service, 配置如下:

[Unit]
Description=nydus snapshotter
After=network.target
Before=containerd.service

[Service]
Type=simple
Environment=HOME=/root
ExecStart=/usr/local/bin/containerd-nydus-grpc --config-path /etc/nydus/config.json
Restart=always
RestartSec=1
KillMode=process
OOMScoreAdjust=-999
StandardOutput=journal
StandardError=journal

[Install]
WantedBy=multi-user.target

复制配置文件至 /etc/systemd/system/ 目录:

sudo cp nydus-snapshotter.service /etc/systemd/system/

Systemd 启动 Nydus Snapshotter 服务:

$ sudo systemctl enable nydus-snapshotter
$ sudo systemctl start nydus-snapshotter
$ sudo systemctl status nydus-snapshotter
● nydus-snapshotter.service - nydus snapshotter
     Loaded: loaded (/etc/systemd/system/nydus-snapshotter.service; enabled; vendor preset: enabled)
     Active: active (running) since Wed 2022-10-19 08:01:00 UTC; 2s ago
   Main PID: 2853636 (containerd-nydu)
      Tasks: 9 (limit: 37574)
     Memory: 4.6M
        CPU: 20ms
     CGroup: /system.slice/nydus-snapshotter.service
             └─2853636 /usr/local/bin/containerd-nydus-grpc --config-path /etc/nydus/config.json

Oct 19 08:01:00 kvm-gaius-0 systemd[1]: Started nydus snapshotter.
Oct 19 08:01:00 kvm-gaius-0 containerd-nydus-grpc[2853636]: time="2022-10-19T08:01:00.493700269Z" level=info msg="gc goroutine start..."
Oct 19 08:01:00 kvm-gaius-0 containerd-nydus-grpc[2853636]: time="2022-10-19T08:01:00.493947264Z" level=info msg="found 0 daemons running"

转换 Nydus 格式镜像

转换 python:3.9.15 镜像为 Nydus 格式镜像, 可以直接使用已经转换好的 dragonflyoss/python:3.9.15-nydus 镜像, 跳过该步骤。转换工具可以使用 nydusify 也可以使用 acceld。

登陆 Dockerhub:

docker login

转换 Nydus 镜像, DOCKERHUB_REPO_NAME 环境变量设置为用户个人的镜像仓库:

DOCKERHUB_REPO_NAME=dragonflyoss
sudo nydusify convert --nydus-image /usr/local/bin/nydus-image --source python:3.9.15 --target $DOCKERHUB_REPO_NAME/python:3.9.15-nydus

Nerdctl 运行 Nydus 镜像

使用 Nerdctl 运行 python:3.9.15-nydus, 过程中即通过 Nydus 和 Dragonfly 下载镜像:

sudo nerdctl --snapshotter nydus run --rm -it $DOCKERHUB_REPO_NAME/python:3.9.15-nydus

搜索日志验证 Nydus 基于 Mirror 模式通过 Dragonfly 分发流量:

$ grep mirrors /var/lib/containerd-nydus/logs/**/*log
[2022-10-19 10:16:13.276548 +00:00] INFO [storage/src/backend/connection.rs:271] backend config: ConnectionConfig { proxy: ProxyConfig { url: "", ping_url: "", fallback: false, check_interval: 5, use_http: false }, mirrors: [MirrorConfig { host: "http://127.0.0.1:65001", headers: {"X-Dragonfly-Registry": "https://index.docker.io"}, auth_through: false }], skip_verify: false, timeout: 10, connect_timeout: 10, retry_limit: 2 }

性能测试

测试 Nydus Mirror 模式与 Dragonfly P2P 集成后的单机镜像下载的性能。主要测试不同语言镜像运行版本命令的启动时间，例如 python 镜像运行启动命令为 python -V。测试是在同一台机器上面做不同场景的测试。由于机器本身网络环境、配置等影响，实际下载时间不具有参考价值，但是不同场景下载时间所提升的比率是有重要意义的。

nydus-mirror-dragonfly

OCIv1: 使用 Containerd 直接拉取镜像并且启动成功的数据。
Nydus Cold Boot: 使用 Containerd 通过 Nydus 拉取镜像，没有命中任何缓存并且启动成功的数据。
Nydus & Dragonfly Cold Boot: 使用 Containerd 通过 Nydus 拉取镜像，并且基于 Nydus Mirror 模式流量转发至 Dragonfly P2P，在没有命中任何缓存并且启动成功的数据。
Hit Dragonfly Remote Peer Cache: 使用 Containerd 通过 Nydus 拉取镜像，并且基于 Nydus Mirror 模式流量转发至 Dragonfly P2P，在命中 Dragonfly 的远端 Peer 缓存的情况下并且成功启动的数据。
Hit Dragonfly Local Peer Cache: 使用 Containerd 通过 Nydus 拉取镜像，并且基于 Nydus Mirror 模式流量转发至 Dragonfly P2P，在命中 Dragonfly 的本地 Peer 缓存的情况下并且成功启动的数据。
Hit Nydus Cache: 使用 Containerd 通过 Nydus 拉取镜像，并且基于 Nydus Mirror 模式流量转发至 Dragonfly P2P，在命中 Nydus 的本地缓存的情况下并且成功启动的数据。

测试结果表明 Nydus Mirror 模式和 Dragonfly P2P 集成。使用 Nydus 下载镜像对比 OCIv1 的模式，能够有效减少镜像下载时间。Nydus 冷启动和 Nydus & Dragonfly 冷启动数据基本接近。其他命中 Dragonfly Cache 的结果均好于只使用 Nydus 的情况。最重要的是如果很大规模集群使用 Nydus 拉取镜像，会将每个镜像层的下载分解按需产生很多 Range 请求。增加镜像仓库源站 QPS。而 Dragonfly 可以基于 P2P 技术有效减少回源镜像仓库的请求数量和下载流量。最优的情况，Dragonfly 可以保证大规模集群中每个下载任务只回源一次。

链接

Dragonfly 社区

官方网站: https://d7y.io/
Github 仓库: https://github.com/dragonflyoss/Dragonfly2
Slack Channel: #dragonfly on CNCF Slack
Discussion Group: dragonfly-discuss@googlegroups.com
Twitter: @dragonfly_oss

Nydus 社区

官方网站: https://nydus.dev/
Github 仓库: https://github.com/dragonflyoss/image-service
Slack Channel: #nydus

Nydus 镜像加速之内核演进之路

2022年6月6日 · 22 分钟阅读

Jingbo Xu

Nydus 镜像加速之内核演进之路

多年来容器化实践告诉我们，优化后的容器镜像搭配 P2P 网络等技术可以有效降低容器部署启动的时间，并可保障容器持续稳定运行。为此我们开发了 Nydus 项目，作为 Dragonfly 下的镜像服务。

而除了启动速度，镜像分层、按需加载等核心特性在容器镜像领域也尤为重要。但是由于没有原生的文件系统支持，大多数都选择了用户态方案，Nydus 最初亦如此。随着方案和需求的不断演进，用户态方案遇到了越来越多的挑战，如性能与原生文件系统相比有较大差距、高密场景下资源开销较大等等。

为此我们设计并实现了兼容内核原生 EROFS 文件系统的 RAFS v6 格式，希望将容器镜像方案下沉到内核态。同时随着 erofs over fscache 按需加载技术合入 5.19 内核， Nydus 镜像服务的下一代容器镜像分发方案逐渐清晰起来。同时这也是 Linux 主线内核首个原生支持、开箱即用的容器镜像分发方案，为容器镜像终态的高密、高性能、高可用和易用性提供坚实保障。

本文将从 Nydus 架构回顾、RAFS v6 镜像格式和 EROFS over Fscache 按需加载技术三个角度来介绍该方案的演变历程。

为了解更多详情，请关注Nydus。请参考用户手册以使用 Nydus 的上述特性.

Nydus 架构回顾

一句话总结一下，Nydus 镜像加速服务是一种优化了现有的 OCIv1 容器镜像架构，设计了 RAFS (Registry Acceleration File System) 磁盘格式，最终呈现为一种 文件系统 的容器镜像格式的镜像加速实现。

容器镜像的根本需求，本质上是为了提供容器的根目录 (rootfs)，这可以通过文件系统 (file system) 或者是归档格式 (archive format) 来承载，当然也可以在文件系统的基础上二次套娃 (例如通过自定义的块格式来承载)，但本质载体是一个 目录树，体现为文件接口。

先看一下 OCIv1 标准镜像，OCIv1 格式是一种基于 Docker Image Manifest Version 2 Schema 2 格式的镜像格式规范，由 manifest、镜像索引 (optional)、一系列容器镜像层及配置文件组成，细节可以参见相关文档，本文不再赘述。本质上说 OCI 镜像是一个以层为基本单位的镜像格式，每个层存储了文件级别的 diff data，以 tgz 归档格式存储，如下所示： ociv1

由于 tgz 的限制，OCIv1 存在一些固有问题，例如无法按需加载、较粗的层级的去重粒度、每层 hash 值易变等等。

而一些“二次套娃”方案 (例如基于自定义块格式的容器镜像方案)，也存在一些原理性的设计缺陷。例如：

容器镜像最终要体现为一棵目录树，那么就需要相应的文件系统来承载 (例如 ext4)，这样整个链路为“自定义块格式 + 用户态块设备 + 文件系统”，相对于文件系统方案其链路更长更复杂，端到端稳定性不可控；
由于块格式对上层的文件系统不感知，无法区分文件系统的元数据和数据并分别处理 (例如压缩)；
无法实现基于文件的镜像分析特性例如安全扫描、热点分析和运行时拦截等；
对于多个“二次套娃”容器镜像，无法做到不修改 blob 内容直接 merge 成一个大镜像，而这是文件系统方案的天然能力。

而我们实现的 Nydus 则是一种基于文件系统的容器镜像存储方案。其中将容器镜像文件系统的数据 (blobs) 和元数据 (bootstrap) 分离，让原来的镜像层只存储文件的数据部分。并且把文件以 chunk 为粒度分割，每层 blob 存储对应的 chunk 数据；因为采用了 chunk 粒度，这细化了去重粒度，chunk 级去重让层与层之间，镜像与镜像之间共享数据更容易，也更容易实现按需加载。由于元数据被单独分离出来合为一处，因此对于元数据的访问不需拉取对应的 blob 数据，需要拉取的数据量要小很多，I/O 效率更高。Nydus RAFS 镜像格式如下图所示： nydus_rafs

RAFS v6 镜像格式

RAFS 镜像格式演变

在 RAFS v6 格式引入之前，Nydus 使用的是一个完全用户态实现的镜像格式，通过 FUSE 或 virtiofs 接口提供服务。但用户态文件系统方案在设计上存在以下缺陷：

大量系统调用开销不可忽略，例如深度为 1 的随机小 I/O 访问；
当容器镜像中存在大量文件时，频繁的文件操作会产生大量的 fuse 请求，造成内核态/用户态上下文的频繁切换，造成性能瓶颈；
非 FSDAX 场景下，用户态到内核态的 buffer copy 会消耗 CPU 占用；
在 FSDAX (virtiofs 作为接口) 场景下，大量小文件会大量占用 DAX window 资源，存在潜在的性能抖动；频繁切换访问小文件也会产生大量 DAX mapping setup 开销。

这些问题是用户态文件系统方案的天然限制带来的，而如果将容器镜像格式的实现下沉到内核态，就可以从原理上根治上述问题。因而我们引入了 RAFS v6 镜像格式，一个依托于内核 EROFS 文件系统，实现于内核态的容器镜像格式。

EROFS 文件系统介绍

EROFS 文件系统自 Linux 4.19 内核开始存在于 Linux 主线中，过去主要用于嵌入式和移动终端领域，存在于当前各大流行发行版中 (例如 Fedora，Ubuntu，Archlinux，Debian，Gentoo 等等)。用户态工具 erofs-utils 也已经存在于这些发行版和 OIN Linux system definition 列表中，社区较活跃。

EROFS 文件系统具备如下特征：

适用于多种场景的原生本地只读块文件系统，磁盘格式具备最小 I/O 单位定义；
page-sized 块对齐的不压缩元数据；
通过 Tail-packing 内联技术有效节省空间，同时维持高访问性能;
数据均以块为单位寻址 (mmap I/O 友好，不需 I/O 后处理);
随机访问友好的磁盘目录格式；
核心磁盘格式非常简单，且易于增加 payload，扩展性更好；
支持 DIRECT I/O 访问，支持块设备、FSDAX 等多种后端；
同时 EROFS 预留了 boot sector，可支持 bootloader 自启动等需求。

RAFS v6 镜像格式介绍

过去一年，阿里云内核团队对 EROFS 文件系统进行了一系列的改进与增强，拓展其在云原生下的使用场景，使其适应容器镜像存储系统的需求，最终呈现为一个实现于内核态的容器镜像格式，RAFS v6。而除了将镜像格式下沉到内核态，RAFS v6 还在镜像格式上进行了一系列优化，例如块对齐、更加精简的元数据等等。

新的 RAFS v6 镜像格式如下： rafsv6

改进后的 Nydus 镜像服务架构如下图所示，增加了对 (EROFS based) RAFS v6 镜像格式的支持： rafsv6_arch

EROFS over Fscache

erofs over fscache 是阿里云内核团队为 Nydus 开发的下一代容器镜像按需加载技术，同时也是 Linux 内核原生的镜像按需加载特性，于 5.19 版本合入 Linux 内核主线。 erofs_over_fscache_merge

并于 LWN.net 作为 5.19 合并窗口的高亮特性： erofs_over_fscache_lwn

在此之前业界已有的按需加载几乎都是用户态方案。用户态方案会涉及频繁的内核态/用户态上下文切换，以及内核态/用户态之间的内存拷贝，从而造成性能瓶颈。这一问题在容器镜像已经全部下载到本地的时候尤其突出，此时容器运行过程中涉及的文件访问，都还是会陷出到用户态的服务进程。

事实上我们可以将按需加载的 1) 缓存管理和 2) 缓存未命中的时候，通过各种途径 (例如网络) 获取数据，这两个操作解耦开。缓存管理可以下沉到内核态执行，这样当镜像在本地 ready 的时候，就可以避免内核态/用户态上下文的切换。而这也正是 erofs over fscache 技术的价值所在。

方案原理

fscache/cachefiles (以下统称 fscache) 是 Linux 系统中相对成熟的文件缓存方案，广泛应用于网络文件系统 (例如 NFS、Ceph 等)。我们的主要工作是，使其支持本地文件系统 (例如 erofs) 的按需加载特性。

此时容器在访问容器镜像的时候，fscache 会检查当前请求的数据是否已经缓存，如果缓存命中 (cache hit)，那么直接从缓存文件读取数据。这一过程全程处于内核态之中，并不会陷出到用户态。 erofs_over_fscache_cache_hit

否则 (cache miss) 需要通知用户态的 Nydusd 进程以处理这一访问请求，此时容器进程会陷入睡眠等待状态；Nydusd 通过网络从远端获取数据，通过 fscache 将这些数据写入对应的缓存文件，之后通知之前陷入睡眠等待状态的进程该请求已经处理完成；之后容器进程即可从缓存文件读取到数据。 erofs_over_fscache_cache_miss

方案优势

正如之前所描述的，在镜像数据已经全部下载到本地的情况下，用户态方案会导致访问文件的进程频繁陷出到用户态，并涉及内核态/用户态之间的内存拷贝。而 erofs over fscache 下则不会再陷出到用户态，让按需加载真的“按需”，从而在提前下载容器镜像的场景下实现几乎无损的性能和稳定性，最终获得 1) 按需加载与 2) 提前下载容器镜像这两种场景下真正统一、无损的方案。

具体来说 erofs over fscache 相对于用户态方案具有以下优势。

1. 异步预取

容器创建之后，当容器进程尚未触发按需加载 (cache miss) 的时候，用户态的 Nydusd 就可以开始从网络下载数据并写入缓存文件，之后当容器访问的文件位置恰好处于预取范围内的时候，就会触发 cache hit 直接从缓存文件读取数据，而不会再陷出到用户态。用户态方案则无法实现该优化。 erofs_over_fscache_prefetch

2. 网络 IO 优化

当触发按需加载 (cache miss) 的时候，Nydusd 可以一次性从网络下载比当前实际请求的数据量更多的数据，并将下载的数据写入缓存文件。例如容器访问 4K 数据触发的 cache miss，而 Nydusd 实际一次性下载 1MB 数据，以减小单位文件大小的网络传输延时。之后容器访问接下来的这 1MB 数据的时候，就不必再陷出到用户态。用户态方案则无法实现该优化，因为即使触发 cache miss 的时候，用户态的服务进程同样实现了该优化，下一次容器访问位于读放大范围内的文件数据的时候，同样会陷出到用户态。 erofs_over_fscache_readahead

3. 更佳的性能表现

当镜像数据已经全部下载到本地的时候 (即不考虑按需加载的影响)，erofs over fscache 的性能表现显著优于用户态方案，同时与原生文件系统的性能相近，从而实现与原生容器镜像方案 (未实现按需加载) 相近的性能表现。以下是几个工作负载下的性能测试数据 [1]。

read/randread IO

以下是文件 read/randread buffer IO [2] 的性能对比

read	IOPS	BW	性能
native ext4	267K	1093MB/s	1
loop	240K	982MB/s	0.90
fscache	227K	931MB/s	0.85
fuse	191K	764MB/s	0.70

randread	IOPS	BW	性能
native ext4	10.1K	41.2MB/s	1
loop	8.7K	34.8MB/s	0.84
fscache	9.5K	38.2MB/s	0.93
fuse	7.6K	31.2MB/s	0.76

"native" 表示测试文件直接位于本地的 ext4 文件系统中
"loop" 表示测试文件位于 erofs 镜像内，通过 loop 设备的 DIRECT IO 模式挂载 erofs 镜像
"fscache" 表示测试文件位于 erofs 镜像内，通过 erofs over fscache 方案挂载 erofs 镜像
"fuse" 表示挂载测试文件位于 fuse 文件系统 [3] 内
"性能" 一栏对各个模式下的性能进行归一化处理，以原生 ext4 文件系统的性能为基准，比较其他模式下的性能

可以看到，fscache 模式下的 read/randread 性能与 loop 模式下的性能基本持平，同时要优于 fuse 模式；但是与原生 ext4 文件系统的性能仍存在一定差距，我们正在进一步分析和优化，理论上该方案可以达到原生文件系统的水平。

文件元数据操作测试

通过对大量小文件执行 tar 操作 [4] 测试文件元数据操作的性能。

	Time	性能
native ext4	1.04s	1
loop	0.550s	1.89
fscache	0.570s	1.82
fuse	3.2s	0.33

可以看到 erofs 格式的容器镜像的元数据性能甚至优于原生 ext4 文件系统，这是 erofs 特殊的文件系统格式导致的。由于 erofs 是一个只读 (read-only) 文件系统，因而其所有元数据可以紧密排布在一起，而 ext4 作为可写文件系统，其元数据则分散排布在多个 BG (block group) 中。

典型工作负载测试

测试 linux 源码编译 [5] 这一典型工作负载下的性能表现。

Linux Compiling	Time	性能
native ext4	156s	1
loop	154s	1.0
fscache	156s	1.0
fuse	200s	0.78

可以看到，fscache 模式下的 Linux 编译负载性能与 loop 模式、原生 ext4 文件系统的性能基本持平，同时要优于 fuse 模式。

4. 高密部署

由于 erofs over fscache 方案基于文件实现，即每个容器镜像都表现为 fscache 下的一个缓存文件，因而其天然支持高密部署的场景。例如一个典型的 node.js 容器镜像在该方案下对应 ~20 个缓存文件，那么在一个部署有上百个容器的机器中，只需要维护上千个缓存文件。

5. 故障恢复与热升级

当镜像文件全部下载到本地的时候，镜像中文件的访问不再需要用户态服务进程的介入，因而用户态服务进程存在更加充裕的时间窗口来实现故障恢复与热升级功能。这种场景下甚至不再需要用户态进程，从而实现与原生容器镜像方案 (未实现按需加载) 相近的稳定性表现。

6. 统一的容器镜像方案

有了 RAFS v6 镜像格式和 erofs over fscache 按需加载技术，Nydus 同时适用于 runc 与 rund，作为这两种容器场景下的统一的容器镜像分发方案。

另外更重要的，erofs over fscache 是 1) 按需加载与 2) 提前下载容器镜像这两种场景下真正统一、无损的方案。一方面，它实现了按需加载特性，在容器启动的时候不需要容器镜像全部下载到本地，从而助力极致的容器启动速度。另一方面，它又完美兼容容器镜像已经下载到本地的这一场景，在文件访问过程中不再频繁陷出到用户态，从而实现与原生容器镜像方案 (未实现按需加载) 近乎无损的性能和稳定性表现。

展望与感谢

之后我们会对 erofs over fscache 方案进行持续迭代与完善，例如不同容器之间的镜像复用，stargz 和 FSDAX 支持，以及性能优化等。

最后感谢方案开发过程中支持和帮助过我们的所有个人与团队，感谢快手与字节跳动的同学对该方案的大力支持，让我们携手一起构建一个更好的容器镜像生态：）

测试环境 ECS ecs.i2ne.4xlarge (16 vCPU, 128 GiB Mem)，本地 NVMe 盘
测试命令 "fio -ioengine=psync -bs=4k -direct=0 -rw=[read|randread] -numjobs=1"
使用 passthrough_hp 作为 fuse daemon
测试 "tar -cf /dev/null linux_src_dir" 命令的执行时间
测试 "time make -j16" 命令的执行时间

P2P加速Docker镜像分发(阿里Dragonfly2+google jib)(基于d7y 2.0.2)

2022年2月14日 · 8 分钟阅读

anjia0532

攻城狮

简单介绍下

google jib ：支持 gradle 和 maven，用于构建 java 应用镜像时，将基础镜像(jdk)，
依赖(jar lib),资源文件(resources),class 文件等进行分层(layer),这样依赖，在拉取和推送镜像时，起到加速和节省带宽的目的。
Dragonfly2：是阿里开源的一款基于 P2P 协议的，镜像和文件分发加速工具，
与 dragonfly1 相比，dragonfly2 用 golang 重构了，运行时占用资源更少。理论上可以基于 dragonfly 做一个局域网 CDN，及局域网镜像加速器，
文件通过 dragonfly 下载后，缓存到局域网内，再次请求时，如果局域网节点内有，且未过期，则通过 p2p 协议从局域网内拉取，防止占用公网带宽及某个节点过载被打死的情况。

简单总结下，jib 解决的是 java 应用动不动 100M+甚至 1G+的情况（变成了 80M JDK(基本不变)+200M jar(基本不变)+300M resource(基本不变)+ 1M class（每次发版会变）），而 dragonfly2 解决的是节省公网带宽，减少内部 registry 节点过热的情况，加起来就是，容器 push&pull 的过程更快了

其实三年前写过阿里 Dragonfly+google jib 的文章，但是时间比较久远，有些内容已经过时,所以准备重新整理下。之前文章如下：

Google Jib

jib 支持 maven: jib-maven-plugin 和gradle: jib-gradle-plugin , 以及常见的多模块场景

翻了翻新版的 jib-maven-plugin 文档，主要部分跟我之前的加速和简化构建 Docker(基于 Google jib) 差不多，不再CV了

但是加了不少新特性，比如

特别的说一下，jib 的很多配置，除了改 pom.xml 外，还支持无侵入的通过命令行指定，并且，命令行传入优先级更高，比如 mvn compile com.google.cloud.tools:jib-maven-plugin:3.2.0:build -Dimage=<MY IMAGE>中的-Dimage= 对应的是 pom.xml 里的<configuration><to><image></image></to></configuration>

K8S(kubernetes)以 rke2 为例

安装 k8s 集群，如果只是简单测试一下，可以用 k3s 或者本地分布式开发环境搭建使用 Vagrant 和 Virtualbox 或者 rke2 (如果会用 ansible 也可以用 ansible playbook rke2 )

如果想可视化看下 k8s 集群，可以用kube-explorer, k9s 也可以用rancher2.6(注意如果用 rancher 的话，注意 rke2 安装的版本,以最新稳定版本 2.6.3为例，默认支持的是 k8s v1.21.7,也就是得用rke2 v1.21.7+rke2r2)

Dragonfly2

详细内容可参考官网 d8y.io。

helm 安装

官方文档 https://github.com/dragonflyoss/helm-charts/blob/main/charts/dragonfly/README.md

考虑到国内特殊国情，可能会访问 github 失败，可以用 https://gitee.com/projects/import/url 中转(也可以用我的 https://gitee.com/anjia/dragonflyoss-helm-charts)

git clone https://gitee.com/anjia/dragonflyoss-helm-charts.git

cd ./dragonflyoss-helm-charts/charts/dragonfly

helm dependency update

helm install --create-namespace --namespace dragonfly-system dragonfly . -f values.yml

如果要自定义参数，通过 -f values.yml 来指定，如果默认则移除 -f values.yml, 支持的配置有 https://github.com/dragonflyoss/helm-charts/tree/main/charts/dragonfly#values

注意点

dragonfly 的 helm 支持 docker 和 containerd 两种引擎，官方推荐使用 containerd(因为支持 fallback，docker 不支持)，如果是加速多镜像库官方推荐使用 containerd1.5.x+, 因为 /etc/containerd/config.toml 是 version2 版本，支持多个注册中心的加速，否则只支持一个，当然也有办法解决，后边再说。
rke2 是通过 /etc/rancher/rke2/registries.yaml 来生成 /var/lib/rancher/rke2/agent/etc/containerd/config.toml的，而目前版本的 helm 不支持自定义/etc/containerd/config.toml就会导致 daemon 启动失败，提了个 pr 还没过 https://github.com/dragonflyoss/helm-charts/pull/51，可以先手动修改
通过 d7y 的 helm 修改的 config.toml 一重启 rke2-server/agent 就会被覆盖，所以，最终要修改 /etc/rancher/rke2/registries.yaml ，而这个改动需要重启 rke2-server/agent 才生效，所以注意测试是否对业务有影响，尽量一次改完
注意污点(taints)对于 d7y daemon 的影响，如果确定要不走 d7y 的，注意别改 /etc/rancher/rke2/registries.yaml, 虽然 containerd 有 fallback，但是多少影响点时间不是么，如果有污点也有用 d7y 记得在 values 里加上对应的容忍(tolerations)
注意 d7y 的磁盘规划，以及缓存时间的设置
可以通过多次运行 time sudo /var/lib/rancher/rke2/bin/crictl --config=/var/lib/rancher/rke2/agent/etc/crictl.yaml pull xxx:latest 镜像来评估 d7y 对于镜像的加速作用(如果是在一台执行，记得执行 sudo /var/lib/rancher/rke2/bin/crictl --config=/var/lib/rancher/rke2/agent/etc/crictl.yaml rmi --prune来清理无用镜像)
containerd1.4.x 支持多注册中心的办法：1. 等 d7y 官方支持，参见 PRchore: enable range feature gate in e2e， 2，等 rancher 官方支持 containerd1.5.9 且你的集群升得动，3，改 hosts 劫持(但是不支持 fallback),4,只加速最常用的一个注册中心, 5,将其他不常用的注册中心的镜像 pull&push 到加速的注册中心里（注意别有镜像冲突）6,起两套 daemon 分别监听 65001 65002
d7y 支持预热功能，但是 consoleui 版本的，暂时没测通，api 版本可以，
参见文档 Preheat API
Harbor p2p 预热支持 d7y
containerd 如果要配置私有镜像库加速，需要配置127.0.0.1:65001的 auth，详见 issues dragonflyoss/Dragonfly2/#1065

附赠：docker hub 转移镜像到阿里私服 bash 脚本

注意将 xxxx 替换成实际值用法 /path/to/pull_push.sh nginx:alpine

#!/usr/bin/env bash

sudo service docker start

sudo docker login -uxxxx -pxxxxx registry.cn-zhangjiakou.aliyuncs.com

sudo docker pull $1

sudo docker tag $1 registry.cn-zhangjiakou.aliyuncs.com/xxxx/${1##*/}

sudo docker push registry.cn-zhangjiakou.aliyuncs.com/xxxx/${1##*/}

招聘小广告

山东济南的小伙伴欢迎投简历啊加入我们 , 一起搞事情。长期招聘，Java 程序员，大数据工程师，运维工程师，前端工程师。

参考资料

Containerd 接受 Nydus-snapshotter 成为子项目

2022年1月17日 · 1 分钟阅读

Changwei Ge

注意

文章只有英文版 Containerd Accepted Nydus-snapshotter

Links​

OSTIF & Trail of Bits​

Dragonfly community​

Nydus community​

简介​

实践​

依赖​

安装 Dragonfly​

使用 Kind 安装 Kubernetes 集群​

Kind 加载 Dragonfly 镜像​

基于 Helm Charts 创建 Dragonfly P2P 集群​

Containerd 集成 Nydus​

下载安装 Nydus 工具​

Containerd 集成 Nydus Snapshotter 插件​

Systemd 启动 Nydus Snapshotter 服务​

转换 Nydus 格式镜像​

Nerdctl 运行 Nydus 镜像​

性能测试​

链接​

Dragonfly 社区​

Nydus 社区​

Nydus 镜像加速之内核演进之路​

Nydus 架构回顾​

RAFS v6 镜像格式​

RAFS 镜像格式演变​

EROFS 文件系统介绍​

RAFS v6 镜像格式介绍​

EROFS over Fscache​

方案原理​

方案优势​

1. 异步预取​

2. 网络 IO 优化​

3. 更佳的性能表现​

read/randread IO​

文件元数据操作测试​

典型工作负载测试​

4. 高密部署​

5. 故障恢复与热升级​

6. 统一的容器镜像方案​

展望与感谢​

Google Jib​

K8S(kubernetes)以 rke2 为例​

Dragonfly2​

helm 安装​

注意点​

附赠：docker hub 转移镜像到阿里私服 bash 脚本​

招聘小广告​

参考资料​

注意​

Links

OSTIF & Trail of Bits

Dragonfly community

Nydus community

简介

实践

依赖

安装 Dragonfly

使用 Kind 安装 Kubernetes 集群

Kind 加载 Dragonfly 镜像

基于 Helm Charts 创建 Dragonfly P2P 集群

Containerd 集成 Nydus

下载安装 Nydus 工具

Containerd 集成 Nydus Snapshotter 插件

Systemd 启动 Nydus Snapshotter 服务

转换 Nydus 格式镜像

Nerdctl 运行 Nydus 镜像

性能测试

链接

Dragonfly 社区

Nydus 社区

Nydus 镜像加速之内核演进之路

Nydus 架构回顾

RAFS v6 镜像格式

RAFS 镜像格式演变

EROFS 文件系统介绍

RAFS v6 镜像格式介绍

EROFS over Fscache

方案原理

方案优势

1. 异步预取

2. 网络 IO 优化

3. 更佳的性能表现

read/randread IO

文件元数据操作测试

典型工作负载测试

4. 高密部署

5. 故障恢复与热升级

6. 统一的容器镜像方案

展望与感谢

Google Jib

K8S(kubernetes)以 rke2 为例

Dragonfly2

helm 安装

注意点

附赠：docker hub 转移镜像到阿里私服 bash 脚本

招聘小广告

参考资料

注意