Garambrogne 2.0

Flot d’images disque

2024-04-23T09:04:00+02:00

AWS aime beaucoup les armes secrètes (et son monopole) : c’est bon pour son image, et ça la différencie des autres offres Cloud. Mais de temps en temps, AWS libère du code (pour mutualiser les efforts, pas pour faire plaisir à Stallman) et explique des points précis de son architecture.

L’article On-demand Container Loading in AWS Lambda, détail comment ils ont optimisé le temps de téléchargement des images disques utilisées dans leur offre serverless.

Contexte : le monde du Function As A Service

Le FAAS est proche du serverless, et je suis un fan de jargon technicocommercial préfixé en less, le flou et la polémique vont forcément accompagner ce nouveau barbarisme.

Le FAAS permet d’exposer une fonction comme service dans un cloud. Aucun détail d’implémentation ou même d’exécution ne doit perturber l’utilisateur de FAAS.

Le serverless est un poil au-dessous du FAAS, il abstrait totalement la partie exécution du service, en gérant le nombre d’instances, de zéros à suffisamment, avec une facturation à l’usage.

AWS Lambda

La page Wikipédia d’AWS Lambda donne une explication synthétique (avec l’historique des évolutions), qui évite de lire la page officielle et sa tempête d’acronymes en 3 lettres.

Techniquement, une fonction serverless est un bout de code qui sera démarré, puis qui ira dépiler une file d’attente en HTTP en causant JSON. Le protocole est masqué par les bibliothèques fournies, mais pour les curieux (et les langages compilés), il y a de la documentation et un exemple en shell. On est plus proche de Celery que de Django.

La plupart des utilisateurs se contenteront d’écrire leur bout de code métier : une fonction qui prend un JSON et un contexte en entrée, et qui en sortie produira une réponse serialisable en JSON. On range le nécessaire dans une archive zip, et hop, on téléverse.

Les lambdas ont été imaginés comme le liant entre différents services d’une offre Cloud, pour réagir à des évènements. Permettant ainsi à l’utilisateur de brancher son code DANS la machine, pas juste de consommer du service, avec le très classique protocole client-serveur.

Exposer des fonctions lambdas comme API HTTP n’est qu’un des différents usages des lambdas.

Les lambdas sont volatils et démarrés en quantité fluctuante, la persistance devra être assurée par un autre service, capable d’encaisser les pics d’utilisation (comme un pool de connexion pour une base de données relationnelles, ou des services conçus pour la violence comme S3, DynamoDB ou Scylladb).

Les lambdas sont facturés à la milliseconde, alors que les machines virtuelles sont facturées à la seconde). Oui, c’est un coup de comm, cette granularité est bien trop fine, mais ça insiste sur l’importance de la latence pour un lambda.

De l’autre côté du miroir

Vu du côté hébergement, en intégrant la notion de file d’attente, AWS se laisse la possibilité de lancer plein d’instances si le cluster n’est pas chargé (et se vanter de la faible latence), ou laisser s’allonger les files d’attente en attendant que ça se calme. Si le temps de démarrage du lambda est raisonnable, le cout devrait être comparable.

Lambda masque la notion d’image conteneur (par ce qu’au début, il n’en utilisait pas), mais expose quand même la notion de couches des images conteneurs, en permettant de composer une fonction avec une liste ordonnée d’archives Zip.

L’environnement d’exécution des lambdas est massivement multitenant, l’isolation des conteneurs (namespace, cgroup, seccomp, apparmor/SELinux) n’est pas suffisante pour un milieu aussi agressif, il faut donc des micromachines virtuelles. AWS s’est tourné vers les travaux de ChromeOS pour utiliser kvm (le module kernel), mais sans QEMU. Ils se sont mis d’accord pour partager rust-vmm, qui sert de base pour Firecracker, et pour les VMs spécifiques de ChromeOS.

Firecracker peut mettre en pause une VM (comparable au cgroup freezer), ce qui libère le processeur, mais pas la mémoire, permettant d’entasser des fonctions prédémarrées (Provisioned Concurrency en jargon AWS), fort pratique pour gérer des évènements synchrones peu fréquents, mais réactifs.

Firecracker pourra congeler (developer preview pour l’instant) une VM (en pause) et écrire son état (l’état de la VM et le contenu de la RAM).

Il est possible de rebrancher le réseau et l’entropie d’une fonction congelés, avant de la relancer (unpause en VO). Il est donc possible de décongeler une fonction autre part, plusieurs fois, et ainsi obtenir des clones. Criu promet la même chose depuis longtemps pour les conteneurs (ou les simples process). Le pool de fonctions “pret-à-porter” ne consommera pas de RAM, et pourra être centralisé. Curieux de connaitre la différence entre le temps de démarrage à froid et un téléchargement de l’état suivi d’une décongélation, j’imagine qu’un python qui tire de grosses bibliothèques sera plus apte à la décongélation qu’un langage compilé.

Serverless libre

Il n’y a pas encore de réponse évidente, mais tout tourne autour de Kurbernetes avec des évènements spécifiés par le CNCF, avec cloudevents. Tous considèrent que les fonctions sont exposées en HTTP, et qu’une passerelle gèrera les évènements issus d’une file d’attente, le contraire de Lambda.

Tous ces FAAS sont déployables sur un K8s maison ou infogéré, garantissant ainsi une portabilité (multi-cloud en jargon).

Knative se positionne comme standard de fait, poussé par Google, IBM et Redhat.

OpenFunction propose une approche de plus haut niveau, proposant d’utiliser Knative ou des alternatives (toujours basé sur k8s) comme Keda (l’autoscaler poussé par Azure), Dapr (comme Distributed Application Runtime, un sidecar comparable à Istio en plus ambitieux).

Fission propose une approche simple et de bon gout, avec juste Istio comme fantaisie. Leurs efforts se portent sur le démarrage à froid, avec un pool de conteneurs déjà prêt. À vérifier si le pod est en pause pour libérer du CPU. Le principal contributeur de Fission est InfraCloud, une grosse boite indienne, avec des bureaux en Allemagne, Pays-Bas et États-Unis, et un gros fan du CNCF.

OpenFAAS a exploré les alternatives à K8s, pour finalement ne faire plus que du k8s, le tout sous une licence bancale. Il est compliqué pour une simple société de financer ce genre de projet libre, Knative est financé par des gens qui ont d’autres (énormes) sources de revenus, et leur but est de péter (chatouiller) le monopole d’AWS (et de vendre de la VM ou du consulting).

K8s va tirer les runtimes alternatifs, dont les micro VMs comme Kata qui lui va pouvoir tirer les fils de KVM : QEMU, Cloud-Hypervisor et Firecracker (qui lui sait directement causer le containerd).

De l’autre côté du miroir

Les alternatives libres n’ont pas la volonté (ou même la possibilité) d’imposer un framework qui va emballer la définition de la fonction, d’où le choix standard de n’exposer que des services HTTP. Depuis l’époque de la création de Lambda, l’utilisation des CI/CD s’est généralisé, le build des images est moins bourrins, BuildX et ses amis dispensent le développeur d’une partie du tuning de build. Le distroless et les builds en composant les couches des images reprennent les empilements de Zip de Lambda. Une partie de la simplicité de déploiement de Lambda fait maintenant partie des workflows standards de conteneurs.

L’approche tout HTTP permet d’exposer une API simple, qui sera utilisée de manière synchrone (directement appelé par l’utilisateur en HTTP) ou asynchrone (toujours en HTTP, mais via un dépileur interne connecté à un fil d’attente).

En asynchrone, le scaler (contrôle de débit?) se contente d’effectuer des requêtes HTTP et de regarder ce que raconte Prometheus ou le cgroup du conteneur (la consommation de la fonction) pour estimer le bon débit d’évènement pour qu’une instance soit utilisée entièrement, avant de créer de nouvelles instances.

Les offres libres évoquent différentes files d’attente, comme Redis STREAM, Kafa ou NATS.

Décorticage de l’article sur le démarrage au fil de l’eau

L’article est écrit par des gens de chez AWS, lié au projet Lambda. Il faut donc s’attendre à de l’enthousiasme, et à une validation par leur équipe communication/secret industriel. Venant d’AWS, il faut aussi s’attendre à des échelles titanesques (démarrage en pic de 15k conteneurs par seconde, par exemple), que peu d’entreprises approcheront.

Je suis bien content pour eux de leurs chouettes gains en performance, mais c’est plutôt leur choix technique (et les choix écartés), ainsi que leurs erreurs qui m’intéressent.

Images

L’OCI a normalisé le format des images de conteneur : une collection d’archives tar que l’on désarchive les unes sur les autres, avec une convention de nom pour effacer (et non pas écraser) un fichier.

Même si les images OCI ont été imaginées pour des conteneurs classiques (namespace et ses amis), elles sont utilisables par des machines virtuelles, pour peu que l’on ajoute divers fichiers (comme un kernel et un init).

Le conteneur (classique ou micro VM) n’a pas besoin de lire l’intégralité de son disque pour démarrer le service. D’après les mesures de Lambda, en moyenne, seuls 6% sont nécessaire pour démarrer.

Les conteneurs travaillent au niveau des fichiers, avec un assemblage virtuel, via overlayfs, même si la piste des blocs a été explorée (avec devicemapper).

Des essais ont été faits avec un chargement paresseux (lazy loading en VO), fichier par fichier, par les projets Slacker et Startlight.

Lambda, pour des raisons de sécurité, souhaite utiliser une VM minimaliste, sans drivers autre que virtio, sans actions complexes en kernel space, ou même en root.

Le tricotage du disque doit donc se faire coté hôte, qui sera exposé à l’invité (la machine virtuelle) via un virtio.

Le débit de création de fonctions est raisonnable, même poussé, testé systématiquement depuis une CI (à chaque git push, donc), l’utilisateur s’attend à un temps raisonnable de cuisson (baking en VO).

Il est donc pertinent de préparer les fonctions (et leur image) lors de leur création, pour optimiser au maximum leur temps de démarrage à froid.

Exposer une image dans un conteneur en µVM

Dans l’article, les indices sont tenus : une image en ext4 découpé en tranche, du FUSE, et enfin virtio-blk pour communiquer avec la machine virtuelle.

À la fin de l’article, les auteurs s’excusent du bricolage qui fait deux sauts périlleux dans le kernel, pour finalement (après l’article) se passer de FUSE.

Pour leur version 1, vraisemblablement, leur agent expose avec FUSE un volume avec un seul fichier RAW, qui est confié à la VM via virtio-blk, et depuis la VM, on voit un bloc, qui est montée en ext4.

nbdfuse fait ce genre de chose, en utilisant FUSE pour exposer une image disque dynamique (connecté à un serveur NBD dans ce cas), tout en disant que c’est une mauvaise idée de monter cette image.

It is tempting (and possible) to loop mount the file. However this will be very slow and may sometimes deadlock.

Nbdfuse fait partie de libguestfs, et dit qu’il est possible de lancer un QEMU avec l’image dans FUSE, même si c’est mieux d’utiliser QEMU avec nbd:// . Bref, nbdfuse a un petit souci de confiance en lui.

Lambda est plus enthousiaste sur les performances d’un passage par FUSE, même si ils ont abandonné cette approche.

Les buzzwords utilisés dans l’article indiquent que la version 2 utilise vhost-user, la nouvelle approche de virtio pour communiquer, sans interruption systèmes, sans copie (et si tout se passe bien, sans passer par le processeur si le matériel le permet).

La communication est établie avec une Vsock, ensuite les messages sont partagés dans un mmap synchronisé par un ring. Attention de ne pas confondre avec io_uring qui fait ce genre de chose entre user-space et kernel-space, avec de bonnes performances, mais pour l’instant des soucis de sécurité.

La communication zero copy sera utilisée dans plusieurs virtio, et il y a du code rust bas niveau pour vhost user backend (le frontend étant dans l’invité) et une partie des virtio à la sauce vhost-user est disponible.

vhost-user est conçu pour repousser très loin les performances des IO, en se branchant sur les ambitieux projets SPDK (Storage Performance Development Kit) et DPDK) (Data Plane Development Kit), conçues pour profiter des accélérations matérielles et l’univers RDMA : SmartNIC, NVMeOF…

vhost-user permet d’avoir une API universelle, rappelons que le but de virtio est de limiter drastiquement le nombre de drivers dans l’OS invité, même si la quête de performances, avec des blocs rangés dans un S3, sera bien loin des latences d’un disque NVMe.

POC

Pour mettre les mains dans le moteur, et comprendre l’article, j’ai décidé d’écrire un POC en golang, oui, l’article vante Rust, et tous les outils modernes liés à kvm et virtio ne jurent que par Rust et le zero-copy.

Mais c’est un POC, réalisé par une équipe de 1, pour comprendre comment s’architecture cette abstraction de disque avec dans la boucle des téléchargements depuis un S3 et du cache distant.

Mon interrogation porte surtout sur l’utilisation d’images disques dédoublonnées, en mode bloc, alors que Containerd (Docker et K8s) ne jure que par les tar et overlayfs. Il est même possible d’indexer des tar pour faire des seek dans l’archive, pour y lire un fichier précis (comme le propose le vénérable tarindexer).

Golang permet d’avoir rapidement du code lisible, des performances décentes, et de l’asynchrone qui fonctionne, ce que ne permet pas (plus?) du python ou du nodejs.

NBD

Pour pouvoir exposer ces blocs dynamiques dans un Linux, l’abstraction sera donc NBD, comme le fait qemu-nbd pour exposer une image qcow2.

go-nbd utilise une interface simplissime : on lit et écrit des listes de bytes à une position précise, le ReadAt/WriteAt de la bibliothèque io de Golang. Le code métier va donc se contenter d’implémenter une interface sans dépendre de la bibliothèque, il est ainsi théoriquement possible de brancher un autre protocole pour exposer des blocs.

Le code de la maquette est dans le projet stream-my-root.

git clone https://github.com/athoune/stream-my-root.git
cd stream-my-root
make submodule

Blocs

Peu convaincu par les tactiques de chargement paresseux de fichiers, Lambda décide de partir sur du bloc.

Pour chaque image OCI, on crée une image disque, en ext4, et on y désarchive les tar réclamés dans le manifest.

L’image est découpée en blocs de 512Ko appelés chunks. Les chunks vides ne sont pas conservés.

Chaque chunk est nommé à partir de son hachage, un SHA256.

Un nouveau manifest est créé, listant les chunks et leur position.

Pour avoir de la mutualisation de chunks équivalent à la mutualisation de layers des images OCI, il faut que la création d’images disque et les écritures soient déterministes, ce que ne font pas les outils ext4 classiques. L’écosystème ext4 n’est pas énorme (et sa homepage est restée dans son jus : e2fsprog), mais il existe quelques pépites.

Android, il y a longtemps, utilisait des images disques en ext4, avant de passer à F2FS, le code était disponible dans le SDK d’Android 7, puis a disparu dans les versions suivantes. Il y a eu un paquet debian, qui tentait de bien ranger un SDK bien invasif.

Heureusement, il y a eu des forks, dont le fork make_ext4fs d’OpenWRT qui l’a nettoyé de toutes dépendances exotiques, et qui fonctionne même avec autre chose que la glibc. Du beau travail de dev embarqué.

Lambda évoque l’utilisation d’un code spécifique qui linéarise les écritures, sans trop préciser le logiciel en question. fuse2fs (qui fait partie de e2fsprog) semble faire le job.

Pour rapatrier les images OCI et ses couches, j’ai déjà écrit un billet sur le distroless qui explique comment le faire avec curl et jq, cette fois-ci, crane fera très bien le job : manifest2layers.sh

Pour créer une image disque, empiler le contenu des archives tar dans l’image, ce sera avec make_ext4fs et fuse2fs : tar2img.sh.

Ces deux scripts utilisent des logiciels exotiques ou dans des versions trop récentes, et sont donc emballés dans un conteneur Docker, accessibles via une commande make.

make docker-tool
make img NAME=gcr.io/distroless/base-debian12

Les outils pour créer une image ext4 et la découper ne requièrent pas de privilèges root, juste un accès à /dev/fuse.

L’image a une taille fixe, et sera pleine de vide, mais bon, les systèmes de fichiers modernes le gèrent bien (tout comme GNU tar avec -S).

$ ls -slh out/*.img
42M -rw-r--r-- 1 root root 1.0G Apr 18 16:31 out/gcr.io_distroless_base-debian12.img
55M -rw-r--r-- 1 root root 1.0G Apr 21 11:50 out/gcr.io_distroless_java-base-debian12.img
57M -rw-r--r-- 1 root root 1.0G Apr 19 10:42 out/gcr.io_distroless_python3-debian12.img
24M -rw-r--r-- 1 root root 1.0G Apr 18 16:22 out/gcr.io_distroless_static-debian12.img

Les outils suivants seront en golang:

make build

Pour trimmer les zéros, puis découper en chunks, ce sera le cli en go chunk qui utilise la bibliothèque chunk.

Pour grappiller de la place, les chunks étant de taille connue (car fixe), ils sont tronqués, et n’ont pas leurs zéros en fin de fichier.

L’article dit bien que la compression avant chiffrage n’est pas recommandée, mais les chunks sont pleins de trous (des longues suites de zéro), et la compression m’évite de coder un sparse bytes dans un premier temps.

Une “recette”, préfixé en .recipe est écrite pour chaque image OCI, en format texte pour l’instant.

Les chunks sont entassés dans un même dossier, une partie d’entre eux seront communs entre différentes images.

./bin/chunk out/*.img
# les recettes sont dans le même dossier que l'image
ls -lh out/*.recipe
# les chunks sont dans le dossier smr
ls -lh smr

L’outil diff permet de comparer deux recettes, de compter le nombre de chunks de chacun, et surtout le nombre de chunks partagés. Les scores sont crédibles, une image dérivant d’une autre aura à peu près le bon nombre de chunks en commun. Il y a vraisemblablement des informations uniques dans le premier chunk, je n’ai pas été assez agressif sur les options de make_ext4fs.

$ ./bin/diff out/gcr.io_distroless_python3-debian12.img.recipe out/gcr.io_distroless_base-debian12.img.recipe
A: 123 chunks, 121 unique chunks
B: 58 chunks, 56 unique chunks
B has 51 chunks in common with A, 7.9 MB

Le serveur NBD va utiliser le backend en lecture seule, seule partie du code lié à go-nbd, qui va utiliser le module blocks, la seule partie de code un peu complexe, pour gérer les zéros implicites.

Le debug de serveur NBD est ingérable, les outils Linux ne sont simplement pas faits pour ça, même s’il logue gentiment dans /var/log/kernel.log, sur une lecture incohérente il se bloquera. Avec un Linux Alpine, ce sera encore pire, le client nbd est géré par busybox.

La nouvelle bibliothèque standard slog permet d’avoir des informations en mode debug, pour avoir le contexte et la partie de code qui crash. Il est étonnement simple de lancer le debugger delve depuis VSCode avec le client NBD dans un Linux virtualisé.

Mais ce n’est pas la bonne approche, les tests fonctionnels ne doivent être faits qu’à la toute fin, une fois que l’on a un serveur dans un état présentable.

Il est étonnement facile de s’autopipoter avec des tests unitaires qui affichent un excellent ratio de couverture. Les tests unitaires doivent être complétés par du fuzzing avec des fixtures crédibles, en l’occurrence de vraies images. Une fois que le fuzzing trouve une erreur, on l’ajoute aux tests unitaires (pour la lisibilité du prochain qui lira le code), on corrige, puis, “rinse and repeat” comme on dit en Amérique.

Le fuzzing de golang est agréable à utiliser, mais il utilise beaucoup de magie, avec des arguments non nommés, de l’introspection, et cette magie apparait dans les très confuses stacks trace de vautrage.

make fuzz

Pour compléter le fuzzing, le cli debug utilise le backend, la plus haute couche du code métier, juste avant go-nbd, et va faire des itérations seek+read aléatoires sur l’image brute, et la même chose sur le backend, pour comparer les deux.

./bin/debug out/gcr.io_distroless_python3-debian12.img

Le serveur utilise une recette

./bin/server out/gcr.io_distroless_python3-debian12.img.recipe

Qemu fournit un outil de debug pour décrire un serveur nbd

$ qemu-img info nbd://localhost:10809/smr
image: nbd://localhost:10809/smr
file format: raw
virtual size: 1 GiB (1073741824 bytes)
disk size: unavailable
Child node '/file':
    filename: nbd://localhost:10809/smr
    protocol type: nbd
    file length: 1 GiB (1073741824 bytes)
    disk size: unavailable

On peut maintenant monter l’image depuis un Linux (physique ou virtuel).

# nbd ne se plaindra que dans kernel.log, découper votre tmux avec un ctrl-%
tail -f /var/log/kern.log
# le module nbd doit être chargé
sudo modprobe nbd
# nbd-client va connecter le serveur avec un /dev/nbdx
sudo nbd-client -N smr localhost 10809 /dev/nbd1
sudo mkdir /mnt/smr
# le serveur est en lecture seule
sudo mount -o ro -t ext4 /dev/nbd1 /mnt/smr
# l'image est disponible, ou peut l'utiliser
ls /mnt/smr

Conclusion

Grâce à la persévérance d’OpenWRT, il est possible de créer des images disques déterministes, avec des chunks partagés entre différentes images. NBD permet de prototyper un serveur de bloc simplement, et un Linux vanilla saura l’utiliser.

Le prototype ne dépendant pas de go-nbd, il ne devrait pas être compliqué de tester avec l’audacieuse stratégie de blocks over FUSE, car rust-vmm n’en a que faire de nbd, pas plus que Firecracker.

Le cache en LRU/K, un serveur de cache à la Memcache/Redis, les chunks dans S3, ainsi que le chiffrage ne devrait pas poser de problèmes.

Le copy on write pour avoir un disque en lecture/écriture, le sparse bytes pour se passer de compression, le taint read pour connaitre les chunks utilisés lors du démarrage nécessiteront un peu plus d’attention.

Exposer les blocks via un vhost user backend devrait être un poil plus sportif, mais bon, il y a des specs et une implémentation de référence.

Je ne m’attendais pas à ce que l’article permette de faire une maquette, et qu’il utiliserait des outils secrets insuffisamment définis pour être reproduit. Mais non, avec pas mal de RTFM et d’assiduité dans la chasse aux bugs, ça passe.

Campagne internationale pour la sécurité informatique (2/3)

2024-04-08T09:04:00+02:00

Campagne internationale pour la sécurité informatique, partie 2

La partie 1 traitait des dépendances logicielles et des failles officielles.

Plutôt que d’attendre la découverte d’une faille (et sa divulgation), il est quand même plus sage d’auditer le code que l’on utilise. Pouvoir lire le code est quand même une des bases de l’open source.

Un humain aura du mal à lire tout le code qu’il utilise (puis les modifications), et il aura donc besoin de l’aide de robots.

Imaginer une lecture exhaustive est utopique, mais ça ne veut pas dire qu’il ne faut pas essayer.

Quantifier la qualité du code

Il est difficile d’auditer en continu le code que l’on écrit, le moindre mal étant la revue de code dans les demandes de fusion, mais il n’est pas humainement possible d’auditer tout le code open source utilisé, et encore moins de recommencer à chaque mise à jour.

L’idée est de confier cette tâche à des robots, comme assistant, et de manière autonome.

Typage

Le typage fort (tellement pratique pour la complétion dans les IDEs) s’avère être aussi très utile pour faire de l’analyse statique (ou même dynamique) de code. Le typage fort, longtemps méprisé par les langages de scripting, est maintenant partout : Javascript était tellement mou qu’il a fallu crée TypeScript (mais il y a maintenant la proposition d’intégrer le typage dans Ecmascript), Python a son typing et même Ruby, pourtant fan de monkey patching, a son sorbet pour gérer le typage.

Le typage permet d’avoir des informations sur l’intention du développeur, indépendamment de l’implémentation qu’il propose. Ce serait dommage de s’en passer.

Analyse statique

L’analyse statique de code existe depuis longtemps, et ça a même été une des fiertés de Java : les vraies professionnelles ont plein de tableaux de bord avec des graphiques qui vont en s’améliorant (sauf la consommation de mémoire, mais ce n’est qu’un détail).

Quand l’analyse touche la sécurité, on parle de SAST, Static Application Security Testing.

SonarQube regroupe divers outils d’analyse de codes pour créer de chouettes tableaux de bord dont est friand le management moderne.

Règles

La recherche d’erreur récurrente fait maintenant partie des outils de développement des différents langages. Ces outils mélangent souvent les règles de formatage, les remarques blessantes sur l’absence de commentaires, de vraies obligations de bonnes pratiques dans le code. Les outils sont souvent dispersés, et utilisés via un métaoutil “pour les gouverner tous” :

Golangci-lint pour Golang
Ruff pour Python
Rubocop pour Ruby
Clippy pour Rust, oui, le nom est un hommage à l’infâme trombone de MS-Office
Nodejsscan pour Nodejs
Ansible-lint pour Ansible
Hadolint pour les Dockerfile
Terrasscan pour l’infra as code
Shellcheck pour les scripts shell

Pour aller plus loin que cette sélection, allez jeter un œil sur analysis-tools.dev que l’on pourrait renommer “awesome static analysis”.

Ces outils sont souvent utilisés via les IDE, mais ils peuvent se brancher dans l’intégration continue pour avoir un résultat systématique et homogène. L’intégration la plus brutale est de refuser le commit, puis de vautrer la CI, le plus diplomate étant de commenter la demande de fusion (et de bloquer cette demande).

Github intègre les résultats d’analyse de code via le format SARIF, crée par Microsoft. Le format, basé sur JSON, est normalisé par OASIS, et utilisé pas différents outils.

Gitlab a réfléchi pendant 4 ans à son intégration, pour finalement proposer une moulinette qui transforme un rapport SARIF vers leur format maison, implémenté dans leur projet report sous licence MIT (dans sarif.go pour être précis).

Les outils de lint fournissent des listes de règles qui se pensent universelles et on peut les désactiver une à une (attention, c’est une lourde responsabilité).

Les règles génériques constituent une base, elles sont écrites et recommandées par des entités de renoms, ce qui permet d’éviter de longs ergotages sur la pertinence de tel ou tel point.

La découverte d’une nouvelle faille ou soucis de performance peut être généralisé sous la forme d’un motif, que l’on doit pouvoir rechercher autre part.

Chaque application/groupe/entreprise est unique, et il y aura des motifs récurrents en son sein : des bonnes pratiques, et des erreurs. Ici aussi, des outils doivent permettre de travailler avec des motifs maison.

Idéalement, il faudrait pouvoir corriger les problèmes remontés par les outils d’analyses, à défaut, il est possible de se contenter d’une note, et attendre les effets de la pression sociale pour que ça s’améliore (d’ailleurs, ce blog a fièrement un A+ pour son SSL).

Recherche

La recherche “full text” classique, naïve en fait, est “courte des pattes” pour faire des recherches dans de grandes quantités de codes. La normalisation des mots (comme la lemmatisation) n’est pas pertinente pour du code, et c’est surtout le débit de modification sature les index inversés.

Github a utilisé Solr puis Elasticsearch, qui n’a pas pu suivre la croissance du nombre de projets et de modifications. Au sommet, Github a utilisé un cluster Elasticsearch de 162 nœuds, 5184 vCPUs, 40To de RAM, 1.25Po de disques, une moyenne de 200 requêtes par seconde, sur 53 milliards de fichiers. Des dimensions mythologiques.

Expression régulière

grep est l’ami du développeur, enfin, ripgrep de nos jours. Ils lisent quantité de fichiers pour y rechercher des motifs, ce qui ne va pas bien fonctionner sur de grandes quantités de textes et beaucoup d’utilisateurs.

Google explique comment combiner indexation et expressions régulières : c’est ainsi que fonctionnait (fonctionne encore?) leur CodeSearch interne. C’est à priori ce même CodeSearch qui est mis à disposition pour rechercher dans ses projets open source.

La recette secrète de CodeSearch est de pouvoir appliquer des expressions régulières (enfin, un sous-ensemble qui garantit un temps de réponse raisonnable, Re2) sur des quantités gargantuesques de code, indexé par trigrammes. On commence par extraire les trigrammes de l’expression de recherche (tout ce qui n’est pas signe cabalistique), ce qui permet de faire une première sélection de documents contenant ces trigrammes, et de ne lancer la couteuse expression régulière que dans ce sous-ensemble.

Russ Cox (cofondateur de Go et “ingénieur distingué” chez Google) explique précisément le principe de la recherche par expression régulière sur des index avec du vieux code archivé comme démonstration.

Sourcegraph maintient Zoekt, projet initié par Google, qui implémente (et cite) l’article regexp/trigram, pour des quantités raisonnables de code (2Go), en utilisant un simple btree pour le stockage. Attention à la taille des index, qui peut atteindre 3 fois la taille du code.

Ling Zang, doctorante au sein du Gray Systems Lab propose une implémentation contemporaine en C++ : Blare (BLAzing fast REgex) avec le white paper qui va bien.

La recherche de Github est basée sur l’article de Cox, mais avec un pinaillage sur la taille des ngrams (les sparse-ngrams), car le code contient trop de mots trop courts (for, if, not…). Oui, leur explication technique sur les ngrams clairsemés est nébuleuse.

Arbre symbolique abstrait

Le code n’est pas de la prose.

Quand on cherche un élément, on ne veut pas mélanger les commentaires, fonction, argument ou autres informations typées. De manière similaire, les commentaires (annotations, types…) sont attachés à un élément.

Pour indexer du code, il est pertinent de commencer par le parser, pour créer un AST (Abstract Symbolic Tree), qui lui, sera indexé.

Chaque langage civilisé a dans sa bibliothèque standard ce qu’il faut pour lire sa propre syntaxe. Ils existent de multiples approches pour parser des formats structurés, et le domaine évolue au fil du temps, et de nouveaux outils apparaissent régulièrement, l’hégémonie de lex/yacc n’est plus.

Tree-sitter

L’ambitieux Tree-Sitter se positionne comme le générateur universelle de parsers :

gestion d’un nombre farfelu de formats avec ses parsers (137 cités dans la doc)
des bindings dans 19 langages
tree-sitter sait créer une bibliothèque partagée (un .so, quoi) à partir d’une grammaire, et la plupart des bindings utiliseront ce format, il y aura donc du C dans votre langage préféré. Le parser est suffisamment rapide pour reparser le buffer d’un éditeur de texte à chaque clic d’une touche.
les s-expressions (les listes imbriquées de Lisp) sont utilisées à différents endroits : comme format de sortie, comme prédicat pour filtrer le parcours d’un arbre.

La navigation de code de Github utilise tree-sitter, ainsi que son moteur de recherche.

Sourcegraph aussi aime bien tree-sitter:

doctree crée un site web de documentation de code, mais le code n’a pas été touché depuis 2 ans, et le nom de domaine est mort.
cody est une IA qui connait votre code.
sourcegraph permet de naviguer et de chercher dans votre code (et une intégration avec Cody)

Bien d’autres applications utilisent tree-sitter, dont certaines seront évoquées plus bas dans l’article.

Datalog

Ni les moteurs de recherche full text, ni les bases de données relationnelles ne sont adaptés pour indexer des projets avec leur code.

Il faut donc étendre la recherche dans les modèles exotiques de bases de données. Avant l’invention de la base de données relationnelle, il y a eu les bases de données déductives, inspirées par Prolog.

Le concept de ces bases est proche de celui des bases orientées graphes, les données sont modélisées par des triplets : 2 nœuds liés par une relation.

Le modèle déductif a Datalog comme langage de requête tout comme le modèle relationnel a SQL.

Embeded code

Rien à voir avec les ordinateurs trop petits de l’embarqué, embeded désigne la technique de représenter les mots (enfin, des tokens) sous forme de vecteurs, ainsi que les documents, permettant ainsi de faire des recherches de proximité (en calculant la distance entre deux vecteurs). C’est la base des LLM, les Larges Languages Model.

Vous reprendrez bien un louche d’IA?

Github a documenté ses travaux pour proposer de la recherche sémantique de code (avec les liens vers les papiers de recherche), pour proposer l’année suivante (2019) un concours sur le même thème avec encore des citations de publications sympathiques comme embarquement de texte et de code par préentrainement contrasté.

Tout ça a fini par devenir Copilot, leur magicien de l’autocomplétion de code.

Les LLM peuvent rendre de grands services, mais pas (encore?) de chasser le bogue.

Sourcegraph

Sourcegraph essaye de se positionner comme le leader de la recherche de code, bien que seule une petite portion de son code soit libre. On peut installer le service sur son poste, pour avoir la première dose gratuite.

Gitlab peut utiliser Sourcegraph pour naviguer dans le code, depuis l’interface web, et effectuer des recherches, ça en fait presque un standard de fait.

La recherche de Sourcegraph s’appuie sur un salmigondis de bases de données (du trigramme/regexp avec Zoepkt, du vecteur avec Qdrant, du relationnel avec Postgres et Sqlite). On peut ajouter à ça un peu de full text (j’ai vu passer des bibliothèques de lemmatisation), et de l’IA avec son Cody.

Sourcegraph a essayé d’étendre Langserver (le LSP des IDE) avec LSIF pour normaliser l’indexation de code, pour finalement abandonner et déprécier ses contributions, pour se rediriger vers son SCIP, qui crée des index que son serveur peut manger. Un outil permet de dumper les index en JSON, pour l’utiliser en dehors de Sourcegraph.

Sourcegraph propose des outils pour rechercher puis patcher du code, mais l’implémentation actuelle est brutale : il faut écrire un bout de bash qui sera lancé dans un conteneur sur toutes les occurrences de la recherche.

L’écosystème Sourcegraph fournit des briques intéressantes, mais rien de bouleversant pour aller à la chasse au mauvais code.

CodeQL

Microsoft, en rachetant Github s’est retrouvé, de fait, comme responsable d’une bonne partie des sources du logiciel libre. C’est assez cocasse quand on connait la position de Steve Ballmer quelques décennies plus tôt.

Gardien des sources, des bugs mais aussi de la flemme de tous les jours.

Microsoft est bien au courant de la valeur d’une CVE, il a donc ajouté des outils pour boucher le code troué.

Dependabot (dont certaines briques sont libres) est un robot qui crée des demandes de fusion quand la correction est triviale (mettre à jour une dépendance officiellement trouée) ou envoie des alertes s’il faut prendre une décision pour corriger.

Personnellement, je pense que Dependabot est aussi un complot pour faire regretter d’avoir choisi Nodejs, qui avec sa palanquée de microbibliothèques, va statistiquement trouver au moins une faille par semaine, quelque part au fond d’une branche du graphe de vos dépendances.

La vraie puissance de Dependabot n’est pas juste de lire et patcher les listes de dépendances figées, mais la recherche de motif de code avec CodeQL en fournissant un lot de règles CodeQL, qui ont la gentillesse d’être sous licence MIT.

CodeQL a fait le pari de Datalog pour écrire des requêtes. Choisir un langage ésotérique, inventé avant le Minitel, est audacieux. Charge à Github d’utiliser correctement ses index, le cache et la parallélisation pour exécuter efficacement ces recherches déclenchées par la CI.

Règles métiers

Il existe divers outils pour décrire des patchs génériques à appliquer sur quantités de projets (ou dans un bon gros monorepo).

Ils sont souvent conçus pour créer des patchs jetables, et se contentent pour la plupart d’une utilisation en ligne de commande, quelques-uns proposent une intégration plus fine, avec des consoles interactives ou de l’intégration continue.

Agnostique

Semgrep, écrit en OCaml qui aime tant le parsing, propose d’appliquer des règles décrites en YAML. Il y a une version libre en LGPL, et pour avoir le parsing multifichier et d’autres bonus, il faut passer à la caisse. On notera la possibilité d’obtenir une réponse en SARIF, gage d’intégration avec d’autres produits.

Comby, encore en OCaml, et sous licence Apache 2, se positionne comme roi du one liner, pour remplacer le traditionnel grep+sed. Il positionne comme outil de patch universel, plutôt que comme linter.

Infer, de chez Facebook, et toujours en OCaml, se contente de chasser le bogue en C/C++/Objective-C et Java, mais il est utilisé par de grands noms.

ast-grep, écrit en Rust avec du tree-sitter, se positionne comme grep du code, alors qu’il permet aussi de remplacer, en plus de rechercher des motifs.

Python

pyparsing a longtemps été la brique de base pour lire du code (pour ensuite râler ou proposer une correction). Yelp a utilisé Undebt pour faire de la chasse au code déprécié. La chasse a été bonne, mais le projet a été archivé.

Plus classique, issu de l’équipe sécurité d’OpenStack, puis maintenu par la Python Code Quality Authority, bandit parcours l’AST d’un fichier Python pour y trouver des mauvaises pratiques. Bandit propose une liste de règles, mais il est aisé d’en créer de nouvelles. Une règle s’abonne à un évènement (souvent un appel de fonction), qui déclenchera une vérification, pouvant renvoyer un Incident. Les règles fournies sont simples (voir naïves), bandit ne permet pas une grande expressivité.

RedBaron propose de naviguer dans l’arbre abstrait de code python, de manière interactive, avec la possibilité de modifier des éléments, et de revenir à un code source avec juste ce qu’il faut de modifications. RedBaron a tout ce qu’il faut pour créer des patchs génériques, mais pour l’instant, il n’a pas exploré la recherche de “mauvais motif” avec une correction; il est plus conçu pour créer du patch du sur mesure, pas du prêt-à-porter.

Facebook a sa productive équipe OCaml et propose Pyre, parfois appelé Pysa (pour PYre Security Audit). Pyre file la métaphore des hydrologues, avec des source qui sont tainted (des inputs confiés à un utilisateur) et des sink (des zones à surveiller, comme l’exécution d’une commande) qui seront teintés ou non. Pyre s’appuie sur le typage de Python.

Golang

Gopatch reprend l’astuce de Coccinelle, et utilise l’antique syntaxe de patch de diff pour décrire des correctifs.

Java

Java propose des outils étranges et grandiloquents, comme OpenRewrite et Rascal. Les patchs, c’est pour les petits bras, Java mérite de la méta programmation.

Fuzzing

L’analyse statique, c’est bien, mais l’analyse dynamique peut apporter des informations complémentaires.

Le fuzzing est une des stratégies possibles d’analyse dynamique, il en existe d’autres.

L’idée du fuzzing est de jeter du pâté dans le ventilateur (“spam hits the fan” en VO).

le code est instrumenté, depuis l’intérieur en le recompilant (ou une technique équivalente pour du script), ou depuis l’extérieur via le kernel (souvent via QEMU). Des désinfecteurs (sanitizer en VO) vont surveiller des comportements anormaux, tant sur le plan logiciel que matériel.
On désigne un point d’entrée (une fonction)
Il est possible de modifier les appels système (avec preeny par exemple) pour que le code ait un fonctionnement plus déterministe, voire même de remplacer un échange réseau par une discussion sur STDIN/STDOUT, les fuzzer préfèrent appeler une fonction, plutôt que de démarrer un serveur complet.
À partir d’exemples, ou de rien, un corpus va être créé, en essayant de maximiser la couverture de code. Ce corpus devient un artéfact et sera réutilisé.
Le point d’entrée est testé avec des données issues du corpus, auquel on applique des mutations. En cas d’erreurs (ce que l’on cherche), le test sera réduit (shrinking en VO) pour n’avoir qu’un changement mineur entre une valeur qui passe, et celle qui ne passe pas.
Historiquement, les données en entrée sont un gros binaire, ce qui correspond aux cas classiques de la lecture d’un fichier ou d’un échange réseau. Il est aussi possible de définir des générateurs (ou des grammaires), pour fournir du contenu typé.

Générer du contenu complètement aléatoire sera peu efficace, il existe différentes stratégies faisant référence à la génétique, avec des notions de mutations, qui ne sont pas retenues si elles ne génèrent pas d’erreur ou n’améliorent pas la couverture de code.

Bien sûr, il est possible d’utiliser de l’IA pour fuzzer encore plus fort.

Les fuzzers subissent une forte sélection darwinienne, les bonnes idées sont conservées pour la génération suivante, les autres idées finissent en fossile.

AFL, considéré comme standard de fait, mute en AFL++ pour finalement donner HonggFuzz, et je vous fais grâce de l’explosion cambrienne listée dans Awesome-AFL.

Gitlab propose de s’interfacer avec du fuzzing, mais dans sa version ultimate (la plus chère), en vous laissant l’approche DIY dans votre très classique CI, avec des exemples dans différents langages

Oss-fuzz

Google a testé ses outils de fuzzing créés pour Chrome sur des logiciels opens sources, et a trouvé beaucoup d’erreurs, certaines avec des implications au niveau sécurité. Comme les erreurs découvertes se chiffrent en milliers, Google s’est associé à l’OSSF pour créer oss-fuzz, un service de fuzzing continue dédié à l’open source.

Attention, on entre dans le monde merveilleux du code Google libéré : il faut s’attendre à des acronymes aléatoires de 4 lettres, des projets remplaçant le précédent (parfois 3 ou 4 remplacements) et des README partiellement à jour.

L’outil, ClusterFuzz (avec sa variante allégée, ClusterFuzzLite), est libre (licence Apache 2). Il est conseillé pour fuzzer du code non libre (sur une instance interne).

ClusterFuzz gère différent fuzzers historiques, et globalement, les fuzzers spécifiques se rapprochent de LibFuzzer dans leurs comportements.

On notera que l’attaque sur OpenSSH via xz a commencé par désactiver le fuzzing d’Oss-fuzz sur la partie qu’il a ensuite contaminée : témoignage de crainte face à Oss-fuzz. OK, Oss-fuzz n’a pas découvert cette faille, car le cambrioleur a coupé l’alarme de la salle du coffre, mais il a pris la peine de le faire.

Sanitizers

Les désinfecteurs vont surveiller ce qu’il se passe au niveau de l’allocation de la mémoire et des threads.

Les désinfecteurs peuvent être utilisés en instrumentant le code compilé (avec LLVM et même gcc), puis le code est exécuté avec un malloc spécifique.

Le kernel Linux est maintenant outillé pour surveiller ce qu’il se passe au niveau de la mémoire et des threads (qui font quand même partie de sa responsabilité). Ces modules ont été intégrés au fur et à mesure dans le kernel : ce sont les K*SAN. Ils ne gèreront pas forcément toutes les architectures, et pour certains, il faudra utiliser un noyau compilé avec LLVM plutôt que gcc (ne le dites pas à Stallman). Les kernels instrumentés ne visent pas la production, mais une VM temporaire pour secouer du code dans une cuve pleine de capteurs.

Fuzzers

D’autres langages disposent d’une instrumentation compatible avec oss-fuzz : C/C++, Rust, Go, Python, Java/JVM, Swift et JavaScript (dont typescript), pour les autres, ce sera uniquement via LLVM.

Comme grand absent, on notera Ruby, tellement fière de la liberté de sa syntaxe et assument le monkey patching ne doit pas aider les fuzzers à se concentrer. Mais trêve de mauvaise langue, le projet Ruzzy reprend pour Ruby l’approche d’Atheris (le binding de libFuzzer pour Python).

Mutation de test

Le principe de mutation de données peut être utilisé sur de très classiques tests unitaires pour répondre à la question “Qui test les test?” (ou Quis custodiet ipsos custodes? pour les fans de péplums en VO).

La mutation de test est une idée de Richard Lipton, alors étudiant, en 1971, ce qui ne nous rajeunit pas (c’est plus vieux que vi). Il a attendu 1980 pour donner le sujet à un thésard en philosophie, Thimoty Alan Budd : Mutation Analysys of Program Test Data.

L’idée est de cochonner votre base de code avec des erreurs, et de voir si les tests passent encore. Les mutations correspondent à des fautes que ferait un développeur distrait (remplacer un > par une >=, un && par un ||, mettre un not devant un booléen, ce genre d’étourderies).

Le logiciel va créer un rapport et coller une note : le ratio entre le nombre de mutants attrapés et le nombre de mutants crée.

Si votre outil est un poil finaud, il va commencer par lancer les tests un à un, et noter la couverture de code à chaque fois. Ainsi, il ne va muter que le code couvert par les tests, et ne lancera que les tests concernés.

Les mutations de tests ne déclenchent pas un enthousiasme fou sur Github, mais il y a largement de quoi farfouiller.

Le leader de ce domaine est Java, avec Pitest, mais il existe aussi mutmut pour Python, Mutant.rs ou go-Gremlins.

Quantifier la qualité d’un projet

Nous venons de voir qu’il était possible de lancer des hordes de robots pour auditer le code de logiciels open source que vous souhaiteriez utiliser. Mais la qualité du code n’est qu’une partie de la qualité globale du projet.

L’exemple de l’attaque sur xz est frappant, sur un des miroirs (le projet officiel est banni), on voit que la qualité du code n’est qu’un détail :le payload de l’attaque, présenté comme une fixture, est chiffré, et le déclencheur n’est pas versionné dans le git, mais juste dans la tarball de la release. La vraie information, ce sont les contributions de xz, il y a UN mainteneur, Larzhu, une poignée de gens faisant quelques propositions de modifications, et un sauveur, l’infâme JiaT75, qui vient filer un coup de main.

ScoreCard.dev

L’OpenSource Security Foundation, a créé une moulinette, [ScoreCard] (https://scorecard.dev/) qui donne une note aux projets open source, dans une approche très scolaire, pour pousser les projets à suivre de bonnes pratiques.

Les différentes vérifications sont plus que légitimes, mais aussi des pousse-au-crime pour utiliser l’écosystème Github de bout en bout.

J’espère que ça va piailler, et qu’il va y avoir du lobbying pour que des services alternatifs (des gros services en ligne, ou des petits autohébergés) soient pris en compte pour le calcul du ScoreCard.

Deps.dev

Google, avec deps.dev pousse l’idée de ScoreCard.dev un cran plus loin en recyclant leur PageRank. la note finale d’un paquet est calculée en fonction du graphe de dépendance tirée par ce paquet. Un paquet avec une mauvaise note va faire baisser la note de ceux qui l’importent, directement ou indirectement.

Autre avantage de deps.dev est qu’il propose un chouette site web avec un moteur de recherche alors que scorecard.dev vous propose de télécharger des CSV de dimensions cyclopéennes.

Criticité d’un projet

L’OSSF a une autre moulinette (en bêta) pour donner une note à l’importance d’un paquet au sein de l’écosystème open source : le Criticality Score.

Il utilise le ScoreCard, l’âge, le nombre de projets l’utilisant, le nombre de contributeurs (individuels et organisations), le débit de contributions et de tickets, ce genre de choses.

Ce genre de classement devrait permettre de trouver les maillons faibles de la chaine d’approvisionnement, et justifier des financements pour des développeurs quelconques du Nebraska, comme le recommande XKCD.

Distroless, les images sans distributions

2024-03-24T09:04:00+01:00

Less is more

Le journalisme a un suffixe magique, “gate”, qui permet de créer des buzzwords qui claquent, depuis le watergate. En informatique, le suffixe magique est “less”, comme dans

diskless, un ordinateur qui démarre via le réseau (sans utiliser son disque).
headless, un système de gestion de contenu, qui permettra de générer un site statique et/ou une API distante depuis le javascript de la page web.
cpu-less, blagounette d’ordinateur rudimentaire à base de portes logiques.
db-less, architecture sans base de données relationnelles.
serverless, du cloud sans le cloud, juste votre code poussé dans le nuage.
code-less, le terme no-code est plus courant. Une interface permet de décrire une logique métier, sans écrire de code.
browserless, des test fonctionnels (ou du scraping de fourbe), depuis un navigateur web sur un ordinateur sans écran.
less, comme more mais mieux (humour UNIX).
distroless, une image conteneur construite sans distribution Linux

Conteneur

Nouvelles abstractions

Quand la virtualisation est apparue, la promesse était “ne touchez à rien, c’est comme avant”, on prend le contenu d’un serveur physique, on le met dans un serveur virtuel, et hop. Sauf que la virtualisation (fort pratique pour simuler une autre architecture) est rapidement devenue de la para-virtualisation, bien plus performante, l’OS invité collabore avec l’OS hôte. Cette collaboration est allé plus loin avec la création de matériel virtuel VirtIO, pour finalement aboutir aux machines virtuelles légères qui n’utilisent quasi que du Virtio ( DragonBall, FireCracker …).

Les conteneurs ont été conçus pour isoler une poignée de process (idéalement un). À l’arrivée des conteneurs, la même promesse a été faite : LXC, c’est presque comme une machine virtuelle, avec un init qui lance une grappe de services. Docker a fait le ménage pédagogique en expliquant bien qu’un conteneur va héberger un seul service. Mais, pour pallier aux cas de process zombie, Docker a intégré tini, avec l’option (--init).

Cette option est très peu utilisée, les applications métiers, même celles qui forkent des workers, savent gérer leur sous-process. De plus, le dogme demande de laisser à Kubernetes le soin de gérer la mise à l’échelle en multipliant les instances.

Image de base

Docker a fait le choix d’utiliser comme dossier racine un assemblage de pelures de systèmes de fichiers. Seule la pelure du haut est modifiable. Pour créer une image, on part d’une image, et on ajoute des pelures. Par convention, la première couche, vide, s’appelle SCRATCH.

Le meilleur moyen d’appréhender une nouvelle abstraction est de commencer par faire comme avant, et donc d’utiliser une distribution Linux, en partant d’un bootstrap (par ce que l’installation complète depuis un CD, à la Packer, ça va 5 minutes), puis d’installer des paquets.

Une image Docker est allégée, elle n’est pas bootable et n’a ni kernel, ni la ribambelle de services systèmes.

Docker a porté son choix d’image de référence sur Debian (libre à vous d’en faire d’autres à partir de votre distribution favorite). Ubuntu a deux fois plus de fan, propose de nouvelles versions à date fixe, mais fait régulièrement des choix polémiques. Ubuntu étant basé sur Debian, et ses ajouts ne s’aventurant que rarement dans les couches basses et les runtimes, ça ne change pas grand-chose. Donc, Debian.

L’image Debian officielle (maintenue par Debian) est construite à partir de son système de paquets, via l’outil debootstrap, utilisé aussi pour créer des images disques pour des machines virtuelles. Pour avoir des images reproductibles, deboostrap est emballé par debuerreotype, qui en plus de la gestion de snapshot va aussi appliquer différents paramétrages pour minimiser la taille de l’image.

Avec une optimisation agressive (en virant la doc essentiellement), on gagne 30% de place, et on a une image dite slim.

Les images de langages (python, ruby, golang, node, rust…) sont basées sur les images Debian officielles. Comme les images partagent leurs ancêtres, avec tout basé sur Debian, on mutualise pas mal de place en disque et réseau (lors du déploiement).

Les utilisateurs Docker se sont rendu compte qu’en partant sur une distribution Alpine, distribution minimaliste prévue pour l’embarqué, on obtient une image 10 fois plus petite, mais avec un système de paquet moins cohérent que Debian, une libc rikiki (musl) et busybox plutôt que les outils gnu. Les images de langages proposent souvent une variante basée sur Alpine, en plus de Debian.

Pour construire l’image de son application, on utilise souvent deux images : une image de construction, éphémère, avec les outils de développement, et une image d’exécution qui finira en production.

Images minimalistes

Pour limiter la surface d’attaque, les faux positifs dans les analyses de versions de paquets, et la taille des images, la nouvelle tendance est d’utiliser des images minimalistes. Minimaliste pour ne pas dire “à l’os”, ces images n’ont pas de shell, et aucun utilitaire.

Debugs et tests ne se feront pas depuis l’image, mais autour de l’image.

L’application aura des tests unitaires, l’image des tests fonctionnels et des tests de charges. Les erreurs remonteront via les journaux et Sentry. Les soucis de performances seront analysé par les traces, les sondes déployées en production.

Dans le pire du pire, un debug en preprod sera fait avec un conteneur sidecar, par ce que le conteneur de l’application sans shell, ne permet pas de s’y connecter avec un docker exec. Kubernetes permet de se connecter à une instance (un pod) mais je ne suis pas sûr que ce soit une bonne idée de le faire en production.

Distroless

Google a exploré une piste minimaliste pour construire des images dites “runtime” avec différents critères :

basé sur une distribution connue, pour la confiance et la correction des CVEs.
les applications apprécient d’utiliser les dernières mises à jour (stables) de leur langage, ce que ne peut fournir une distribution qui a besoin de la valider avec une brouette de paquets.
en se basant sur Debian, on peut construire l’application avec l’image de langage officielle, elle aussi basée sur Debian, pour ensuite déposer le tout dans une image “runtime”.
Les images doivent pouvoir être construites rapidement, avec du cache efficace, sans réclamer un utilisateur privilégié.
Différentes architectures de processeurs doivent pouvoir être gérées, sans émulation ni CI sur différentes architectures de serveurs.

Explorer une image sans shell

Voici une petite recette, qui sent le vestiaire, pour aller visiter une image sans shell. Commencez par voler un busybox, un bon petit binaire statique qui sert à bricoler dans des Linux trop petits.

Comme distroless est basé sur Debian, le vol de busybox se fera à partir d’une Debian de la même version.

# Préparez un volume pour accueillir le larcin
mkdir /tmp/tools
# Et branchez le dans votre bonne vieille Debian
docker run -ti --rm -v /tmp/tools:/tools debian:12-slim

# Vous êtes dans le conteneur.
# Un conteneur n'a pas d'index apt, ça prend de la place et c'est tout le temps périmé
apt update
# On va éventrer le paquet, autant faire ça dans un endroit tranquille
cd /tmp
# En suivant la voie de Debian, téléchargez le paquet dans sa version courante
apt download busybox-static
# dpkg va ouvrir le paquet, pas moyen de le faire à la main, une debian-slim n'a pas l'application ar
dpkg-deb -R busybox-static_*.deb .
# Recopiez le binaire dans le volume monté
mv bin/busybox /tools/
# Au revoir
exit

Vous pouvez maintenant lancer une image ascétique en montant busybox dans le PATH, comme le dossier /usr/local/bin prévu pour accueillir du bazar, n’existe pas dans l’image, ce sera donc usr/bin.

$ docker run -ti --rm -v /tmp/tools/busybox:/usr/bin/busybox gcr.io/distroless/static-debian12 busybox sh


BusyBox v1.35.0 (Debian 1:1.35.0-4+b3) built-in shell (ash)
Enter 'help' for a list of built-in commands.

Bazel

Distroless utilise Bazel, un outil de build très agressif sur la parallélisation et le cache (en utilisant un graphe de dépendance). Bazel est la version open source de Blaze, outil interne de Google, libéré en 2015.

Bazel utilise un dialecte spécifique, Starlack (basé sur la syntaxe de Python), mais n’hésite pas à utiliser des outils maison (évidemment compilé par Bazel).

Gestion des paquets Debian

Distroless fait le choix de faire les images sans utiliser de conteneur, ni les outils de gestion de paquets Debian. En travaillant directement avec les paquets (on pourrait ricaner en parlant de containerless), plus de soucis de multi architecture, ni même d’OS hôte, le build sera le même depuis un Mac ou un Windows (oui, le build sera fait depuis une CI, dans un conteneur, comme tout le monde).

Distroless utilise son propre module golang pour gérer des paquets Debian.

Il y a un sous-module (peu palpitant), build qui va permettre à gazelle d’écrire des fichiers bzl avec les détails sur les paquets à utiliser.

L’autre sous-module, deb, est le plus intéressant, il gère les debianeries pour récupérer, entre autres, la liste de paquets.

Instantanés Debian

Debian fournit un système d’instantanés pour retrouver les versions des paquets à une date donnée. Le site snapshot.debian.org explique son fonctionnement (on notera l’architecture moderniste : 2 sponsors fournissent un serveur apache+varnish avec une application Flask en python 3 derrière un load balancing DNS, et du certificat LE. Par contre, c’est 135 To de stockage, pour un historique depuis 2005).

Chercher un instantané pas trop vieux avec la liste des paquets

deb/snapshot.go

Il suffit d’aller sur https://snapshot.debian.org/archive/debian/?year=%d&month=%d puis de fouiller dans le HTML l’expression régulière [0-9]+T[0-9]+Z. On notera qu’il peut y avoir des jours sans snapshots, et plusieurs snapshots sur une journée, avec des horaires aléatoires.

Le commentaire dans le code précise que parfois, le dernier instantané est incomplet, et qu’il suffit de prendre le précédent. De toutes façon, le code cherche un snapshot qui a plus de deux jours (ce délai est codé en dur).

On peut ensuite aller sur https://snapshot.debian.org/archive/debian/%s/dists/%s/main/binary-%s/Packages.xz avec le snapshot, la version (bookworm pour la version courante) puis l’architecture, pour connaitre l’URL de la liste des paquets.

Ça, c’est pour main, Debian utilise plusieurs canaux, il faut recommencer pour updates et security.

On n’est pas tout à fait à l’état de l’art comme API REST, mais bon, avoir accès à tous les instantanés des différentes Debian garanti une reproductibilité et un retour en arrière possible.

Lister les paquets d’un instantané

deb/parser.go

Le format de liste de paquets Debian est plutôt carré, sauf que le parser prévoit un buffer de 1Mo pour lire des lignes trop longues.

Nomenclature des versions de paquet Debian

deb/versions.go

Debian utilise une nomenclature personnelle pour les versions de paquets, prenant en compte la version du paquet source et un versionnage des correctifs appliqués par le mainteneur. Comme on travaille avec 3 listes de paquets, il faut être capable de trier les versions pour trouver la plus récente.

Format de paquet

Les paquets Debian utilisent un format antédiluvien, ar. La commande ar fait parti de GNU binutils, mais la Linux Standard Base l’a déprécié et il sera bientôt retiré.

Chose intéressante, le tar de BSD (celui disponible sur MacOS) sait lire des archives ar, et c’est avec cet outil que Bazel dépiaute les paquets Debian dans la règle étrangement nommée locale.

Pour installer (comme une brute) un paquet Debian dans une image de conteneur, il suffit d’ouvrir le paquet (au format ar), de récupérer les données (l’archive tar, data.tar.xz), de créer le fichier status qui se retrouvera dans /var/lib/dpkg/status.d et d’en faire un tar, qui sera ajouté à votre image de base. On notera qu’à la différence des images debian-slim, la documentation que l’on trouve dans usr/share/doc est conservé.

En maintenant la base dpkg/status, les outils listant les versions, comme Syft fonctionnent sans surprises.

Ce genre d’installation ne prendra pas en compte les déclencheurs du paquet (preinst et postinst), mais bon, l’image Debian Docker officielle brime aussi le paquet en les empêchant de lancer/relancer des services.

Distroless fournit des images de base spécialisées (node, java, python…) pour faire tourner du code métier, il ne se charge même pas de la compilation du code, et donc à part quelques bibliothèques, vous n’allez pas installer grand-chose (car tout est dans votre dossier de vendoring).

Les couches d’une image conteneur

Bazel a décidé de bouder Docker en archivant rules_docker, pour mettre en avant le format d’image OCI avec rules_oci, et en disant quelques méchancetés sur son défunt concurrent. Docker utilise les images OCI de manière transparente, ce n’est donc pas très grave, et Distroless fournit des exemples de Dockerfile utilisant ses images.

Distroless assemble ses images OCI à partir d’une liste de tar, certains crée à partir de paquets Debian, d’autre sont générés (et tous sont cachés).

Des tests sont effectués avec container-structure-test, un simple outil en ligne de commande, qui va savoir travailler avec une liste de tar pour vérifier la présence/absence d’un fichier, ou avec docker, pour lancer des commandes. Les paranoïaques ont la possibilité d’utiliser gVisor pour lancer des commandes douteuses dans des conteneurs.

Les images sont créées pour chacune des architectures, puis rassemblées par rules_oci pour en faire une image multiarchitectures.

Inventaire

L’administration américaine demande d’utiliser des SBOM (Software Bill Of Material), et il existe différents formats dont SPDX (Software Package Data Exchange).

Debian s’intéresse à SPDX, surtout pour gérer les histoires de licence (tout comme le projet reuse).

Distroless a un outil pour créer une entrée SPDX à partir d’un paquet Debian : debian_spdx. À partir de la liste de paquets demandés pour créer une image, il est facile de créer un SBOM spdx : oci_image_spdx.

Dans une première itération, il était possible de pousser les SBOM specifications dans un registre OCI, mais rien ne garantit la cohérence entre cette spécification et l’image. Il est maintenant recommandé d’utiliser une Attestation spec qui utilise le format d’attestation spécifié par in-toto, et une signature.

Par convention, Docker puis OCI, stockent la description de l’image à un endroit, le manifest, qui va désigner des blobs. Les blobs sont immuables et nommés à partir de leur hachage, ce qui permet d’avoir un cache efficace, et de ne télécharger que les blobs manquants. Un blob est souvent la couche d’une image, mais le système reste ouvert sur le contenu d’un blob.

Demo time

Prenons comme exemple gcr.io/distroless/static-debian12:latest, la fameuse image de moins de 2Mo.

La convention de nommage permet de construire l’url de son manifest.

Si dans le nom d’une image il y a un ou deux éléments séparés par des slash, elle sera sur le hub Docker, si il y a 3 éléments, le premier désigne le hub, ici gcr.io (pour Google Container Registry je présume).

v2 est la version de l’API.

distroless est le groupe.

static-debian12 est l’image.

manifests par ce que je souhaite connaître la description de l’image.

latest est le tag par défaut.

$ curl -L --silent gcr.io/v2/distroless/static-debian12/manifests/latest

{
  "schemaVersion": 2,
  "mediaType": "application/vnd.oci.image.index.v1+json",
  "manifests": [
    {
      "mediaType": "application/vnd.oci.image.manifest.v1+json",
      "size": 1951,
      "digest": "sha256:285af5683714393b2702463eb92bf1290bb12401a265c2a8942ebd79ac1ac673",
      "platform": {
        "os": "linux",
        "architecture": "amd64"
      }
    },
    {
      "mediaType": "application/vnd.oci.image.manifest.v1+json",
      "size": 1951,
      "digest": "sha256:7866c847208413c5f8c6c9fa1c78dca9421f6deb1c553c8384d6cf877b592b1c",
      "platform": {
        "os": "linux",
        "architecture": "arm64",
        "variant": "v8"
      }
    },
    {
      "mediaType": "application/vnd.oci.image.manifest.v1+json",
      "size": 1951,
      "digest": "sha256:60f84cc8a1e4afa08c901b307b2aba8ae34ee088b92659114038660840eeac4a",
      "platform": {
        "os": "linux",
        "architecture": "arm",
        "variant": "v7"
      }
    },
    {
      "mediaType": "application/vnd.oci.image.manifest.v1+json",
      "size": 1951,
      "digest": "sha256:3791cb6581d68b72be439062377c67e16a21110cf68d9114e5384a510cacc159",
      "platform": {
        "os": "linux",
        "architecture": "s390x"
      }
    },
    {
      "mediaType": "application/vnd.oci.image.manifest.v1+json",
      "size": 1951,
      "digest": "sha256:8edfd8cf3c82045c05763cb2d25c0f421ccce218b69440190870a5d821fb8f95",
      "platform": {
        "os": "linux",
        "architecture": "ppc64le"
      }
    }
  ]
}

application/vnd.oci.image.index.v1+json précise que le format OCI pour décrire les index d’image est utilisé (et non le format Docker).

Il y a plusieurs manifests car l’image est multi architectures.

Prenons l’image arm64, par ce que le arm64, c’est chic, et allons chercher son manifest. Pour ne pas risquer une confusion avec un tag, on préfixe avec le type de hachage. On notera que cette fois ci, le json n’est pas indenté, tache dont s’acquitte très bien jq.

curl -L --silent gcr.io/v2/distroless/static-debian12/manifests/sha256:7866c847208413c5f8c6c9fa1c78dca9421f6deb1c553c8384d6cf877b592b1c | jq .

{
  "config": {
    "mediaType": "application/vnd.oci.image.config.v1+json",
    "size": 1870,
    "digest": "sha256:1dcec56bafe5a886201f3011e859f9e95086aee5e19faf08fcbbd3ae46de18f4"
  },
  "layers": [
    {
      "digest": "sha256:8398841c83114be91a2fb43e384042528a6d82580f0ff857997dfa7090bda899",
      "mediaType": "application/vnd.oci.image.layer.v1.tar+gzip",
      "size": 104183
    },
    {
      "digest": "sha256:2b776ada03417eaa87102a617f964324df1de8967698fc4209dc1a1fbdfae8cd",
      "mediaType": "application/vnd.oci.image.layer.v1.tar+gzip",
      "size": 13384
    },
    {
      "digest": "sha256:2a977872b36c1a2309fac8bd22b0fa0b3ee6efd1a25af5016ee9409beca1b3cf",
      "mediaType": "application/vnd.oci.image.layer.v1.tar+gzip",
      "size": 537713
    },
    {
      "digest": "sha256:b6824ed73363f94b3b2b44084c51c31bc32af77a96861d49e16f91e3ab6bed71",
      "mediaType": "application/vnd.oci.image.layer.v1.tar+gzip",
      "size": 67
    },
    {
      "digest": "sha256:7c12895b777bcaa8ccae0605b4de635b68fc32d60fa08f421dc3818bf55ee212",
      "mediaType": "application/vnd.oci.image.layer.v1.tar+gzip",
      "size": 188
    },
    {
      "digest": "sha256:33e068de264953dfdc9f9ada207e76b61159721fd64a4820b320d05133a55fb8",
      "mediaType": "application/vnd.oci.image.layer.v1.tar+gzip",
      "size": 122
    },
    {
      "digest": "sha256:5664b15f108bf9436ce3312090a767300800edbbfd4511aa1a6d64357024d5dd",
      "mediaType": "application/vnd.oci.image.layer.v1.tar+gzip",
      "size": 168
    },
    {
      "digest": "sha256:27be814a09ebd97fac6fb7b82d19f117185e90601009df3fbab6f442f85cd6b3",
      "mediaType": "application/vnd.oci.image.layer.v1.tar+gzip",
      "size": 93
    },
    {
      "digest": "sha256:4aa0ea1413d37a58615488592a0b827ea4b2e48fa5a77cf707d0e35f025e613f",
      "mediaType": "application/vnd.oci.image.layer.v1.tar+gzip",
      "size": 385
    },
    {
      "digest": "sha256:da7816fa955ea24533c388143c78804c28682eef99b4ee3723b548c70148bba6",
      "mediaType": "application/vnd.oci.image.layer.v1.tar+gzip",
      "size": 321
    },
    {
      "digest": "sha256:9aee425378d2c16cd44177dc54a274b312897f5860a8e78fdfda555a0d79dd71",
      "mediaType": "application/vnd.oci.image.layer.v1.tar+gzip",
      "size": 130495
    }
  ],
  "mediaType": "application/vnd.oci.image.manifest.v1+json",
  "schemaVersion": 2
}

Cette fois ci, on a des couches d’image OCI sous forme de tar compressé avec gzip : application/vnd.oci.image.layer.v1.tar+gzip.

La description des couches se trouve dans base/base.bzl

tars = [
   deb.package(arch, distro, "base-files"),
   deb.package(arch, distro, "netbase"),
   deb.package(arch, distro, "tzdata"),
   "//common:rootfs",
   "//common:passwd",
   "//common:home",
   "//common:group",
   # Create /tmp, too many things assume it exists.
   # tmp.tar has a /tmp with the correct permissions 01777
   "//common:tmp",
   ":nsswitch.tar",
   "//common:os_release_" + distro,
   "//common:cacerts_" + distro + "_" + arch,
]

On notera que les couches toutes petites contiennent de la conf, et sont les mêmes, indépendamment de l’architecture. Bricolez la commande curl pour le vérifier, c’est instructif.

Une convention de nommage, un peu crado, permet de créer l’url de l’attestation d’une image : il faut ajouter .att à la fin, et surtout remplacer le : qui sépare le type de hachage de sa valeur, par un -. Une convention similaire permet de trouver la signature, avec le suffixe .sig.

curl -L --silent gcr.io/v2/distroless/static-debian12/manifests/sha256-7866c847208413c5f8c6c9fa1c78dca9421f6deb1c553c8384d6cf877b592b1c.att | jq .

{
  "schemaVersion": 2,
  "mediaType": "application/vnd.oci.image.manifest.v1+json",
  "config": {
    "mediaType": "application/vnd.oci.image.config.v1+json",
    "size": 243,
    "digest": "sha256:1f3ca242c4197b2abe2db3f9d162b4719fccd6261e2b45819c9d51361f340b8a"
  },
  "layers": [
    {
      "mediaType": "application/vnd.dsse.envelope.v1+json",
      "size": 12944,
      "digest": "sha256:c42ef2b6fa9e3d15aad198c23a147bc2fbc474af3c607ffe05ef5e934cb7d977",
      "annotations": {
        "dev.cosignproject.cosign/signature": "",
        "dev.sigstore.cosign/bundle": "{\"SignedEntryTimestamp\":\"MEUCIAz/DSGCZlu0Zm/sN4BJf4MmEzLnZFANmlHy50k8I/bhAiEAj8keEKbxX/VYZAfjZIsgbMkGDRlo+yO+j/3Skmgh/qY=\",\"Payload\":{\"body\":\"eyJhcGlWZXJzaW9uIjoiMC4wLjEiLCJraW5kIjoiaW50b3RvIiwic3BlYyI6eyJjb250ZW50Ijp7Imhhc2giOnsiYWxnb3JpdGhtIjoic2hhMjU2IiwidmFsdWUiOiJjNDJlZjJiNmZhOWUzZDE1YWFkMTk4YzIzYTE0N2JjMmZiYzQ3NGFmM2M2MDdmZmUwNWVmNWU5MzRjYjdkOTc3In0sInBheWxvYWRIYXNoIjp7ImFsZ29yaXRobSI6InNoYTI1NiIsInZhbHVlIjoiNDU1OTc4MDgyNDU0OGRlNDM5NzdlZDJhN2Q2NGE2YWQ1MDA4OTgwZTcxY2Q5ZDBmN2Y2NzBmMTU2YWM3MjIyYyJ9fSwicHVibGljS2V5IjoiTFMwdExTMUNSVWRKVGlCRFJWSlVTVVpKUTBGVVJTMHRMUzB0Q2sxSlNVTTBla05EUVcxcFowRjNTVUpCWjBsVlUyNWxaVFYyWTBSUVIzSnpTa2h4SzIxcmFVUTBjbTVRWkdjd2QwTm5XVWxMYjFwSmVtb3dSVUYzVFhjS1RucEZWazFDVFVkQk1WVkZRMmhOVFdNeWJHNWpNMUoyWTIxVmRWcEhWakpOVWpSM1NFRlpSRlpSVVVSRmVGWjZZVmRrZW1SSE9YbGFVekZ3WW01U2JBcGpiVEZzV2tkc2FHUkhWWGRJYUdOT1RXcFJkMDE2UlhoTlZHTXhUMVJGTUZkb1kwNU5hbEYzVFhwRmVFMVVaM2RQVkVVd1YycEJRVTFHYTNkRmQxbElDa3R2V2tsNmFqQkRRVkZaU1V0dldrbDZhakJFUVZGalJGRm5RVVU0ZFM5SmVrMHZkVlp5YjB4cGFGTmpiVzQzV1dKaGJuRkZVVWxyVWpKeU9HNDRXbFVLY1ZsbVJrTmFaaTlaV1ZoT1RtdDBMMDh6VEVvcmJURmpTRlpJWjBoR2IwVlNZamxVZVdrd1pUaGpXRGRTZGxGblZqWlBRMEZaWTNkblowZEVUVUUwUndwQk1WVmtSSGRGUWk5M1VVVkJkMGxJWjBSQlZFSm5UbFpJVTFWRlJFUkJTMEpuWjNKQ1owVkdRbEZqUkVGNlFXUkNaMDVXU0ZFMFJVWm5VVlZPU3k4d0NrcE9SR1V4TUc5SU5VUjZhMGRPVW5sT1oyMU1abUpOZDBoM1dVUldVakJxUWtKbmQwWnZRVlV6T1ZCd2VqRlphMFZhWWpWeFRtcHdTMFpYYVhocE5Ga0tXa1E0ZDA5QldVUldVakJTUVZGSUwwSkROSGRNU1VWeFlUSldOV0pIVm5wak1FSnJZVmhPTUdOdE9YTmFXRTU2VEcxc2FHSlROVzVqTWxaNVpHMXNhZ3BhVjBacVdUSTVNV0p1VVhWWk1qbDBUVU5yUjBOcGMwZEJVVkZDWnpjNGQwRlJSVVZITW1nd1pFaENlazlwT0haWlYwNXFZak5XZFdSSVRYVmFNamwyQ2xveWVHeE1iVTUyWWxSQmNrSm5iM0pDWjBWRlFWbFBMMDFCUlVsQ1FqQk5SekpvTUdSSVFucFBhVGgyV1ZkT2FtSXpWblZrU0UxMVdqSTVkbG95ZUd3S1RHMU9kbUpVUTBKcFVWbExTM2RaUWtKQlNGZGxVVWxGUVdkU04wSklhMEZrZDBJeFFVNHdPVTFIY2tkNGVFVjVXWGhyWlVoS2JHNU9kMHRwVTJ3Mk5Bb3phbmwwTHpSbFMyTnZRWFpMWlRaUFFVRkJRbXBwTm5KTlExRkJRVUZSUkVGRldYZFNRVWxuU1ZSWFkwOU5VbWhJVUdScmJtcEdZV2wwWVZaUlJ5OTVDbFZuVFVSR05XRTNlVWxWT1hSaEsya3pRbEZEU1VoMUwxcHRZemRLY0hSSmJ6bDFNRGxKWjBKd2VEUXdhMFYyT1ZjMk9XOU1NRU5sU2xKcmNucEhkSGdLVFVGdlIwTkRjVWRUVFRRNVFrRk5SRUV5YTBGTlIxbERUVkZEVDJob2NUZGhMM1F2TXpKS05EWnZMMmx0WmtjcmVIWkhlbEp0UWxWQllubFFjbVJFYXdwT1dVRnVVa3gwYVZoWWRHaFRhRkJHTTAxc1NtdGtaRmR4YjJ0RFRWRkRUR05uUVRNdlIycFRTakJvUkVSeE9GQkNNMnBvWkcwM1pFbHBhMlF6TUdGMUNrSTVNMVpFUzJGSWJXNWpjSEIwTW05a2NucElWRkU1U21sNE4zUnBUMmM5Q2kwdExTMHRSVTVFSUVORlVsUkpSa2xEUVZSRkxTMHRMUzBLIn19\",\"integratedTime\":1710179954,\"logIndex\":77294834,\"logID\":\"c0d23d6ad406973f9559f3ba2d1ca01f84147d8ffc5b8445c224f98b9591801d\"}}",
        "dev.sigstore.cosign/certificate": "-----BEGIN CERTIFICATE-----\nMIIC4zCCAmigAwIBAgIUSnee5vcDPGrsJHq+mkiD4rnPdg0wCgYIKoZIzj0EAwMw\nNzEVMBMGA1UEChMMc2lnc3RvcmUuZGV2MR4wHAYDVQQDExVzaWdzdG9yZS1pbnRl\ncm1lZGlhdGUwHhcNMjQwMzExMTc1OTE0WhcNMjQwMzExMTgwOTE0WjAAMFkwEwYH\nKoZIzj0CAQYIKoZIzj0DAQcDQgAE8u/IzM/uVroLihScmn7YbanqEQIkR2r8n8ZU\nqYfFCZf/YYXNNkt/O3LJ+m1cHVHgHFoERb9Tyi0e8cX7RvQgV6OCAYcwggGDMA4G\nA1UdDwEB/wQEAwIHgDATBgNVHSUEDDAKBggrBgEFBQcDAzAdBgNVHQ4EFgQUNK/0\nJNDe10oH5DzkGNRyNgmLfbMwHwYDVR0jBBgwFoAU39Ppz1YkEZb5qNjpKFWixi4Y\nZD8wOAYDVR0RAQH/BC4wLIEqa2V5bGVzc0BkaXN0cm9sZXNzLmlhbS5nc2Vydmlj\nZWFjY291bnQuY29tMCkGCisGAQQBg78wAQEEG2h0dHBzOi8vYWNjb3VudHMuZ29v\nZ2xlLmNvbTArBgorBgEEAYO/MAEIBB0MG2h0dHBzOi8vYWNjb3VudHMuZ29vZ2xl\nLmNvbTCBiQYKKwYBBAHWeQIEAgR7BHkAdwB1AN09MGrGxxEyYxkeHJlnNwKiSl64\n3jyt/4eKcoAvKe6OAAABji6rMCQAAAQDAEYwRAIgITWcOMRhHPdknjFaitaVQG/y\nUgMDF5a7yIU9ta+i3BQCIHu/Zmc7JptIo9u09IgBpx40kEv9W69oL0CeJRkrzGtx\nMAoGCCqGSM49BAMDA2kAMGYCMQCOhhq7a/t/32J46o/imfG+xvGzRmBUAbyPrdDk\nNYAnRLtiXXthShPF3MlJkddWqokCMQCLcgA3/GjSJ0hDDq8PB3jhdm7dIikd30au\nB93VDKaHmncppt2odrzHTQ9Jix7tiOg=\n-----END CERTIFICATE-----\n",
        "dev.sigstore.cosign/chain": "-----BEGIN CERTIFICATE-----\nMIICGjCCAaGgAwIBAgIUALnViVfnU0brJasmRkHrn/UnfaQwCgYIKoZIzj0EAwMw\nKjEVMBMGA1UEChMMc2lnc3RvcmUuZGV2MREwDwYDVQQDEwhzaWdzdG9yZTAeFw0y\nMjA0MTMyMDA2MTVaFw0zMTEwMDUxMzU2NThaMDcxFTATBgNVBAoTDHNpZ3N0b3Jl\nLmRldjEeMBwGA1UEAxMVc2lnc3RvcmUtaW50ZXJtZWRpYXRlMHYwEAYHKoZIzj0C\nAQYFK4EEACIDYgAE8RVS/ysH+NOvuDZyPIZtilgUF9NlarYpAd9HP1vBBH1U5CV7\n7LSS7s0ZiH4nE7Hv7ptS6LvvR/STk798LVgMzLlJ4HeIfF3tHSaexLcYpSASr1kS\n0N/RgBJz/9jWCiXno3sweTAOBgNVHQ8BAf8EBAMCAQYwEwYDVR0lBAwwCgYIKwYB\nBQUHAwMwEgYDVR0TAQH/BAgwBgEB/wIBADAdBgNVHQ4EFgQU39Ppz1YkEZb5qNjp\nKFWixi4YZD8wHwYDVR0jBBgwFoAUWMAeX5FFpWapesyQoZMi0CrFxfowCgYIKoZI\nzj0EAwMDZwAwZAIwPCsQK4DYiZYDPIaDi5HFKnfxXx6ASSVmERfsynYBiX2X6SJR\nnZU84/9DZdnFvvxmAjBOt6QpBlc4J/0DxvkTCqpclvziL6BCCPnjdlIB3Pu3BxsP\nmygUY7Ii2zbdCdliiow=\n-----END CERTIFICATE-----\n-----BEGIN CERTIFICATE-----\nMIIB9zCCAXygAwIBAgIUALZNAPFdxHPwjeDloDwyYChAO/4wCgYIKoZIzj0EAwMw\nKjEVMBMGA1UEChMMc2lnc3RvcmUuZGV2MREwDwYDVQQDEwhzaWdzdG9yZTAeFw0y\nMTEwMDcxMzU2NTlaFw0zMTEwMDUxMzU2NThaMCoxFTATBgNVBAoTDHNpZ3N0b3Jl\nLmRldjERMA8GA1UEAxMIc2lnc3RvcmUwdjAQBgcqhkjOPQIBBgUrgQQAIgNiAAT7\nXeFT4rb3PQGwS4IajtLk3/OlnpgangaBclYpsYBr5i+4ynB07ceb3LP0OIOZdxex\nX69c5iVuyJRQ+Hz05yi+UF3uBWAlHpiS5sh0+H2GHE7SXrk1EC5m1Tr19L9gg92j\nYzBhMA4GA1UdDwEB/wQEAwIBBjAPBgNVHRMBAf8EBTADAQH/MB0GA1UdDgQWBBRY\nwB5fkUWlZql6zJChkyLQKsXF+jAfBgNVHSMEGDAWgBRYwB5fkUWlZql6zJChkyLQ\nKsXF+jAKBggqhkjOPQQDAwNpADBmAjEAj1nHeXZp+13NWBNa+EDsDP8G1WWg1tCM\nWP/WHPqpaVo0jhsweNFZgSs0eE7wYI4qAjEA2WB9ot98sIkoF3vZYdd3/VtWB5b9\nTNMea7Ix/stJ5TfcLLeABLE4BNJOsQ4vnBHJ\n-----END CERTIFICATE-----",
        "predicateType": "https://spdx.dev/Document"
      }
    }
  ]
}

L’attestation contient des layers, comme une image, il ne faut pas se laisser distraire par la quantité d’annotations utilisée par la signature de cosign. Si il y a des layers, c’est qu’il y a des blobs (un layer et un blob, en l’occurrence).

curl -L --silent gcr.io/v2/distroless/static-debian12/blobs/sha256:c42ef2b6fa9e3d15aad198c23a147bc2fbc474af3c607ffe05ef5e934cb7d977 | jq .

{
  "payloadType": "application/vnd.in-toto+json",
  "payload": "eyJfdHlwZSI6Imh0dHBzOi8vaW4tdG90by5pby9TdGF0ZW1lbnQvdjAuMSIsInByZWRpY2F0ZVR5c
  […]
  uc2hpcFR5cGVcIjpcIkRFUEVORFNfT05cIn1dfSJ9",
  "signatures": [
    {
      "keyid": "",
      "sig": "MEUCIEdF83LnL01ToM4pkDvgnMkqvzRHwT3viDb/bOhqYA1JAiEAlgZR0Lei6lng9itoHr/Iw1xMllI67DngGtyg0o+hP4A="
    }
  ]
}

On a un document in-toto avec un gros paté en base64 (que je n’affiche que partiellement), que jq va traiter pour nous.

$ curl -L --silent gcr.io/v2/distroless/static-debian12/blobs/sha256:c42ef2b6fa9e3d15aad198c23a147bc2fbc474af3c607ffe05ef5e934cb7d977 | jq '.payload|@base64d|fromjson'

On obtient un prédicat de type https://spdx.dev/Document, le sujet qui désigne l’image, avec un hash pour préciser la version. Le corps du prédicat, qui contient le SPDX attendu est sous forme de json dans du json (sans base64 cette fois ci).

$ curl -L --silent gcr.io/v2/distroless/static-debian12/blobs/sha256:c42ef2b6fa9e3d15aad198c23a147bc2fbc474af3c607ffe05ef5e934cb7d977 | jq '.payload|@base64d|fromjson|.predicate|fromjson'

{
  "spdxVersion": "SPDX-2.3",
  "dataLicense": "CC0-1.0",
  "SPDXID": "SPDXRef-DOCUMENT",
  "name": "//base:static_root_arm64_debian12",
  "documentNamespace": "http://spdx.org/spdxdocs/distroless/-slash--slash-base-colon-static-underscore-root-underscore-arm64-underscore-debian12",
  "creationInfo": {
    "licenseListVersion": "NOASSERTION",
    "creators": ["Organization: distroless"],
    "created": "1970-01-01T00:00:00Z"
  },
  "packages": [
    {
      "name": "//base:static_root_arm64_debian12",
      "SPDXID": "SPDXRef--slash--slash-base-colon-static-underscore-root-underscore-arm64-underscore-debian12",
      "downloadLocation": "NOASSERTION",
      "copyrightText": "NOASSERTION"
    },
    {
      "name": "base-files",
      "SPDXID": "SPDXRef-arm64-underscore-debian12-underscore-base-files",
      "versionInfo": "12.4+deb12u5",
      "supplier": "Person: Santiago Vila \\u003csanvila@debian.org\\u003e",
      "downloadLocation": "https://snapshot-cloudflare.debian.org/archive/debian/20240210T223313Z/pool/main/b/base-files/base-files_12.4+deb12u5_arm64.deb",
      "checksums": [
        {
          "algorithm": "SHA256",
          "checksumValue": "ca5e69b38214de267d7d59bf4d0c1abd10987abacb5c9bfaf72b178bee883d1b"
        }
      ],
      "copyrightText": "This is the Debian prepackaged version of the Debian Base System\nMiscellaneous files. These files were written by Ian Murdock\n and Bruce Perens .\n\nThis package was first put together by Bruce Perens ,\nfrom his own sources.\n\nThe GNU Public Licenses in /usr/share/common-licenses were taken from\nftp.gnu.org and are copyrighted by the Free Software Foundation, Inc.\n\nThe Artistic License in /usr/share/common-licenses is the one coming\nfrom Perl and its SPDX name is \"Artistic License 1.0 (Perl)\".\n\n\nCopyright (C) 1995-2011 Software in the Public Interest.\n\nThis program is free software; you can redistribute it and/or modify\nit under the terms of the GNU General Public License as published by\nthe Free Software Foundation; either version 2 of the License, or\n(at your option) any later version.\n\nThis program is distributed in the hope that it will be useful,\nbut WITHOUT ANY WARRANTY; without even the implied warranty of\nMERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the\nGNU General Public License for more details.\n\nOn Debian systems, the complete text of the GNU General\nPublic License can be found in `/usr/share/common-licenses/GPL'.\n",
      "summary": "Debian base system miscellaneous files",
      "description": "Debian base system miscellaneous files\nThis package contains the basic filesystem hierarchy of a Debian system, and\nseveral important miscellaneous files, such as /etc/debian_version,\n/etc/host.conf, /etc/issue, /etc/motd, /etc/profile, and others,\nand the text of several common licenses in use on Debian systems.",
      "externalRefs": [
        {
          "referenceCategory": "PACKAGE-MANAGER",
          "referenceType": "purl",
          "referenceLocator": "pkg:deb/debian/base-files@12.4+deb12u5?arch=arm64"
        }
      ]
    },
    {
      "name": "@arm64_debian12_base-files//:spdx",
      "SPDXID": "SPDXRef--at-arm64-underscore-debian12-underscore-base-files-slash--slash--colon-spdx",
      "downloadLocation": "NOASSERTION",
      "copyrightText": "NOASSERTION",
      "description": "Generated from base-files@12.4+deb12u5"
    },
    {
      "name": "netbase",
      "SPDXID": "SPDXRef-arm64-underscore-debian12-underscore-netbase",
      "versionInfo": "6.4",
      "supplier": "Person: Marco d'Itri \\u003cmd@linux.it\\u003e",
      "downloadLocation": "https://snapshot-cloudflare.debian.org/archive/debian/20240210T223313Z/pool/main/n/netbase/netbase_6.4_all.deb",
      "checksums": [
        {
          "algorithm": "SHA256",
          "checksumValue": "29b23c48c0fe6f878e56c5ddc9f65d1c05d729360f3690a593a8c795031cd867"
        }
      ],
      "copyrightText": "Format: https://www.debian.org/doc/packaging-manuals/copyright-format/1.0/\nComment:\n This package was created by Peter Tobias tobias@et-inf.fho-emden.de on\n Wed, 24 Aug 1994 21:33:28 +0200 and maintained by Anthony Towns\n  until 2001.\n It is currently maintained by Marco d'Itri .\n\nFiles: *\nCopyright:\n Copyright (c) 1994-1998 Peter Tobias\n Copyright (c) 1998-2001 Anthony Towns\n Copyright (c) 2002-2022 Marco d'Itri\nLicense: GPL-2\n This program is free software; you can redistribute it and/or modify\n it under the terms of the GNU General Public License, version 2, as\n published by the Free Software Foundation.\n .\n This program is distributed in the hope that it will be useful,\n but WITHOUT ANY WARRANTY; without even the implied warranty of\n MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the\n GNU General Public License for more details.\n .\n You should have received a copy of the GNU General Public License along\n with this program; if not, write to the Free Software Foundation,\n Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301, USA.\n .\n On Debian systems, the complete text of the GNU General Public License\n version 2 can be found in '/usr/share/common-licenses/GPL-2'.\n",
      "summary": "Basic TCP/IP networking system",
      "description": "Basic TCP/IP networking system\nThis package provides the necessary infrastructure for basic TCP/IP based\nnetworking.\n.\nIn particular, it supplies common name-to-number mappings in /etc/services,\n/etc/rpc, /etc/protocols and /etc/ethertypes.",
      "externalRefs": [
        {
          "referenceCategory": "PACKAGE-MANAGER",
          "referenceType": "purl",
          "referenceLocator": "pkg:deb/debian/netbase@6.4?arch=all"
        }
      ]
    },
    {
      "name": "@arm64_debian12_netbase//:spdx",
      "SPDXID": "SPDXRef--at-arm64-underscore-debian12-underscore-netbase-slash--slash--colon-spdx",
      "downloadLocation": "NOASSERTION",
      "copyrightText": "NOASSERTION",
      "description": "Generated from netbase@6.4"
    },
    {
      "name": "tzdata",
      "SPDXID": "SPDXRef-arm64-underscore-debian12-underscore-tzdata",
      "versionInfo": "2024a-0+deb12u1",
      "supplier": "Person: GNU Libc Maintainers \\u003cdebian-glibc@lists.debian.org\\u003e",
      "downloadLocation": "https://snapshot-cloudflare.debian.org/archive/debian/20240210T223313Z/pool/main/t/tzdata/tzdata_2024a-0+deb12u1_all.deb",
      "checksums": [
        {
          "algorithm": "SHA256",
          "checksumValue": "0ca0baec1fca55df56039047a631fc1541c5a44c1c4879d553aaa3a70844eb12"
        }
      ],
      "homepage": "https://www.iana.org/time-zones",
      "copyrightText": "Format: https://www.debian.org/doc/packaging-manuals/copyright-format/1.0/\nSource: https://www.iana.org/time-zones\nUpstream-Contact: The Internet Assigned Numbers Authority (IANA)\n                  Commentary should be addressed to tz@iana.org\n\nFiles: *\nCopyright: The Internet Assigned Numbers Authority (IANA)\nLicense: public-domain\n This database is in the public domain.\n",
      "summary": "time zone and daylight-saving time data",
      "description": "time zone and daylight-saving time data\nThis package contains data required for the implementation of\nstandard local time for many representative locations around the\nglobe. It is updated periodically to reflect changes made by\npolitical bodies to time zone boundaries, UTC offsets, and\ndaylight-saving rules.",
      "externalRefs": [
        {
          "referenceCategory": "PACKAGE-MANAGER",
          "referenceType": "purl",
          "referenceLocator": "pkg:deb/debian/tzdata@2024a-0+deb12u1?arch=all"
        }
      ]
    },
    {
      "name": "@arm64_debian12_tzdata//:spdx",
      "SPDXID": "SPDXRef--at-arm64-underscore-debian12-underscore-tzdata-slash--slash--colon-spdx",
      "downloadLocation": "NOASSERTION",
      "copyrightText": "NOASSERTION",
      "description": "Generated from tzdata@2024a-0+deb12u1"
    }
  ],
  "relationships": [
    {
      "spdxElementId": "SPDXRef-DOCUMENT",
      "relatedSpdxElement": "SPDXRef--slash--slash-base-colon-static-underscore-root-underscore-arm64-underscore-debian12",
      "relationshipType": "DESCRIBES"
    },
    {
      "spdxElementId": "SPDXRef--at-arm64-underscore-debian12-underscore-base-files-slash--slash--colon-spdx",
      "relatedSpdxElement": "SPDXRef-arm64-underscore-debian12-underscore-base-files",
      "relationshipType": "GENERATED_FROM"
    },
    {
      "spdxElementId": "SPDXRef--slash--slash-base-colon-static-underscore-root-underscore-arm64-underscore-debian12",
      "relatedSpdxElement": "SPDXRef--at-arm64-underscore-debian12-underscore-base-files-slash--slash--colon-spdx",
      "relationshipType": "DEPENDS_ON"
    },
    {
      "spdxElementId": "SPDXRef--at-arm64-underscore-debian12-underscore-netbase-slash--slash--colon-spdx",
      "relatedSpdxElement": "SPDXRef-arm64-underscore-debian12-underscore-netbase",
      "relationshipType": "GENERATED_FROM"
    },
    {
      "spdxElementId": "SPDXRef--slash--slash-base-colon-static-underscore-root-underscore-arm64-underscore-debian12",
      "relatedSpdxElement": "SPDXRef--at-arm64-underscore-debian12-underscore-netbase-slash--slash--colon-spdx",
      "relationshipType": "DEPENDS_ON"
    },
    {
      "spdxElementId": "SPDXRef--at-arm64-underscore-debian12-underscore-tzdata-slash--slash--colon-spdx",
      "relatedSpdxElement": "SPDXRef-arm64-underscore-debian12-underscore-tzdata",
      "relationshipType": "GENERATED_FROM"
    },
    {
      "spdxElementId": "SPDXRef--slash--slash-base-colon-static-underscore-root-underscore-arm64-underscore-debian12",
      "relatedSpdxElement": "SPDXRef--at-arm64-underscore-debian12-underscore-tzdata-slash--slash--colon-spdx",
      "relationshipType": "DEPENDS_ON"
    }
  ]
}

On notera que SPDX reprend le principe des triplets de RDF qui, promis juré, devait servir de base au web 3.0. Ces relationships décrivent un graphe avec des liaisons nommées (et des noms de nodes rigolos, un genre d’échappement littéral).

On notera aussi que le moulinage des informations issus des paquets Debian ont des soucis bizzaries d’UTF8 avec des \\u003c et des \\u003e.

Le SPDX permet de désigner tous les paquets utilisés, avec leur version, leur URL figée dans le temps, et le nom du responsable. Tout ce qu’il faut pour lancer une moulinette de chasse au CVE, pour mettre à jour la couche impactée sans devoir refaire les couches supérieures.

Outils pour gérer les images de conteneur

C’est instructif de manipuler les images avec curl et jq, mais il existe aussi des outils civilisés pour manipuler des registres d’images de conteneur : crane ou skopeo.

Pour vérifier les signatures des images, l’outil de référence est cosign.

Autres projets d’images minimalistes

Wolfi

Chainguard, les gens qui participent au développement de sigstore, propose Wolfi, une distribution Linux basée sur apk (comme Alpine), mais avec glibc, ciblant uniquement les conteneurs, et donc sans kernel, sans init.

Les images de base Wolfi peuvent s’utiliser “comme avant”, avec un Dockerfile et apk, comme on le ferait avec une image Alpine.

Les avant-gardistes, eux, construiront leurs images Wolfi avec apko

Apko

Apko est un outil minimaliste écrit en go, utilisable depuis un conteneur ou depuis un OS (Linux ou non), qui va créer l’archive (multi architecture) d’une image de conteneur et plein de SBOMs, à partir d’un YAML et d’un dépôt apk. Apko peut même pousser l’image dans un registre.

Comme Apko est un rebelle, il peut créer des fat containers avec s6 comme init.

Apko se fiche de Wolfi, de Alpine, de Bazel, de Docker, de Podman, de Containerd, de Kubernetes et de plein d’autres choses. Mais comme il est poli, il sait aussi bosser avec eux.

Apko fait des builds déterministes, multi architecture, et donc ne lance pas de commandes pendant le build. En bon monomaniaque, Apko mise tout sur apk, et donc pousse a utiliser son projet melange pour créer les apk qui seront utilisés par Apko. Ou vous pouvez truander avec un Dockerfile, à l’ancienne.

Melange

Melange est un autre projet de Chainguard pour créer des paquets apk multi architectures à partir d’un incontournable YAML. Pour être utilisé hors des Linux basés sur apk, Chainguard a réimplementé apk en go.

Le projet est tout frais (en version 0.6), peu documenté, mais prometeur,actif depuis 2 ans, avec une belle liste de pull requests.

La création pour les architectures non-natives passe par binfmt_misc qui s’appuie sur qemu.

Les builds classiques sont gérés (cargo, rust, npm, make install …), et il est même possible de créer un build Melange à partir d’un projet ruby, python ou apk.

Le code parle de conteneurs Docker/k8s/dagger/bubblewrap mais pas la documentation. Pour les développeurs Mac, il y a une intégration à Lima.

Les builds simples tombent en marche, de manière assez magique, mais j’attends une bonne bagarre avec le débug d’un build qui ne passe pas pour avoir un avis plus affirmé.

Chainguard croit très fort à apk comme artéfact universel, brique de base pour composer un conteneur.

Ko

Golang est le “fruit bas” des langages à déployer dans un conteneur. Golang crée un gros binaire statique, et peut cross-compiler très simplement.

Google a crée ko, avant de lui dédier son propre groupe dans Github et de postuler comme projet CNCF (il est niveau “bac à sable” pour l’instant).

On retrouve les arguments du moment : build natif, SBOM, YAML, publication dans un registre.

Dans les pinaillages, Ko recommande de ne pas pas utiliser cgo, et demande à ce que les éventuelles dépendances soient fournies dans l’image de base. Par contre, Ko sait déployer des assets.

Jib

Jib, du même Google, permet de créer des images de conteneurs à partir de projets Java.

Jib a la tâche encore plus facile que Ko, Java est par principe multi architectures. L’image de base est OpenJDK, mais il est possible de paramétrer ce choix.

Jib est une extension pour Maven ou Gradle, ou s’utilise comme outil indépendant et il n’utilise pas de conteneur.

Tout le travail de Jib est de déposer les différents jar sur différentes couches d’images de conteneurs, et lors d’un nouveau build de l’application, seuls les jar modifiés seront redéployés sur leur couche respective.

La suite

L’OCI continue de taper sur Docker pour lui expliquer la différence entre implémentation et spécification.

Des fois, c’est de mauvaise foi (à chaque fois que Redhat vante son écosystème concurrent), souvent c’est justifié. L’absence de marché clair pour Docker inc est triste, et la constance de Docker Desktop a demandé des sous (l’achat d’une licence) sur presque toutes les nouvelles commandes n’améliore pas leur karma.

Le Dockerfile reste le format standard et universel pour créer des conteneurs, mais la norme est le format de l’image. Il est normal de pouvoir créer une image de conteneur comme on le souhaite (comme umoci le propose), et d’explorer d’autres pistes. Il est par exemple intéressant de pouvoir travailler couche par couche pour composer une image, en ne changeant que ce qu’il y a de nouveau. La gestion des architectures multiples est une vraie question auquel Docker ne répond que partiellement.

Pouvoir débuguer en local/staging est normal, mais l’outillage doit être différent en production. Vous n’avez pas forcément la main sur le nombre d’instances de votre conteneur, il y a peu de chance que vous y ayez un accès privilégié, et vous n’allez pas attendre que l’incident revienne.

La généralisation des traces et des journaux structurés sont là depuis longtemps et maintenant indispensable. La vague ebpf prolonge ce mouvement et va offrir plus de visibilité sur le comportement des applications en production.

Les offres d’hébergement de conteneur de haut niveau, comme Fly.io propose une interface simple et va masquer les détails d’implémentation, pour plutôt proposer une intégration fine avec un ensemble de services pour le client ou le développeur.

Le postulat d’Heroku est toujours valide : “tu git push, ça finit en prod”, sauf que maintenant c’est explicite, normalisé, et sécurisé.

Campagne internationale pour la sécurité informatique (1/3)

2024-03-18T09:04:00+01:00

Campagne internationale pour la sécurité informatique

Il y a quelques jours, la Maison-Blanche demande un audit sur la sécurité de ses logiciels, tout en reconnaissant l’utilisation massive (et indispensable) de l’écosystème open source pour les services de l’État.

Le sujet de l’audit est large (et très technique), et a pour objectif d’améliorer drastiquement la sécurité des logiciels. Les pistes sont bien connues, mais là, c’est écrit noir sur blanc par la Maison-Blanche.

Sécurisation des fournisseurs de paquets (logiciels et bibliothèques)
Mis en place d’outils pour quantifier la qualité et la sécurité du code
Remplacement des logiciels codé avec des langages sans gestion stricte de la mémoire (memory safe).

Github fournit des outils sur ce thème depuis quelque temps, aucune surprises, mais entendre le président des États-Unis dauber sur le C/C++, c’est une première. Oui, le document de la Maison-Blanche cite le nom de Biden à tour de bras, j’imagine que c’est l’usage dans ce pays, mais hors US, on a l’impression que c’est une attaque personnelle.

Le document est plein d’intentions, on attend le résultat de l’audit pour avoir des éléments concrets, mais il contient quand même plein de liens bien plus concrets comme une roadmap sur la sécurité open source

Comme le sujet est touffu, et plein d’acronymes, le billet sera coupé en trois, en suivant le découpage de la Maison-Blanche :

Sécuriser la chaine d’approvisionnement (ce billet)
Quantifier la qualité du code
Protéger l’accès à la mémoire

Dépendances logicielles

Une application est composée de code pris sur l’étagère, sous forme de source ou de paquets (gros binaire, paquet système, image Docker…) ou de code développé maison qui va utiliser des bibliothèques existantes.

Pour ne pas réinventer la roue (et la maintenir), une application va dépendre de paquets (au sens large) gérés par des tiers.

C’est un des aspects principaux de l’open source.

Le sujet est pris en main par la Linux Foundation, via l’Opensource Security Foundation, via Alpha-Omega fondé par les gros du cloud (Amazon, Google et Microsoft) pour supporter les outils essentiels de l’open source, du début à la fin (la ref ⍺ - Ω, vous l’avez?).

Les cascades de fondations et de comités, avec pour l’instant des zones floues ou redondantes, laissent présager moult réunions et visioconférences. Mais trêve de mauvaise langue, ils ont déjà produit des choses concrètes : code, données et financement de projets existants. L’adoubement de la fondation Linux devrait calmer la fascination de la dispersion et des projets qui n’aboutissent jamais.

Chaine d’approvisionnement

Gérer la dépendance à des produits tiers se joue sur la durée, il peut se passer plein de choses durant ce voyage.

Failles officielles

Découvrir une chouette faille de sécurité est un titre de gloire, surtout si ça permet de faire des choses créatives et imprévues.

Pour éviter les doublons et pour que tout le monde parle de la même chose, l’usage est d’enregistrer sa vulnérabilité auprès de CVE, Common Vulnerabilities and Exposures géré par l’organisme Mitre, soutenu par le département de la sécurité intérieure des Etats-Unis. CVE est le standard de fait, mais sa gestion est problématique, cf Curl conteste certains de ses CVEs. L’API de CVE est peu pratique, et ses données, très peu formatées, sont dures à exploiter.

L’OpenSSF propose un nouveau format, développé conjointement avec la communauté open source : l’OSV (pour Open Source Vulnerability).

Les paquets sont identifiés par un écosystème (le dépôt officiel), un nom et une version, ou directement par un commit hash.

OSV agrège de multiples sources.

OSV fournit une API REST et un cli (en go) qui sait lire la liste de dépendances gelées de différents formats ainsi que les listes de paquets installés de Alpine ou Debian, les images Docker basées sur Debian.

Tout l’outillage d’OSV est lié à GCE, avec des services pénibles comme AppEngine, ou l’utilisation de GCS (du S3, quoi) comme source. La documentation ressemble à un publireportage GCE, ce qui est dommage. D’un autre côté, proposer un schéma de table, agréger les failles, lire des listes de paquets n’est pas un challenge technique, mais surtout un travail politique pour convaincre et devenir la référence.

Paquets malhonnêtes

Au-delà des failles (involontaires), il existe aussi des paquets volontairement dangereux qui peuvent faire par exemple ce genre de choses.

Le projet package-analysis effectue l’analyse dynamique de paquet, en le lançant dans un environnement isolé ( gVisor, un conteneur paranoïaque, pour observer les fichiers qu’il tripote, les adresses où il se connecte.

Les paquets scélérats, compromis, ou avec des noms trompeurs (aka typosquatting) sont répertoriés par le projet malicious-packages pour créer des OSV.

Paquets de confiance

Il arrive qu’un paquet légitime soit corrompu durant son cycle de vie.

L’attaque peut être effectuée à différents niveaux.

Des patchs malicieux peuvent être proposés, prétendant améliorer un point alors qu’il en fragilise un autre. Un étudiant a réussi à faire passer un patch malicieux dans le kernel Linux avant de s’en vanter. Sa fac, l’université du Minnesota, s’est fait bannir avec lui.
En truandant l’authentification d’un mainteneur, il est possible de publier une version scélérate d’un paquet sur un dépôt.
Via l’intégration continue, il est possible de modifier ou de publier des bêtises.
Il est tentant de modifier le cache d’un dépôt, bien que les signatures soit censées empêcher ce genre d’attaque.

Dépôts pour bibliothèques de langage

Les langages disposent de bibliothèques de code disponibles via des dépôts spécifiques.

La sensibilisation à la sécurité pour la publication de bibliothèque a été bien trop tardive. Même si la possibilité de signer un paquet est arrivé tôt, sans prosélytisme, ça a eut du mal à prendre, et il faut une chaine de confiance, de bout en bout, pour que ce soit utilisable.

Python Pypi

Dans leur liste de diffusion, les paqueteurs Python évoquent le drame du faible taux de signature en 2016, de toute façons, seul le format binaire, les whl, gèrent les signatures.

Python a des spécifications pour l’empaquetage, Pypa, un hangar qui progresse bien, Warehouse, mais côté client, c’est très confus.

Il y a plusieurs formats pour définir les dépendances, rien de bien précis pour le verrouillage, que n’utilise pas l’outil par défaut, pip. Les challengers, poetry et unearth manquent d’ambitions, alors que uv rêve de la perfection de rust.

Plutôt que de batailler avec des clés de développeurs, Python se dirige vers la notion de diffuseur de confiance. On indique à Pypi qu’un build précis d’une CI (projet, branche…) est de confiance. La CI va publier vers Pypi l’artéfact, avec le token OIDC contenant les détails du build, si le token est valide, et si les détails correspondent à ce qui a été paramétré, Pypi accepte l’artéfact.

Même si cette approche semble simple, fonctionne pour une personne ou une CI, elle ne survit pas à la compromission du serveur Pypi, personne ne pourra savoir quels paquets ont été bidouillés.

Il faut que les paquets aient une signature auditable, qui soit faite en dehors du serveur Pypi.

Golang

Golang ne prévoit rien pour signer, il délègue toute la confiance au dépôt de source distant (Github, quoi). Par contre, Golang maintient une base de hash pour les différentes versions d’un paquet, avec un journal transparent, ce qui permet d’utiliser un miroir pour télécharger un paquet.

Les applications Golang sont livrées sous forme binaire, que vous pouvez signer de manière classique.

Ruby Gem

Ruby documente l’utilisation de certificat asymétrique avec ses gems mais avoue ne pas savoir comment gérer une chaine de confiance, et qu’ils en discutent.

Par contre, une gem peut faire confiance à une source OIDC avec l’exemple d’une action de la CI Github (et ils citent la documentation pypi pour comprendre le fonctionnement).

Même fragilité que Pypi en cas de compromission du serveur.

Node npm

Longtemps mauvais élève, Npm vante maintenant la notion de provenance avec Sigstore et propose de vérifier la signature du dépôt utilisé : npm audit signatures.

En signant les paquets en dehors du dépôt et en utilisant un journal public, ce que permet l’utilisation de Sigstore, le dépôt npm est moins fragile que pypi et rubygem.

Les concurrents de Nodejs ne sont pas très ambitieux sur la sécurité:

Rust crates

Pour l’instant, les paquets publiés sur crate.io ne sont pas signés, mais il y a en préparation une RFC pour intégrer Sigstore. La documentation parle d’intégration continue, mais pas de déploiement continu. Pour l’instant, crate.io authentifie les utilisateurs en OAuth2 avec Github, et permet la création de token pour publier, on a donc un lien entre un crate publié et un compte Github, mais c’est un peu peu.

Paquets Linux

La gestion de paquets des distributions Linux est mature depuis bien longtemps, et toutes gèrent les signatures (sauf Slackware).

La plupart des distributions utilisent gpg pour signer les paquets (sauf Alpine qui se distinguent avec de la clé openssl nue).

ArchLinux prend la peine d’établir un vraie rituel de signature :

5 clés maitres ont le pouvoir signer les clés des mainteneurs.
5 personnes détiennent une clé maitre ainsi que la clé de résiliation d’une autre clé maitre.
Une clé de mainteneur est légitime pour signer un paquet si elle est signée par au moins 3 clés maitres.

Les autres distributions se contentent de fournir un trousseau avec des personnes de confiance.

Même si les distributions Linux disposent d’une PKI pour signer leurs paquets, et empaquetent une partie des bibliothèques de langage, les paquets Linux ne sont pas utilisable pour développer des applications métiers.

Le cycle de vie d’un paquet Linux est lié à une version de la distribution, seuls les mises à jour de sécurité seront rétro-appliquées (backportées, quoi), les bugs fonctionnels resteront en l’état, et certaines distributions se permettent des patchs qui ne seront pas supportés par le mainteneur de la bibliothèque.
Une bibliothèque emballée dans un paquet Linux sera disponible dans une unique version majeure, utilisé par tous les paquets qui en ont besoin.
Même si les langages compilés modernes créent des binaires statiques, les paquets Linux doivent être reproductibles, et donc les bibliothèques des sources doivent être empaquetées. Cette règle empêche d’avoir des paquets officiels pour des applications agressives sur les versions de bibliothèques, comme Mongodb, Clickhouse ou même Nodejs.
Le vendoring, largement utilisé dans le développement contemporain, en gérant de manière isolée (et redondante) les dépendances logicielles est un tabou des distributions Linux. Il empêche la rationalisation et le travail de correction des mainteneurs.
Les formats de paquets historiques sont vieillissants, confus et la somme d’un empilement d’outils. Leur cout est négligeable par rapport à la valeur de la cohérence d’une distribution, mais hors de prix pour des applications métiers.
Les distributions Linux récentes sont tentées par la livraison continue, rolling release, sans jamais figer de version. Cette approche favorise la fraicheur des paquets, mais ne garanti plus la constance du comportement des applications ni même la possibilité d’avoir des mises à jour espacées dans le temps. Conçu pour les postes de travail, ce genre de distribution impose des stratégies de mises à jour rigoureuses sur un serveur, comme l’immutabilité

Paquets Linux universels

Fournir des paquets Linux pour un éditeur est une tannée.

En ciblant des serveurs, il est imaginable d’imposer des distributions majeures comme Redhat, Debian ou Ubuntu, mais pour des applications grand public, il y aura trop de variations possibles. S’ajoutent à ça les soucis de dépendances à des versions précises de bibliothèques.

Pour l’utilisateur, installer une application non disponible dans sa distribution, sans forcément avoir accès aux sources n’est pas une très bonne idée d’un point de vue sécurité. Un paquet Linux classique s’installe avec les droits de super utilisateur et fait bien ce qu’il veut.

Depuis l’avènement des conteneurs, Linux sait correctement isoler des applications, même si l’intégration à un bureau ne fait pas partie des objectifs d’un Docker (même si Jessfraz a relevé le challenge).

Freedesktop a effectué un travail de titan pour normaliser les points d’entrées d’un bureau Linux, permettant une intégration élégante d’applications disparates. Il faut donc que les applications, bien que bordées, puissent profiter de Freedesktop.

Flatpack

Flatpak se positionne comme solution universelle de déploiement d’application sur Linux.

Il s’appuie sur Bubble Wrap pour l’isolation (namespace et seccomp), cgroup étant géré par systemd.

Plutôt que de bricoler un chroot obèse comme image de base, FlatPack propose des runtimes qui seront mutualisés entre les différents paquets (et mis à jour indépendamment de l’application, en s’engageant à garder stable l’API).

Le dédoublonnage, et le versionnage des fichiers sont gérés par ostree.

Une liste compréhensible de droits permet de choisir ce que peut faire une application.

Pour les mises à jour, un outil permet de le faire en ligne de commande, ou un plugin permet à Flatpack de s’incruster dans le gestionnaire de paquets de Gnome.

Snap

Snap voit plus loin que le bureau Linux (il a été conçu pour l’IOT), mais son choix d’utiliser Apparmor brime la famille de distributions Linux qui activent SELinux automatiquement : Redhat (qui pousse Flatpack, le concurrent). SELinux et Apparmor se branchent au même endroit dans le noyau Linux : ils sont exclusifs.

Les images de bases, appelées core sont basées sur Ubuntu.

Quand Ubuntu a décidé d’utiliser snap quand on installe un navigateur web avec un paquet deb, ça a un peu fait grincer des dents. Ce choix permet d’avoir les navigateurs dans leur version courante, dans différentes versions d’Ubuntu, même les très stables LTS (support à long terme). Je ne souhaite à personne de backporter les patchs de sécurités dans les bases de code tentaculaires des navigateurs webs.

Un Snap utilise SquashFS (un système de fichier compressé) comme format de paquet.

Snap se met à jour automatiquement, avec tout le confort moderne : livraison par delta, modification atomique, retour arrière possible.

Les interfaces permettent de réclamer des droits avec le système, et même d’en créer de nouveaux pour que les snaps discutent entre eux.

La documentation ne l’évoque que partiellement, mais Snap utilise des signatures à tous les étages, avec des chaines de confiances entre le publieur, le dépôt, le paquet.

Distributions Linux immuables

Les distributions Linux peuvent être considérées comme un unique paquet, immuable, avec des stratégies de mises à jour atomiques, et la possibilité de rétro-déploiement (rollback), on parle alors de distributions immuables.

Ne laissant aucun choix d’installation de paquets, il n’y a pas de multiples combinaisons à tester pour valider une nouvelle version.

Il est possible de composer une distribution immuable à partir de paquets Linux (et de profiter des patchs, des mises à jour et de la cohérence entre eux).

Ces distributions peuvent avoir des stratégies de mises à jour agressive, ayant la garantie de pouvoir revenir à un état stable en cas d’incident de mises à jour ou de régression. Le déploiement des mises à jour est différentiel (pour limiter le temps de téléchargement), et surtout signé, pour avoir un confort et une sécurité comparable à un OS classique. Démarrer sur une partition en lecture seule améliore grandement la sécurité de l’OS, il sera impossible de corrompre cette couche (les couches supérieures devront elles, faire attention).

Les OS immuables utilisent souvent un système de paquet d’applications neutre, comme FlatPack ou des conteneurs, ne fournissant que des services de bases.

Le pionnier du Linux immuable, CoreOS a été racheté par RedHat qui propose maintenant des variantes de RedHat/Fedora immuables (et forcément spécialisé) et fournit OStree comme outil de base pour créer des arborescences de fichiers immuables. Au moment du rachat, Coreos a été forké en FlatCar.

Images conteneurs

Les conteneurs, popularisés par Docker, permettent le déploiement d’applications indépendamment de l’OS hôte qui va principalement fournir un noyau Linux (et donc des ressources matérielles), et contrôler son utilisation.

Les conteneurs sont isolés les uns des autres (namespace, cgroup, seccomp…), et si un conteneur est compromis ce sera compliqué pour atteindre les autres conteneurs.

Les conteneurs permettent d’avoir le même environnement sur le poste du développeur, dans l’intégration continue et en pré-production puis production.

Les conteneurs adorent les signatures, et savent les utiliser de bout en bout.

Une image conteneur va embarquer tous les fichiers nécessaires pour lancer une application. Les arborescences de fichiers sont composés de couches, seule la plus haute permet l’écriture, permettant ainsi la mutualisation des couches (en lecture seule, donc) permettant un gain de place certain.

La plupart des images sont construites avec des paquets système, avant d’attaquer la couche applicative qui utilisera des paquets logiciels. Un conteneur ne doit faire qu’une seule chose, et donc ne devrait pas nécessiter trop de paquets.

Chaque conteneur pourra contenir ses propres versions de paquets, et un serveur pourra contenir moult conteneurs, multipliant ainsi les failles possibles et les besoins de mises à jour. Il existe de multiples outils pour découvrir les systèmes de paquets utilisés, puis de confronter leurs versions à des bases de failles, comme osv-scanner ou d’autres services payants.

Dans une vision naïve, l’image de base contiendra le contenu complet d’une installation Linux; une copie de tous les fichiers, on sait jamais. 120Mo pour une Debian 12.

Ensuite, en activant quelques options (comme ne jamais déployer la documentation) et en dégraissant la liste des paquets d’une installation de base, on arrive aux distributions dites slim. 75Mo pour une Debian 12 Slim.

Google propose de faire mieux avec Distroless, toujours avec une Debian. 2 Mo pour une version static qui n’utilise que 3 paquets, même pas de libc, juste de quoi lancer une application statique. La version base pèse 20Mo, avec une libc et openssl, 15Mo sans openssl. Des variantes spécifiques à des runtimes sont aussi fourni : python, node et java.

Au-delà de l’exploit, ce minimalisme drastique améliore la sécurité de l’image en limitant la surface d’attaque, mais surtout va limiter les faux positifs dans les analyses de paquets.

Les conteneurs sont issus des travaux de Google pour son Borg, qui a fourni au noyau Linux les fonctions de base pour isoler les processus, ce qui a permis la création de Docker qui a assumé l’évangélisation, puis de lancer Kubernetes (le Borg pour le reste du monde). Kubernetes a sorti de la boucle Docker en créant l’Open Container Initiative et en normalisant la couche juste en dessous de Docker : Containerd.

RedHat en a profité du coup de mou de Docker pour venger cet affront innovation en créant Podman qui utilise poliment les normes existantes et recrée tout l’écosystème de Docker :

Podman est basé sur cri-o l’outil de bas niveau utilisé par Containerd
Podman utilise les images OCI
Podman n’utilise pas de démon lui préférant systemd
Podman croit très fort aux conteneurs démarré sans droit d’admin (axa rootless), même si tout ne fonctionne de manière optimal pour l’instant

Notaire

Pour signer des commits de code ou des paquets, il faut utiliser un système de clé privée/public, avec une chaine de confiance permettant de diffuser les clés publiques signées.

GPG

GnuPG tente depuis longtemps de démocratiser la cryptographie asymétrique. Le concept de chaine de confiance signé entre pairs n’a jamais fonctionné comme il faut. L’écosystème est bancal, mal maintenu :

le serveur de clé est un bricolage
la révocation d’une clé est une tannée
le format de clé est confus, personne ne sait quel type de clé il utilise et si la taille de la clé est suffisante.
le vaillant mainteneur est seul, avec des micro-contributions d’autres personnes

Keybase a fait un gros travail de pédagogie en fournissant des outils agréables à utiliser. Keybase se fiche de la chaine de confiance pour crédibiliser une clé, mais propose de la lier à différente présence sur Internet, avec un système de challenge (compte de réseaux sociaux, site web personnel, porte monnaie de crypto…). Keybase a été racheté par Zoom qui avait besoin de se payer une réputation suite à différents incidents, puis laissé en l’état, en stagnation.

Debian utilise gpg et met à disposition son trousseau, pour avoir un moyen simple de vérifier une signature, avec une politique de cooptation pour les nouveaux arrivants.

Git permet de signer avec gpg un commit ou un tag, et le kernel Linux, l’utilisateur initial de git, publie aussi son trousseau.

Je pense que l’on peut en 2024 affirmer que GPG n’a pas tenu ses promesses, surtout son idée de chaine de confiance.

The Update Framework

Le CNCF (Cloud Native Computing Foundation) a proposé une norme pour la mise à jour de logiciels : TUF (The Update Framework). Les travaux initiaux sont basés sur le système de mises à jour de TOR, et ont commencé en 2009.

TUF propose un framework pour sécuriser le procédure de mise à jour de paquets, en se focalisant sur les métadatas, sans empiéter sur la gestion de paquets.

TUF utilise une autorité de certification, avec la clé privée qui est hors ligne, la clé publique est fourni avec le client. Tous les efforts sont focalisés sur diminuer les dégâts en cas de compromissions de clés, pour ça TUF utilise une délégation de confiance avec des rôles précis, et des certificats de courtes durées.

TUF a beaucoup plus à l’industrie automobile qui l’utilise via le projet uptane.

Docker a implémenté TUF avec Notary, avant de le sortir de la marque Docker. Notary utilise une très classique PKI pour signer/vérifier, mais surtout lie aux images une police de confiance, un ensemble de règles disant qui peut signer où, avec quelle autorité de certification.

Python proscranise depuis 10 ans avec sa PEP-0480 pour savoir si ils vont faire du TUF. Pourtant, l’implémentation de référence est en Python.

Sigstore

En s’appuyant sur les concepts de TUF, Sigstore propose un système de signature sans clé (keyless signing, mais le terme enthousiaste cache une clé à courte vie), pour tout l’écosystème open source, en espérant une adoption massive et une sécurité accrue, comme l’a fait Let’s Encrypt pour le TLS.

Sigstore est directement sous l’égide la Linux Foundation, sans passer par le CNCF (qui dépend de la Linux Foundation aussi).

Pour afficher son côté neutre, les clés d’autorités sont des clés matérielles, détenues par 5 experts, venus de l’industrie et de l’université, pour une durée d’à peu près 18 mois, avec renouvèlement des signatures tous les 4 mois.

Le principe de fonctionnement de Sigstore est décrit dans une publication scientifique Sigstore: Logiciel signé pour tout le monde, signé par deux devs de chez Chainguard et un chercheur de l’université de Purdue. L’un des développeurs publie des trucs sur TOR, assez à cheval sur la sécurité, les chaines de confiance et les mises à jours nickels.

Chainguard, startup de la supply chain, a été fondé par des gens qui ont bossé chez Microsoft, Google, dans l’écosystème Kubernetes, avec KNative par exemple. Il est donc logique que l’on retrouve du Github (qui appartient à Microsoft) et du Google à tous les étages de Sigstore.

Deux services isolés

Sigstore s’appuie sur deux services :

Fulcio, la PKI qui va signer la clé temporaire utilisée pour signer le paquet, après que l’utilisateur se soit authentifié avec OpenID Connect (chez Github ou Google par exemple), en promettant d’utiliser de l’authentification à deux facteurs (OIDC ne précise pas l’utilisation de 2FA dans son token).
Rekor, va enregistrer les étapes de la signature d’un paquet dans un journal public qui n’efface rien (reprenant la logique de publicité des autorités de certification de Certificate Transparency.

OIDC

sigstore.dev utilise Dex pour l’authentification OIDC, avec Github, Google et Azur comme cibles, ce qui permet de choisir depuis une page web sans avoir à préciser un OIDC tiers lors de la signature.

Clients

La discussion avec Sigstore se fait en REST, avec les outils de SSL. Vous pouvez reproduire la danse de Sigstore en bricolant sur un coin de table avec curl, openssl, jq et base64.

Sigstore fournit un client de référence, cosign écrit en go. Sa bibliothèque Python, sigstore-python, propose aussi un cli (capable de deviner le token OIDC dans une CI).

Github (même s’il ne fait que de l’Oauth2 et pas de l’OIDC) et Gitlab fournissent les outils pour utiliser Sigstore (vérification et signature) dans l’intégration continue, dans le but d’atteindre le niveau 3 de la certification SLSA.

La doc de Sigstore évoque même Jenkins, il n’y a donc pas d’inquiétudes sur la possibilité d’intégrer Sigstore à n’importe quelle CI.

Validation

La procédure de validation d’un paquet est tout à fait classique, avec du json, du base64 et des certificats x509.

Validation de la clé publique :
signature par l’autorité de certification
émetteur crédible
source OIDC crédible
auteur crédible (un mail ou un build depuis une CI)
l’horodatage signé est dans la période de validité du certificat
Vérification que la création de la clé apparait comme il faut dans le journal Rekor
Calcul du hash de l’artéfact et validation de sa signature avec cette clé publique éphémère

Signature

Création d’une paire de clé publique/privée
Création d’un certificat X509 avec des attributs confirmables par le token OIDC
Le certificat contient un challenge (aléatoire) et la signature effectuée avec la clé privée.
Récupération d’un token OIDC, via sa CI, ou via Fulcio qui est une application OAuth2
Envoie du certificat éphémère public et du token OIDC à Fulsio, qui vérifie la signature du token, puis la cohérence des champs entre le certificat et le token. Fulcio raconte tout ça à Rekor, renvoie le certificat signé pour 10 minutes
Calcul du hash de l’artéfact et signature avec la clé privée
Création d’un horodatage signée selon le RFC3161 avec un service tiers comme freeTSA ou Sigstore Timestamp Authority
Envoi de la signature, du hash et du certificat sur Rekor
Envoi de l’horodatage signé sur Rekor
Création d’un bundle, un json avec des blobs en base64 à fournir avec l’artéfact

Le certificat pourra être utilisé plusieurs fois pendant sa durée de vie. La clé privée sera détruite, sans jamais avoir touché le disque dur.

Fulcio préconise l’utilisation de gestionnaire de clés (matériel, services KMS des clouds, Vault d’Hashicorp) et en dernier recours, d’une clé privée sur un fichier.

Pour héberger un service TSA, il faut prévoir du hardware pour avoir une horloge rigoureuse, comme un GPS.

Paquets

Sigstore fournit des outils spécifiques aux gestionnaires de paquets suivant :

cosign sait publier la signature d’une image de conteneur sur un dépôt OCI (comme Docker)
Golang
Python
Rust (instable, en version 0.8 pour l’instant)
Java
Javascript

Il est possible de signer un commit git via Sigstore, avec gitsign, qui utilise pour ça GPG avec des documents au format x509. Oui, git sait utiliser une PKI comme tout le monde.

Pour les paquets, plus que le nom de la personne qui a signé, ou le numéro de série du build, c’est la notion de provenance qui importe.

Dans ce fouillis de cascade de normes, il ne faut non plus oublier in-toto (sour l’égide de la Linux Foundation), pour spécifier les méta-datas d’un paquet.

OpenPubKey

Un autre consortium, composé de BastionZero et de Docker, propose leur propre norme pour signer des clés publiques après une authentification OIDC : OpenPubKey.

OpenPubKey est aussi un projet de la Linux Foundation, et il est utilisé par le registre public de Docker.

Ils ont publié leur white paper expliquant leur démarche.

L’idée d’OpenPubkey est de créer une paire de clés publique/privée et un défi (un nombre aléatoire), de le signer avec la clé privé. La clé publique, le défi, la signature soit utilisé comme nonce pour demander un jeton OIDC. Normalement, un nonce est un nombre aléatoire utilisé lors de l’échange OAuth2, en utilisant le triplet défi-clé-signature, avec un défi de taille suffisante, ça ne remettra pas en cause l’entropie lors de l’échange.

Pour un jeton OIDC émis lors d’une CI, il n’y a pas de nonce, et ce sera donc aud qui sera détourné pour faire signer sa clé par OIDC.

Le jeton ne permettra pas de faire grand chose (son scope est “openid profile email”) et sera rapidement périmé. Lors de la vérification de la clé publique, le champs exp du token ne sera pas pris en compte (il est périmé comme jeton OIDC, mais pas comme preuve), et il sera possible d’utiliser la date d’émission (iat) comme date fiable d’émission de la preuve.

Le jeton peut être vérifié à partir de la clé publique du service OIDC, mais il y aura une rotation (entre 15 jours et 3 mois pour les gros services OIDC), et le papier évoque l’utilisation d’un journal de signature, pour avoir une conservation sur un temps long.

Sigstore cause de OpenPubKey dans son blog, reconnait la simplicité de leur approche, mais doute fort de la possibilité de vérifier une clé sur un temps long, et hurle sur l’idée de laisser trainer un token JWT n’importe où (oui, ce n’est clairement pas orthodoxe).

Mises à jour des dépendances

Il est important d’avoir une politique fluide de mises à jour de paquets, et de faire des déploiements d’un service sans nouvelles fonctionnalités/corrections, juste pour des mises à jour.

Pour la chasse aux paquets troués, tâche ô combien rébarbatives, il faut un robot et une bonne couverture de tests. Tous les gestionnaires de paquets ont une API distante et un cli pour faire ça, mais des outils comme le dependabot de Github, bien que non libre, a le bon gout de fluidifier les mises à jour, en créant une demande de fusion (pull request), qui va déclencher l’intégration continue, et donc les tests.

Il ne faut pas que cette tâche dépende de la disponibilité ou de l’humeur d’un développeur, c’est un travail de robot.

Sécuriser la chaine d’approvisionnement

Pour ce point, il faut des gestionnaires de paquets en bon état, de l’authentification forte pour les contributeurs, une PKI pour signer un peu partout, la possibilité d’auditer les signatures et de l’automatisation pour les montées en version.

Tout ça existe.

Comment vendre une base de données open source

2023-10-02T09:20:00+02:00

Comment vendre une base de données open source

Influxdata vient de sortir la version 3 d’Influxdb sa base de données “temporelles”, avec une petite astuce sur le modèle de licence, pour continuer à faire de l’open-source sans se faire piller, comme certain de ses prédécesseurs.

Mais commençons par le commencement.

L’histoire ancienne

Postgresql

1996 MIT

Ingres, est né en 1982 comme projet universitaire à Berkley, pour travailler sur la notion de base de données relationnelle. Le leader de l’équipe Ingres va créer une entreprise, Ingres, puis finalement revenir à la fac et créer un deuxième produit, Post-Ingres, aka Postgres. Bascule vers le SQL en 1994, changement de noms en PostgreSQL en 96, début de la présence sur Internet avec la version 6, peu de temps après Mysql finalement. A part le faux départ Ingres, Postgresql a toujours été open source (MIT, donc team BSD) et maintenu par sa communauté.

Postgres a un écosystème complet, awesome comme on dit, qui va de la haute disponibilité avec Patroni de Zalando (en MIT), à de la sauvegarde continue avec Barman de 2ndquadrant (en GPL-3).

Personne n’est arrivé à accaparer Postgresql, fidèle à sa licence MIT, il permet l’apparition d’entreprise proposant des services complexes (et open source), en parallèle avec des outils communautaires.

Mysql

1995 GPL

Mysql a été crée comme un clone libre du maintenant oublié msql, par Mysql AB, comme le récite Wikipedia et toutes les pages qui le cite. Pas de trace d’une version antérieur à la version 3, il est donc facile d’imaginer qu’il y a eut deux versions privées, avant de créer l’entreprise éponyme, puis de commencer la conquête d’Internet en 1995, qui est une bonne date pour commencer un truc sur Internet : c’est l’arrivée du grand public sur le grand réseau mondial.

Mysql, est suffisamment souple pour propulser tout le web, du simple LAMP (Linux/Apache/Mysql/PHP) aux premiers GAFAs (Facebook, Flickr, Twitter, Wikipedia, Youtube, plus tard Github …).

Le bizness model ne suit pas, rachat par Sun, qui frustre le vendeur qui fork en MariaDB, et patatra, Oracle rachète un Sun moribond, et met la main sur ce qui reste moralement son concurrent.

Les gros utilisateurs bricolent de la réplication à échelle titanesque :

Github parle de son gh-ost qui deviendra un produit (très confidentiel) sous le nom d’openark
Twitter parle de son Gizzard qui a commencé par répliqué du Mysql avant de passer à autre chose. Mysql qui est toujours utilisé d’après leur billet récapitulatif de 2017 Scale
Facebook parle régulièrement de Mysql et fournit myrocks, un fork de Mysql 5.6, sous licence GPL-2, qui utilise son moteur de stockage, rocksdb (successeur du leveldb de Google). Percona propose une version qui tourne comme module pour Mysql 8.0
Vitess est le proxy utilisé par Youtube pour scaler du Mysql. Ce proxy a mis beaucoup de temps pour causer mysql avec les clients (et enfin devenir un vrai proxy).

L’entreprise Percona est la référence de fait pour Mysql, hors Oracle, et proposent des outils, de l’infogérence et surtout du consulting.

Il ne faut pas se mentir, le rachat de Mysql par Oracle en 2010 (via Sun en 2008), a cassé l’ambiance. Mariadb permet de rester droit dans ses bottes face au grand méchant Oracle, mais c’est tout, le fork d’arrière garde n’a pas les épaules pour proposer des innovations, ou même toucher quoi que ce soit.

Mysql a une chouette histoire, mais cette histoire est figé dans le marbre, et cette stabilité depuis toujours, pour toujours est ce que recherche ses utilisateurs. À part pour créer un Wordpress de plus, qui donc choisi Mysql pour un nouveau projet après 2020?

Sqlite

2000 Public Domain

Sqlite est une base de données relationnelles, avec tout ce qu’il faut de SQL, mais sans réseau, sans accès concurrents. Longtemps cantonné au rôle de base de données pour crétin qui ne savent pas installer une vraie base de données, Sqlite est maintenant la référence pour stocker des données complexes de manière pérenne, largement utilisé dans les téléphones portables.

L’ère du 2.0

Le Web a démarré en s’appuyant sur des outils existants, avant de commencer à créer des choses originales. Github devient rapidement incontournable et les utilisateurs distribuent des ⭐️ comme un gastronome de chez Michelin.

Mongodb

2007 24k⭐️ SSPL

Mongodb arrive en fanfare, pour sauver le web du méchant SQL et du modèle relationnel.

Bruyant et malhonnête (écriture sans sync pour aller plus vite, surconsommation de disques durs avant l’arrivé de Tiger…), il s’est ensuite calmé, et à forcé les autres bases de données à évoluer pour avoir du typage plus complexe (listes, tableaux…) ou plus simple (hstore, json…), plus proche des ORMs, par ce que ne nous mentons pas, de la base de données sans modèle, ça n’existe pas, le modèle est soit explicite, soit tacites. Mongo

Mongodb sera la première victime de la cloudification, et de manière prévisible, ça fera beaucoup de bruits.

Rethinkdb

2009 26k⭐️ Apache 2

En 2009, Rethinkdb trouve que Mongodb est un petit bras, et qu’il est possible d’exposer un AST dans le client pour devenir une requête dans la db. Création d’une boite avec le core dev, licence Apache 2.

Ça ne prends pas, mais 26k étoiles sur Github.

Pivot sur l’aspect temps réel (des événements pour les clients restent synchronisés), ça ne prends pas non plus.

Gros coup de frein en 2015.

Le core-dev tente un reboot base sur FondationDB, Refound, qui cartonne avec 11 étoiles sur Github.

Arangodb, ex Advocadodb

2012 13k⭐️ Apache 2

En 2012, encore dans la hype de Mongodb qui est un petit bras, Arangodb propose en plus du modèle orienté document, un modèle orienté graphe, et même du clef/valeur. En plus des requêtes en javascript comme Mongo, il y a un Query Language.

Gros coup de frein en 2017, mais un score honorable avec 13 milles étoiles Github.

Redis

2009 62k⭐️

Redis débute sa vie comme moteur de cache, du clef/valeur non relationnel avec des types complexes et les opérations adéquates pour les manipuler. Redis méprise les disques durs, tout doit tenir en RAM, mais bon, les tailles des barrettes ont grandis avec lui, et il y a quand même de la persistance (instantanés et journalisation) pour repartir directement cas de reboot. Il gère la réplication et la haute dispo.

Il n’échappera pas à la cloudification.

Elasticsearch

2010 65k⭐️

Elasticsearch commence par rendre accessible le trop théorique Lucene, outil de recherche full text, pour finalement devenir une base de données orientées colonnes, agréable à utiliser en cluster.

Elasticsearch a ensuite su pivoter, pour devenir un stockeur de logs, puis de time series, et de se diversifier avec tout un écosystème un peu confus avec des morceaux de libre mélangé avec des morceaux propriétaires, mais open-source.

Ça ne l’empêchera pas de se faire cloudifier aussi.

Clickhouse

2009 31k⭐️ Apache

Profitant de la hype des bases orientés colonnes, fort pratique pour analyser le comportement de ses clients, Yandex, le Yahoo des russes, libère son Clickhouse sous licence Apache. Yandex permet d’entasser trop de données, de jeter du SQL dessus, et d’obtenir des résultats rapidement sans passer par la case map-reduce du monde Hadoop.

ClickHouse est maintenant une boîte à San Francisco et Amsterdam, lève des fonds, et de chouettes projets commencent à l’utiliser (comme PostHog). C’est la phase “lune de miel”, tout est merveilleux, il faut devenir un standard de fait, puis on parlera bizness à ce moment là.

De manière très classique, Clickhouse se gère facilement sur une seul instance, bare metal ou conteneur, par contre, pour le cluster, il y a LE chois technique de l’équipe, avec un gros zookeeper, et comme ça piaille, ils ont fourni une API pour utiliser autre chose, mais comme ils n’utiliseront pas les alternatives en prod, bah, ce sera en l’état, à la communauté de bosser. Des outils tiers commencent à apparaitre, comme HouseWatch

Leveldb

2011 34k⭐️ New BSD

Google explique sa stratégie d’écriture sans modification (mais en consolidant périodiquement), et l’importance d’avoir des clefs ordonnées dans une base clef/valeur. Héritière de BigTable, leveldb est une réécriture complète, par ce que BigTable s’appuie sur des bibliothèques qui n’ont pas vocation à être libérées.

C’est du simple clef/valeur ordonnées, avec des itérations efficaces sur les clefs (d’où l’intérêt de les garder ordonnées), et des écritures par lot.

Pas de produit, pas de service.

Rocksdb

2012 26k⭐️ Apache 2

Facebook aime bien le concept de Leveldb et fork en Rocksdb pour d’aller plus loin sur le tuning spécifique au SSD (qui était nouveau à cette époque), d’exposer les journaux d’écritures pour avoir de la réplication, et de l’utiliser comme couche basse de persistance, un peu partout, comme Mysql par exemple avec Myrocks, ou simplement du cache.

Foundationdb

2017 13k⭐️ Apache 2

Apple reprend le concept d’une base clefs/valeurs ordonnées avec des écritures par lots, mais se focalise sur la notion de réplication cohérente au sein d’un cluster et sort discrètement Foundationdb. Comme “fondation”, elle se positionne comme outil de base niveau, sans protocole réseau spécifié, mais en fournissant le client adéquat dans différents langages (C, Ruby, Python, Java, Golang). Orienté performance, gros volume et fiabilité, Foundationdb demande à l’utilisateur de faire des efforts, en dénormalisant son modèle, en utilisant une serialisation qui ne casse pas l’ordre des clefs, et en recommandant de ne pas dépasser le ko pour les données, au pire 10k si on sait que l’on ne pas écrire/itérer trop souvent dans cette table, et la limite dure est 100ko.

Foundationdb se positionne clairement comme outil sur lequel construire des services (et potentiellement facturer), ce qu’Apple fait en interne.

Deno KV utilise Fundationdb, mais reste une arme secrète pour l’offre d’hébergement de Deno, les offres plus ou moins serverless basées sur javascript sont en pleine ébullition.

Les héritiers de Postgresql

Postgresql avec sa communauté maintient un logiciel vivant, et sa licence incite la création d’entreprise, qui en retour financeront (ou dédieront des développeurs) le projet.

Citusdb

2016 9k⭐️ AGPL

Citusdb fournit une extension, pour distribuer les données et les calculs dans un cluster, du stockage orienté colonnes (compressé).

La licence Affero brime les offres d’hébergement, et Citus réserve l’offre en Cloud à Azure dans son offre Cosmos-db

Timescaledb

2018 16k⭐️ Apache 2

TimescaleDB propose une extension, pour gérer les timeseries, avec du sharding basé sur la date de l’événement, du stockage orienté colonne (compressé). La version autohébergement est sous licence Apache, et ils gardent pour eux la version Cloud.

Neon

2021 10k⭐️ Apache 2

Neon se positionne comme un Aurora open source, en séparant le calcul du stockage. Le stockage s’appuie sur le WAL (Write Ahead Log) répliqué, pour créer des blocs immuables régulièrement consolidé (du LSM), qui seront à chaud sur un SSD, à froid sur un S3. Le sharding est une possibilité, mais pas la priorité immédiate.

L’idée étant d’avoir du serverless (du SQL over HTTP/Websocket), avec la possibilité d’éteindre les noeuds de calcul, sans remettre en cause la persistance, et de pouvoir dimensionner le calcul et le stockage indépendement. le site envoie du rêve en parlant de stockage sans fond, mais aussi de cold start qui se chronomètre en seconde, ce service n’est pas universel, ni magique.

Pour l’instant, il faut patcher les sources de Postgres (les modifications ont vocations à remonter) compiler et déployer. Neon n’a pas trop à craindre de la concurrence de son offre SAAS.

Alloydb

2022 propriétaire

Google fork Postgresql pour créer Alloydb, avec une architecture avec des nodes calcul/stockage, ressemblant à Neon, mais avec plus de violence : le stockage est orienté colonnes, la cible est donc de gros volumes de données sans modification, avec des reqêtes complexes.

Hors documentation utilisateur, Google communique peu sur les rouages de ce produit, qui doit recycler des outils existants, des éléments de Spanner, crée en 2012, avec un moteur SQL en 2017, l’année de l’offre SAAS public.

Alloydb semble être la réponse définitive à tous les utilisateurs de Spanner qui ralent sur la compatibilité Postgresql, Spanner ne gérant que le protocole.

Les héritiers de Sqlite

Rqlite

2014 14k⭐️ MIT

[Rqlite] se présente comme une base de donnée relationnelle distribuée, utilisant sqlite comme moteur de stockage. Il permet d’avoir des transactions, de la cohérence écriture puis lecture (la bagarre avec la réplication asynchrone), tout en restant simple et léger.

Projet communautaire sans offre d’une entreprise.

Litestream

2020 9k⭐️ Apache 2

En 2020, Litestream prouve qu’il est efficace de répliquer les modifications d’un sqlite vers quelque chose de pérenne, comme un S3, et de proposer des services simples.

Pas d’entreprise ni d’hébergement, c’est un projet “because we can”.

Litefs

2022 3k⭐️ Apache 2

Superfly utilise LiteFS la même réplication des journaux que Litestream, pour répliquer massivement et de manière asynchrone les écritures, suivant un motif primaire/secondaire avec un consensus Raft (du Consul). LiteFS est une couche de persistance pour l’offre serverless de Superfly, adapté pour des cas avec peu d’écriture concurrentes, et beaucoup de lecture qui bénéficieront de faible latence. Il se positionne comme plus performant que Rqlite, et plus qu’un simple backup comme Litestream.

Litefs est la vitrine technologique (en bêta) d’une offre Cloud volontairement sobre, pour se différencier des gros du Cloud.

Parquet

2012 2k⭐️ Apache 2

La fondation Apache adore rationaliser les écosystèmes éparpillés, et fournir des fondations saines sur lesquelles construire de s choses plus grande.

Inspiré par le Dremel white paper de Google, conçu pour Hadoop (et HDFS), Parquet est un format de stockage orienté colonne : les écritures se font par lot, on réécrit pour modifier, on peut lire que les colonnes de son choix. Le format est compact, compressé, optimisé pour la lecture et les performances. Imaginé pour remplir du HDFS et être lu par du java, il s’avère tout à fait apte à remplir du S3 et à être écrit/lu par tout les langages gérés par Arrow. Toutes les audaces sont permises, on peut écrire avec un logiciel, et lire avec un autre, utilisant une technologie différente, comme vous le faisiez avec du CSV ou du JSON.

Arrow

2016 12k⭐️ Apache 2 Arrow est la bibliothèque officielle pour lire et écrire du parquet, pour exposer des colonnes en RAM avec les primitives pour faire de l’IPC (discussion entre process) et du RPC (pareil, entre deux machines), avec tout ce qu’il faut de zéro copie et de binding dans moult langages (dont Numpy).

Datafusion

2016 4k⭐️ Apache 2 Datafusion est un moteur SQL utilisant Arrow, qui peut utiliser du Parquet, mais aussi du JSON, du CSV et d’autres formats. Les réponses sont du Arrow, et donc lisible en natif dans de multiples langages.

Ballista

2016 1k⭐️ Apache 2 Ballista permet de faire des requêtes avec Datafusion, mais en distribué.

Flight

2019 Apache2

Flight, basé sur grpc, implémente le début d’un protocole réseau :

poignées de mains (handshake en VO)
discussion direct entre noeuds avec un ticket pour amorcer une discussion authentifiée
découverte de méta data
authentification
chiffrage
middleware
tracing (avec OpenTracing)
du RDMA est prévu pour plus tard (les machines discutent de RAM à RAM, sans passer par le CPU)

FlightSQL

FlightSQL normalise le protocole réseau comme le faisait ODBC et JDBC, en s’appuyant sur Flight.

Il existe une extension pour causer à Postgresql en FlightSQL

Les autres bases de données

J’oublie volontairement les bases de données dédiées au big data (coucou Scylladb ou Cockroachdb), tout ce qui est orienté graphe, et les bases trop exotiques (ou qui sont passé sous mon radar).

Le projet database of databases tente l’exhaustivité, ce qui est assez fascinant.

La rationalisation par le nuage

L’innovation suit un chemin très classique : un démarrage plein de créativité, une rationalisation, et finalement une banalisation.

Les hébergeurs ont commencé par proposer la triplette machine virtuelle/stockage/réseau.

En y collant une API, c’est devenu le Cloud.

En étant suffisamment gros, vous avez du stock de machines, et donc la promesse de pouvoir ajouter rapidement de la ressource pour suivre un pic d’usage.

Ensuite, sont arrivés les offres de services, parfois des services open source existant, comme Mysql ou Postgresql, parfois des services maisons que la concurrence n’a pas.

GNU sent l’embrouille et crée en 2007 l’AGPL, comme du GPL, mais avec l’obligation de fournir les sources (sous la même licence) des patchs utilisés par un hébergeur.

S3, services spécifiques à AWS est devenu un standard de fait, cloné par tous les autres clouds.

Héberger des services open-source reste fairplay, c’est même le but de la famille BSD. Il y a juste une distorsion de concurrence avec la force de frappe commercial, les économies d’échelles. On peut ajouter à ça l’effet winner take all, le premier rafle tout, et l’assurance vie que propose ces demi dieux de l’informatique : ok, le projet n’a pas tenu la charge, mais qui aurait pu faire mieux que le glorieux Amazon/Google/Microsoft?! Fatalitas!! Ce n’est pas de ma faute.

Deuxième étape, une fois l’entreprise construite à partir de briques open-source (qui est aussi fait pour ça, pas de soucis), on peut passer à l’étape “moissonner le blé de l’open-source” : on prends un produit open-source, avec sa base utilisateur, sa réputation, ses threads de questions/réponses sur StackOverflow, et on l’intègre proprement à son offre Cloud : on peut commencer à vidanger l’offre “as a service” de l’éditeur, vers son offre Cloud.

Si on a un peu de temps, on peut créer un élément spécifique à un logiciel open-source, un élément taillé sur mesure pour son architecture logiciel, sur un thème un peu casse-gueule, comme la persistance, redondance ou performance.

Le plus connu est Aurora, un moteur de stockage distribué, sur lequel on peut poser un tout à fait classique Mysql ou un Postgresql.

Là, la cible est facile, il n’y a pas d’entreprises à piller (Oracle ne compte pas trop sur la vente de licence Mysql).

Quand AWS a proposé une offre intégré avec Mongodb, ça a un peu plus dérangé l’éditeur qui a riposté en changeant de licence pour SSPL, propriétaire. AWS a simplement crée un clone de Mongodb, Documentdb, propriétaire, avec une compatibilité sur le protocole.

AWS lance une offre intégré pour Elasticsearch, qui bascule en SSPL et une partie de son code passe en “open source lecture seule”. AWS fork pour créer OpenSearch qui reste sous Licence Apache 2.

Redis anticipe et bascule en free-core, le Redis “comme d’habitude” garde sa licence permissive, mais toutes les nouveautés, sous forme de modules, n’ont pas le droit d’être vendu par un hébergeur.

Le cas Influxdb

En 2013 le monde est prêt pour avoir une base de données temporelles open source : le Cloud permet d’avoir des services distribués, d’adapter les ressources à la charge, bref, on passe de la question binaire “le site est il disponible?” à la finesse de “quelles sont les performances pour quelle consommation”.

Tellement prêt que Soundcloud crée en 2012, Prometheus basé sur le Borgmon de Google. Ciblant le cloud, Prometheus est découpé en plusieurs services et suit le choix de Google : c’est la base de données qui va chercher les valeurs sur les services (un préfixe en HTTP) en attendant que tout le monde cause le prom, il faut déployer des sidekicks, comme blackbox, qui font les entremetteurs pour aller chercher les métriques.

Influxdb 1

Financé par Y-Combinator, Influxdb apparait en 2013, avec une approche minimaliste : un seul binaire à déployer, des agents poussent des données, avec une large compatibilité avec les agents déjà déployés.

Un faux SQL permet de faire des requêtes et des agrégations. Premier péché : personne ne doit créer un presque SQL, c’est extrêmement frustrant, autant créer un vrai DSL sans comparaison possibles, ou avoir du vrai SQL.

2015, changement de nom pour pour Influxdata, et créer une suite logicielle, avec Telegraf, un agent permettant d’envoyer des données depuis de multiples sources.

Coté interface utilisateur, Kibana, apparu en 2012 et dédié à Elasticsearch, fork en Grafana pour devenir multi bases, en 2013.

La citation d’Influxdb apparait dans un commit pour la première fois en février 2014. Prometheus est cité dans un commit pour la première fois en septembre 2015

Influxdata a donc une stack complète pour lire et écrire des métriques.

Influxdata se concentre rapidement sur son bizness model, propose un relais permettant de faire la réplication master/master (avec des données horodatées, immuables, on doit être dans le cas de réplication le plus simple), puis oups, l’interromps, ça brime son offre as a service. Des forks seront maintenus un temps.

Influxdb utilise une astuce pour avoir une base de code unique qui permet de fournir un monolithe open source, et de générer une version en microservices, spécifiques à l’offre commerciale, avec du protobuf et du raft.

La foule a choisi Prometheus qui a une communauté (bientôt cannibalisé par Grafana). Influxdb se repositionne comme timeseries pour le Edge, avec une offre on premise (les données restent chez vous), en plus du cloud, qui supporte un accès intermittent à Internet.

Influxdb 2

Il faut un second souffle.

Personne n’utilise directement l’influxql, il est tellement plus simple de cliquer partout depuis l’UI de Grafana.

Pour sa version 2, Influxdb sort un vrai DSL : Flux, et tord le bras de utilisateur pour qu’ils lâchent influxql, qui n’est plus géré dans la version libre, il faut une licence pour ça. Flux a une syntaxe élégante, basé sur la notion de pipe, les |> que l’on voit apparaitre dans les langages récents pour chainer les fonctions, sans avoir des tempêtes de parenthèses.

Le machine learning, qui deviendra l’intelligence artificiel, commence à se généraliser, Numpy a envie de manger de la métrique, pour faire de la prévision, ou même la très casse gueule recherche d’incohérences.

Le protocole réseau des requêtes réponds en JSON, comme tout bon REST, mais c’est loin d’être optimal pour envoyer des myriades de float.

Flux ne remplacera jamais Numpy ou même R, faire des requêtes dans deux langages en même temps est une punition, avec le risque de filtrer les données coté client (et non du coté de la base de données, ajoutant la latence de la connexion) et d’autre sous optimisation.

Influxdb 3

Nouveau pivot, Influxdb conserve Golang pour les couches hautes, mais bascule sur Rust pour la couche de persistance/requêtes, et crée IOx, prononcez eye-ox, oeil de boeuf. IOx s’appuie sur Parquet, qui fait sauter les contraintes de cardinalité qui peuvent mordre très fort et Datafusion qui permet d’avoir du vrai SQL avec des possibilité de jointures sur des bases de données relationnel externes.

influxql et Flux sont dépréciés, on peut parler de faux départ pour cette technologie pourtant élégante.

Avec le stockage en Parquet, techniquement, si vous avez envie de lire les données avec Clickhouse ou n’importe quel OLAP sympathique qui cause le Parquet, faites vous plaisir.

IOx est déployé dans Influxdb 3.0 annoncé la semaine dernière.

En normalisant(sous traitant?) les couches basses, Influxdb supprime deux drames, et se concentre sur son coeur de métier.

Nouvelle version, nouvelles licences.

Edge, un Open-core, monolithique, libre, sans compactage.

Community, gratuit, comme Edge, mais permet des requêtes sur des temps long, et du compactage.

Influxdata se réserve la partie cluster :

Serverless, proche du mutualisé d’antan, où l’on paye à l’usage.
Dédié pour envoyer du gros débit de manière prévisible.

Si vous avez des besoins de edge, vous n’avez qu’à synchroniser vos fichiers Parquet sur un S3 (ou un de ses clones), qui assurera la redondance. Les fichiers sont horodaté, ce sera facile d’effacer les vieilles données, ou de faire de la consolidation, pour perdre en granularité en échange de place.

Conclusion

Construire une base de données à partir de rien, tout seul est utopiste. Il faut mutualiser l’effort de développement et la construction de la base utilisateur, et sans se faire piller tout de suite. La couche de persistance, et donc le risque de perdre des données, est terrifiante. Pas mal de base de données innovantes (Mongodb, Influxdb, Prometheus…) ont débuté sur un moteur de stockage bricolé sur un coin de table avant de pivoter (ou racheter) sur quelques choses de plus crédibles.

Les efforts pour mutualiser les couches basses (stockage, requête, réplication…) du Big Data sont resté dans l’écosystème Java, avec un ticket d’entrée trop haut, golang s’est coincé tout seul avec un cout trop élevé pour faire des aller-retours avec du C qui le force à paraphraser en pure Go. Cockroach l’explique dans son billet expliquant la bascule de Rocksb vers Pebble.

Les tentatives de recycler le Innodb de Mysql n’ont pas abouti, mais on a vu apparaître des simples base de données clef/valeur (local comme Rocksdb, distribué comme Fundationdb) qui sont des bases saines pour construire une application.

Rust est la bonne réponse à Java pour fournir des outils juste au dessus de la couche de persistance, sans tirer tout un écosystème (et ses guerres de communauté).

Postgres, avec sa licence permissive et sa modularité reste incontournable pour ajouter des approches différentes (colonnes, géographie, graphes, vecteurs…) mais en gardant tout le reste (SQL, protocole réseau, client, réplication…). Pas mal de base de données récentes causent le dialecte Postgres pour profiter des clients (et UI) existants.

Distribuer une base de données sur plusieurs machines est compliqué, mais profiter d’une reprise sur l’incident qui arrive au milieu de la nuit est quand même chouette.

Les white papers sont disponibles, les briques logicielles libres existent, mais le travail pour fournir un service distribué est difficilement mutualisable et monétisable, surtout quand on se fait piller.

Utiliser des chouettes jouets sans pouvoir ouvrir le capot est frustrant, en plus d’être moins efficace et moins pérenne. Les gros du Cloud, comme tout le monde, ont besoin d’utiliser et produire de l’open source : Nanos gigantum umeris insidentes

Ubus roi

2023-08-31T16:23:00+02:00

ubus est le microbus système développé par OpenWRT. u étant la version ASCII de µ.

Pourquoi yet another bus?

OpenWRT

OpenWRT est une distribution Linux ciblant l’embarqué : des appareils avec peu de mémoire, un stockage lent et maigrichon, et un processeur minimaliste. L’appareil fera peu de chose, mais bien, sans bouffer des gigawatts.

OpenWRT est conçu sur la notion de contrainte, faisant passer Alpine pour une distrib de débauché.

OpenWRT est surtout connu pour son utilisation dans les routeurs wifi, il est même possible d’en acheter avec directement un openWRT dessus, sans avoir besoin de le flasher.

Composabilité

OpenWRT s’appuie sur la philosophie UNIX : un ensemble de services qui ne font qu’une seul chose, mais correctement. Cette approche théorique est élégante dans un shell, où, avec quelques commandes et autant de pipes, on obtient à peu prés ce que l’on veut. Cette composabilité favorise l’émergence de logiciels largement utilisé pour mériter des audits et des CVEs, et suffisamment de contributions pour avoir des corrections et des évolutions (en théorie).

Les services en ligne perdent les atouts du shell et de sa composabilité. Le shell ne prévoit rien pour la notion d’événement de plus, dans ce glorieux passé, à part des cliques sur un clavier, un reboot de la machine, il ne se passait pas grand chose. Non, le cron n’est pas une réponse acceptable, et encore moins l’immonde polling.

Pour que des services puissent discuter entre eux, il faut passer par un bus. UNIX fournit gentiment des sockets UNIX et même des files d’attentes (le très peu connu /dev/mqueue), mais ces outils ont été conçu à l’ère des processeurs mono-coeurs, et fournissent que des IPC (communications inter processus) pas de la gestion d’événements.

UI centralisé

OpenWRT est entièrement configurable en ligne de commande via un accés SSH, mais sa vraie force est de proposer une interface web, maintenant écrite en lua : LuCI. LuCI a permis de tirer une (petite) dépendance dans cet univers de minimalisme : Lua, la pépite du “code as config”.

D-bus

Le besoin de coordination et d’évenement a très vite était ressenti pour les desktops (le fameux “est-ce que Linux est raidi pour le dekstop?”). Mais KDE, le premier bureau pas tout moche, avait un soucis de licence (avec la licence de Qt, soyons précis), ce qui a conduit l’apparition de Gnome (basé sur gtk, concurrent de Qt, crée pour Gimp), les deux se sont tirés la bourre, et ont fait le maximum de choix différents, pour, euh pourquoi? pour se différencier. Chacun a bien sur choisi un bus différent.

Freedesktop a été crée pour arrêter le massacre, et établir consensus puis des normes. Freedesktop a fournit D-bus, débuté en 2002, avec une API stable en 2006. Fortement inspiré de DCOP, d-bus a rapidement été intégré dans KDE, Gnome a un peu plus trainé la patte. Mais c’esst de l’histoire ancienne, d-bus va maintenant au delà du desktop et gère maintenant le réseau avec NetworkManager le bluetooth avec bluez, mais surtout le boot avec systemd.

Systemd qui tire d-bus a fait hurler sur le coup, mais la concurrence était tellement inférieur et une norme contestable (mais utilisé) pour une couche basse a tellement plus de valeur que de vaines divergences.

D-bus a gagné la guerre du bus desktop, mais n’a jamais trop pris sur les serveurs, même si il reste un prérequis système.

Les applications métiers se concentrent sur les couches au dessus, avec des services maintenant distribués, utilisant soit de la découverte/configuration (zookeeper, etcd, consul) soit du gros bus avec maintenant de la persistance/reprises d’événement (Kafka, nats, Redis STREAM…).

Trop gros, trop complexe, D-bus n’a aucun intérêt pour des applications cotés serveurs.

Les bus prévus pour les applications distribués sont tout aussi sur-dimensionnés pour de l’embarqué.

Ubus

OpenWRT fonctionne sur des petits Linux, bien incapable de gérer D-bus.

Ubus (µbus ?) est un logiciel embarqué, cousu main en C, premier commit en 2010, avec une chaine de dépendance minimaliste, utilisant les libs maison pour mutualiser des fonctions pour grapiller de la place. On parle de libs qui se pèsent en kilo.

Pas de README (la doc, c’est pour les faibles), une arborescence plate, cmake et un compilateur C sont les seul prérequis pour compiler.

Ubus s’appuie sur ubox, la bibliothèque fourre-tout de openwrt, et json-c via un wrapper maison.

Pour ne pas se laisser distraire par des fonctionnalités exotiques, qui mettrait en péril le minimalisme du projet, mais sans pour autant bloquer les évolutions, lua est bindé à l’application.

Une architecture classique et de bon gout : core en C minimaliste, modules en lua.

Le principal usage de lua est un module http, qui expose ubus en REST avec l’incontournable JSON, qui permet de lui causer avec curl et même d’exposer ubus au reste du monde (dans le LAN, hein, foufou, mais pas trop), avec de l’authentification et des ACLs.

Le module http pour ubus est bien sur prévu pour s’intégrer à LuCI, l’UI web d’OpenWRT.

Pour parler le ubus (à ubusd, donc), il n’y a que 3 possibilités :

l’outil en ligne de commande : ubus
la lib officielle, le protocole n’est pas spécifié, il existe juste une implémentation
l’API REST, avec le classique curl ou whatever qui cause HTTP/1.1 et JSON

Ubus est très lié à l’écosystème d’OpenWRT, les sources ne compilent pas sur une simple Debian (et encore moins sur un Mac). OpenWRT cible une multitude d’architectures exotiques, et pour ça utilise une chaine de compilation (cross compilation, en l’occurence), disponible via Docker, par ce qu’on est quand même en 2023 : openwrt/docker.

Une image “bac à sable” est fourni, pour avoir un shell dans un environnement OpenWRT, mais sans les services lancés (pas de ubusd, donc), l’idée est de pouvoir simplement tester un paquet.

Le plus simple pour jeter un oeil reste de passer par un Vagrant avec vagran-openwrt-box.

Le bus roi

Pour pouvoir composer une application à base de services, le plus simple est de passer par un bus métier.

Un peu fatigué par les zélotes de Kafka (ou pire, des services spécifiques des gros du Cloud), ubus apporte une touche de fraicheur, avec une approche petit boutiste, bien loin des orgies grand boutiennes.

OpenWRT, Linux comme avant

Utiliser OpenWRT donne l’impression de voyager dans le passé, d’effleurer l’age d’or d’UNIX, avec son C omniprésent et des contraintes matériels énormes.

OpenWRT est minimaliste et traditionaliste, sans pour autant être complaisant et réactionnaire (chose assez facile à trouver dans le monde des firewalls) : il utilise un kernel récent (un 5.10), ne démarre pas les services depuis un dossier rempli de shell (il utilise son procd), utilise les possibilités d’isolations qui font la joie de Docker (namespace, capabilities, cgroup2, seccomp, bpf…).

Minimaliste, mais contemporain.

Aller plus loin

Il existe des boitiers avec OpenWRT installé dessus, coutant quelques dizaines d’euros, pour pouvoir jouer et profiter tout de suite de l’écosystème d’OpenWRT.

Si vous aimez l’absurde et les jeux de mots bancals sur père Ubu allez jeter un oeil l’étonnante adaptation filmé par Jean Christophe Averty.

Libre, as a service

2020-04-05T15:20:00+02:00

Il faut degoogliser Internet, ok. Avec du logiciel libre, ok. Libre comme le discours, pas la bière, ok.

Brassage domestique

Je dois pouvoir micro héberger, sur un gros mutu PHP, sans compétences particulières, euh non, en fait.

Il est indispensable de garder le contrôle de ses données, et de décentraliser Internet. C’est une démarche politique et technique. Les deux ensembles. Une bouse technique, mais correcte politiquement, c’est un échec.

Parlons pognon

Vous voulez déposer une application sur Internet, et que des gens puissent l’utiliser. Ça va avoir un cout : en temps, en matos, en sous.

Le cout du développement, si c’est un logiciel libre, installé tel quel, sans modification, bah il est gratos, comme dans bière gratos.

Ensuite, il faut un serveur, et un branchement vers Internet. Avec les ordis de la taille d’une paume, et une ADSL à prix agressif, le cout d’un hébergement à la maison va être faible. Les offres entrées de gammes de nos hébergeurs nationaux (ou plus loin) sont elles aussi accessibles.

Concrètement, pour un service simple et peu sollicité, un hébergement peu cher aura des performances correctes.

Jusqu’ici tout va bien, le cout du développement et de l’hébergement matériel sont raisonnables.

Mais c’est que maintenant que l’histoire commence.

Notre temps

Vient maintenant la notion de maintenance.

Le développement, c’est ton temps, l’hébergement, c’est le temps des autres.

Le service va avoir des incidents, qu’ils soient matériels ou logiciels. De simples bugs, sur lesquels on peut s’assoir, ou des failles de sécurité, qu’il faut patcher rapidement avant que ça dégénère. Pour certains services, comme du SMTP, un incident, ça veut dire un bannissement, et donc un arrêt partiel du service. Un service compromis qui va miner du bitcoin en mettant à genoux le serveur, ça veut dire aussi un arrêt du service.

Un disque dur qui boude, un serveur qui se coince, ça veut dire restaurer un backup, et donc avoir fait un backup.

À un moment, vos utilisateurs vont utiliser votre service, sinon, il ne sert pas à grand-chose, et donc le secouer un peu, puis beaucoup. Ce n’est pas grave, vous centralisez les erreurs, enregistrez les métriques et faites un joli tableau de bord. Une première passe pour trouver des usages abusifs, puis finalement, ils vont atteindre de vraies limites, et ça va ramer sévère.

Là, l’hébergement de ce service va commencer à être pénible. Le cout du dev est gratos, le cout du matériel est symbolique, le cout de la maintenance explose. Que faire? Passer en force et surdimensionner les serveurs, mais ça veut dire tout réinstaller (bah oui, sans provisionning, sans conteneur, ça a un cout sympathique), et ça transfert un cout en temps vers un cout en sous. Avec plus de matos, ou du matos plus gros, ça va pouvoir secouer plus fort, avec plus d’utilisateurs à mécontenter, et de nouveaux drames rendus possibles par le franchissement de la première vague de drames.

Cramage

À cette étape, il est possible de cramer l’admin, qui va se trouver bien seul, avec plein de gens pour râler. Si c’est pour du support utilisateur, un forum et des grunts peuvent décharger une partie de la charge. Pour les serveurs qui pètent, bah, c’est compliqué.

Pour ne pas cramer un humain, une seule solution en avoir plusieurs, une équipe en fait. Pour rentabiliser, il leur faut donc plus d’utilisateurs et donc une instance plus grosse. Il sera humainement possible de gérer plus de matos et donc céder à la facilité de continuer de passer en force

Ce n’est pas sale de payer des gens. Que ce soit en micropaiement ou salarié par une structure associative. Ils mangent, payent un loyer et s’habillent de teeshirt trop cher à cause des dessins qu’il ya dessus.

Automatisation ou l’anti-luddisme

À cette étape-là, infra as code n’est plus une option.

Par contre, empiler du matos, juste pour gérer des pics d’utilisation, ça va devenir hors de prix, et c’est même probable que le code ne va pas gérer la répartition sur plusieurs machines. L’impasse va vite arriver.

En parallèle, un autre problème va arriver : la complexité des services. On est passé de l’ère des sites webs à celui des applications, et tout ne rentre pas dans l’http de l’an 2000, pour avoir du tchat, de la visioconférence, oui, ça va passer par les navigateurs webs, mais via websocket, webrtc et autres streamings. Cette complexité va faire exploser les couts de développement, et la complexité côté serveur. Cette fois-ci, Varnish ne pourra plus sauver votre développement de bourrin.

Les utilisateurs ont rapidement pris gout aux interfaces léchées des applications web des GAFAs. Essayez de faire passer un utilisateur non militant de Gmail à Squirrel mail, juste pour voir. Pour développer un service de qualité, il faut des compétences complémentaires (UX, graphisme, support, traduction, développement…) et tous ces métiers ne se payent pas tous de gloire, leur métier ne leur laisse pas forcément autant de temps et de thunes en rab, pour le consacrer au logiciel libre.

Le matos a changé d’échelle avec le remplacement des disques à plateaux qui se trainaient lamentablement par le SSD, et même avant qu’on se rende compte du changement par du NVMe. En face, de la fibre ou de la grosse 4G. Le matos est prêt à tout engloutir, ce ne sera ni le stockage, ni la bande passante qui vont ralentir la soif de pixels.

Donc, voilà, des hordes d’utilisateurs exigeants, avec des gros appétits, sont là pour apprécier vos services. Serez-vous à la hauteur?

Un nouvel espoir

Pour avoir une chance de réussir à proposer des services sympathiques en ligne, alternatifs ou pas, il faut d’abord mettre de l’ordre dans tout ce fatras.

Protocoles

L’idée de base est de ne pas avoir de monopole, il faut donc avoir des systèmes décentralisés, des machins qui causent entre eux pour profiter de l’effet d’échelle. Un réseau social fonctionne par ce qu’il y a déjà plein de gens dessus. Pour ça, il faut des protocoles, une locomotive pour tirer plein de monde, et des implémentations adaptés à des cas moins courants.

Bittorrent a parfaitement réussi ça, et Mastodon peut réussir si Pleroma arrive à se démocratiser. Peertube est fonctionnel, en déclinant le concept du pair à pair à la vidéo. Il faut voir ce que donnera IPFS.

Le mail est LE premier service distribué largement utilisé, mais le spam et la stagnation des outils libres qui ont permis l’apparition de gmail ont eu un effet dramatique. DKIM et SPIF sont maintenant un prérequis, mais l’arbitraire des gros serveurs est maintenant une menace permanente. L’incapacité du courriel à garantir la confidentialité des échanges, confirmée par l’échec de GPG, ont reléguer le mail au rôle de renouveleur de mots de passe.

Il faut des protocoles bien spécifiés pour être interopérables, et des implémentations qui scalent petit, et grand.

Étonnement, Gitlab et Gittea via git comme protocole permettent ça. Reste à normaliser la notion de fork et pull request.

De la distribution de service sans syndication efficace, bah, c’est juste de la dispersion.

De bons outils

Avant, on avait des disques qui ramaient, une pénurie de développeurs web, et des navigateurs pourrites. Donc pas de dev front. Il y eut ensuite l’épisode Flash + IE6, pour enfin aboutir à la modernité : HTML5 et les spécifications EcmaScript, la déferlante des smartphones, les disques qui vont trop vite et les gros tuyaux.

Pour les devs, on a maintenant des langages matures, des bouquins avec des gravures d’animaux dessus, des frameworks, des workflows pour gérer le code, et de plus en plus d’analyses statiques.

Il faut un écosystème logiciel suffisamment responsable pour avoir des bibliothèques maintenues et pas systématiquement trouées.

Qualité

Donc, pour proposer des services de qualité en ligne, il faut des technologies suffisamment répandues pour avoir un stock de développeurs, et une chance de reprise si le mainteneur a un pépin. J’ai fait des patchs Erlang, par vice, mais je suis moyen chaud pour RTFM suffisamment pour proposer des patchs Haskell, Pony ou autre Crystal.

Qui garde les gardiens

Un serveur vautré a une qualité de zéro, niveau expérience utilisateur. Il faut avoir un système pour prévenir quand ça se vautre, avec tout ce qu’il faut de contexte pour pouvoir comprendre rapidement l’incident, puis le corriger (dites bonjour à Sentry), et que ce surveillant soit lui même plus fiable que le système qu’il surveille. Pour ça, il n’y a pas 36 solutions, il faut de la redondance, et là, ça commence à gripper pour l’auto hébergement. Pour l’instant il n’y a rien comme outils simples pour avoir une coopérative de monitoring, regroupant quelques auto-hébergeur. Une fois que vous vous serez mangé un incident au moment où vous avez le plus envie de faire toute autre chose, bah, vous commencerez à vous renseigner sur la redondance et la tolérance de panne. Je ne parle pas de l’inévitable RAID de disques, mais des outils comme Consul pour coordonner une petite grappe de machines et relancer des services sur les machines survivantes, vous laissant le temps d’organiser la réparation ou le changement d’une pièce. Je parle juste de coordination de services, l’omniprésent Kubernetes est largement au-delà du scope du petit hébergement.

Efficience

Concrètement, ce qui coince, maintenant, c’est la facture énergétique, et l’utilisation du CPU. La prévisibilité de son utilisation, pour être précis.

C’est difficile de dimensionner un serveur. Techniquement le premier palier va être gros, la machine sera surdimensionnée, tout comme l’est votre poste de développement. Avec peu d’utilisateurs, si marche sur votre laptop, ça marchera sur le serveur. Par contre, avec plein d’utilisateurs, le matériel va commencer à être utilisé comme il faut. On va avoir un budget CPU/RAM/Disque par utilisateur. La notion de hit, avec les gens qui prennent le temps de lire, ça saute avec les applications et les flots HTTP. Pour avoir de la visibilité, il faut que ce budget ressource soit prévisible : si vous avez quelques workers avec 512Mo de RAM et un timeout de 30 secondes, ça va gérer les actions violentes sur le serveur, mais au détriment du nombre d’actions en parallèle. En permettant que quelques-uns puissent tout prendre, bah ça va brimer l’ensemble du groupe. Pour offrir une qualité correcte à l’ensemble, il faut des quotas raisonnables pour tous, et mettre dans des files d’attente toutes les actions gourmandes : elles seront effectuées, mais sans se marcher dessus, et en prenant le temps qu’il faut. Rigoler en voyant le load d’un serveur, ça se faisait avant l’an 2000, plus en 2020. L’asynchrone devient la règle, pour lisser les accès parallèles et assumer les différentes latences.

Simple ou simpliste, complet ou complexe ?

La tolérance du langage pour faciliter son apprentissage se paye cash au niveau maintenance et sécurité. L’analyse statique, que ce soit dans son éditeur ou la CI devient un prérequis. Typescript est venu ajouter la rigueur du typage fort à l’historiquement bordélique Javascript. Même Python a maintenant des annotations de type.

La facilité de déploiement est un argument ambigu. Pouvoir poser un machin en PHP dans un bout d’arborescence apache n’est pas un déploiement facile. Les gros mutus sont d’une autre époque, en fait. Proposer un déploiement simple sans drames de dépendances est l’objectif. La réponse ultime est bien sur le conteneur (le concept, hein, je ne parle pas d’implémentation). Les paquets systèmes ont failli pour déployer des services, mais ils gardent toute leur pertinence comme briques de base pour composer un service. La norme existe : CNAB, reste à peaufiner les implémentations.

La facilité de mises à jour avec un rollback facile est un prérequis. Si on déploie, on met à jour. Sinon, ce sera du site statique.

Visibilité

La visibilité, que ce soit les incidents ou les mesures (ce que ça fournit niveau métier, ce que ça mange), doit être systématique. htop et grep /var/log ne sont plus suffisants, hein. Sentry, même avec sa nouvelle licence est votre ami.

Arrêtez de tanner les gens avec des comptes et des mots de passe qui seront soit tout le temps le même, ou oubliées. Mozilla a lâché l’affaire avec son SSO, ce qui est frustrant, mais JWT ou OAuth sont maintenant bien diffusé. Par contre, il faut un retour en grâce d’OpenID, pour ne pas tout appuyer sur l’OAuth d’un des GAFAMs, ce qui serait un drame.

L’usine nouvelle

Arrêtez la comparaison industrie/artisanat pour l’informatique. Un service installé à la main, sur un serveur installé avec un CD, ce n’est pas comparable avec du pain ou un meuble d’artisan. La valeur de l’installation est dans la rigueur, les choix techniques, la connaissance de l’ensemble pour prendre des choix éclairés, pas dans la sueur et la vélocité des commandes tapée sur un clavier typematrix. Faites votre levain, et provisionnez vos serveurs. L’installation c’est le prélude, l’histoire, c’est la maintenance et les mises à jour de nouvelles fonctions.

Gmail n’a pas gagné par ce qu’il était meilleur, mais par ce que les offres du logiciel libre ont échoué.

Déployer des microservices avec des dépendances

2018-12-01T14:09:00+01:00

Microservices

Le principe de bases des microservices est simple : une application est composée d’un ensemble de services, qui peuvent discuter entre eux.

La règle de base étant que ces microservices puissent avoir un cycle de vie (et de déploiement) autonome.

Si vous devez déployer plusieurs microservices d’un coup, bravo, vous avez un monolithe distribué.

La confusion entre microservice et conteneur

Attention, il n’y a absolument pas de ratio un pour un entre microservice et conteneur. Un service peut être rendu par plusieurs conteneurs, regroupé ou non en pod. L’exemple typique étant le site web et son traitement asynchrone (rails+sidekiq, flask+celery …). Les serveurs de bases de données peuvent être mutualisés, tant qu’on ne touche pas à la sacrosainte isolation des bases.

Versionning

Un service peut consommer un autre service. Les différents microservices sont versionnés, que ce soit avec un hash git tout moche, ou un joli semver.

Même s’il est possible d’appeler un service par son nom, il est quand même sage d’avoir un graphe des différents services : qui consomme qui. C’est l’approche des links de Docker-compose, Kubernetes préférant l’anonymat des Services.

Les services sont des boites, la version du service doit rester privée, ce qui est public (et concerne les autres services), c’est la version de son API.

Du coup, chaque service peut réclamer un autre service avec une version d’API.

Un peu comme de la gestion de bibliothèque, quoi, on retombe sur le pattern bien maitrisé de gem/yarn/dep/pip et compagnie.

Pour chaque service, on peut déterminer sa version d’API, et la liste des services avec les versions minimum attendues. Ces informations peuvent être rangées dans des étiquettes des images (des labels docker, quoi), ce qui permet de retrouver simplement l’information sur un environnement live.

La procédure de déploiement peut débuter par un preflight : on vérifie que le service que l’on souhaite déployer va trouver les services consommés dans les versions attendues.

Intégrer le preflight, à titre informatif, dans son cycle d’intégration continue, est une bonne idée : “attention, là maintenant, votre service n’a pas les prérequis pour être déployé en prod, il va peut être falloir discuter avec l’autre équipe”.

D’un autre côté, présenter une API, mais sans la déployer, ce n’est pas super fairplay non plus, ça sent le refactoring qui a du mal à aboutir.

Déployer à blanc

Pour limiter les embrouilles de chronologie de déploiement pour des histoires de dépendances, chose que l’approche micro services promettait d’éviter, il ne faut pas hésiter à déployer des services à blanc, en déployant des bouts d’API qui ne seront consommés que par des tests fonctionnels. On déploie d’abord un serveur sans clients, puis dans un second temps les clients.

Le service est déployé, testé, un éventuel test de charge pour évaluer son comportement en charge, ou même déployé en fantôme, avec des clients qui l’utilisent, mais sans le dire, soit en doublon d’un service qu’il souhaite remplacer, soit headless, sans que les utilisateurs le voie. Facebook avait fait ce genre de chose pour son tchat.

Lorsque l’on déploie un service, on se réserve la possibilité de faire un rollback en cas de drame. Par contre, attention, quand on déploie une nouvelle API, qu’on la valide incorrectement, puis en déployant le client qui va la consommer, on se rend compte d’un problème : c’est le drame, le seul rollback possible est une cascade de rollback, ce que l’on souhaiter éviter à tout prix.

Pour les services très fortement sollicités, le déploiement se fera de manière progressive, en gardant les yeux rivés sur les performances et les taux d’erreurs. Le déploiement progressif rend physiquement impossible, ou presque le déploiement par lot. Ça tombe bien, c’est ce que l’on souhaite éviter.

Étendre le concept

Cette notion de version d’API peut être étendue aux modèles de données. La modification devra se faire en deux étapes, la première va ajouter des colonnes, sans casser le code actuellement déployé. Ensuite, on pourra déployer le code utilisant le nouveau modèle, et enfin, déploiement des modifications qui vont enlever des colonnes.

Modifier des colonnes va être un peu plus compliqué. Soit le modèle logiciel (l’ORM, à priori) va assurer la transition en calculant les modifications à la volée, puis en tache de fond, de gros batchs assurent une transition complète, sans subir un phénomène de longue traine. Mongodb se prête bien à ce genre d’astuce.

La migration de modèle est un sujet complet, complémentaire du déploiement. Allez jeter un oeil à gh-ost pour avoir une étendu du sujet.

Déprécier

Effacer des trucs, ça veut dire prendre le risque de le regretter plus tard. À grande échelle, on passe du regret à l’angoisse. Du coup, il est tellement plus confortable d’entasser à l’infini, de se proposer des API avec une compatibilité ascendante depuis le premier jour. Dans le même esprit, on ne rajoute pas de contrainte sur des données stockées (dans l’approche de stockage massif à la HDFS). C’est ce que propose Protobuff et Thrift.

Il est quand même possible de connaitre les versions de clients déployés (en interne), et d’avoir des stats sur les clients externes. Avec ces infos, on peut déprécier l’API, forcer la main pour mettre à jour les clients, puis retirer l’ancienne API. Bazarder du code mort, ça fait toujours plaisir, et ça évitera d’avoir des surprises plus tard. Mettre à disposition un proxy qui fera le passe plat entre différentes versions de l’API peut être un palliatif, mais une coupe franche est nettement plus simple.

Automatiser

Il existe des grammaires pour les différentes API distantes. OpenAPI (ex-swagger), grpc et tant d’autres sont basé sur cette approche. Ce contrat doit être le seul lien entre les différents services, le sujet de discussion entre les différentes équipes. Ce contrat va permettre de générer du code, ou le valider, selon les cultures logicielles.

Avec du code bien rangé, il est possible de lancer automatiquement des tests sur les différents clients quand on modifie le serveur. Trivial pour des tests fonctionnels avec des services conteneurisés, envisageable pour des bibliothèques. C’est là que débute le troll sur le monorepo, mais un sujet orthogonal au déploiement de microservices.

Kubernetes est la réponse, c’est quoi déjà la question ?

2018-06-20T19:23:00+02:00

Drôle d’ambiance autour de Kubernetes, en ce moment. Le Docker bashing à toujours la cote : des gens avec des avis tranchés, qui ont réussi avec arrogance, là où LXC pataugeait depuis toujours, pour finalement aboutir à une norme et des spécifications. Mais, en même temps, Kubernetes, qui est prêt pour la prod, lui, est encensé, attendu comme le messie. Ça donne des tweets de ce genre.

Services

Commençons par le commencement, votre application est orientée service : c’est l’assemblage de différents services. Un truc comme django/celery/postgresql/redis ou même php-fpm/mariadb/memcache/varnish/nginx ou que sais-je dans ce gout-là.

Si votre application est un gros binaire qui contient tout, un peu comme la boite contenant le mouton du Petit Prince, félicitation, vous faites du Zope, vous n’avez pas à vous enquiquiner avec ces histoires de Kubernetes.

Microservices

La question n’est pas là, utiliser des services est déjà suffisant, et ce sera encore plus fun avec des microservices.

Conteneur

Docker quoi, on peut tourner autour du pot, mais même avec la normalisation de l’OCI, Docker est pour l’instant le standard de fait. Le travail d’intégration sur les postes de travail, sur Windows/Mac/Linux, est trop énorme (et trop pénible) pour être paraphrasé par un concurrent.

Un conteneur, c’est juste un format de livraison d’un service standardisé, immuable, et la possibilité de le lancer avec des paramètres, de l’isolation et des contraintes matérielles (RAM, CPU, IO).

Son immuabilité renforce et facilite la mise en place de tests fonctionnels et autres étapes de qualification.

La construction déterministe, et le résultat déterminé facilitent le déploiement, sur un ou plusieurs serveurs, et le retour en arrière en cas de drame.

Les conteneurs donnent aux développeurs la responsabilité de la création du conteneur, il choisit les paquets et applications nécessaires. Ces choix sont décrits de manière simple et lisible, qui seront versionnés, deux points qui facilitent l’analyse statique et les audits.

L’étape de créations des images et les tests/analyses qui suivent doivent être construits depuis un service d’intégration continue.

La recette de build automatique, les versions d’outils explicites, et les différentes astuces pour faciliter le développement diminuent drastiquement le ticket d’entrée pour un nouveau développeur sur un projet. Avec une VM, on comptait un jour, avec des conteneurs, une heure.

Composition

Docker-compose est le standard de fait pour décrire la composition de services, hey wouais, l’OCI n’a encore rien dit là-dessus.

Tout comme le Dockerfile décrit de manière non ambigüe la création d’une image, docker-compose.yml va décrire l’assemblage de différents services, avec les paramètres et les liens entre eux.

L’outil docker-compose va gérer tranquillement tout plein de détails pénibles, comme la création d’un réseau isolé, les dépendances entres services, les logs, et même un peu de scale. Il est bon pour mettre à jour le service que l’on vient de mettre à jour et de relancer les services qui l’utilisent, sans forcément tout relancer.

Techniquement, le fichier docker-compose.yml expose à peu près tous les choix que peut faire un développeur pour décrire son application. Bon, Swarm a un peu cochonné le format, mais ça reste anecdotique. Pour ce qui manque, les labels permettent de décrire les intentions sans trop de difficultés ou de circonvolutions.

Le format du fichier docker-compose.yml permet de générer des configurations vers d’autres outils : - Kompose pour Kubernetes - dce-go pour Mesos - Bon, Nomad est tellement peu opiniated qu’il faudra faire vos choix et votre moulinette.

Supervision

Le service dockerd (containerd dans les faits) est aussi un superviseur, il va suivre et commander le cycle de vie des différents conteneurs.

dockerd empiète un peu sur systemd, et les deux projets aiment ce jeter des cailloux dessus.

Le monde se divise en deux catégories, enfin, le monde, les services : systèmes et applicatif. Les applications s’appuyant sur les services systèmes (en dessous), pour être exposées à des utilisateurs (au-dessus).

Systemd, ça gère la couche système, et seul l’utilisateur root peut le manipuler.

La première cible de Docker est la couche applicative, et n’importe qui avec le bon certificat SSL ou le bon groupe peut l’utiliser. Ça ne veut pas pour autant dire que c’est une super idée d’avoir des utilisateurs qui tripote des dockers en prod depuis la console.

Il est tout à fait légitime d’avoir un service lancé par systemd qui gère des conteneurs systèmes .C’est comme ça qu’est implémenté Kubernetes, d’ailleurs, avec son kubelet, et les namespaces de containerd vont pouvoir encore mieux isoler ces groupes distincts de conteneurs.

Par contre, vouloir orchestrer un ensemble de services formant une application avec un ensemble de fichiers `.service systemd est une drôle d’idée. Les conteneurs sont des fils des docker-containerd-shim qui vont cafter au démon containerd l’état du conteneur, excluant complètement systemd de la boucle, qui serait bien incapable de superviser quoi que ce soit.

Instrumentation

Docker va gérer des services, bien rangés dans des cgroups qui maintiennent des métriques, et branche STDOUT vers une sortie quelconque, un fichier ou un service de logging. 12 factors prétends que ça suffit, mais c’est juste le strict minimum au niveau observabilité.

Il faut passer rapidement à des trucs plus sérieux, comme des rapports d’erreurs avec Sentry, des logs structurés (au format fluentd), des mesures métiers avec les exports prometheus pour les technos asynchrones, et statsd pour les autres.

Routage

C’est bien, d’avoir plein de conteneurs, mais vous allez exposer tout ça, dans la plupart des cas avec une seule IP et un seul port, 443 à priori (pour bien faire, cette IP sera flottante, et vous la collerez à une machine virtuelle en vie).

Il va donc falloir un peu de coordination entre les conteneurs et des règles de routages (et de la répartition de charge).

Persistance

C’est bien d’avoir des conteneurs “quelque part”, qui bougent en fonction des vagues. Mais cette mobilité n’est possible qu’avec des conteneurs sans état, état qui va bien devoir être quelque part. Pour ça, il faut une solution de stockage distribué, en mode blob, à la S3 (ou Minio), ou en mode block, à la iSCSI. Donc, du Ceph ou une offre SAAS spécifique et propriétaire que votre fournisseur de nuage vous proposera gentiment.

Orchestration

Pour gérer un ensemble de conteneurs sur plusieurs machines, il faut de l’orchestration. L’orchestrateur a la charge de décider comment les conteneurs vont être répartis sur les différentes machines, que faire quand un noeud disparait ou quand un nouveau apparait.

L’orchestrateur va s’appuyer sur service clef/valeur distribué (comme etcd) pour mettre à disposition de tout le monde tout ce qui est paramétrage et maintenir une carte de l’existant.

L’orchestrateur va réagir à un ensemble d’évènements, et en réponse à des commandes, déclencher des évènements (et des actions) comme les stratégies de mises à jour des conteneurs, ou la mythique promesse du Cloud : lancer des VM pour empiler encore plus de conteneurs pour accompagner un pic de charge, puis les éteindre tranquillement une fois la vague passée.

Voilà, là, vous êtes à l’étape Kubernetes, et pour ça, vous avez pieusement suivi toutes les étapes précédentes, car vous avez besoin de plusieurs serveurs pour héberger votre application.

La vieille promesse de l’élastique du nuage n’est possible qu’avec de l’orchestration, et donc des conteneurs, de l’intégration continue, de l’observabilité, une séparation nette entre l’expression de l’intention (sous la responsabilité des devs) et les choix de son implémentation (sous la responsabilité des ops).

Google a très envie de manger tout l’hébergement Internet

2018-05-08T17:30:00+02:00

Le marché de l’hébergement Cloud arrive à maturité. OpenStack a réussi à éradiquer tous les pouilleux, la place est libérée pour les trois gros, Amazon, Google et Azure, qui vont pouvoir s’étriper tranquilement.

Le marché du cloud a été découvert par Amazon pour répondre à ses propres besoins. Amazon s’est contentée d’ouvrir son outillage interne, très rapidement organisé en unités autonomes, chacune étant cliente les unes les autres. L’offre d’AWS est un mélange d’outils standards (machines virtuelles, disques distants…) et de services spécifiques dont certains sont maintenant des standards de fait (S3) d’autres non (dynamodb), pour ensuite proposer des services de plus haut niveau, comme les bases infogérées ou les CDN.

Cette offre a parfaitement accompagné la première vague du Web et corresponds tout à fait aux besoins des gros sites américains, qui ont besoin de grosses croissances pour arriver rapidement en position abusivement dominante à l’échelle de l’Occident, pour commencer à être bénéficiaire. Ces sites croissent comme des crabes, chaque changement de carapace correspondant à un tour de table, et il faut devenir bien plus gros. Le fameux “ça scale” tant vanté par le Cloud.

Google a bien vu grandir Amazon, et à toujours eut une technologie plus performante, plus intégrée, plus tout, en fait. Une partie des technos d’Amazon sont issus des white papers de Google. Sauf que Google, à la différence d’Amazon a une approche très cathédrale, très intégrée, très peu ouverte, en fait. Google a zappé l’étape des machines virtuelles en passant directement aux conteneurs (les CPUs n’étaient pas près quand la question s’est posée) bien plus efficaces pour densifier, et tout à fait compatible avec un partage non agressif, coordonné des ressources.

Google, une fois ses services bien installés, a su faire des efforts pour avoir des clients qui consomment ses services (Android, Chrome), mais a été longtemps une grosse quiche pour ses offres d’hébergement. Google semble tout simplement inadapté pour reprendre une idée qui n’est pas la sienne. Un peu comme les humiliations de Google+ ou pire, Google Wave.

Par contre, leurs services sont bons : gmail, calendar, docs. Ils sont surtout encore meilleurs pour bosser en groupe, et remplacent des outils forts pénibles et corporate, comme la suite Microsoft, ou pire encore, IBM Lotus. Outre leur ergonomie agréable, ces outils éradiquent les BOFH, craints par tous, direction comme utilisateurs. Avec ces offres orientés pro, Google à mis un pied dans l’entreprise.

Donc, les services sont bons, les clients sont bons, que reste-t-il à récupérer dans la chaine de valeur? Les serveurs, pas les siens qui sont optimums depuis une grosse décennie, mais ceux des autres.

Première vague, Google App Engine. Google reprends son approche interne, les applications sont contraintes, mais bénéficient d’un ensemble de services de très bonne qualité (comme la BigTable). Sauf que non. Les utilisateurs n’ont que faire de contraintes les obligeants à réinventer la roue alors qu’ils existent tant de trucs open source permettant de sortir trop tôt un gros tas de boue mal fagoté. Les services proposés sont effectivement mythiques et permette de scaler plus haut que sa carte bleue, mais le ticket d’entrées (technique) est rédhibitoire, tout ça pour un truc captif aux performances fluctuantes.

Entre temps apparait Docker, qui réassemble de manière cohérente les bouts de kernel que Google à écrit pour sa propre solution de conteneur, LMCTFY. La première appropriation du logiciel libre des conteneurs, LXC, n’était guère plus qu’un gros POC myope. Docker apporte la notion de services composables, immuables et paramétrable, et, arme secrète, Docker fonctionne très bien sur les ordinateurs des développeurs (Linux, Mac et Windows à égalité), et c’est en fait le premier critère pour l’adoption d’une nouvelle technologie.

Google manque terriblement d’empathie, ils sont capables d’inventer des tas de concepts, mais sont incapables de se mettre au niveau des gros ploucs de développeurs. Ou des gros ploucs de pipelettes des réseaux sociaux, d’ailleurs.

Ils ont du coup mise en place une nouvelle approche, un peu comme leurs withes papers qui deviennent des outils utilisables par le reste du monde. Ils prennent une de leur technologie interne, qui à eut le temps de bien maturer, et ne conservent que les concepts ou les parties bas niveau (comme les patchs kernels) pour les confier à des gens extérieurs, des gens bizarres avec des sentiments. De fait, ils exfiltrent eux même leurs technologies, en petits bouts autonomes. Ils ont réussi ça avec golang, qui a une vraie communauté, et qui a d’ailleurs servi de base à Docker, et à toute une génération des services de bas niveau. Cela dit en passant, un des gros échec d’OpenStack est python, tout à fait inadapté à ce genre de tache, mais bon à l’époque, les autres langages disponibles (java, C++) auraient aussi été un drame.

Donc, pour attaquer l’hébergement, il faut d’abord un socle, et faire des concessions aux ploucs. C’est l’offre Google Cloud, qui expose une couche super standard : de la machine virtuelle avec KVM (avec comme effet de bord de faire chier AMZ qui a choisi l’autre virtualisation, Xen, qui n’est pas dans le kernel vanilla). Réel effort de la part de Google qui n’utilise pas de virtualisation en interne. Ensuite les trucs de base, comme le réseau, les disques distants, du stockage objet compatible S3, du routage, du SQL infogéré, quelques services qui envoient du rêve (à base de big data et de machine learning).

Voilà, ça, c’est le ticket d’entrée pour commencer à discuter. Pour avoir des utilisateurs et donc du débug, Google utilise la technique super classique, une offre massive de crédits à des startoups ambitieuses, des incitations à la création de sociétés de services qui ne font que du Google Cloud, des espèces de franchises, en fait. Pour montrer leur humanité, Google met en place un système astucieux de conseil sur le dimensionnement des services pour que l’on crame moins de sous. Un peu comme une cafétéria qui conseillerait de ne pas remplir son plateau pour pas que ça finisse à la poubelle, en fait. Payer ce que l’on utilise, ça semble bête, mais ça le différencie de AWS, qui eux ont pour motto “la carte bleu comme seul limite”.

Voilà, Google a aussi son offre Cloud crédible, mais comment aller plus loin? la guerre des prix avec AWS est un peu vaine, et ce genre de blague finit souvent en victoire à la Pyrrhus. Non, la cible n’est pas d’aller tout de suite vers le coût marginal et la notion de commodité (pas les WC, le barbarisme traduisant “commodity”). La cible est d’aller là où il y a des sous, d’aller s’occuper des DSI et de l’hébergement de leurs serveurs.

Pour ça, Google est en train de déployer la tactique finaude du tapis de bombe, le carpet bombing des années 1940.

Première vagues, les services, gmail et Google Docs, les utilisateurs veulent du Google et trouvent ringard les services existants.

Deuxième vague, l’hébergement classique. Techniquement, la notion de VM n’est qu’une transition, c’est compliqué, dur à dimensionner, dur à maintenir au fil du temps. Comme solution plus adéquate, il y a bien sûr les conteneurs, standard maintenant officialisé par l’OCI et installé sur tous les postes de développeurs. Docker est mature coté dévelopement, mais pas encore coté hébergement, pour ça, il faut de l’orchestration, et il y a maintenant Kubernetes, offre exfiltrée à partir d’une techno maison de Google, Borg, qui devient tout aussi standard et officiel que les conteneurs de l’OCI, mais dans un autre consortium, le CNCF, avec ses amis Envoy (pour le routage) et Prometheus (pour les mesures).

Kubernetes est open source, bien spécifié, bien maintenu, plein de vie. Pourquoi se méfier de son coté captif? Tout simplement par ce qu’il est tout aussi complexe à héberger qu’un Ceph dont tout le monde vante l’open source sans pour autant le déployer. Kubernetes va éradiquer l’offre Docker Swarm qui n’a jamais convaincu grand monde, et débarquer par défaut sur tout les postes de dev avec le très confortable minikube. Kubernetes a besoin de s’appuyer sur des services de persistances (mode bloques et objets), bien pénible à héberger. En partant de bare metal, il faut donc assumer un Ceph en plus de Kubernetes comme ticket d’entrée.

C’est de plus en plus visible : la notion d’open source fusionne avec la notion de standard et de portabilité. L’hébergement de Kubernetes, même si on garde le choix entre 3 mammouths est de fait propriétaire, tout en gardant le développement open source. L’open source se fait commodifier la gueule, en fait, mais avec le sourire. L’open source est utilisé pour faire chier les autres, Microsoft peut en témoigner.

Une bonne vague d’hardware inaccessible, pour continuer à distancer la concurrence (gpu haut de gamme , tpu) toujours basée sur des frameworks bien libres comme Tensorflow.

La prochaine vague, déjà bien amorcée, est le serverless, un buzzword pour imposer un framework n’exposant que du code métier, facilitant de fait l’hébergement (et basé sur des conteneurs encore plus densifiés).

Une vague de métrologie, avec OpenCensus qui va permettre d’unifier les mesures privées (les services fournit par Google), avec les mesures publics, dans le code déployé.

La vague suivante va être la sécurité avec gVisor pour les conteneurs, et Asylo pour les enclaves.

La tactique est des plus classiques. On abuse de l’exclusivité tant qu’on peut, tout en démolissant la marge de la génération précédente de technologie, tout en maintenant un cout d’entrée énorme, pour exclure les nouveaux entrants. Ça permet à la fois de réduire ses propres coûts tout en asséchant la concurrence. On a ainsi vu récemment passer la libération des frameworks de machine learning, en mode terre brulée (Google, Nokia, Microsoft…), pour finalement se concentrer sur la vente d’hébergement avec du matériel spécifique (les fameux TPU), ou “as a service” pour les utilisateurs aux compétences limités : AutoML.

À l’époque de la ruée vers l’or, le meilleur moyen de devenir riche était de vendre des pelles (avec l’exclusivité), pas de creuser. L’offre Cloud de Google nous vends des pelles.

La tokenisation et les index inversés au service de la lecture des logs

2018-03-07T19:23:00+01:00

Les logs servent à remplir les disques (souvent) et à déboguer (parfois), mais pas que. Logstash a démontré que l’on pouvait entasser des logs dans un moteur de recherche pour faciliter les analyses postmortem d’incidents. On peut aussi compter des trucs et des machins pour faire de jolis graphes, voir même, en lâchant des sous, avoir des alertes avec alerting. Elasticsearch propose aussi la notion de percolate avec ses recherches à l’envers. Les notions existent et sont même déjà implémentées (en Java).

Voici une présentation pédagogique, avec une implémentation toute légère en golang, pour chercher des motifs dans des flots de logs : Yangtze 长江.

Concept

L’idée de base est d’enregistrer des requêtes, et de leur soumettre des lignes de log. C’est la percolation d’Elasticsearch.

Pour ne pas tout bouffer la RAM et le CPU, les expressions régulières ne seront surtout pas utilisées de manière systématique.

Même si Grok permet d’écrire des regex concises et compréhensibles, même si RE2 limite le bazar des très classiques PCRE, les regexps restent un marteau qui scalent mal. C’est vrai, Piwik (enfin, Matomo) l’a prouvé avec son parser de user-agent.

Indexer une expression régulière oblige à la déplier, et c’est rapidement pénible à faire (du code ruby existe et fonctionne plutôt bien), pour un résultat peu concluant.

L’idée est de découper le motif en jetons (en tokens, en mots, quoi), et de les utiliser pour indexer les requêtes. En découpant les lignes de logs en jeton, on peut retrouver les requêtes correspondantes, et ne tester le motif que sur les lignes qui ont les jetons nécessaires.

Implémentation

Motifs

Plutôt que d’aller se coincer dans du vrai regex, je pars sur un sous-ensemble minimaliste :

. un jeton
? zéro ou un jeton
... plusieurs jetons

Tokenisation

La tokenization est tout aussi brutale, les jetons sont constitués de lettres, de chiffres, de _ et de -. Tout le reste, ponctuation, parenthèses, espaces… est considéré comme des séparateurs.

Je [mange] des carottes.

Va donner :

Je
mange
des
carottes

Les tokens qui sont indexés (ceux des requêtes, pas ceux des lignes) sont rangés dans un tableau, et un identifiant (un simple compteur) leur est attribué. Par convention, les identifiants commencent à 1, 0 est réservé pour gérer le rien, un token qui n’est pas indexé.

Avec la tokenisation et les identifiants, on peut transformer une ligne en une suite de nombres.

"a ... c" => [1, 0, 2] // un motif
"a a b c" => [1, 1, 0, 2] // une ligne

Bitset

Les bitsets sont de longues suites de booléens, leur rang correspond à leur valeur. Par convention, le 0 est toujours false. Avec un bitset, on ne peut savoir que si un jeton est présent ou non, on perd sa position et son nombre d’occurrences. Par contre, il est facile d’effectuer des opérations booléennes, des opérations sur des ensembles, ou compter le nombre de bits allumés (on parle alors de cardinalité).

"a ... c" => ◻︎◼︎◼︎
"c . a" => ◻︎◼︎◼︎
"a a" => ◻︎◼︎◻︎
"a a b c" => ◻︎◼︎◼︎

Une ligne avec une cardinalité nulle ne matchera jamais, première simplification.

Si le bitset d’une requête n’est pas inclus dans le bitstet de la ligne, on sait que ça ne matchera pas.

set("a ... c") ⊂ set("a a b c")
set("c . a") ⊂ set("a a b c")

Si ces deux premières conditions sont passées, on peut tester le motif (en travaillant sur les suites de nombres).

pattern("a ... c").match("a a b c") == True
pattern("c . a").match("a a b c") == False

Pour limiter le travail, les requêtes sont indexées par jetons. Pour l’instant, le jeton de la ligne utilisé pour tirer les requêtes potentielles est le premier. Pour bien faire, il faudrait trier les jetons par occurrence, et choisir le moins courant (et donc le plus discriminant).

Performance

Les performances de regexp de golang, basé sur RE2, sont très bonnes. Tokenizer une ligne, vérifier si le motif correspond est plus que de tester une expression régulière. Mais ça tombe bien, ce n’est pas le cas d’usage, on tokenize une fois, exclue puis test le motif plein de fois. Obtenir l’identifiant d’un jeton est super rapide, travailler avec les bitsets et vérifier les motifs sont aussi super rapide, bien plus qu’une regexp. Le cout de la tokenization (qui gère de manière orthodoxe l’UTF8) est très rapidement amorti quand il s’agit de tester une brouette de motifs.

Préparer une ligne est 4 fois plus long que de lancer une regexp, mais tester un motif est presque 10 fois plus rapide.

Bon, un benchmark est toujours un peu raide et rien ne remplace un vrai usage.

Usage

Avoir de jolis tests unitaires et des benchmarks, c’est bien, avoir du code utilisable, c’est mieux. Le premier usage sera de surveiller des flots de logs (tail, journald, fluentd…) pour soit lever des erreurs qualifiées (sentry, alertmanager, alerta), soit compter des trucs qui finiront dans du timeseries. Des actions à la fail2ban sont potentielement envisageable.

RPC

2018-01-22T22:16:00+01:00

RPC

Les RPC existent depuis longtemps, ils ont leurs heures de gloire (CORBA, SOAP), et de déchéance (CORBA, SOAP). Ils reviennent sur le devant de la scène avec l’invasion de Javascript au dépens des templates cotés serveurs, et surtout des micro services.

Techniquement, un RPC, c’est : une sérialisation, un protocole, une couche transport. Certains RPC proposant différentes sérialisations (une binaire, une texte), et même différents transports.

Sérialisation

La réponse magique est JSON, ce qui est un progrès par rapport à la réponse magique XML, d’il y a 20 ans. Mais le JSON est ambigu, chaque langage et même chaque bibliothèque va gérer de manière différente chaque point mal spécifié. Il ne gère ni différencie pas les entiers des flottants, ni les nombres en 64 bits, le binaire doit passer par du base64 et donc prendre plein de place.

BSON corrige le JSON en ajoutant de nouveaux types et un format binaire, mais il reste très lié à Mongodb.

MessagePack fait peu ou prou la même chose, mais de manière neutre, sans être lié à un produit.

On reste dans la famille des sérialisations auto descriptive, qui permet techniquement de faire un peu n’importe quoi de chaque coté d’un RPC.

Cette approche prend beaucoup de place, avec Mongodb, il n’est pas rare que les clefs prennent plus de place que les contenus.

Avro propose une approche intermédiaire. On envoie la grammaire, en JSON, puis le contenu en binaire, bien compacte.

La mode est maintenant à la sérialisation avec grammaire. Cette grammaire étant neutre, elle peut être utilisée par différents langages pour effectuer les sérialisations/deserialisation. Ces grammaires sont incrémentales, il est possible d’ajouter des informations, sans casser la compatibilité avec l’existant.

Petite collision de date, Google avait déjà son protobuff (qu’il utilisait bien au-delà des RPC) quand Facebook a publié spécification et implémentation de référence pour son Thrift, fort similaire. Protobuff a été libéré après Thrift.

Pour aller un cran plus loin dans la recherche de performance, il existe des sérialisations qui ne sérialisent pas, et permettent le zéro-copie, ce qui est fort pratique pour les RPC locaux, directement en mémoire, sans réseau. Apache Arraow et Cap’n Proto font ce genre de chose.

Protocole

La première étape est la notion de question du client au serveur, et la réponse correspondante, dans l’autre sens.

REST

REST n’est tout simplement pas un protocole RPC. C’est un standard largement diffusé, le meilleur ami de curl, mais ce n’est pas un RPC.

REST permet d’exposer rapidement des données hiérarchisées, pas plus, et GraphQL (quand il sera sec) est bien parti pour lui ravir cette niche.

Des formalisations comme Swagger (maintenant OpenAPI) sont clairement les bienvenus, et même indispensable, mais ne suffisent pas à définir de bout en bout les échanges. Du code spécifique côté client et serveur reste indispensable, et fragilise l’ensemble.

ElasticSearch reste le parfait exemple des limites de REST : le protocole/sérialisation ne brime pas les performances, par contre, les fonctions spécifiques comme les batchs, la pagination, la gestion du cluster, rendent indispensable l’utilisation des drivers officiels.

Docker a le même souci, avec son truandage pour gérer les flots TTY, et ils sont en train de tout re-ranger en grpc avec Containerd, pour faciliter les échanges de serveur à serveur.

Multiplexage

Les connexions ne sont pas illimitées, que ce soit des clients web vers un serveur, ou même en interne, avec le nombre de connexions simultanées que peuvent ouvrir les technologies asynchrones. Le multiplexage s’impose assez vite. Les requêtes ont des identifiants, et les réponses arrivent dans l’ordre de leur résolution.

XMPP a formalisé cette approche avec ses stanzas, tout comme JSON-RPC.

Flot

Les RPC sont confrontés aux mêmes problèmes que les Big Data, où il faut choisir entre le gros débit des traitements par lots (Hadoop), et les faibles latences des flots (Spark, Storm).

La gestion de flot facilite le multiplexage, limite la taille des buffers, et permet de commencer tôt le traitement du message.

HTTP/1 propose une gestion de flot descendant, avec EventSource, mais rien en flot montant, il faut alors dégainer Websocket. Hum, est-ce bien raisonnable d’utiliser WebSocket pour de la communication de serveur à serveur?

HTTP/2 gère le multiplexage, et permet la gestion de flot montant et descendant.

Finagle, de Twitter, propose un RPC complet basé sur Thrift, mais surtout explique bien la notion de multiplexage, de streaming et de méta information. Finagle a publié beaucoup de lecture pédagogique indispensable, mais il est fortement lié à Scala, et même à Twitter, en fait.

Méta information

Les RPCs ont besoin d’informations complètement différentes de ce qui sera utilisé par les fonctions exposées. La notion de format, de trace, d’authentification, de chiffrage et de compression par exemple. Toutes les belles choses que l’on est habitué à utiliser avec HTTP, en fait.

Parralélisation

On est habitué aux contraintes d’HTTP qui a l’habitude d’imposer des temps de réponse courts, et de se faire couper en cas de “timeout”. Les RPC n’ont pas les mêmes contraintes sur les temps de réponse. Les langages synchrones sont alors brimés par la difficulté de paralléliser des taches de durée très variables. L’implémentation de GRPC en python, par exemple, travaille avec un pool de 10 connexions, ce qui n’est pas farfelu si on garde la règle magique de 2 workers par coeur de processeurs. En augmentant le pool, on prend le risque d’avoir des traitements avec peu d’attentes IO et de faire exploser le load.

De toute façon, la notion de file d’attente devra être géré, soit par le langage qui va accepter plein de connections, soit via un service spécifique, comme Redis, RabbitMQ, nsq, kafka…. Les services de file d’attente permettent de faire de jolies choses, souvent pénibles à reproduire dans son code, comme la répartition de charge ou la reprise de traitement en cas de vautrage. Google a une sainte horreur des serveurs de file d’attentes, déjà qu’il n’aiment pas les proxy, car il se focalise sur la course à la latence. Twitter semble les suivre dans cette approche.

Débogabilité

Déboguer un RPC bancal peut rapidement devenir un enfer.

Traces

Il est indispensable d’utiliser une gestion d’erreur centralisée (à la Sentry), des métriques (statsd ou des compteurs Prometheus), et rapidement des logs unifiés, des traces en fait, comme le proposent OpenTracing (Zipkin, Jaeger, Appdash…).

Ligne de commande

Il est difficile de se passer du confort de curl + JSON, tous les RPC de la galaxie proposent un équivalent, avec plus ou moins de complétion et de retour d’erreurs.

Sniffer

Encore plus culte que curl, il existe tcpdump, pour filtrer et voir passer un flot sur le réseau. PacketBeat propose de jolies bases pour construire un sniffeur.

La généralisation de TLS, même sur les réseaux privés rends ça rapidement pénible.

L’approche sniffing est du débogage en boite noir, il est tellement plus simple d’être dans la place, et de profiter de l’approche boite blanche, comme Google le préconise : ticket grpc et tecpdump.

Finagle confirme cette approche avec Twitter-Server, mais comme Finagle n’impose pas TLS, il est possible de tricher : thrift-tools.

Rapidement, les RPC vont être distribués (sur plusieurs serveurs), il est assez illusoire de penser pouvoir attraper l’ensemble des flots pour ensuite isoler celui qui nous intéresse. Bricoler son Mysql/Postgres/Mongodb ou autres services tiers pour avoir du log spécifique n’est pas la meilleur des idées, dans ce cas, le pcap est légitime, mais pour du code qui nous appartiens, avec la possibilité d’utiliser des middlewares ou pires des proxys, ce serait dommage de ne pas en profiter.

Transport

Les rpc ne sont pas forcément fascinés par la couche transport, mais la plupart s’épanouissent dans HTTP, la garantie de pouvoir circuler sur internet sans drame, et sans faire crier les firewalls corporates. Il existe des transports plus spécialisés, comme zeromq, nats ou même plus exotique comme STOMP.

Hum, peut-on considérer un broker comme une couche transport? Dans ce cas, Kafka et AMQP en font partis.

HTTP/2 permet de profiter de l’héritage HTTP/1 (Internet, proxy…) mais le protocole est bien récent, et les bibliothèques pour le gérer ne sont pas bien répandues. C’est mature pour des serveurs webs (nginx, traefik…), pour des clients (Chrome, Firefox…), mais pour du code, golang écrase un peu tout.

Ceinture et bretelle

Rien n’interdit d’exposer une fonction avec différentes approches.

Les usages sont trop divers pour qu’une seule réponse universelle puisse être envisagée. Les interfaces utilisateurs sont maintenant en HTML5 avec beaucoup de Javascript, et proposent des interfaces utilisateurs réactives. Il est donc indispensable d’utiliser HTTP pour les UI web. L’outillage HTTP2 en javascript est pour l’instant introuvable, il faut donc basculer sur les plus classiques HTTP/1.1 et ses extensions, comme SSE et surtout Websocket.

Pour les appels internes, HTTP/1 est un peu court des pattes et va poser des problèmes avec les parallélisations massives que permettent les technologies asynchrones.

L’approche la plus saine me parait de surtout se concentrer sur l’utilisation de grammaire neutre, qui permettent de générer (ou d’introspecter pour les langages qui n’aiment pas le code écrit par des robots), les clients et serveurs, et même de générer plusieurs protocoles pour une seule fonction exposée.

Twirp propose cette approche après s’être cassé les dents sur du grpc, qui reste pourtant la référence de ce genre d’approche.

Grpc fait des choix plutôt autoritaires pour présenter ce que Google estime être l’état de l’art. Personnellement, aucun de ces choix ne me frustre, c’est plutôt le manque de maturité des bibliothèques qui m’inquiètent. Les fonctions avancées de la bibliothèque golang n’a pas de numéro de release, avec une documentation légère. La bibliothèque Python embarque un gros machin en C pour gérer toute la partie HTTP/2, avec un pool de workers. Je suppose que les autres langages sont dans le même état. Par contre, je n’ai aucune inquiétude sur la pérennité de cette technologie et sur le fait que les bibliothèques vont évolués, et surtout que tous les langages vont avoir l’outillage requis pour gérer comme il faut HTTP/2/

Il existe une passerelle Grpc/REST, Grpc-gateway qui permet d’exposer une fonction, en utilisant la grammaire grpc, sous deux formes, du REST avec la documentation Swagger, et du Grpc.

La couche HTTP/2 n’est pas forcément la réponse universelle, pour certains projets discrets, utilisant un grand nombre de connexions, le surcout en RAM peut être pénalisant. Le projet a fait le choix d’utiliser un protocole différent (du TCP sans stream), et de générer le code avec les grammaires GRPC.

Bref

L’informatique est maintenant distribué, que ce soit sur des coeurs de processeurs, ou des serveurs. Les RPC sont maintenant indispensable (ne serait-ce que par la traction des UI complexes en Javascript), mais le domaine n’est pas encore stabilisé.

En l’état, la seul recommendation sans risque est d’utiliser des grammaires pour déclarer ses APIs, et d’instrumenter son code (log, erreurs, métriques).

Persister les conteneurs

2016-11-28T09:34:00+01:00

Isoler

Les conteneurs permettent d’isoler les ressources utilisées par des services, et avec un peu de discipline, offrent la promesse d’utiliser au mieux un groupe de machines.

Distribuer

Distribuer des services est maintenant un classique, pour ne pas dire un prérequis. Par contre, il faut ensuite assumer; surdimensionner pour assurer quelques pics devient rapidement un problème de place, mais surtout de puissance électrique.

La distribution permet d’avoir plus de ressources à disposition, mais aussi d’assurer plus de résilience, en proposant plusieurs instances de chaque service, capable de prendre le relai en cas d’incident, ou tout simplement de démarrer un nouveau service sans états, pour remplacer un autre défaillant.

L’élastique dans le nuage

Le cloud nous promet cette élasticité, mais la taille efficace d’une machine virtuelle est bien trop grosse pour un découpage propre, alors que le conteneur a lui, la taille et la mobilité requise.

Les ressources nécessaires fournies par la machine aux services sont le classique triplet : processeur, mémoire, stockage. Triplet que sait bien border un conteneur. En faisant attention à avoir du code immuable et versionné, il est possible d’avoir plusieurs instances d’un même conteneur, sur une ou plusieurs machines. Mobilité et ubiquité que sait bien gérer un conteneur.

Orchestrer l’utilisation des ressources

Il est possible de gérer un ensemble de conteneurs, avec un nombre d’instances fluctuant.

Pouvoir optimiser cette fluctuation permet de dépasser le taux ridicule d’utilisation de la plupart des datacenters : 15%. Une gestion efficace des ressources est l’arme secrète de Google, Borg. Enfin, l’une des armes secrètes.

Le principe est simple : on met à disposition un ensemble de ressources, on commande ensuite des ressources, et un planning est établi. Des outils sont mis à disposition permettant la coordination ou la découverte de services, qui, couplés à des proxyies, permet la mise à disposition publique des services.

Google a publié, sur le tard (une dizaine d’année après sa mise en place), leur approche avec de la gestion de cluster avec Borg. Ils insistent beaucoup sur la différence entre les tâches longues (qui ne doivent pas s’arrêter), et les taches éphémères (sensibles aux latences).

Mesos a été une des premières implémentations libres de planification de ressources, mais il vise gros, et propose de généraliser ce que proposait le YARN de Hadoop. Si vous ne comptez pas vos ressources en rack ou en datacenter, il faut chercher autre chose.

Des choses comme Nomad (le sage), Swarm (le tonitruant), ou Kubernetes (le conquérant).

Ces outils sont utilisables sur une poignée de serveur, et en se basant sur des serveurs dédiés, ou des clouds frustres, il est possible d’être bien moins cher que des clouds toutes options.

Persister

La partie pénible dans l’usage des clusters est la persistance, distribuer le travail n’est finalement pas si complexe : le loadbalancing naïf est la première étape, avant de passer à de la parallélisation et au fameux map-reduce.

Le stockage dans un environnement distribué est un problème de cohérence, latence, et de débit.

Il n’existe pas de réponse absolue, mais un ensemble de choix et de tuning. Le théorème du CAP résume cet ensemble de contraintes, et l’obligation d’en choisir deux parmi les trois lettres Consistency, Availabiliy et Partition tolerance.

Le cas du conteneur

Docker (et rkt) proposent gentiment d’emballer une application, pour pouvoir la versionner, et la déployer simplement. Une généralisation du WAR de Java, quoi. Le prérequis est d’avoir une application en lecture seule. Il est ensuite possible de monter des volumes au sein des conteneurs, pour proposer des dossiers en lecture/écriture. Sauf que ces volumes montés n’apportent ni l’ubiquité, ni la distribution, et seront liés à un serveur. Un conteneur permet d’abstraire et de généraliser plein de choses, mais pas la persistance. Pour un système distribué, c’est ballot.

Qui est le responsable du stockage?

Première décision, la persistance est-elle de la responsabilité du système d’exploitation l’application ?

Disques distants

Le moyen le plus simple pour déporter le stockage est d’utiliser un disque distant. Ce disque pourra être démonté puis remonté sur un autre serveur, il est mobile, mais n’existera qu’en un seul exemplaire. Pour peu que le serveur propose des instantanés, il sera possible d’avoir du COW, et de monter des réplicats du disque sur d’autres noeuds.

Tous les clouds proposent un service de ce genre, avec de l’iSCSI par exemple. Openstack fournit une liste indigeste des disques qu’il peut utiliser en mode bloc. Il est possible de redonder ce genre de disque, côté client, avec un simple RAID, ou côté serveur, avec de la magie, si c’est un SAN.

Il n’existe pas grand-chose en libre comme serveur iSCSI. Il existe le vénérable NBD, et le plus récent xNBD, prévu initialement pour du netboot. Coreos bosse sur Torus, un serveur NBD distribué, utilisable dans quelques années?.

Le Graal étant le rdb de Ceph (qui a rejoint le giron de RedHat), montable en NBD ou en Fuse. OVH propose maintenant du Ceph as a service.

Pour les aventuriers, il existe des systèmes de fichiers distribués(OCFS2 d’Oracle, GFS2 de Red Hat… ), permettant l’ubiquité d’un même disque monté sur plusieurs serveurs. En dehors du calcul scientifique, on trouve peu d’exemples d’usage de cette approche. Pour garantir la cohérence des données, un serveur de verrou est utilisé, garantissant des problèmes de performance pour les écritures concourantes.

Il existe des abstractions exposant une API unique vers diverses implémentations, comme Flocker ou Cinder.

Fichiers distants

Le partage en mode fichier permet un accès à distance, mais aussi multiple, à un ensemble de fichiers. NFS et Samba, que seul Azure préconise en sont les exemples les plus classiques.

Le partage de fichier est fort pratique, mais, pour assurer des performances correctes, certains raccourcis sont pris : une partie des engagements requis pour un système de fichier UNIX ne sont plus assumés.

Toutes les bases de données dédient une page de la documentation pour promettre d’atroces souffrances à qui osera mélanger NFS et base de donnée : Postgres et NFS, Cassandra et NFS

L’architecture de NFS commence à dater, et ce n’est pas un, mais un ensemble de services qui sont utilisés, pas forcément prévu pour un environnement hostile comme l’est le cloud. NFS ne prévoit rien pour la distribution du stockage.

Les serveurs NAS haute dispo, comme celui proposé par OVH, sont souvent des baies de disques connectés en optique avec deux serveurs, l’un ou l’autre serveur pourra utiliser la baie, du RAID assurera la redondance des disques, une double alimentation, la redondance d’énergie, mais en cas d’incident sur la baie, bah, pas de bol, vous avez perdu.

Des implémentations propriétaires, comme l’EFS d’Amazon permettent d’avoir de la redondance et de la distribution.

Pour les acharnés du partage en mode fichier, il existe le tant redouté GlusterFS, récemment racheté par RedHat. La prochaine version majeur, GlusterFS 4 sera d’ailleurs en Go et utilisera Etcd. On voit son nom apparaitre de temps en temps, comme l’offre un poil daté d’Acquia.

L’incontournable Ceph propose aussi un partage en mode fichier, mais cette option semble un peu boudé, c’est pour le mode bloc qu’il est réputé. Gitlab l’utilise pour son offre SAAS mais ils ont souffert de la non-homogénéité des IO des clouds publiques, et sont passé à du bare metal.

Objets distants

Assurer un stockage distribué, aussi à l’aise en lecture qu’en écriture, sans corrompre les données, fut une des premières questions que Google dut résoudre, et surtout la première révélation des secrets de Google. Le white paper sur le Google File System fut publié en 2003. Il servit de base à la création du HDFS du projet Hadoop.

Le principe est simple, les fichiers sont immuables, mais versionnés. Il n’est pas possible de modifier un fichier existant, on va en créer une nouvelle version, et par défaut, on lira la dernière version disponible.

Le premier service d’AWS, au-delà de la simple VM, fut un service de persistance distribué, S3. Le Dynamo paper expliquant la notion d’anneau virtuelle pour une architecture sans maître avec de la redondance, fut publié en 2007.

Pour S3, les fichiers sont immuables, versionnés, redondés, accessibles directement en HTTP.

Aucun cloud digne de ce nom n’ose sortir sans proposer un clone plus ou moins compatible de S3.

Tous les frameworks webs décents sont maintenant capables de gérer les uploads sur des stockage objets, avec des bibliothèques comme CarrierWave ou paperclip.

Toutes les bases de données savent (ou devraient savoir) maintenant faire des snapshots dans des stockages à la S3.

Swift

Le clone de référence est Swift d’OpenStack. Son architecture est extrêmement simple, à la limite du naïf, en python très classique. Ils ont une excellente réputation sur la qualité de leur API, et la fidélité avec l’API du S3 d’AWS.

Riak-S2

Il existe aussi le moins connu Riak-S2, une surcouche au Riak de Basho, libéré il y a quelque temps. C’est une architecture Erlang contemporaine, au code particulièrement pédagogique et étonnamment lisible, compte tenu de la complexité du bestiau.

LeoFS

Pour les fans d’Erlang, il y a aussi LeoFS. Par contre, je ne sais pas trop qui l’utilise en dehors de Rakuten, leur sponsor.

Minio

En ce moment est en train d’émerger Minio, il propose une belle UI Web, mais surtout un serveur, en Go, ce qui change du Java et de l’Erlang.

Son accueil enthousiaste vient du fait qu’il scale bien à un. Ce serveur est utilisable sur un seul serveur, et son image Docker juste marche.

Il gère tellement bien un seul serveur que la version distribuée n’est pas encore finie.

Par contre, il est capable de gérer une grappe de disque, et d’assurer de la redondance avec le code de Reed-Solomon, utilisé par le système RAID pour les disques, et vulgarisé dans un article par Backblaze, le plus grandiose des entasseurs de disques durs. En gérant eux même la parité, plutôt que la délégué à du RAID comme tout le monde, ils peuvent réparer objet par objet, et pas par volume.

RADOS Gateway, de Ceph

Le dernier, et pas des moindres, est RADOS Gateway de Ceph. Ceph met à disposition sa solution de stockage RADOS, sous les trois approches : blocs/fichiers/objets.

Base de données

Le stockage objet met un pied dans le plat. Il casse la compatibilité du système de fichier UNIX, pour proposer quelque chose de plus adapté aux environnements distribués. Du coup, l’application continue d’écrire sur un disque local (les essais de stockage sans FS d’Oracle ou Mysql ont fait un flop), mais vont se charger de la distribution avec réplication, répartition, cohérence, réparation…

Avoir une application distribuée, correctement implémentée est difficile. Le projet Jepsen propose un framework d’analyse et publie ses analyses de différentes versions d’applications. Le résultat des analyses est souvent “call me maybe”, et il y a ensuite des corrections de l’application autopsiée.

Base de données relationnelle

Les bases de données relationnelles sont toutes capables de gérer de la réplication, en utilisant le très classique modèle maître-esclave. Postgresql a quand même attendu la version 9 pour proposer ça en natif, sans passer par un produit tiers.

Pour répartir les données sur plusieurs machines, il faut passer par du sharding, ce qui va poser des problèmes pour faire des jointures sur des données dispersées. Le sharding est traditionnellement applicatif, et fonctionne mieux sur des données bien isolées, comme des utilisateurs, par exemple.

Citusdata propose d’améliorer Postgresql en lui mettant à disposition :

un stockage orienté colonne
du sharding avec Citus
un moteur de requêtes distribuées
des approximations statistiques pour des calculs massifs

Les conteneurs adorent les applications sans états, indifférenciées. Ce qui est l’opposé des bases de données relationnelles.

Multi-maître

Pour ne pas avoir à gérer la différence maitre/esclave, et la complexité de la promotion de maître à esclave, puis de créer un nouvel esclave, il est possible d’utiliser de la réplication multi maître.

Postgres sait maintenant faire ça avec BDR.

Mysql propose des outils similaires, comme Galera et proxysql, ou des trucs plus emballé comme XtraDB Cluster de Percona.

Ces outils sont sympathiques, mais rien de prévu pour pour pouvoir redimensionner simplement.

Pourtant, des solutions propriétaires existent, comme Aurora d’Amazon, basé sur Mysql, avec de gros efforts pour conserver la compatibilité et disponible dans leur offre RDS, ou le mystérieux F1 de Google, reservé à AdWords.

Le modèle relationnel n’est juste pas prévu pour fonctionner de manière distribuée, mais de gros efforts sont faits pour, par contre, les applications vont devoir faire des compromis pour s’adapter. En posant un Wordpress sur un Cloud, on ne pourra pas s’attendre à de miracle.

Je fait bien la différence entre le modèle relationnel et le SQL, le langage, qui lui peut parfaitement être distribué. Des outils comme Drill de la fondation Apache, Presto de Facebook ou même Spark SQL.

Base de données NoSQL

Les bases NoSQL ont été inventées pour remettre en cause le dogme relationnel.

Bon, elles ont ensuite fournis baucoup d’efforts pour s’en rapprocher, le SQL restant une lingua franca pour explorer des données, et pouvoir se brancher dessus en JDBC/ODBC est toujours appréciable.

Le NoSQL a aussi été conçu pour pouvoir profiter d’un hébergement distribué.

Le monde du NoSQL est tout récent, Darwin n’a pas eu le temps de faire le tri pour trouver ses champions. Voici une sélection arbitraire de bases de données, qui fonctionnent à des tailles raisonnables. La partie élection, pour avoir une archi sans maître, peut être plus ou moins laborieuse.

La première chose que va sacrifier une base NoSQL est la notion de transaction.

Mongodb est la plus visible des bases NoSQL, et avant la version 3 et le stockage Tiger, est plutôt pénible à administrer. Le pattern de distribution est classique, un système d’élection pour avoir un master, et un proxy qui va assurer le routage vers le bon serveur. La distribution du travail se fait avec du classique map-reduce.

Cassandra est une base de données orientée colonnes, avec un presque SQL, le CQL, sans jointures ni sous-requêtes, mais avec du map-reduce. Créé par Facebook pour manger du log, il fut ensuite confié à la fondation Apache, pour passer à autre chose : Presto et Hbase, et une autre stack pour avaler leurs logs. Cassandra, même s’il est civilisé, reste une base conçue et dimensionnée pour du big data.

Scylladb est un clone C++, agressif et ambitieux de Cassandra, mettant un point d’honneur à saturer des réseaux 10Go, le kernel, les CPUs et des disques NVMe tout en conservant la compatibilité avec Cassandra.

Elasticsearch est une base orientée documents, distribués, avec des beaux index et une interface REST. Initialement conçu pour la recherche full text, il a évolué vers les calculs d’agrégations, et poursuit vers le machage de logs. Elasticsearch est parfaitement à l’aise avec les principes de distribution et de réplication, tout en restant crédible à partir de 2 noeuds.

Le stockage se distribue bien, se réplique bien, mais se bouge mal

Les containers sont tout à fait capables d’assurer la persistance, locale ou sur du partage en mode blocs. Par contre, les orchestrateurs ont bien envie de rééquilibrer le cluster en déplaçant les containers dans tous les sens. C’est tout à fait légitime pour des containers sans états, un contre sens pour du stockage.

Il faut alors revenir aux vieux principes décrits par Borg et Hadoop : les données sont fixes, les process peuvent bouger.

Les orchestrateurs sont maintenant capables de faire attention à ne pas déplacer les données, pour pouvoir profiter pleinement des performances locales.

Le stockage local est le plus performant, le mode bloc offre une simplification et un confort appréciable, le mode objet permet une pérennité incomparable et un scaling sans trop de limites, le mode fichier n’a plus sa place dans un environnement web.

Le phénomène Docker expliqué aux adorateurs de la Terre plate

2016-10-17T09:20:00+02:00

Si vous aimez jouer au buzzword bingo, vous avez bien remarqué que Docker est un mot compte triple. Vous allez l’adorer, le détester, ou adorer le détester. Comment un machin si récent peu déclencher autant d’engouement ? Pourquoi les gros du cloud (abrégé en GDC) se prosternent devant lui, ou monte une équipe pour lui casser les genoux et lui rappeler sa place?

TL;DR

Une architecture web est composée d’un ensemble de services, ensemble que l’on doit pouvoir utiliser à différents endroits, du poste de dev, à l’intégration continue, et finalement les serveurs de prod, en un ou plusieurs exemplaires.

S’abstraire du matériel

Avant de râler que s’était mieux avant, mieux vaut le définir, ce avant, histoire de parler de la même chose.

Les machines virtuelles

Les machines virtuelles n’ont jamais été qu’un mensonge. Qemu propose vraiment de la virtualisation, lui. Il isole complètement l’OS invité de la machine, et ce, à la vitesse d’une tortue qui a trop mangé de poutine.

Tous les outils utilisables de virtualisation (KVM, Xen, Virtualbox, hypervisor… ) sont en fait de la paravirtualisation, le kernel invité est adapté à ce que fournit son hôte, et s’appuie sur des fonctions spécifiques du processeur. Il est d’ailleurs impossible de virtualiser de la virtualisation en mélangeant des technos.

Le vrai mensonge n’est pas là, mais dans le “Rien n’a changé, tout est comme avant, un serveur virtuel s’utilise comme un serveur physique, c’est kifkif”.

Même si l’accès à la RAM sera dédié, le processeur sera partagé ou alors gâché avec de l’épinglage (du pinning, quoi). Dans tous les cas, les cartes réseau et disques durs seront partagées. La tragique conséquence est le classique phénomène du voisin bruyant.

De faux drivers permettent d’accéder de manière isolée à des fonctions du matériel, comme l’horloge ou le générateur d’aléatoire. Mais les vrais paranoïaques n’ont pas de voisins (allez lire la doc de SecureDrop).

Autre partage pénible, les IPs, que l’on doit soit router (niveau 4 ou 7) caché derrière un LAN, soit gaspiller de l’IPv4, bientôt plus rare qu’un panda en liberté.

Mais au fait, pourquoi virtualiser ?

La réponse est simple, on virtualise pour isoler.

Isolation qui permet de

limiter la portée des bêtises (erreurs ou agressions)
mélanger des versions d’OS et d’avoir des cycles de mises à jour indépendants, voir même utiliser différents OS, pour les plus créatifs
installer des logiciels ou des bibliothèques dans des versions non compatibles
ne pas mélanger les pommes et les oranges, aka co-tenant
garantir une répartition plutôt équitable des ressources

Tout ça permet donc d’entasser plein de choses sur un même serveur, on parle alors de densification.

Ces entités isolées, abstraites de la couche matérielle peuvent être manipulées :

redimensionnement (RAM, CPU, Disques)
déplacement d’une machine à l’autre, pour rééquilibrer, ou mettre à jour le matériel
snapshot et restauration
Jouer à jour/nuit avec des cycles de vie courts, pour faire des tests, des benchmarks, des essais
Ajouter de la puissance pour tenir la charge d’un évènement, comme un passage à la télévision
Lancer des lots violents de calculs, de manière ponctuelle

Les limites de la virtualisation des machines

Les machines des développeurs

Il est complexe d’amener les machines virtuelles sur les postes des développeurs, et super pénible de gérer une grappe de serveur. Ça reste lent, ça bouffe des tonnes de RAM, le partage de fichier pour une édition local est mou des genoux, le watch de fichier ne marchera pas forcément. C’est ballot, tous les OS proposent maintenant de la virtualisation de série, bhyve dépote sur Mac, mais, étonnement je n’ai jamais vu de dév Linux utiliser KVM.

Rebelote pour faire des tests fonctionnels ou même unitaires utilisant un service (comme une base de données), avec en prime des surprises comme ah tiens, Xen ne veut pas de Virtualbox.

Vagrant est un excellent outil pour systématiser la mise en place de machines virtuelles. De toute façon, il est ridicule de travailler directement avec Virtualbox (ou l’un de ses concurrents), et même criminel si l’on travaille à plusieurs sur un même projet. Entendons-nous bien, je suis un grand fan de Vagrant, mais il est au top, il n’y aura rien après, Otto, son successeur a été sabordé.

Vouloir simplifier la stack du développeur en ne travaillant qu’avec des services directement installés en local a rapidement montré ses limites. Le temps de setup est énorme, la bascule d’un projet à l’autre est souvent la garantie d’écraser des données, et la flemme du commun va empêcher d’utiliser des outils qui sauvent le monde comme Redis ou Elasticsearch. De toute façon, qui utilise le même OS que le serveur cible sur sa machine locale? Une Debian stable en poste client?

La taille des tranches de virtualisation

La virtualisation fonctionne bien, et est très largement utilisée, mais elle a un ticket d’entrée, avec moins de 2 coeurs et 2 Go de RAM, ce n’est plus une VM, mais un jouet (AWS appelle ça T2, pour flatter). Dédier une machine pour des services peu gourmands, reviens vite hors de prix, sans compter la place disque occupé par l’OS (et l’application) sur la machine physique si l’on n’a pas de système de COW, qui reste complexe à mettre en place.

Du coup, on se rabat sur le classique entassage sur une même machine, mais avec quelle garantie d’isolation (sécurité et ressource)?

Même si la haute dispo est heureusement réservée à des applications très spécifiques (brrrr, des gros mots comme HAlinux, drdb, heartbeat, pacemaker…), il est maintenant classique d’avoir des applications distribuées. Une base de données répliquée en master/slave est courante, un Elasticsearch est malheureux tout seul. Pour pouvoir espérer tenir un pic de charge, il faut tout simplement que l’application métier puisse être déployée sur plusieurs serveurs.

La notion de services

Les architectures actuelles sont de plus en plus riches. L’indétrônable LAMP, qui a permis à Wordpress de conquérir le monde est maintenant détrôné.

On garde le classique service de persistance (la base de données, quoi), le service applicatif, puis un service pour stocker des fichiers (FS local, ~~GlusterFS~~, un S3 like), mais aussi un service de mémoire partagé (Memcache, Redis…) pour gérer le cache, les sessions, les évènements. Pour travailler avec des timeout décents, on va utiliser un service de taches asynchrones (~~cron avec wget~~, Sidekiq/Celery/Beanstalk…). De la recherche full text avec ~~Solr~~ Elasticsearch. Un machin pour gérer les websockets par ce que son langage chéri est bien incapable de gérer de l’asynchrone, Un petit Logstash pour manger les logs, un Sentry pour les erreurs, un Statsd pour les compteurs de performances, un Cuttlefish pour les mails transactionnels, un Pootle pour les traductions… Et là, je ne parle que de services Open Source que l’on peut déployer, et pas des services en ligne, les fameux SAAS.

La décrépitude du système

Server rots

— Ori

L’entropie mange le monde, c’est comme ça, et c’est prouvé par Pr Ian Malcom dans Jurassic Park : ce n’est qu’une question de temps, mais ça va partir en sucette.

Au fil du temps, son petit serveur d’amour, nommé en suivant un champ lexical spécifique, installé avec amour et inspiration, va commencer à sortir du champ de rationalité, il va continuer de fonctionner, bien sûr, mais il y aura des changements subtils, des innovations, des corrections sauvages, mais, promis, temporaires. Et au bout de suffisamment de temps, il va devenir un snow flake, unique et inreproductible comme un flocon de neige. Plus on entasse de choses, plus on bataille pour prolonger une version d’OS dépassé, plus le décollage sera rapide.

La seule solution est d’avoir un système immuable, construit de manière reproductible avec une recette, en précisant les quelques dossiers capables d’écrire, pour assurer la persistance.

Et Docker dans tout ça ?

L’isolation par la virtualisation est couteuse, et il n’y a aucun intérêt à avoir un système complet pour accueillir un service.

Il faut revenir à quelque chose de simple, de très UNIX en fait : demander au kernel d’isoler des process.

Chroot existe depuis toujours, et cgroups a été initialement conçu par Google il y a maintenant 10 ans.

Rajoutez à ça un système de fichiers en oignon, comme AUFS, pour mutualiser la place occupé sur le disque dur et avoir des mises à jour tranche par tranche.

Pour répondre à la ribambelle de questions que je viens d’énumérer, la conteneurisation apporte une réponse différente (et potentiellement complémentaire) à la virtualisation.

LXC

Petit incident de parcours, ces éléments ont été utilisés pour construire LXC (wouaaais) le chantre du Fat Container (Oooooohhhh). Plutôt que de travailler avec des process, comme tout le monde, LXC a trouvé très malin de singer un système complet, avec un init et une grappe de process, vous savez, “comme avant”. Pour parfaire le tout, LXC est livré avec une stack réseau en DIY (démerde-toi, en VF). Ubuntu a bien essayé de sauver les meubles avec son LXD, mais non. La simulation d’OS que propose LXC est très différente d’un OS même virtualisé. Faire des tests fonctionnels dans LXC en espérant que ça ressemblera à la cible, non LXC, est la garantie d’un drame. De toute façon, LXC, avant LXD est trop pénible à mettre en place pour du dev/test. Et LXD, ça veut dire Ubuntu, et du coup, grosse flemme de lui laisser une seconde chance. Surtout que LXD ne remet pas en cause le fat container, et la concurrence, elle, fonctionne.

Docker, qui avant d’être un projet libre, a utilisé TOUTES les technos de contenurisaton disponible sous Linux, une à une. Au moment de sa libération, Docker était une surcouche à LXC. En utilisant dans un vrai cadre ces outils (avec des tonnes de clients et des brouettes de devs dédiés), Docker a vraiment utilisé LXC, qui n’était qu’un gadget un peu reloud. Ca a permis de trouver plein d’horreurs dans le code du kernel, et les corrections qui ont suivis ont abouti au mythique 3.11, la première version offrant de la conteneurisation décente. LXC a été jeté au profit de bibliothèques maisons, en Go, qui utilise des fonctions avancées du kernel.

Docker

Donc, première révélation aux haters : Docker n’existe pas. Docker se contente d’utiliser des fonctions du kernel, sans le patcher, et d’autres outils bas niveau pour proposer une solution cohérente de conteneur. D’autres outils proposent leurs propres solutions de conteneurisation en utilisant les mêmes briques de bases.

De toute façon, Docker n’existe pas, ce n’est qu’une API basée sur runc, l’implémentation officielle de l’Open Container Initiative (crée grâce à la saine polémique lancée par Rkt).

Donc, pour ceux qui ne suivent pas, Docker, c’est un process lancé dans un chroot avec le kernel isole ou partage un maximum de choses.

La conquête

Docker a choisi une stratégie bottom top. Sa première cible a été les développeurs, les postes clients. Je ne sais pas si c’était leur stratégie, mais clairement, leurs premières victimes ont été des développeurs.

Docker propose une api CLI élégante, une API REST logique, et surtout une très bonne documentation, des évangélistes de prestiges, comme Petazzoni ou Jess Frazelle (qui bosse maintenant chez Mesos).

Immuable

Une image n’a pas vocation à conserver ses données modifiées. Pour ça, il y a les volumes, des dossiers en RW qui existe hors du container.

Les images sont définies par couches, et si l’on suit la tendance actuelle, la première couche sera une debian stable, commune à toutes les images.

Il est possible d’avoir plusieurs instances d’une même image dans sa grappe de machine.

Les réglages spécifiques à une instance doivent passer par des variables d’environnements, et non les classiques fichiers de conf.

Tous ces points (une image immuable, configurée depuis l’extérieur, avec quelques dossiers explicites qui assureront un stockage non volatile), permettent de conserver une même image pour les tests d’intégration, préprod, et enfin la production, limitant au maximum le drame des tests qui passent dans un environnement, mais pas dans un autre.

La recette Dockerfile

Docker permet un système simple de recette, Dockerfile, pour construire ses propres images, et le Hub pour aller piocher dans un catalogue. Bon, on y trouve tout et n’importe quoi dans ce hub et il est sage de se contenter des repos officiels. Ces images publiques sont fort pratiques pour du dev, plus polémique pour de la prod.

On ne met pas à jour une image, on la reconstruit. Voilà, contre l’entropie, la reconstruction.

L’approche en pelures d’oignons du filesystem permet de profiter d’un cache tacite. Pratique, mais pas suffisant, il y a actuellement du travail qui est fait pour améliorer le cache, sans affaiblir la sécurité.

Dockerfile est la solution par défaut pour construire une image, mais il est possible de se débrouiller autrement.

Le multi OS

Pour achever les dernières poches de résistance, Docker, qui fonctionnait déjà très bien sur Mac dans un Virtualbox (merci l’archi client/serveur) a développé la première appli connue utilisant la toute fraiche API de virtualisation de MacOS (basé sur un produit FreeBSD). Même effort coté Windows, mais c’est un monde que je ne fréquente pas.

La composition de Docker-Compose

Docker a clairement dit que le fat container était une mauvaise idée (voir le troll de Phusion), et vante l’approche “service par conteneur”. Pour une application complète, il faut donc plusieurs conteneurs, configurés, décrits simplement dans une recette. C’est ce que propose Docker-Compose.

Docker à distance

Docker est basé sur une architecture client/serveur, qui utilise une socket UNIX, ou une authentification par certificats. Il est donc possible de laisser son docker client causait avec un docker daemon, distant.

C’est ce que propose Docker-machine, qui permet d’utiliser de la virtualisation ou du Cloud.

Tous les gros du Cloud proposent une offre spécifique à Docker, qui, en proposant une abstraction pour distribuer des services, met à mal le côté captif des différents Cloud.

Docker en cluster

Une fois son application bien rangée en petit conteneur, il est tentant de la distribué sur plusieurs serveurs, voir même d’avoir quelque chose de mouvant, que ce soit pour accompagner une montée en charge, ou pour survivre à une panne d’un des serveurs.

C’est ici que ce positionne Docker-Swarm, mais aussi Kubernetes, Nomad, Mesos.

Docker-swarm propose d’utiliser la même API pour gérer un ou plusieurs serveurs, et de laisser un algo se débrouiller pour répartir les services et élire des masters des services, si besoin.

Avec sa dernière release, Docker a mis le bazar en allant s’attaquer aux offres d’hébergements distribués. Par ce que bon, humilier LXC ou Vagrant, tout le monde s’en fout un peu, par contre, s’attaquer à de vrais produits qui génèrent de vrais sous, comme Kubernetes, c’est une autre histoire. Surtout que cette version 1.11 semble avoir été sorti un peu vite, sans trop se soucier de réutiliser des choses existantes.

Ce qui marche avec Docker

Docker, sur un poste de dev, c’est un nouveau dans une équipe qui peut commencer à bosser dans 1h, avec Vagrant, il fallait compter 1 jour.

Pour l’intégration continue, Docker est pour l’instant sans concurrence, surtout que l’on n’a pas à simuler ce que va utiliser le dev, mais on va prendre la même configuration.

Docker est un fan de 12 Factor, il permet de déclarer simplement comment lancer un service, et se chargera des logs et de son cycle de vie.

Pour compiler, et encore plus avec des outils trop récents (Golang, je pense à toi), ou des trucs qui veulent installer des tonnes de paquets en *-dev, Docker est magique, on monte le dossier courant comme volume de travail, et paf, ce qui se fait là bas, atterrit ici.

Pour les instances à la demande, comme ce que permettent les notebook de Jupyter, il est tentant d’utiliser des images contenant tout le bazar (les scientifiques n’ont pas la même notion de packaging que les développeurs).

Pour installer une application composée de plusieurs services (tout ce qui est à peine plus complexe que phpmyadmin, quoi), la mettre à jour, puis la bazarder, Docker a peu de concurrents.

Ce qui n’est pas sec

Docker a décidé de se friter avec Systemd, c’est une querelle de personnes, mais aussi une concurrence. Mais bon, j’en cause dans un autre billet: Quis custodiet ipsos custodes?.

Par grosse flemme, Docker a décidé de ne pas gérer de compatibilité ascendante entre son client et son serveur. Quand on est sur la machine où se trouve le daemon, ce n’est pas grave, c’est le même paquet, à distance, ou pour les APIs tiers, c’est une autre histoire.

Pour la gestion de plusieurs machines, c’est actuellement la bataille, avec Google qui a envie de mettre en valeur son propre Cloud qui permet d’avoir le Kubernetes le plus beau du monde. Nomad et Mesos visent les très gros trucs, et Docker ne veut rien lâcher de sa conquête de l’Univers, et pour cela, il est prêt à aller trop vite.

Les APIs peuvent changer brutalement et potentiellement tout défoncer les produits tiers.

Ce qui est de la mauvaise foi

Docker c’est pourri par ce qu’on ne peut pas mettre à jour openssl

Une image est immuable, et ne dois pas être mise à jour sur place. Il faut donc une nouvelle image de l’application. Avec le système de couches, il suffit de repartir d’une image système à jour, et de redéployer.

Le souci est le même pour tout ce qui est compilation (hors bibliothèque partagé), et donc Java, Scala, Golang… Même drame pour les frameworks.

La réponse à ça est le baking.

De manière générale, il est assez criminel de demander à un dev de pousser une image depuis son poste de travail. Il est nettement plus sage d’utiliser de l’intégration continue, et donc d’avoir un combo build+test automatisé, pour redéclencher la création d’une nouvelle image.

De toute façon, un apt-get upgrade ne marche qu’un temps (sur deux versions d’OS, grosso modo), et même les langages (PHP, je te vois!) ne sont pas maintenus jusqu’à la fin des temps.

Avec les architectures distribuées, vous allez vous retrouver avec un service frontal qui va assurer le proxy/routage des services. Le classique Nginx/HAproxy/Traefik/Caddy/… qui va bien, et qui va affronter Internet, faisant rempart de son corps devant l’application. Ce proxy HTTP pourra être mis à jour, indépendamment du cycle de vie de l’application.

La mise à jour d’openSSL sera nécessaire pour dans la grande majorité des cas à une utilisation client, pas serveur. Mais en parlant de ça, savez-vous si l’application va accepter des réglages débiles (comme le fit Ruby), ne pas vérifier la concordance entre le nom du serveur, et le nom du certificat (comme le fit Python), si le pinning et la révocation sont gérés?

Je ne veux pas sur mon infra une image qui sort du cul d’Internet

Clairement, c’est une bête idée de lancer un binaire sans un minimum de crédibilité. Coup de bol, une image polie doit être fournie avec son Dockerfile, et donc, de fait, ses sources permettant de la construire.

Ce problème est de plus en plus générique. Qui a envie de recompiler Elasticsearch après avoir relu le code, ou même MongoDB?

De toute façon, c’est celui qui construit qui répare. Un dev peut très bien bosser avec une image “postgres:9.4” sur son poste de travail, mais rien ne vous oblige à la déployer. Son service a besoin d’un service Postgres dans la version 9.4, bah, coïncidence, c’est la version packagé Debian, et vous avez tuné avec amour sa conf et sa réplication. Si vous êtes de bonne humeur, vous pouvez même construire votre image Pg, basée sur “debian:stable”, avec les réglages que verront l’utilisateur. Image qui servira en dev, et pour le CI.

Docker, ce n’est pas secure

Oui, clairement, la surface d’attaque entre la virtualisation et la conteneurisation n’est pas comparable, ni leur maturité.

Par contre, il y a un souci pour la virtualisation qui va protéger l’hôte, et les autres VM, laissant libre ce qui se passe au sein de la VM. Visualisez un alien qui se faufile dans le véhicule blindé, ok, il aura du mal à sortir, mais pour les passagers, ce sera une autre affaire.

La taille minimale des VMs oblige à y déployer plusieurs services, la contamination de l’un d’entre eux pourra mettre en danger les autres.

Il y a deux réponses à ça.

En plus de l’isolation permise par Cgroups et les Namespaces, Docker permet d’utiliser simplement l’arsenal classique de Linux : Apparmor/SELinux, les capabilities et seccomp.

Apparmor est déployé par défaut sur Ubuntu (et est plaisant à utiliser), mais Seccomp est peu utilisé en dehors de Chromium. Docker est un évangéliste de ces technos soit ignorés, soit méprisés.

Seconde approche, mise en évidence par Rancher et CoreOS, utiliser la tactique de ceinture et bretelles, en mettant des containers dans des machines virtuelles (grâce à la délégation de droit que permet KVM). L’idée n’est pas d’avoir du un pour un, mais d’isoler les services critiques ou au moins de les séparer.

De toute façon, vous n’êtes pas tenu de faire du co-tenant sur vos serveurs.

Docker, ça tourne en root

Oui, c’est un poil reloud. Par contre, le root dans les images, c’est juste une histoire de flemme, et d’ailleurs Kubernetes refuse maintenant les images sans utilisateur dédié.

Pour l’hôte, c’est une limitation de Linux, qui bosse sur ce sujet, et une partie des outils sont déjà possibles sans privilège. Docker piaffe d’impatience d’avoir son outil qui puisse fonctionner sans root.

Juste pour le plaisir de dire du mal : ping a besoin du compte root, lui aussi.

Docker c’est pourri, je ne peux pas me connecter en SSH pour déboguer mon service

Ni pour y faire un apt-get upgrade, on a compris.

Un conteneur utilise les namespaces pour isoler son process hôte, mais il est tout à fait possible, lors de la création d’un conteneur d’utiliser les mêmes namespaces qu’un conteneur existant. On parle de side kick container (Robin qui vient déboguer Batman, quoi). Un conteneur peut ainsi stracer un autre.

Je vous invite à RTFM nsenter.

Je parle bien de conteneur en général, rien de tout ça est spécifique à Docker.

Docker, c’est pourri, ça veut scaler mes services en les clonants, faisant fi des threads

Non, ça, c’est une connerie des 12 factor. Heroku a la flemme de gérer les possibilités de scaling des différents serveurs webs, du coup, hop, la vérité c’est eux, ne vous occupez de rien, on n’a qu’à prendre le plus petit commun. Donc, dans la vraie vie, Docker sait passer les messages UNIX au process, et il se fiche de savoir si votre application fait du fork en COW (comme peut le faire Gunicorn), ou des threads. Rien de vous empeche d’avoir une grappe de process/thread web dans votre container, et quand vous aurez besoin de scaler, d’instancier une (ou plusieurs) grappe, un peu plus loin.

12 factor, qui ont le bon gout d’être pratique et lisible, reste quand même de la propagande post mortem d’Heroku.

Docker, c’est pourri, je ne peux pas sécuriser l’accés à mes services en utilisant des sockets UNIX

Bah, déjà, quand je mets mon Mysql d’un côté, et mon Wordpress de l’autre, je ne peux plus utiliser de sockets UNIX, pour gérer les droits. Pour ceux qui ne sont pas attentifs, mais les solutions de types Heroku sont encore pire, il n’y a pas de notion de VLAN privé, et du coup, tous les services non moisis proposent de l’authentification, même Memcached sait le faire, c’est dire.

Dans les gros boulets ouverts aux quatre vents, personnellement, je vois Statsd (avec son protocole UDP) et Elasticsearch, pour son gossip de cluster. Mais Docker ne vous a pas oublié, il propose un système de réseau extensible, pour créer des sous réseaux permettant de regrouper vos différents services. Pour le reste du monde, ça s’appelle Software Defined Network, et il existe plein d’implémentation libre. Le réseau virtuel est d’ailleurs actuellement ce qui fait la qualité d’un service Cloud (OVH, je te regarde).

Docker, c’est pourri, ça utilise Alpine qui utilise musl que c’est compatible avec rien

Une application à besoin d’un contexte : une arborescence Linux, et un kernel pour accéder au matériel.

Une Debian nue doit faire dans les 125Mo, pourquoi ne pas utiliser quelque chose de plus minimaliste, surtout avec les technos qui ont des traditions d’autarcisme (JVM, Erlang, Golang…)? Alpine Linux est une distribution qui a une approche “embarqué”, basée sur busybox et musl comme libC. 5Mo tout mouillé.

C’est rigolo à utiliser, jusqu’à ce qu’on essaye de compiler un truc non packagé, et que l’on tombe sur du code spécifique glibc. Une image Debian embarque clairement beaucoup trop de bazars pour lancer un seul service bien bordé. Mais bon, ça à le bon gout de marcher, on a la garantie qualité Debian™, et avec le système de couches, l’image de base sera commune à la plupart des images.

Pour l’instant, les images de base sont basées sur Debian, et c’est un choix excellent, ça limite au maximum les surprises de la couche basse, et permet de se concentrer sur le côté trop à jour de l’application.

Docker aime explorer des voies, mais bon, si Alpine vous chagrine, vous pouvez toujours tester Slackware, comme avant.

Dans tous les cas, rien ne vous oblige à utiliser une image que ne vous sentez pas, les Dockerfile sont tellement simples à hacker, ne vous privez pas.

Docker, c’est pourri pour de la prod

Il y a beaucoup de concurrents pour le concours de “pourri pour la prod”, hein. Docker avance couche par couche. L’étape prod distribué, par ce que prod sur un serveur, ce n’est pas non plus super complexe, est son chantier actuel. Docker Swarm est arrivé avec La release 1.12, et a fait hurler pas mal de personnes. Mais bon, on change d’échelle niveau complexité, et Raft, c’est quand même un gros morceaux. Allez demander aux devs de Etcd ou Consul.

Swarm a quand même l’audace de s’attaquer à Kubernetes, la version libre de l’outil interne de Saint Google, quand même.

Kubernetes builds upon 15 years of experience of running production workloads at Google, combined with best-of-breed ideas and practices from the community.

Voici l’argumentaire “take that, Batman” de Google pour ses conccurents.

Enfin bon, avoir un avis définitif sur un tel outil, sorti fin juillet, c’est un poil hatif. Il est possible d’utiliser Docker sans Swarm, promis!

Docker, c’est pourri

Imprimez des teeshirts et des stickers, c’est efficace avec les slogans.

Docker est opiniated, avance vite, et il fait beaucoup de bruit.

On peut lui reprocher plein de choses (avec des arguments), mais s’il n’y a qu’un seul argument à retenir pour le défendre : Docker est un produit opensource qui explore, code, explique et corrige. Et ça, que vous soyez utilisateur ou non de leur produit, c’est déjà super important.

La conteneurisation fait déjà partie de l’informatique moderne, il va falloir s’y faire.

GraphQL, repenser le modèle de données

2016-09-14T19:07:00+02:00

L’écosystème de React

Caché derrière son blockbuster React (accompagné de Relay), GraphQL est une rafraichissante invention de Facebook permettant de manipuler un modèle de donnée en passant par un petit tuyau. Ciblant clairement les applications smartphones (webs ou natives), GraphQL remet à plat tout un tas d’habitudes et de cargo cult. D’abord utilisé comme arme secrète, il est maintenant libéré, spécifié avec une implémentation de référence (en nodejs) et d’autres implémentations (se basant sur des frameworks largement utilisés).

React fait le choix de franchement basculer un maximum d’intelligence du serveur vers le client, donnant sciemment le pouvoir à JavaScript, le vrai, celui dans le navigateur web.

Les échanges clients/serveurs

Malgré ses velléités d’autonomies, le HTML5 reste massivement utilisé comme une plaisante interface utilisateur connectée en HTTP à un serveur, qui va garder la main sur les données, et coordonner les interactions des multiples clients.

REST

Exposer une API REST est l’approche la plus neutre et la plus ouverte pour mettre à disposition des données et des fonctions via le protocole HTTP.

Par contre, implémenter avec ses petites mains un client à partir d’une API REST est chronophage, fragile, pénible à faire évoluer, douloureux à tester.

Modèle

Les données, côté client sont manipulées sous forme d’objets, mais il faut voir comment faire correspondre le modèle local avec le modèle distant.

Le choix d’utiliser le même langage, entre le client et le serveur, permet de partager le modèle. Il est possible de choisir JavaScript, comme le fait Meteor, ou pire, de choisir un langage tiers, qui sera compilé en JavaScript, client et serveur, comme OPA.

Une variante de cette approche est de garder son langage de prédilection pour le serveur et de ne générer que la partie cliente, comme le presque oublié GWT.

Plutôt que de partir d’un langage spécifique pour définir son modèle, il est plus sage de passer par une grammaire agnostique pour définir modèles et fonctions qui sera moulinée dans différents langages. C’est que propose Swagger (renommé il y a peu OpenAPI, surcouche à REST. Il existe aussi RAML, qui semble avoir moins de soutiens.

Il existe aussi des grammaires neutres, non REST mais pouvant utiliser HTTP comme couche transport, comme Thrift et Protobuff avec son grpc qui vient de sortir en version 1.0, mais lié à la toute nouvelle version 2 d’HTTP.

Toutes ces technologies permettent d’accéder à des données en clef/valeur, ou à des fonctions. Il faut donc implémenter une fonction côté serveur, qui sera utilisé côté client, avec du coup un aller-retour demandant des compétences distinctes.

Réseau et latences

Le premier ennemi des réseaux mobiles est la latence, bien avant le débit. Pour limiter les temps de latence, il faut limiter le nombre de requêtes. Pour pallier aux problèmes de débit, il ne faut rapatrier que le nécessaire pour afficher la réponse. Google, avec HTTP/2 (version normalisée de son SPDY), propose de multiplexer la connexion, sur un canal bidirectionnel qui reste ouvert, permettant ainsi d’envoyer les données sous une forme permettant de les utiliser au fur et à mesure.

GraphQL

Pour optimiser la communication réseau, Facebook se contente de reprendre la tactique du SQL : utiliser un langage concis permettant de sélectionner ce que l’on souhaite, et de préciser les objets et attributs attendus en réponse.

Ce langage de requête est le GraphQL.

La requête est en GraphQL, un nouveau format texte, mais la réponse est classiquement en JSON.

La ressemblance de GraphQL avec SQL est faible, et c’est une bonne nouvelle : il est clairement impensable de confier la rédaction de SQL au client web, de plus, le modèle relationnel, intimement lié à SQL est loin d’être un modèle universel, déjà mis à mal par les ORM et le cache.

Le GraphQL permet de rapatrier une grappe d’objets, avec un peu de dynamisme, surtout pas d’effectuer des calculs sur des regroupements ou tout autres action complexes.

Modèle abstrait

Le GraphQL ne sera pas traité directement par une base de données. Il travaille sur un modèle abstrait et orienté graphe. Facebook est fasciné par les graphes, presque autant que Linkedin, et ça tombe bien, c’est un modèle que notre cerveau arrive bien à appréhender, mais qu’il est difficile d’implémenter autrement que tout en RAM.

L’abstraction du modèle laisse toute liberté aux choix d’implémentations. Des outils sont fournis pour exposer les objets d’un ORM s’appuyant sur le classique modèle relationnel, mais rien n’empêche d’utiliser d’autres modèles, fichier par exemple (MongoDB, Couchbase, Elasticsearch…), voir même les modèles hybrides que nous propose l’intégration de JSON dans Postgresql et plus récemment Mysql. Des outils tiers permettent de faire des serveurs GraphQL dans autre chose que du Javascript, et il faut reconnaitre que l’implémentation pour Python, Graphene, a une bonne tête.

Typage

GraphQL utilise du typage, qui permet de systématiser la validation, mais aussi de l’introspection.

Le typage permet de garantir la réponse attendue, mais il est suffisement souple pour permettre une évolution du serveur sans imposer la mise à jour du client. Fort pratique pour faire évoluer un service pour une nouvelle application sans pour autant casser une ancienne application utilisant le même service.

Il existe un éditeur en ligne, avec une interface sympathique, GraphiQL (notez le i, comme interactif).

Paramètres

Une simple astuce permet de révolutionner ce classique usage de graphes : les attributs acceptent des arguments nommés, il est donc possible d’ajouter du dynamisme (comme une recherche) ou plus simplement du paramétrage (comme une taille d’image).

GraphQL ne va pas utiliser le principe de REST, mais se contenter d’un seul point d’entrée HTTP, /graphql, mais va profiter de la session, avec donc une connaissance de l’utilisateur.

Mutations

Initialement conçu pour un accès lecture seul, GraphQL permet maintenant des mutations.

Requêter simplement

Avec GraphQL, le serveur se contente de gérer le modèle (avec la garantie de cohérence, les droits, la persistance), avec du code métier, des middlewares, tout ce genre de bonnes choses.

Le client pourra librement composer à partir de ces données.

Par dessus, vous pouvez ajouter Relay et React, pour profiter de l’écosystème officiel. Mais vous pouvez utiliser d’autres choses, sans même vous limiter à JavaScript (il suffit de savoir lire du JSON sur de l’HTTP).

Quis custodiet ipsos custodes?

2016-09-01T20:00:00+02:00

Mais qui gardera ces gardiens ?

Où il sera question de Linux, de processus, de conteneurs et de choses gravitant autour.

Processus et daemon

Un serveur regroupe des process, et le premier d’entre eux, celui avec le pid 1 a la responsabilité de lancer tous les autres lors du démarrage.

Certains sont des daemons, des programmes qui tournent en tache de fond, sans interaction directe. Un daemon a la responsabilité d’abandonner ses privilèges, de changer d’utilisateur et de racine (chroot), de causer dans un journal, de noter son PID, et de se détacher, de que décrit si bien Zed Shaw dans Lust.

Init

Historiquement, le rôle d’init est dévolu à init.d, qui accuse méchamment le poids de son âge.

Son principe, finalement simpliste alors qu’il se prétendait simple, est que chaque service est lancé par un script shell, en répondant à quelques commandes : start, stop, status, restart, reload.

Dans les faits, les efforts de l’application sont laborieux, et la qualité de ces scripts est variable pour des applications packagés par le système. Pour des applications métiers, la qualité est tout simplement atroce. Le shell n’a tout simplement pas les commandes nécessaires, et le nébuleux start-stop-daemon est une punition à débuguer.

Il y a eut un peu de tuning, comme le passage de bash à dash pour grappiller du temps, et des efforts de parallélisation. Rien qui n’a pu sauver un init.d finalement en phase terminale.

Superviseur

Des tentatives laborieuses ont été explorées, côté utilisateur, comme daemontools ou supervisor. Ces bricolages permettent de se passer de la danse du daemon, et de se contenter de lancer directement l’application, l’emballage se chargeant du reste. Deux drames UNIX ont perturbé cette volonté de simplification :

Pour utiliser des ports réseaux < 1024, il faut être root, par ce que.
Un utilisateur ne peut pas changer d’utilisateur, ça, c’est du plus facile à justifier. Mais si vous pouvez utiliser un superviseur, qui tourne avec l’utilisateur root, paf, vous pouvez lancer des commandes en son nom.

L’idée du superviseur n’a jamais été traitée complètement, et ces outils inaboutis finiront par vous mordre, tôt ou tard. Supervisor, le meilleur des produits disponibles, dépend de bibliothèques mortes depuis des années, impose des rechargements par grappe, et utilise des actions bien séquentielles.

Pourtant, le Procfile, un simple format déclaratif, est devenus un standard de fait, et est maintenant sanctifié par les 12 facteurs , par le chapitre VI précisément.

Au-delà de chroot

Pour limiter la possibilité de faire des bêtises, un serveur doit avoir un utilisateur, un chroot si on est poli, et … c’est à peu près tout, une limitation sur le nombre de fichiers ouvert? Depuis peu, d’autres possibilités de restrictions sont apparues, comme Apparmor/SELinux, les cgroups, les namespaces, seccomp, les capabilities … Plein de très belles choses permettant de cloisonner proprement les applications. Techniquement, c’est à l’application de gérer tout ça, ou presque, seules les cgroups sont faciles à manipuler depuis l’extérieur.

Plutôt que d’espérer vainement que les applications gèrent proprement toutes ces fonctionnalités, il est nettement plus efficace de reprendre l’idée simpliste des superviseurs, et d’emballer chaque process.

Cette approche, qui sépare l’application de l’isolation de son contexte, permet d’auditer simplement la sécurité, et d’avoir des politiques systématiques. LMCTFY, “Laisse-moi contenariser ça pour toi”, comme on disait chez Google, pionnier de cette approche.

Il suffit de rajouter un système de fichier par couche pour avoir un chroot propre qui prends peu de place, et voilà, vous avez un système de conteneur.

La collision avec Systemd

Parallèlement avec l’apparition des outils systèmes permettant la création des containers est arrivé Systemd, le nouvel init standard pour Linux.

Après quelques concurrents timides à init.d, Systemd a débarqué avec son gros bulldozeur, en choisissant de remettre à plat la fonction d’init, en incluant la supervision et moult fonctions liées. Avec une diplomatie brutale, peu de respect pour les dogmes, et une grande ambition, Systemd est arrivé à se faire haïr comme peu de logiciels avant. En plus, il est promu (et développé) par Red Hat.

Mais bon, les réécritures timides d’init.d n’avait aucune chance, Upstart s’étant vautré, il ne restait plus beaucoup d’alternatives. L’apparition du Cloud a forcé le destin, par ce qu’il consomme énormément d’init, et annihile le culte incompréhensible du dieu uptime. Il est indispensable d’avoir des cycles de start/stop avec les dépendances qui vont bien, rapides et prévisibles.

Debian a sifflé la fin de la récré en incluant systemd malgré le peu d’enthousiasme de ses mainteneurs, suivi par Ubuntu qui a ainsi acté la mort du pénible Upstart.

Le choc avec Docker

Systemd a débloqué plein de choses, mais il a renâclé sur la notion de conteneur, son nspawn étant officiellement un jouet “for debugging, testing and building”. C’est ballot.

Docker a démontré que les outils systèmes étaient valide pour créer des conteneurs, sans suivre la fausse bonne idée qu’est LXC.

Docker, grisé par son succès pense qu’il va être le prochain init, et qu’il faut une guerre ouverte avec Systemd. “Je dis non à tout patch spécifique à systemd” voilà la signature de Jess Frazelle, core dev charismatique et influente, sur son étiquette pour une conférence Dockercon. D’ailleurs, elle qualifie Systemd de 🍑

Forcé à faire des concessions par les applications s’utilisant (ou son concurrent, Rkt), Docker a été contraint d’écrire des specs, Open Containers,plutôt que de tout défoncer à chaque release majeur. Fair-play, ils ont créé une implémentation de référence, runc, qu’ils utilisent maintenant comme couche basse pour leur outil (depuis la 1.11).

Systemd, surtout dans sa version Debian stable (Jessie, donc) n’implémente pas toutes les possibilités d’isolation du kernel Linux, mais collabore très bien avec runc, qui est par concept peu intrusif et plus facile à mettre à jour.

Le déplacement du conflit

Systemd et Docker sont en fait très proche : ils permettent de manipuler des process sur un serveur.

La notion d’application, qui n’a jamais vraiment été autonome est maintenant remplacé par une composition de services. Il est primordial que cette composition soit la même en dev, en test, en préprod et en production.

Autre grande évolution conceptuelle, la notion de serveurs, qu’ils soient virtuels ou “bare metal”, est en train de fondre. Pour pouvoir prolonger la densification, utiliser toujours plus de ressources, et profiter de la fluidité du Cloud, il ne faut plus lier les process à un serveur. Une application est composée d’une arborescence de services. Il y a maintenant un pool de ressources qui seront alloués par un orchestrateur, responsable de palier au crash des serveurs, et de recâbler les services entre eux, de manière dynamique.

Docker est le standard de fait pour la conteneurisation. Docker-Compose est bien placé pour la description de compositions, et Docker, dans sa version 1.12 a décidé de s’attaquer à la couche suivante, avec Docker-Swarm, ce qui a fait hurler tous les produits positionnés sur cette couche-là, la seule permettant de proposer des produits financièrement viables. Docker s’est attaqué ainsi à Kubernetes, du dieu Google, avec un produit mal fini.

Entre cet affront, le clash avec Systemd, le refus de se brimer en suivant des specs, de stabiliser son cycle de vie, des drames de harcèlement moral en interne et surtout l’importance que représente cette nouvelle étape dans le développement informatique, il va y avoir un drame.

Comme un fork.

Golang le bouleverseur

2016-01-25T22:25:00+01:00

Évolution et disruption

C’est dur de traduire le mot anglais “disruption”. Boulversement semble être le terme le plus approprié.

Le progrès, l’évolution, n’est absolument pas linéaire, de temps en temps, plutôt que la douce pente des améliorations, on monte une marche, d’un coup.

Golang fait partie des éléments “bouleverseurs” de l’informatique.

Les trois couches

En informatique, sur la table basse du hardware, on pose un gros gâteau multicouche : le logiciel. Tout en bas, la couche du noyau, tout en haut, la couche applicative. Au milieu, quelque chose de plus indistinct, la couche de middleware (intergiciel selon l’Office québécois de la langue française), les bases de données et les services non-métier.

Dans cette couche, on peut par exemple ranger les proxy, les brokers, les compteurs de métriques, les serveurs de cache/noms/temps… Tout ce qu’il faut pour relier les différentes parties applicatives qui, ensemble, forment une application.

On trouve dans cette catégorie des applications vénérables, éprouvées, indispensables, mais aussi très rigides. Déjà, corriger un bug, puis le maintenir en attendant qu’il passe upstream, peu de personnes peuvent se le permettre, alors écrire un plugin pour mettre du code métier en C …

Au-delà du C

Le C est sacré. Il a été créé pour inventer UNIX, et c’est la plus fine couche possible au-dessus de l’assembleur. Les seules limites sont donc le matériel (via le kernel), et des détails, comme la responsabilité de gérer la mémoire qui est à la charge du développeur.

On se retrouve donc avec les pleins pouvoirs, mais les temps de développement explosent. La vélocité (le ratio fonctionnalité/temps de développement) est un des gros problèmes du C.

Avec des gros processeurs (qui ne coute pas cher) et des petits temps de dev (qui coute cher), le C est hors de prix.

Il faut donc aller voir ailleurs : les surcouches, les langages spécialisés (mais compilés), ou les langages de scripts (mais génériques).

Le scripting

Les langages de scripting ont une vélocité inégalable, mais le surcout en RAM et CPU est loin d’être négligeable, tout comme sa tradition pénible de ne pas savoir utiliser correctement les threads. La réponse officielle pour les soucis de performances est un mensonge : si c’est mou, tu n’as qu’à recodé la partie qui grippe en C. Double mensonge.

La plupart des blocages sont dus à des problèmes d’IO que seul l’asynchrone peut sauver. OK, le SSD peut aider. Viennent ensuite les problèmes de CPU : le surcout de l’interprétation (qui peut être compensé par de la compilation Just In Time) et la parallélisation (faire bosser plusieurs coeurs de son processeur).

Optimiser en C

Le C permet d’utiliser très efficacement son processeur, mais la parallélisation et l’asynchrone ne seront pas offertes en cadeau. Pour appeler simplement du C depuis un autre langage, il existe depuis longtemps des outils génériques : SWIG ou FFI, une API C, et de la transcompilation, mais le mélange reste douloureux et ne facilitera pas la maintenance.

Dans tous les cas, imaginer qu’un bon scripteur fera du bon C est complètement farfelu.

Intégrer du scripting dans du code C (le contraire, donc), est faisable, mais obtenir de bonnes performances peut être complexe, il n’y a qu’à voir les performances de Postgresql avec ses procédures stockées exotiques.

Il existe des solutions hybrides, basées sur Numpy par exemple, qui émergent pour gérer efficacement des aller-retour entre le scripting et le C : Ibis et MonetDB. Mais ce sont des réponses super spécialisées.

Lua

Lua a été le premier a chambouler la frontière entre C est le reste du monde. Conçu pour gérer des configurations complexes d’une application en C en utilisant un modèle de mémoire similaire pour pouvoir partager des variables, il est aussi un langage de scripting plus décent que bien d’autres. Interprèté, simple et minimaliste, avec un JIT efficace, Lua est le chouchou des dév C pour embarquer du code métier.

Il y a en ce moment une vague de logiciels intégrant Lua pour définir le comportement métier :

Torch l’utilise pour faire du calcul scientifique (avec la possibilité d’utiliser le GPU)
Un patch Nginx (packagé Debian, c’est dire sa popularité) existe
Haproxy l’aura dans sa prochaine version stable
Haka sniff son réseau, Nmap le réseau des autres
Sysdig surveille le système d’exploitation avec ses chisels
Redis et ses procédures stockées. Notons la présence d’un dévermineur spécifique
…

Bref ça fonctionne, et bien.

Mais, il y a un mais. Débuguer et tester du lua embarqué peut rapidement devenir apocalyptique. Comprendre le workflow du code en C pour y intercaler ses bouts de scripts n’est pas évident, et il ne sera pas possible d’aller au-delà de ce qu’expose l’application hôte.

Javascript

Javascript a un indéniable côté universel et il propose maintenant de bonnes performances grâce au JIT et ses Arrays spécialisés. Nodejs l’a définitivement rendu crédible hors du browser, mais il est dur de trouver des applications embarquant du Javascript.

Electron est un framework javascript pour créer des applications pour le “desktop”, Javascript y est l’hôte, et non l’invité.
Nginx a du créer son propre interpréteur Javascript : nginScript car les usages prévus par V8 ou Gecko sont trop spécialisés.

Comme langage autonome, Node a surpris tout le monde en démontrant l’efficacité de l’approche asynchrone et la maturité des interpréteurs Javascripts modernes. Par contre, il n’a rien réglé sur la confusion du code et la fiabilité en production. Node a effectué un débroussaillage salutaire, mais sans arriver à atteindre un niveau de sérieux suffisant. Il faut voir ce que va apporter ES6, mais il reste encore beaucoup de travail.

Golang

Conçu pour remplacer le C++ moche, Golang a, contre toutes attentes, été massivement adopté par les scripteurs (python, ruby…) lassés du code linéaire, mou et imprévisible que permet leurs langages pourtant si véloces.

Golang a des partis pris un peu abrupts :

Golang n’invente rien, n’amène aucun nouveau concept. Pas de modèle objet complexe ni même d’exceptions. Quelqu’un sachant déjà coder ne sera pas perdu en découvrant Golang.
Golang est compilé. Le typage est fort, et même le style de syntaxe est imposé.
Golang ressemble à du scripting, la syntaxe est expressive, la compilation rapide, il n’y a pas de gestion de mémoire grâce au ramasse-miette, les bibliothèques systèmes sont généreuses.
La parallélisation et l’asynchrone sont prévus dés le départ.
Golang utilise les types et les structs du C, appeler du code C est triviale avec cgo.

Avec ces choix et ces contraintes, Golang permet de développer efficacement des applications à tous les niveaux du gateau logiciel : des couches basses (comme le fameux Docker), des applications distribuées, des bases de données, du middleware, des applications métiers.

Golang fait sauter la distinction entre le code système et le code métier.

Malgré l’absence de modules dynamiques et de generics, Golang fournit des bibliothèques de grande qualitées : beaucoup d’applications Golang ne sont en fait que des gros frameworks permettant de composer une application, et pas simplement la configurer.

Ces deux derniers points sont tout simplement une révolution.

Avant, les gens se contentaient de tricoter avec des outils existants, où s’arrêtait en route, faute d’outils.

La fin de la loi de Moore, la maturité du cloud et de la virtualisation, les exigences de résiliance, tout pousse les applications à travailler en environement distribué. Ce type d’environnement amène avec lui son lot de complexité, qui nécessite des bibliothèques robustes, et plus seulement des services fiables.

Java a bien prouvé qu’il était possible de cloner les outils révélés par Google (MapReduce, BigTable, Chubby, Borg, Dremel…), mais voilà, Java, quoi. Le ticket d’entrée est élevé, que ce soit en compétence technique et en nombre de serveurs. C’est rentable pour du big data, qui nécessite déjà des machines par palettes entières, mais c’est rapidement impressionnant pour des applications distribuées plus classiques. Les gros fournisseurs de clouds fournissent certains des ses outils, mais comme service, en mode boite noire, la vengeance du logiciel propriétaire contre l’hégémonie de Linux.

Golang a montré que l’on pouvait créer ces outils de coordinations, simplement, et de manière composable, pour ensuite créer des applications distribuées. Cette zone floue entre bibliothèque et service semble impossible en C/C++, un problème de packaging, de divergence d’approche. C’est dommage, des applications distribuées existent, comme les bases de données ScyllaDB, RethinkDB, Aerospike …

Ces applications sont prometteuses, mais sont développés en autarcie, pas moyen d’en recomposer simplement de nouvelles à partir du travail existant.

De son côté Golang propose des briques de base permettant d’agir sur l’ensemble de la stack.

Les bibliothèques de Golang permettent un accès complet aux couches basses, mais le réseau est sa grande force, il gère différents protocoles réseau, au-delà de l’inévitable HTTP : http2, ssh, tls, dns… ce qui permet d’agir à chacune des étapes du protocole. Des outils complémentaires permettent de simplifier l’utilisation de protocoles classiques, comme oxy pour créer des proxy http, yamux pour multiplexer des connexions TCP.

D’autres bibliothèques réseaux, elles, fournissent des outils de haut niveau, comme la coordination sans maitre : raft (Paxos étant jugé trop complexe) ou la communication par potin (gossip) : serf, ou le déverrouillage par double clef : red october.

Par dessus sont construit des outils réseaux de haut niveau : Vulcand, etcd, Consul…

Il faut être honnête et reconnaitre que l’écosystème Java fournit des outils similaires avec Zoo keeper, Akka, Netty, Hystrix, Zuul…, mais on est clairement à une autre échelle, et Java est une famille envahissante.

Golang profite d’une bienveillante neutralité, faisant fi des guerres des langages historiques.

Jusqu’à présent, il y avait une séparation claire entre langages système et langage métier. Cette frontière est fortement remise en cause avec Golang, et je suis curieux de voir ce que va pouvoir apporter Rust dans cette zone intermédiaire.

Fighting with EventMachine

2015-06-16T21:41:00+02:00

Here is one of my old post (late 2011) from dev.af83.com about EventMachine, when I worked with ruby. TL;DR without futures/promises or fibers async languages are doomed.

If it’s your first night with EventMachine, you have to fight.

EventMachine in a nutshell

EventMachine is an implementation of the reactor pattern. It’s not Twisted, nor Node, nor Erlang. It follows the Ruby way, hence you have to follow the EventMachine way.

The event-loop pattern is now mainstream

The event-loop pattern is quite simple. The actions are no more systematically sequential. It’s not thread-based: there is only one thread for the event-loop, therefore execution is still sequential. This enforce a unique context, accessing variables is still atomic (no concurrency).

Classical asynchronous actions are waiting actions, such as IOs (network or disk access). This makes long-lived actions (CPU intensive) to jam the flow. Async actions are detached from the flow, and a callback is called when it finished. If you don’t take care, you will have stairs of block (one for each callback) and troubles for handling errors, the now infamous callback spaghetti.

The EventMachine way

EventMachine.run do
  http = EventMachine::HttpRequest.new("http://google.com").get
  http.callback do
    puts "got a response"
    puts http.response
    EventMachine.stop
  end
  puts "too early"
end

The first block handles the reactor, the second one is the callback.

What if I want to fetch more than one url?

EventMachine.run do
  google = EventMachine::HttpRequest.new("http://google.com").get
  google.callback do
    puts google.response
    yahoo  = EventMachine::HttpRequest.new("http://yahoo.com").get
    yahoo.callback do
      puts yahoo.response
      EventMachine.stop
    end
  end
end

As the event-loop pattern forces you to nest callbacks, you’re building an infinite staircase. It also makes actions sequential, but you may don’t want google to answer before yahoo. You also had to add one level of indentation per url.

A workaround is to handle it by hand:

EventMachine.run do
  urls = %w{ google.com yahoo.com}
  finished = urls.length
  responses = urls.map do |url|
    response = EventMachine::HttpRequest.new("http://#{url}").get
    response.callback do
      finished -= 1
      if finished == 0
        puts responses.map{|response| response.response }
        EventMachine.stop
      end
    end
    response
  end
end

Don’t you love flashbacks in movies? This way, url fetches are parallel, and you’ve even get a callback when all actions are finished.

EventMachine provides a helper for such common patterns:

EventMachine.run do
  urls = %w{ google.com yahoo.com}
  EventMachine::Iterator.new(urls, urls.length).map(
    proc do |url, iter|
      http = EventMachine::HttpRequest.new("http://#{url}").get
      http.callback { iter.return http.response }
    end,
    proc do |responses|
      puts responses
      EventMachine.stop
    end
  )
end

It is the official way, but IMO it turned out not as elegant as it could have been. The first Proc handles the iterations and return the response, the second Proc is the finished callback.

Em-http-request provides a specific object for doing batch jobs in a simpler form:

EventMachine.run do
  multi = EventMachine::MultiRequest.new
  multi.add(:google, EventMachine::HttpRequest.new("http://google.com").get)
  multi.add(:yahoo, EventMachine::HttpRequest.new("http://yahoo.com").get)
  multi.callback do
    puts multi.responses[:callback]
    puts multi.responses[:errback]
    EventMachine.stop
  end
end

Short, elegant, and specific, isn’t it? As nobody cares about the specific requests’ callbacks, they are out. The response is deferrable and MultiRequest collects the spreaded responses. You don’t have to handle parallel or sequential multi-actions in your own API. It’s really a job for EventMachine (or Synchrony)!

The mysterious Deferrable behavior

As seen above, an async action returns a deferrable response, which is a mysterious object bound a callback. Why not a classical Proc? Why not a quick and dirty DefaultDeferrable as you may have seen in EM’s doc?

The callback is just a trigger, it is not responsible for giving the answer back: the deferrable object is the answer.

But Deferrable is a complex answer, providing a state, two (actual) triggers, a success callback and a error callback; and an optional timeout.

In this pattern, an async function returns a response immediately (a Deferrable one), but the actual value of the response will be available later. Think of it as a closed box that will open itself, later on.

Using API functions with a block is just a syntactic sugar, but don’t forget to provide both a callback and an errorback, and more importantly, you must return a Deferrable.

Example of an API based on EventMachine

Let’s take a simple example: airports are required to freely give weather information (no authentication layer to handle). So here is the first weather webservice I found in Google. It’s PHP-based on the server side, response serialization is done the oldschool way, but it’s free indeed and it just works.

class Weather
  include EventMachine::Deferrable
  attr_reader :code, :date, :temp, :humidity, :wind_speed

  def _feed(code, raw)
    rough = raw.split('#')
    @code = code
    @date, @temp, @humidity, @wind_speed = rough[0..3]
  end

  def to_s
    "#{@code} temp=#{@temp} humidity=#{@humidity} wind_speed=#{@wind_speed}>"
  end
end

def meteo(icao, &block)
  response = Weather.new
  response.callback(&block) if block_given?
  http = EventMachine::HttpRequest.new("http://stationmeteo.meteorologic.net/metar/your-metar.php?type=mes&icao=#{icao}").get
  http.errback do |error|
    response.fail :system, error
  end
  http.callback do
    response._feed icao, http.response
    response.succeed response #giving itself as first argument give the choice to how handle answer
  end
  response
end

And now an example with EventMachine’s iterator:

EventMachine.run do
  # Airport of Lyon, Paris and Marseille; US airports don't seems to work.
  EventMachine::Iterator.new(%w{LFRS LFLL LFML}, 3).map(
    proc do |airport, iter|
      meteo airport do |score|
        iter.return score
      end
    end,
    proc do |scores|
      puts scores
      EM.stop
    end
  )
end

Fiber, or the hidden-threaded way

It can be funny to fight with callback in daemon project, at least for some time. But it may come a time when you just yearn for sequential programming. Still you want to use this cool framework wich uses EventMachine to handle lots of parallels connections. How would you do then?

You could strive to parrallelize a few requests, but most of the time, you just want to be able to describe your needs in a sequential fashion, everywhere.

Fiber, shipped with Ruby 1.9, is the answer. A Fiber waits for the response, for you, pausing the execution in the middle of a flat code chunk using #yield and resuming execution at any time with #resume. We are using Synchrony here:

alias :ameteo :meteo

def meteo(icao)
  f = Fiber.current
  conn = ameteo icao
  conn.callback { |resp| f.resume(resp) }
  conn.errback { |*errors| f.resume(*errors) }
  Fiber.yield
end

Usage is straightforward:

EventMachine.synchrony do
  puts meteo "LFRS"
  puts meteo "LFML"
  EventMachine.stop
end

Sequential actions are now, well, sequential. Revolutionary.

In order to transform you previously async methods into a Fiber-aware one, you may prefix the method with a (as in async), then wraps it within a fiber which will be resumed in the callbacks. It can be made systematic, have a look of how Synchrony monkey patches common libraries.

You could also explicitly ask for parallel actions, using an async variant of your code.

EventMachine.synchrony do
  responses = EventMachine::Synchrony::Iterator.new(%w{LFRS LFLL LFML}, 3).map do |airport, iter|
    ameteo airport do |response|
      iter.return response
    end
  end
  puts responses
  EventMachine.stop
end

EventMachine.synchrony do
  multi = EventMachine::Synchrony::Multi.new
  multi.add :satolas, ameteo("LFRS")
  multi.add :paris, ameteo("LFLL")
  responses = multi.perform.responses[:callback].values
  puts responses
  EventMachine.stop
end

Microservices : orchestrer, chorégraphier, visualiser et isoler

2015-05-27T00:15:00+02:00

Microservices

Le principe du microservce est simple : une application est composé de différents petits services, fortement découplés, et orientés métier. Ces services communiquent entre eux pour composer une application. L’application, naturellement distribuée, gagne en souplesse et en robustesse, l’utilisation des ressources est optimisée, les évolutions (changements et croissance) sont simplifiées.

Les microservices sont une nouvelle étape dans les architectures serveurs. Créées en opposition aux applications monolithiques, les microservices utilisent pleinement les possibilités du Cloud computing et des conteneurs. Théorisés et mis en place par de très gros sites (Netflix, Twitter, Google …), les nouvelles abstractions, et les outils adéquats, qu’apportent les microservices sont maintenant utilisables par tout le monde.

Tout cela a bien sûr un coût : l’application est plus complexe, plus dure à tester et la gestion des latences devient une priorité. La robustesse n’existe que si les clients font l’effort d’implémenter une stratégie de tolérance aux pannes (refaire un appel échoué sur un nouveau noeud, gèrer les timeouts…).

Routage

Le point central de ce type d’application reste le routage, comme pour les classiques sites web.

Par contre, cette notion de routage est généralisée. Le traitement peut-être synchrone ou asynchrone, séquentiel ou parallèle, unitaire ou par lot, avec un ou plusieurs essais, ou un mix de tout ça.

Ces différentes approches existent actuellement de manière dispersée, avec le routage des applications webs, les services web, et les workers asynchrones avec ses files d’attente.

Une notion formelle de RPC peut être utilisé (thrift, finagle…) mais une simple sérialisation (JSON, msgpack, protobuff…) avec du classique REST, ou un serveur de message (AMQP, NSQ, Redis…) fonctionne tout aussi bien.

L’abstraction de message, bien connu dans le protocole HTTP, permet d’enrichir, de restreindre, de sécuriser, d’organiser, de compresser, de surveiller les échanges de messages indépendamment de leur contenu et de manière transparente pour l’application. Des outils classiques et éprouvés comme HAproxy ou Nginx ont tout à fait leur place dans le nouveau monde des microservices.

Dynamisme

Le découplage et la communication par message permettent de distribuer simplement les services (en faisant varier le nombre d’instances d’un même service). De manière similaire un service crashé peut être remplacé sans heurt. Les mises à jour peuvent être roulantes, ou même atomiques en refusant les nouvelles requêtes, attendant la fin de requêtes en cours, avant de basculer le routage sur la nouvelle version du service. Des choses plus complexes, comme du A/B testing sont réalisable simplement.

Le routage peut facilement devenir dynamique et même réactif, utilisant le concept de découvertes de service.

Pour garantir un tant soit peu de cohérence, il est possible d’utiliser un coordinateur comme le tant redouté ZooKeeper, ou une de ses alternatives comme Etcd ou Serf.

Des outils de plus haut niveau se basent sur ces outils, comme consul, fleet, vulcan ou Eureka.

Crée à l’origine comme base clef/valeur distribuée pour mettre à disposition une configuration pour un cluster, les produits ont évolué pour proposer du pub/sub (les clients intéressés sont prévenus d’un changement de clef et déclenche une action), puis du DNS (en exposant les valeurs de la base) et même du monitoring (la disparition d’un service devient un évènement, qui sera traité).

Un nouvel antagonisme apparait avec le routage dynamique : le choix entre l’orchestration et la chorégraphie. L’orchestration déclare les différentes routes de manière explicite, la chorégraphie donne des instructions pour ensuite laisser les différents éléments se débrouiller.

Pour valider la résilience de l’approche “chorégraphie”, il existe le mythique Chaos Monkey, que seuls les plus braves osent l’utiliser en production.

Inspecter

Un service peut être composé d’un ou plusieurs services, eux-mêmes composés de services. Le client discutant avec une façade, il ne connait (ni se soucis) de l’implémentation du service. Cette approche aide au découplage des différents services, mais rend plus complexes le débug et l’optimisation des différentes latences.

Comme à chaque fois, la réponse à été donnée par Google il y a quelque temps (en 2010), sous la forme d’un white paper : Dapper. Comme souvent, une implémentation en Java en est faite, par Twitter, cette fois-ci : Zipkin. Zipkin vise gros et il prévoit de travailler avec le reste de l’écosystème Twitter. Il existe heureusement un clone plus léger, Appdash, avec un protocole simple et bien spécifié.

Prévu initialement pour mesurer les latences sans perturber le service (avec de l’échantillonnage léger, 1 sur 1024), ces outils de tracing permettent aussi de voir simplement ce qu’il se passe, de repérer ce qu’il est pertinent de paralléliser, d’aider à optimiser et dimensionner.

Google insiste sur la notion d’ubiquité dans Dapper et instrumente tout son code à partir de quelques bibliothèques clefs (gestion de thread, du réseau…).

Avec du monkeypatch ou des hooks, il n’est pas compliqué d’instrumenter des frameworks RPC comme Nameko : j’avais fait un prototype en monkeypatch, j’ai eu droit à un commentaire proposant une meilleure approche avec un hook élégant.

Il est aussi possible de faire de l’instrumentation en boite noire avec des outils comme Packet beat.

Visualiser

L’ensemble des services forme des réseaux analysables et visualisables par des outils classiques comme Networkx. Ces réseaux peuvent être décrits de manière explicite, par introspection, ou en surveillant (en échantillonant) la communication engendrée par l’application ou des tests.

Plus sportif, il est possible de simuler et de tester le coté dynamique des routes avec Spigo, prometteur, mais pour l’instant très lié à l’écosystème de Netflix.

Isoler

Le découpage permet aussi d’isoler les services, pour simplifier la prise en main par différentes équipes, pour déployer chacun à son rythme.

Mais le découpage permet aussi de compartimenter l’accés aux ressources, pour éviter qu’un incident sur un service entraine l’ensemble et finisse par faire tomber l’application.

Le terme technique est disjoncteur. En cas d’abus, on coupe tout de suite, avant que ça casse tout.

Concrètement, une utilisation fine des timeouts permet d’écourter pas mal de drames. Une allocation fixe des ressources permet de garantir que chaque service n’ira pas perturber son voisin. Les cgroups de Linux ont été conçues pour ça, et sont un des piliers de la conteneurisation. Contraindre les accès aux disques durs et au réseau sera plus un poil plus complexe que le CPU et la RAM. Pour limiter la portée des bêtises (volontaire ou non), apparmor est simple à mettre en place.

Il est possible d’automatiser entièrement la mise à disposition de ressources matérielles avec Mesos, mais le ticket d’entrée est conséquent, Swarm semble plus économe, mais reste encore très jeune.

Les outils de containerisation sont conçus pour restreindre l’utilisation des services, mais aussi pour mesurer leurs usages. Les outils de mesures sont en pleine effervescence, dispersés, mais cAdvisor propose un produit complet, se connectant sur Influxdb ou le très prometteur Prometheus.

La suite

Les microservices sont bien entendu un buzzword de plus, mais ils existent bel et bien. Pour l’instant peu formalisés, les microservices sont un ensemble de principe à suivre, pour généraliser et étendre l’architecture orientée service qui est actuellement la norme. Les ennemis des microservices sont clairement identifiés (le couplage fort, les applications monolithiques, les latences, les problèmes de montée en puissance…), les drames possibles le sont un peu moins.

Toutes innovations amènent avec elles une catastrophe potentielle. Les gens qui ont fabriqué le Titanic ont aussi inventé le naufrage à grande échelle. Il est donc important d’anticiper les drames potentiels pour ne pas se laisser surprendre, et de surveiller les erreurs que font les autres, pour éviter de les reproduire.

Un bac à sable pour Ruby

2015-04-13T20:00:00+02:00

Un bac à sable pour Ruby

Je ne sais plus trop comment cette histoire a commencé. Hum… une discussion engagée par un développeur de codepen.io sur la possibilité d’utiliser des Dockers jetables pour “rendre” des fichiers HAML.

HAML est un format de template pour Ruby très peu verbeux, basé sur l’indentation. Il permet, entre autres, de faire des choses dangereuses, comme insérer du ruby dans le gabarit. Cette option est débrayable, heureusement, mais cet outil n’a jamais été conçu dans une optique de sécurité, mais de rendre le développeur heureux. Comme tous les produits Ruby, en fait.

Proposer de rendre des fichiers HAML comme service web est donc dangereux, il ne doit pas être bien difficile de mettre le bazar en soumettant un HAML mal intentionné.

Dans l’absolu, je ne me sens pas super concerné par HAML, ni par les entrailles de Ruby. Mais le challenge est intéressant : proposer un bac à sable avec les outils modernes servant de base à la conteneurisation.

Depuis l’intérieur de ruby

Ruby est un langage interprété capable d’aller très loin dans les abstractions, les bidouilles et les astuces. Tout est permis, il n’y a aucune limite pour atteindre l’objectif sacré : “à la fin, le code est beau”, le but ultime du développeur Ruby.

Vouloir border l’exécution de code ruby est donc complètement utopiste, voire même insultant.

Il existe des outils liés à la sécurité dans Ruby, comme la variable $SAFE, mais ça semble être peu pratique, et remis en cause dans les prochaines versions de Ruby.

Il existe la gem shikashi qui permet de faire des eval avec des listes blanches, mais pour l’utiliser, il faudrait patcher le code de la gem `haml.

Il y a visiblement des choses à faire dans Ruby même, mais bon, je n’ai pas super envie d’aller farfouiller dans ses entrailles, ni même beaucoup d’espoir de pouvoir y trouver quelque chose de déterministe ou systématique.

Depuis l’extérieur de Ruby

Docker a réussi à démocratiser la conteneurisation sur Linux, et à amener de la visibilité sur le sujet, beaucoup de visibilité.

Seul bémol, les conteneurs de Docker ne sont pas pour l’instant prévus pour isoler du code potentiellement agressif. Une équipe a été montée pour travailler sur ce sujet, et RedHat s’y intéresse aussi.

L’isolation des process est confiée aux namespaces, une innovation apparue dans le kernel 3.8, il y a maintenant 2 ans, mais qui surtout est officiellement troués jusqu’à la version 3.14 du kernel. Pour rappel, Trusty, la version courante d’Ubuntu utilise un kernel 3.13.

Bien conscient du problème, Docker propose d’utiliser l’une des deux implémentations vedettes des LSM : Apparmor ou SELinux. Je n’ai pas eu l’occasion de me documenter sur SELinux, et Apparmor a le bon gout d’être installé par défaut sur Ubuntu depuis des années (et Debian le gère sans soucis). Pour l’instant, la documentation de Docker sur la sécurité est spartiate (les sources de libcontainer sont lisibles), et rien ne semble prévu pour demander à restreindre des accés à l’intérieur même du conteneur.

Github a réalisé un prototype pour emballer du Ruby générique dans un Docker : Hoosegow. Ils donnent tous les liens vers les informations disponibles, mais font le pari de confier la sécurité à Docker.

Découper en tranches

Docker, c’est beaucoup de Kernel, un peu d’API, et pas mal de choix d’organisation (type de réseaux, système de fichiers en oignons, chemin des Cgroups …). Pour la partie isolation/coercition, le rôle est confié aux Namespaces et aux Cgroups, le tout emballé par Apparmor. Les Namespaces sont officiellement troués. Deuxième soucis, Apparmor travaille avec des chemins complets, et Docker utilise un UUID au dernier moment, pour nommer le dossier racine du containers. Il y a donc un souci pour préparer le apparmor avant de pouvoir l’utiliser.

Docker fourni nsinit, un outil en ligne de commande pour coudre à la main des namespaces pour tailler sur mesure son propre conteneur. On ne peut pas tout à fait qualifier cet outil de grand public. Il m’a résisté. Je suis donc parti sur une solution simple, basée sur Apparmor et Cgroup, pour les Namespaces, on verra plus tard.

Isoler un service

La tactique est simple : isoler le code gérant le haml dans un serveur, et le mettre dans une boite qui interdit un maximum d’actions possibles :

La boite est en lecture seule, sans réseau IP, sans capabilites.
Seuls les fichiers nécessaires pour lancer le code ruby sont lisibles.
Le serveur va communiquer via une socket UNIX, seul élément accessible en écriture.
Le protocole n’utilise aucune sérialisation, juste des Pascal strings : une taille sur 4 octets, suivi du message.
Le client gère un timeout pour ne pas attendre un serveur bloqué.
Cgroup permet de limiter la mémoire, et la ration de CPU disponibles.

Bundler

Bundler est utilisé pour installer les bibliothèques nécessaires de manière propre et déterministe. Le serveur sera lancé avec un -I pour ne pas devoir embarquer tout bundler dans Apparmor : pas de bundle exec. L’application a un shebang et un chemin en dur : /opt/box/box pour permettre l’interception par le démon de Apparmor.

Apparmor

La règle Apparmor est créée en ajoutant les fichiers nécessaires un par un, jusqu’à ce que le serveur se lance, puis que le client puisse lui parler. C’est un peu laborieux, mais je suis moyennement convaincu par l’outillage actuel, avec l’activation d’un audit et surveillance automatique des logs. On parle de 50 lignes de serveurs utilisant 1 bibliothèque et de 40 lignes de clients, rien de comparable avec la moindre application Rails.

Eye

L’application bénéficie d’un superviseur, Eye,qui se charge de lancer et relancer le service en cas d’incident. Pour l’instant, seul le service est isolé par Apparmor.

Eye.config do
  logger '/var/log/sandbox/eye.log'
end

Eye.application 'sandbox' do
  working_dir '/var/run/box'
  trigger :flapping, times: 10, within: 1.minute, retry_in: 10.minutes
  stdall 'trash.log' # stdout,err logs for processes by default

  # eye daemonized process
  process :box do
    pid_file 'box.pid' # pid_path will be expanded with the working_dir
    start_command '/usr/bin/ruby -I /opt/box/vendor/bundle/ruby/1.9.1/gems/ /opt/box/box'
    daemonize true
  end
end

Cgroups

Un utilisateur est créé, pour profiter des droits UNIX classiques, et surtout pour pouvoir y accrocher des Cgroups. Il n’est pas nécessaire de dégainer des outils de haut niveau pour ça, Cgroups se configure avec de simples fichiers montés dans un point de montage de type cgroup.

Init.d

Le script init.d est laid comme tous les scripts init.d mais comme il est tombé en marche au bout de 10 minutes alors que la version upstart m’a résisté pendant tout le weekend, je ne critiquerai pas. L’abandon d’Upstart dans la prochaine version LTS d’Ubuntu est par contre une très bonne nouvelle. J’ai rarement vu un produit aussi pénible et incapable de dire où il a mal, puis qui se bloque au bout d’un moment, avec le reboot comme seule issue. La doc est pleine de promesses d’améliorations pour la prochaine release que personne ne verra jamais.

Le superviseur et le service tournent avec un utilisateur non privilégié lancé par un start-stop-daemon, init.d se charge de préparer le terrain puis d’attacher le service dans un cgroup.

do_pre_start()
{
    mkdir -p /run/box
    chown box /run/box

    mkdir -p /var/log/sandbox
    chown box /var/log/sandbox

    cgcreate -a box -t box -g memory,cpu:box
    # 25%
    echo 256 > /sys/fs/cgroup/cpu/box/cpu.shares
    # 32Mo
    echo 32000000 > /sys/fs/cgroup/memory/box/memory.limit_in_bytes

    mkdir -p /opt/box/.eye
    chown box /opt/box/.eye
}

do_post_start()
{
    sleep 3 # Yes, this is ugly, it should be a loop
    cgclassify -g memory,cpu:box `cat /run/box/box.pid`
}

On retrouve la logique de poupées gigognes (les matriochkas), avec une séparation claire des responsabilités. L’init crée le contexte puis lance un superviseur, qui lance un service dans un contexte rigoriste. Ruby n’est jamais lancé avec l’utilisateur root.

Je n’ai aucune idée du niveau de sécurité qu’amène cette suite de bonne pratique, mais on est clairement au-dessus de pas mal de sites web.

Améliorer

Par principe, il faudrait mettre la boite dans une boite de virtualisation, utiliser un kernel patché avec GRSec, ajouté du log (auditd et tcpspy ) vers une machine distante, et attendre un drame pour ensuite corriger.

Le code

Le code est disponible sur github, avec une jolie licence LGPL : Sandbox

L’échec de l’élastique comme un service

2015-04-05T19:35:00+02:00

L’échec de l’élastique comme un service (et son renouveau)

Le Cloud est élastique

Le Cloud n’a qu’une seule fonction intéressante : l’élasticité. Tout le reste n’est que blabla commercial ou confusion sémantique. Attention, je ne suis pas nostalgique du serveur cousu main, à l’ancienne. Les offres d’hébergement sont en constante évolution et mettent à disposition plein de belles choses, mais ce ne sera que rarement du Cloud.

La définition du Cloud est pourtant simple : Mise à disposition DYNAMIQUE de ressources via une API distante. Même Wikipedia le dit, enfin presque. Je peux commander des ressources, et les utiliser dans les minutes qui suivent, en demander plus, puis les diminuer un peu plus tard.

Ces ressources peuvent être matérielles (bien que virtualisées) comme de la puissance de calcul ou du stockage, mais aussi de plus haut niveau, des services.

Le Cloud sait mettre à disposition des ressources de bas niveaux : CPU, RAM, réseau, disque… depuis maintenant presque 10 ans, grâce à la virtualisation.

Mais la virtualisation est beaucoup plus à l’aise pour dimensionner une machine à froid. L’élasticité, ce serait pouvoir redimensionner certaines ressources à chaud, sans redémarrer. Techniquement, des choses sont faisables, mais il est très difficile de mettre à disposition un pool de ressources et de piocher dedans, l’unité de base reste la machine physique.

Il est beaucoup plus simple de travailler avec plusieurs machines (réelles ou non), et d’en ajouter ou d’en enlever, puis de demander à la partie applicative de gérer cette fluctuation en débranchant et rebranchant les différents éléments.

Le web est élastique

Le web se prête bien aux architectures distribuées dynamiques, avec son protocole sans état (en théorie).

La méthode immuable pour traiter les requêtes web est celle de l’aiguillage qui va demander le traitement de la demande a des workers. Les workers peuvent être des process ou des threads sur une même machine, eux-mêmes répartis sur plusieurs serveurs. HAproxy ou Nginx (plus faiblard), sont capable de répartir la charge entre plusieurs machines.

Le load-balancer devient une pièce maitresse des applications distribuées. Nginx évolue rapidement (principalement sur sa branche privatrice) pour reprendre sa place de proxy universelle, HAproxy va intégrer Lua, et des proxy applicatifs apparaissent, comme le maintenant historique Hipache ou le prometteur Vulcan.

Dire que le protocole HTTP est sans état est un mensonge, enfin, un raccourci. La notion de cookie puis celle de session sont apparues très vite, pour conserver l’état d’un client sur une période plus ou moins longue. Dans un environnement distribué, il faut pouvoir partager un état entre les workers, rôle traditionnel de Memcache, challengé par Redis.

De la même manière, il faut pouvoir gérer les uploads de fichiers de manière centralisée avec S3 et ses clones, ou le classique NFS.

Pour la persistance, les inébranlables bases de données relationnelles ont encore largement leur place, challengée par la vague du NoSQL, plus ou moins fiable, mais tellement plus adapté au redimensionnement.

Pour ceux qui ont encore faim, il est possible de gérer tout ça de manière dynamique.

Tout ça pour atteindre le Graal de l’élasticité.

Élastique comme un service

La complexité est quand même impressionnante pour un besoin que beaucoup de gens n’auront jamais.

Il y a eu une première vague de réponses pour simplifier l’accès à l’élastique : Google App Engine, puis Elastic Beanstalk.

Deux produits contraignants, qui, bien qu’utilisant des langages libres, enferment l’utilisateur dans une solution propriétaire.

Ces deux produits ont causé beaucoup de drames : des langages arbitrairement périmés, un environnement de dev ne ressemblant que très peu à la prod, des performances aléatoires, et surtout l’impossibilité d’utiliser des frameworks et des applications largement utilisées dans des environnements classiques. Une vraie catastrophe.

Et tout ça pour se faire siphonner sa carte bleue, si le site a la mauvaise idée de faire une belle audience. Le plafond de cout étant apparu sur le tard : “Attention, nous, on scale, mais pas ta carte bleue”.

Le conteneur est élastique

Donc l’approche bas-niveau ne suffit pas, et les approches de trop haut niveau sont encore pires. Il faut donc voir ce qui est faisable avec une approche plus modérée.

Les conteneurs, qui ne sont ni de la virtualisation, ni de l’applicatif, permettent d’embarquer une application avec tout ce dont elle a besoin, et de la lancer avec quelques paramètres dans un environnement maitrisé (accès aux ressources physiques, isolation). Le Cloud devient un simple pool de ressources dans lequel on va piocher en déployant ou déplaçant un conteneur là où il y a de la place.

Le conteneur peut être considéré comme immutable (en lecture seule), et il confiera ses besoins d’IO à des services réseau, ou à un point de montage avec un système de fichier. Le réseau est clairement plus souple, mais des systèmes de fichiers modernes permettent de faire de belles choses (comme ZFS avec le double push de Flocker).

On a donc une application tout ce qu’il y a de plus classique, en PHP, Python ou je ne sais quoi, qui va se retrouver sur un Linux en lecture seul (ou presque), et dont on va pouvoir multiplier les instances. Se passer du stockage local est intégré dans beaucoup de framework maintenant :

Pour le reste, il suffit de brancher une poignée de services (session, caches, base de données…) et avoir une première étape de scaling sans douleur.

La seconde étape arrive quand la base de données commence à crier, et il va falloir négocier pour aller au-delà du combo index/cache/tuning pour avancer. Mais bon, cette étape arrive lorsque l’on a un joli trafic, et il est toujours possible de négocier en force en ajoutant un esclave plus gros (plus de coeurs, plus de RAM, plus de SSD…), et de le promouvoir, pour faire du scaling vertical.

Scaler la couche applicative en utilisant des conteneurs est la voie dans laquelle s’engagent (à fond) les gros du Cloud, avec des solutions ouvertes ou non :

Kubernetes (Google)
ECS (Amazon)
Triton (Joyent)
Mesos (UC Berkeley et Twitter)
…

Kubernetes, qui a le bon gout d’être libre, déchaine l’enthousiasme. Red Hat se raccroche aux branches et profites de Kubernetes pour faire basculer vers les conteneurs son Open Shift pour la version3 en préparation.

Les conteneurs posent encore beaucoup de questions, et des startups proposent des réponses, comme Flocker de ClusterHQ pour avoir de la persistance qui peut migrer. CoreOS continue de taper tous azimuts. HashiCorp se contentait d’une gestion opportuniste des conteneurs, mais c’est en train de bouger. Terraform dans sa version 0.4 gère Docker, et j’ai hâte de voir comment Consul et les autres outils vont s’adapter.

La fusion du Cloud et des conteneurs est en train de se faire, là, maintenant. Il y aura des nouveautés, et des morts. Cette fusion amène de nouvelles réponses, et tout autant de questions. Rendre possible l’élasticité de la partie applicative fait partie des réponses apportées par la combinaison du Cloud et des conteneurs.

La cuisson avec Docker

2015-03-19T22:40:00+01:00

Préparer une application

Même si l’on code massivement avec des langages de script pour ne pas passer par la case compilation, il y a forcément une étape de préparation avant de pouvoir livrer une application à partir de ses sources : télécharger les modules et compiler les potentiels binding en C, mais surtout gérer tout le bazar lié aux assets : JavaScript et CSS.

Cette étape de préparation avant déploiement porte en anglais le nom poétique de baking : on cuit le pain avant de le livrer.

Il n’y a aucun intérêt à réaliser cette étape sur le serveur de production qui a surement mieux à faire : c’est long, ça requière des outils plus ou moins louches, et si l’application est distribuée, il faut recommencer sur chaque instance.

Préparer Isso

Voici un exemple commenté de préparation et déploiement de Isso, un clone libre et local de Disqus, qui permet d’embarquer des commentaires depuis du JavaScript, sur un site qui peut même être statique. Le serveur est en Python, et il fournit du JavaScript à embarquer dans ses pages HTML.

Pour ne pas pourrir ma machine en installant des outils bizarres, j’utilise des containers Docker à usage unique. Pour avoir un build sans trop de répétitions, j’utilise un simple Makefile. Oui, Makefile est vieux et moche, mais pas plus que bash, et il est un standard de fait. Pour des taches de tailles raisonnables, il reste tout à fait pertinent.

En montant un dossier local dans le container, le résultat du traitement se retrouvera dans ce dossier. La source et le résultat sont locaux, le traitement distant.

Cerise sur le gâteau, grâce à boot2docker,l’action lancée depuis un Mac, va faire travailler un Linux, et surtout, produire du contenu pour Linux.

Pour éviter toutes surprises, je n’utilise que des images officielles de Docker, forcément basé sur Debian (et Wheezy, si possible).

Cuire le Python

Isso est packagé sur Pypi : il s’installe simplement avec pip. Je sais installer python, mais comme la vie est courte, autant utiliser python:2-wheezy.

Makefile pense à l’envers, en pensant prérequis et dépendances. Pour avoir l’application Isso, j’ai besoin d’un python dans un virtualenv, qui a besoin d’un dossier app. Ce qui donne :

app/bin/isso: app/bin/python
    docker run --volume=`pwd`/app:/app --rm --workdir=/app python:2-wheezy /app/bin/pip install isso

app/bin/python: app
    docker run --volume=`pwd`/app:/app --rm --workdir=/app python:2-wheezy virtualenv .

app:
    mkdir app

Comme je suis radin, j’efface (—rm) le container dès qu’il a exécuté son action.

Cuire le JavaScript

Le JavaScript, de nos jours, utilise plus de bazars que du C++ pour être utilisable. Isso est sobre, il se contente de Bower pour aller chercher les bibliothèques et leurs dépendances, Uglify pour compacter, et on échappe à Grunt, un Makefile est utilisé à la place.

js: src/isso/js/embed.js
    docker run --volume=`pwd`/src:/src --rm --workdir=/src node:wheezy sh -c 'npm install -g bower requirejs jade && make init && make js'
    echo "Your minified javascript files are here:"
    find src/isso/js -name *.min.js

src/isso/js/embed.js: src
    git clone https://github.com/posativ/isso.git src/

src:
    mkdir src

Même tactique, une image jetable avec nodejs : node:wheezy est utilisée. Petite astuce, “docker run” n’accepte qu’une seule commande en argument, du coup, il faut passer par un sh -c 'pim && pam && poum'

Livrer le gâteau

La cuisson s’est faite dans des containers, mais le résultat est à chaque fois un simple dossier, tout ce qu’il y a de plus traditionnel.

Il est possible de déployer l’application ainsi, avec un rsync et un supervisor.

J’ai fait le choix de la déployer avec Docker. Le Dockerfile utilisé est minimaliste.

FROM python:2-wheezy

COPY app /app

VOLUME /conf
WORKDIR /app
EXPOSE 1234
CMD ["/app/bin/isso", "-c", "/conf/isso.conf", "run"]

Le dossier contenant le fichier de configuration est réclamé, par contre, l’application est embarquée.

Pour configurer tout ça, un docker-compose.yml qui va utiliser le Dockerfile.

---
isso:
    build: . # Dans le même dossier
    # Aucun privilège
    cap_drop:
        - ALL
    ports:
        - "1234:1234"
    volumes:
        - "conf:/conf" # Pour la configuration
        - "data:/data" # Pour la base de données

La configuration isso est tout aussi simple

[general]
dbpath = /data/comments.db
host = https://example.tld/
[server]
listen = http://0.0.0.0:1234/

Le dossier data monté dans compose est utilisé pour accueillir la base sqlite, et le serveur écoute bien le port 1234.

Il faut ensuite tricoter les urls pour avoir le site web et Isso.

Le site en production n’aura aucune séquelle de son installation, pas de nodejs, pas de choses qui trainent, juste une Wheezy spartiate et une application.

Tout le code est disponible sur github, sous Licence BSD.

Plus de machines, des services

2015-03-19T22:40:00+01:00

La virtualisation n’était qu’une étape.

Le besoin de virtualisation

La virtualisation est apparue pour en finir avec l’ajout sans cesse de machines dans les salles serveur. Pour pouvoir garantir de la qualité, limiter la portée des incidents, permettre des cycles de vies différents, il est important de pouvoir isoler les services. La virtualisation permet de découper des serveurs physiques. En regroupant des services sur un serveur plus gros, on gagne en efficacité, en consommation d’énergie, et en souplesse pour réorganiser l’ensemble (il est possible de migrer une machine virtuelle sur une autre machine physique).

Abstraction matérielle

Cette nouvelle couche d’abstraction n’a pas été indolore, mais des optimisations sont arrivées rapidement. Les processeurs se sont adaptés en rajoutant des jeux d’instructions spécifiques (Intel VT et AMD-V). L’augmentation du nombre de coeurs au sein d’une même puce, et l’augmentation constante de la quantité de RAM disponible permet de passer en force. La virtualisation pure et dure est rapidement passée à la paravitualisation, l’OS invité devant faire quelques efforts d’adaptation en échange d’un gain en performance important.

Techniquement, il est possible de mélanger les OS (Linux, Windows, FreeBSD…), mais rester sur du tout Linux, en se contentant de mélanger les versions ou les distributions, simplifie beaucoup de choses.

Il est possible de redimensionner ou de déplacer une VM, mais concrètement peu d’hébergeurs le proposent, à part Gandi Cloud, peut-être. Le redimensionnement à froid est plus simple, et souvent, la migration vers une VM plus grosse est préconisée.

Augmenter la densité

Un serveur physique met à disposition un certain nombre de ressources (Processeur, RAM, réseau, stockage…). La virtualisation permet d’en mutualiser certaines (Openstack parle d’un ratio, pour la RAM, on peut monter péniblement à 1.5:1, en mettant en commun des plages de mémoire. Dans les cas les plus courant, la mémoire est partagée à 1:1, et ce sont les accès disques qui sont bloquants. Un ordonnanceur essaye de répartir équitablement les ressources, mais le phénomène du voisin bruyant est bien connu des utilisateurs d’AWS.

La plus petite tranche possible

Pour pouvoir profiter d’un minimum de parallélisme, il faut au moins avoir 2 CPUs dans une VM. Le ratio RAM/CPU et de 1:1 pour les offres basses (VPS OVH, Digital Ocean par exemple) pour monter à 3.75:1 pour de l’Amazon Web Service et Google Cloud, et grimper autour de 7:1 pour des VMs spécialisées. Ce qui fait quand même presque 8Go de RAM comme unité de base. Quand on est plus petit que Netflix ou Twitter, ça fait quand même une grosse tranche, surtout si l’on veut doubler le nombre de machine pour avoir de la redondance.

Découper différemment

Les machines virtuelles sont une bonne réponse, mais quelle est la question, déjà?

Pouvoir isoler des services.

Les besoins d’isolations sont finalement divers et négociables :

Répartir au plus juste la consommation des ressources (CPU, RAM, stockage, réseau).
Isoler les différents utilisateurs qui vont utiliser des ressources physiques communes (CPU, RAM, stockage, réseau)
Réstreindre les capacités des utilisateurs, pour limiter les possibilités de faire des bêtises, et donc les surfaces d’attaques.

Ces différentes possibilités ont été explorées, en patchant directement le noyau Linux. Vserver et OpenVZ pour le confinement, GRSec pour la sécurité.

Ces pistes, prometteuses, mais intrusives, ont permis la création de nouveaux modules dans le noyau Linux, permettant ensuite la création de produits, sans avoir besoin d’un noyau patché.

Les capabilities définissent les actions privilégiées que peut faire un process. Pour isoler des processus, il y a maintenant les namespaces, pour répartir les ressources, Google à offert les CGroups, pour la sécurité, les Linux Security Modules permettent avec quelques polémiques de brancher Apparmor, SELinux (cadeau de la NSA) ou des choses plus exotiques comme Tomyo ou Smack. Seccomp (issu de Google Chrome) permet de créer des règles de sandboxing (par thread) en BPF. BPF est la toute nouvelle machine virtuelle universelle pour Linux qui permet de définir des règles en user space, qui seront utilisées en kernel space, sans avoir à faire d’aller-retour. Libseccomp propose une interface de plus haut niveau pour définir ces règles de sécurité.

Les solutions de conteneurs officiels sont des assemblages de ces différents outils :

Les conteneurs sont une approche grandboutiennes, il est toujours possible d’avoir une approche petiboutiste, plus spécifique et du coup plus adapté, comme le propose uwsgi, un serveur d’application.

De toute façon ces outils se démocratisent rapidement, l’invasion Systemd amène avec lui les Cgroups (et donc les namespaces), et Apparmor est installé par défaut sur Ubuntu depuis la 7.10.

Découper le découpage

Il est possible de découper à grandes tranches avec de la paravirtualisation, qui pour l’instant est la seule à garantir une isolation forte, puis de confier ensuite la finition à un kernel Linux récent.

Simplifier le découpage

Une fois la démarche de conteneurisastion amorcée, il est tentant d’optimiser la pile en enlevant la couche de paravirtualisation. C’est la démarche qu’à fait Google, ils ont basculé vers le tout container. Google ne fait pas tourner de code dont ils n’ont pas confiance, ce qui facilite largement le passage au tout container. Au pire, ils peuvent avoir du code bête, mais pas du code méchant. LMCTFY, leur solution maison, utilise quand même Apparmor. Par contre, pour leur offre d’hébergement, Google Cloud, utilise toujours KVM.

Découper quoi?

Une machine virtuelle a une taille minimale plutôt conséquente. Il n’est pas possible d’empiler trop de machines virtuelles sur une machine physique. Tout pousse à utiliser les machines virtuelles comme des machines physiques, en y faisant cohabiter différents services. Certains services étant des prérequis (syslog, ntpd, dnsd, cron, atd…) d’autres étant un regroupement de services pour ne pas gâcher la place.

Découper des services

Un service peut être rendu par une ou plusieurs machines. Les services distribués peuvent utiliser le classique pattern master/slave ou des choses plus égalitaires, à base de Paxos ou de Raft.

Il est possible de redimensionner (confier plus ou moins de ressource) un service, ou d’en ajouter des instances, s’il supporte la distribution.

Utiliser des services

Un service est ce que va utiliser un développeur, il se fiche un peu des détails d’implémentation ou de paramétrages. Son application, qui n’est finalement qu’un service, va utiliser d’autres services pour fonctionner, et en bout de chaine, consommer des ressources.

Un développeur va utiliser des services, qui seront dimensionnés en fonction de la demande et du budget disponible.

Ces services pourront être classique, comme du stockage, du backup, une base de données relationnelle, mais aussi plus abstrait comme de l’antispam (Akismet…), le stockage distribué de S3, la proximité d’un CDN, la surveillance d’un pingdom, la consolidation des erreurs d’un Sentry (un projet libre), l’analyse de performance d’un Newrelic… la liste évolue de jour en jour.

L’informatique est maintenant de plain-pied dans l’ère des services.