Encore un bug avec Ganeti (mais pas tout à fait de sa faute)

Comme je l’ai dit hier, j’uti­lise Ganeti pour gérer les VMs de Frama­soft.

J’uti­lise la version 2.15, des dépôts back­ports de Debian Jessie.

Manque de pot, la version de socat des back­ports, 1.7.3.1–1~b­po8+1, pose des problèmes à Ganeti.

En effet, j’ai voulu dépla­cer une VM sur un autre nœud du clus­ter, et paf :

"disk/0 failed to receive data: Exited with status 1 (recent output: socat: E openssl-method="TLSv1": method unknown or not provided by library\n0+0 records in\n0+0 records out\n0 bytes (0 B) copied, 0.00308621 s, 0.0 kB/s)"

Heureu­se­ment, contrai­re­ment à hier, je n’ai pas du cher­cher bien loin pour trou­ver la solu­tion.

Les chan­ge­ments entre socat 1.7.2 et 1.7.3 font plan­ter le trans­fert. Il n’y a donc qu’à down­gra­der socat pour que ça roule :

apt-get install socat=1.7.2.4-2

Deux articles sur des problèmes de Ganeti coup sur coup, ça fait un peu « Mais c’est de la merde ce truc ». Bah non, je trouve que ça reste une très bonne solu­tion pour faire de la virtua­li­sa­tion sur ses serveurs de façon simple et fiable. Si, si, fiable : même quand Ganeti plante, la virtua­li­sa­tion tourne toujours. C’est le prin­cipe de Ganeti. Il n’est pas « utile » pour faire tour­ner les VMs, mais pour les mani­pu­ler. Et ça j’aime beau­coup 🙂

LE bug de merde dans Ganeti 2.15

La semaine dernière, j’ai passé tous les serveurs du clus­ter Ganeti de Frama­soft en Debian Jessie (pour ceux qui ne l’étaient pas encore).

Et là, paf, je rencontre un vilain bug : le dæmon luxid qui segfault à tout bout de champ. Bah oui, le clus­ter était encore en 2.11, la version de wheezy-back­ports. Et Ganeti 2.11 + systemd (qui nous est arrivé par la grâce de la mise à jour en Jessie), ça ne fait pas bon ménage.

Qu’à cela ne tienne, je peux passer en 2.15, la version de jessie-back­ports.

gnt-cluster upgrade --to 2.15

Hop, nickel, luxid tient la route, je suis content.

Là, je me mets à vouloir ajou­ter un nœud au clus­ter.

gnt-node add foo.exemple.org

Bam. Ça foire.

Failure: command execution error:
need more than 1 value to unpack

En cher­chant bien, on tombe sur cette page où les mecs farfouillent beau­coup pour trou­ver le problème. Ça va de « Est-ce que c’est pas la version d’openssl qui serait pas la même » à « Ajoute telle option à ton sshd_config ».

Je vous la fais courte : c’est juste que l’er­reur n’est pas correc­te­ment détec­tée. C’est un bête problème de More than one node group exists. Target group must be specified explicitly..

Donc la solu­tion est de spéci­fier le groupe auquel ratta­cher le nouveau nœud :

gnt-node add -g le_groupe foo.exemple.org

Raah, il m’aura bien fait courir ce bug-là !