
[RE] deck_decoder | Midnight Flag - Operation BACKSLASH
/ 13 min read
Last Updated:Description
- CTF : https://ctftime.org/event/2295/
- Challmaker : prince2lu
- Nombre de résolution : < 10 (aux dernières nouvelles)
Reverse statique
Le binaire est assez classique :
$ file deck_decoder
deck_decoder: ELF 64-bit LSB pie executable, x86-64, version 1 (SYSV), dynamically linked, interpreter /lib64/ld-linux-x86-64.so.2, for GNU/Linux 3.2.0, strippedJ’ai déjà réalisé la partie renommage et retypage en statique pour une grande partie du binaire afin de faciliter la lecture du writeup. Cependant le binaire était initialement strippé, ça n’était donc pas aussi trivial que ça en aura l’air.
__int64 __fastcall main(int argc, char **argv, char **a3){ unsigned __int8 v3; // al int seed; // [rsp+14h] [rbp-2Ch] char *shuffled_hardcoded_ptr; // [rsp+18h] [rbp-28h] char *malloc_shellcode_shuffled; // [rsp+20h] [rbp-20h] char *userInput; // [rsp+30h] [rbp-10h]
if ( argc != 2 || (seed = atoi(argv[1]), seed > 2000) ) { printf("Usage: %s <pin>\n", *argv); exit(1); } srand(seed); shuffled_hardcoded_ptr = (char *)shuffle_hardcoded_ptr((char **)&hardcoded_array_ptr, 2279); malloc_shellcode_shuffled = decrypt_rc4_shellcode((char **)shuffled_hardcoded_ptr); mprotect_RWX((unsigned __int64)malloc_shellcode_shuffled); userInput = (char *)malloc(0x1EuLL); if ( !userInput ) exit(1); fgets(userInput, 30, stdin); signal(11, handler); // SIGSEGV signal(4, handler); // SIGILL v3 = check_flag(userInput, (__int64 (__fastcall *)(__int64))malloc_shellcode_shuffled, 29LL); printf(":%c\n", v3 + (unsigned int)'('); return 0LL;}Avant de rentrer dans les différentes fonctions, notons que :
-
Le binaire récupère un argument passé au lancement et attend un entier qui doit être inférieur à 2000. Cet argument sera ensuite utilisé pour initialiser un générateur de nombre pseudo-aléatoire.
-
hardcoded_array_ptrest un tableau de pointeur qui est passé en paramètre à la première fonction. En voici un aperçu :
.data:0000000000014120 hardcoded_array_ptr dq offset unk_F004 ; DATA XREF: main+B0↑o.data:0000000000014128 dq offset unk_F00B.data:0000000000014130 dq offset unk_F00E.data:0000000000014138 dq offset unk_F013.data:0000000000014140 dq offset unk_F01A.data:0000000000014148 dq offset unk_F01F.data:0000000000014150 dq offset unk_F023.data:0000000000014158 dq offset unk_F029.data:0000000000014160 dq offset unk_F02D.data:0000000000014168 dq offset unk_F032Ces pointeurs référencent des blocs consécutifs :
.rodata:000000000000F004 unk_F004 db 5 ; DATA XREF: .data:hardcoded_array_ptr↓o.rodata:000000000000F005 db 6Eh ; n.rodata:000000000000F006 db 0F2h.rodata:000000000000F007 db 67h ; g.rodata:000000000000F008 db 0FEh.rodata:000000000000F009 db 82h.rodata:000000000000F00A db 0.rodata:000000000000F00B unk_F00B db 1 ; DATA XREF: .data:0000000000014128↓o.rodata:000000000000F00C db 2Bh ; +.rodata:000000000000F00D db 0.rodata:000000000000F00E unk_F00E db 3 ; DATA XREF: .data:0000000000014130↓o.rodata:000000000000F00F db 0EDh.rodata:000000000000F010 db 9Ch.rodata:000000000000F011 db 1Bh.rodata:000000000000F012 db 0.rodata:000000000000F013 unk_F013 db 5 ; DATA XREF: .data:0000000000014138↓o.rodata:000000000000F014 db 0CBh.rodata:000000000000F015 db 38h ; 8.rodata:000000000000F016 db 0.rodata:000000000000F017 db 8Bh.rodata:000000000000F018 db 0EFh.rodata:000000000000F019 db 0shuffle_hardcoded_ptr
La première fonction appelée est la suivante :
_QWORD *__fastcall shuffle_hardcoded_ptr(char **hardcoded_array_ptr, int _2279){ unsigned __int64 i; // [rsp+18h] [rbp-28h] unsigned __int64 j; // [rsp+20h] [rbp-20h] int *malloc_indexes; // [rsp+28h] [rbp-18h] _QWORD *malloc_ptr_shuffled; // [rsp+30h] [rbp-10h]
malloc_indexes = (int *)malloc(4LL * _2279); if ( !malloc_indexes ) goto LABEL_10; for ( i = 0LL; i < _2279; ++i ) malloc_indexes[i] = i; malloc_ptr_shuffled = malloc(8LL * (_2279 + 1)); if ( !malloc_ptr_shuffled )LABEL_10: exit(1); fisher_yates_shuffle((__int64)malloc_indexes, _2279); for ( j = 0LL; j < _2279; ++j ) malloc_ptr_shuffled[malloc_indexes[j]] = hardcoded_array_ptr[j]; free(malloc_indexes); return malloc_ptr_shuffled;}Après analyse, on comprend qu’une des fonctions appelées est fisher_yates_shuffle :
unsigned __int64 __fastcall fisher_yates_shuffle(int *malloc_indexes, int _2279){ int random_number; // eax int i; // [rsp+10h] [rbp-10h] unsigned __int64 v5; // [rsp+18h] [rbp-8h]
v5 = __readfsqword(0x28u); for ( i = _2279 - 1; i > 0; --i ) { random_number = rand(); swap(&malloc_indexes[i], &malloc_indexes[random_number % (i + 1)]); } return v5 - __readfsqword(0x28u);}Le mélange de Fisher-Yates est un algorithme permettant de générer des arrangements aléatoires, autrement dit de mélanger. Dans notre cas, un premier tableau d’index de 0 à 2278 est créé avant d’être mélangé. Ce tableau est ensuite parcouru afin de récupérer un index (qui n’est donc plus ordonné) qui sera utilisé pour récupérer un pointeur présent hardcoded_array_ptr vu précédemment.
L’élément important à noté ici et qui impactera la résolution est que le mélange de hardcoded_array_ptr est dépendant de l’argument passé lors du lancement du binaire. En effet, ce dernier initialise le générateur de nombre pseudo-aléatoire utilisé ici dans l’algorithme pour effectuer le mélange (rand()).
decrypt_rc4_shellcode
Une fois le mélange du tableau de pointeur effectué, ce dernier est passé en paramètre à decrypt_rc4_shellcode. Le renommage est plutôt explicite. La fonction se présente de la sorte :
_BYTE *__fastcall decrypt_rc4_shellcode(char **shuffled_hardcoded_ptr){ unsigned __int8 currentShellcodeSize; // [rsp+1Fh] [rbp-441h] unsigned __int64 i; // [rsp+20h] [rbp-440h] __int64 index; // [rsp+28h] [rbp-438h] unsigned __int64 j; // [rsp+30h] [rbp-430h] unsigned __int64 k; // [rsp+38h] [rbp-428h] _BYTE *malloc_shellcode_shuffled; // [rsp+40h] [rbp-420h] _BYTE *currentShellcode; // [rsp+48h] [rbp-418h] char RC4_KEY_STRUCT[1032]; // [rsp+50h] [rbp-410h] BYREF unsigned __int64 v10; // [rsp+458h] [rbp-8h]
v10 = __readfsqword(0x28u); for ( i = 0LL; shuffled_hardcoded_ptr[i]; ++i ) len += (unsigned __int8)*shuffled_hardcoded_ptr[i]; malloc_shellcode_shuffled = malloc(len); if ( !malloc_shellcode_shuffled ) exit(1); index = 0LL; memset(RC4_KEY_STRUCT, 0, sizeof(RC4_KEY_STRUCT)); RC4_set_key(RC4_KEY_STRUCT, 16LL, &RC4_KEY); for ( j = 0LL; j < i; ++j ) { currentShellcodeSize = *shuffled_hardcoded_ptr[j]; currentShellcode = malloc(currentShellcodeSize); RC4(RC4_KEY_STRUCT, currentShellcodeSize, shuffled_hardcoded_ptr[j] + 1, currentShellcode); for ( k = 0LL; k < currentShellcodeSize; ++k ) malloc_shellcode_shuffled[index++] = currentShellcode[k]; free(currentShellcode); } return malloc_shellcode_shuffled;}Cette fonction permet de comprendre un peu mieux les blocs de données auxquels font référence les pointeurs dans le tableau vu initialement :
- Une boucle parcourt chaque pointeur du tableau
- Le premier élément référencé par les pointeurs est une taille de données
- Cette taille de données définit le nombre d’octets qui suit devant être déchiffré en RC4 (la clé est codée en dur)
- Ceci explique pourquoi chaque morceau fini par un octet null (nécessaire car la fonction RC4 de la libcrypto.so.3 s’attend à un char*)
Si on reprend deux des blocs vus plus haut :
.rodata:000000000000F00B unk_F00B db 1 ; DATA XREF: .data:0000000000014128↓o.rodata:000000000000F00C db 2Bh ; +.rodata:000000000000F00D db 0.rodata:000000000000F00E unk_F00E db 3 ; DATA XREF: .data:0000000000014130↓o.rodata:000000000000F00F db 0EDh.rodata:000000000000F010 db 9Ch.rodata:000000000000F011 db 1Bh.rodata:000000000000F012 db 0unk_F00Bcontient 1 octet effectif (sans compter l’octet nul) qui sera déchiffréunk_F00Econtient 3 octets effectifs (sans compter l’octet nul) qui seront déchiffrés
Ici, le renommage mentionne un shellcode bien qu’il faille continuer l’analyse afin de pouvoir l’affirmer.
mprotect_RWX
Il ne faudra pas longtemps pour se rendre compte que les données déchiffrées représentent probablement un shellcode, car la protection de la zone mémoire où sont stockées ces dernières est modifiée afin de pouvoir lire, écrire, mais surtout exécuter les données qui s’y trouvent :
unsigned __int64 __fastcall mprotect_RWX(unsigned __int64 a1){ void *addr; // [rsp+20h] [rbp-10h] unsigned __int64 v3; // [rsp+28h] [rbp-8h]
v3 = __readfsqword(0x28u); addr = (void *)(-sysconf(30) & a1); if ( mprotect(addr, len, 7) == -1 ) { perror("mprotect failed"); free((void *)a1); } return v3 - __readfsqword(0x28u);}check_flag
Après modification de la protection de la zone mémoire, une entrée utilisateur est récupérée avant d’être passé à la dernière fonction, check_flag :
__int64 __fastcall check_flag( const char *userInput, __int64 (__fastcall *malloc_shellcode_shuffled)(__int64), __int64 _29){ unsigned __int8 mustBe1; // [rsp+2Fh] [rbp-21h] __int64 rdi; // [rsp+30h] [rbp-20h] unsigned __int64 i; // [rsp+38h] [rbp-18h] unsigned __int64 j; // [rsp+40h] [rbp-10h]
rdi = 0LL; mustBe1 = 1; if ( _29 == strlen(userInput) ) { for ( i = 0LL; i < _29 - 1; ++i ) { for ( j = 0LL; j <= 6; j += 2LL ) rdi |= ((__int64)userInput[i + 1] << (8 * ((unsigned __int8)j + 1))) | ((__int64)userInput[i] << (8 * (unsigned __int8)j)); mustBe1 &= malloc_shellcode_shuffled(rdi) == hardcoded_expected_result[i]; rdi = 0LL; } } else { return 0; } return mustBe1;}La fonction est plutôt simple hormis pour le paramètre passé à notre shellcode via le registre rdi que j’expliciterais plus bas. Notre shellcode (exécutable grâce au précédent appel à mprotect) est appelé pour chaque caractère hormis le dernier de notre entrée utilisateur. Une fois le shellcode exécuté, sa valeur de retour (présente dans le registre rax) sera comparé à un tableau de valeur codé en dur dont voici un extrait :
.data:0000000000014020 ; _QWORD hardcoded_expected_result[28].data:0000000000014020 hardcoded_expected_result dq 751E22F6AFDC1D1Ah, 25E2D8737E1EE778h, 5FA5062A2A463E93h.data:0000000000014020 ; DATA XREF: check_flag+D7↑o.data:0000000000014038 dq 31E402F96E8BDF97h, 835BE6989055C8F7h, 5D96E686BBBB53FAh.data:0000000000014050 dq 0ECE6FF58CDD9D31Ah, 0C21A2CBC37DBC25Fh, 504E496158267321h.data:0000000000014068 dq 1E7F1D0186F1EC8Ch, 177A0713EE72684Ch, 701183528F5AC6CFh.data:0000000000014080 dq 0B732A1AFDC2F5679h, 76C06994CE3A61BCh, 0F5F06AB9884DE54Fh.data:0000000000014098 dq 701183528F5AC6CFh, 5A37ADF157A8C201h, 0C094D5287D091C4Fh.data:00000000000140B0 dq 0F5F06AB9884DE54Fh, 3DAA050C3B50450Eh, 0A93C0AF6A0E9C41Ch.data:00000000000140C8 dq 0F5D4CBAB3B2C88A3h, 0A27A01B298EC17A8h, 5FCEFDDD776A26F0h.data:00000000000140E0 dq 0DEBDE5DBB1C1C4B3h, 0E08C572F24190ABh, 0D512D32829E4869h.data:00000000000140F8 dq 0FFBD122F4A434777hLe paramètre passé à notre shellcode utilise l’i-ème et l’i-ème+1 caractère de notre entrée utilisateur et effectue des opérations binaires dessus. Après un rapide coup d’oeil avec gdb, on s’aperçoit que les 2 caractères dépendant de i sont dupliqués pour remplir un registre de 64 bits. Ceci explique pourquoi la boucle s’arrête un cran avant la fin de l’entrée utilisateur.
L’objectif ici est qu’après exécution de notre shellcode sur les différents paramètres qui constitue notre entrée, les résultats soient respectivement égaux aux valeurs codées en dur.
Fin d’analyse
Une fois la vérification faites, le binaire affiche :( pour une mauvaise entrée utilisateur ou :) dans le cas où l’on aurait trouvé le bon flag. Voici une vision macro de ce que fait le binaire :
- L’argument passé au lancement du binaire doit être strictement inférieur à 2000 et est utilisé comme graine du générateur de nombre pseudo-aléatoire
- Utilisation de l’algorithme de Fisher-Yates afin de mélanger un tableau de pointeur. Le mélange est dépendant de notre entrée utilisateur car l’algorithme utilise
rand()dont le générateur est initialisé par la graine précédente. - Chaque pointeur de ce tableau référence un morceau de shellcode chiffré via RC4
- Chaque morceau est déchiffré
- La protection de la zone mémoire où se trouve ce shellcode est modifiée pour pouvoir l’exécuter
- Le shellcode est appelé plusieurs fois en utilisant 2 octets consécutifs (fenêtre glissante de 1 octet vers la droite à chaque itération) de l’entrée utilisateur jusqu’à la fin
- Les résultats obtenus doivent être égaux à ceux codés en dur
Afin de pouvoir résoudre le challenge, il faut résoudre les deux problématiques suivantes :
- Il y a potentiellement 2000 shellcodes possibles qui dépendent de l’argument au lancement.
- Une fois le bon shellcode trouvé il faudra le résoudre pour obtenir les sorties voulues
Résolution
Diminution du nombre de shellcodes possible
Jusqu’à 2000 shellcodes est inenvisageable à traiter à la main. Cependant, nous allons tirer parti d’une des caractéristiques du binaire : les morceaux de shellcodes sont mélangés, il y a donc de forte chance qu’une fois rassembler certains blocs génèrent des instructions (SIGILL) ou des accès mémoires (SIGSEGV) invalides après le déchiffrement via RC4, causant le crash du programme et le non-affichage du smiley :(. Ces deux cas sont d’ailleurs gérés au sein du binaire via la mise en place d’un handler via signal. Avec un petit script bash on peut donc réduire le nombre de shellcodes possible :
#!/bin/bash
# Fonction pour exécuter le binaire avec chaque entier de 1 à 2000eliminate() { # Liste d'exclusion exclusion=(1219) for i in {1..2000} do # Vérifie si l'entier est dans la liste d'exclusion if [[ " ${exclusion[@]} " =~ " ${i} " ]]; then continue fi
# Exécute le binaire avec l'entier actuel et sauvegarde la sortie output=$(echo AAAAAAAAAAAAAAAAAAAAAAAAAAAAA | ./deck_decoder $i)
# Vérifie si la sortie contient :) ou :( if [[ $output == *":)"* ]] || [[ $output == *":("* ]]; then echo $i fi done}
# Appelle la fonctioneliminatePour une raison dont je n’ai pas cherché à investiguer, le PIN 1219 bloquait le binaire d’où la création d’une liste d’exclusion.
$ ./eliminate_invalide_shellcode.sh23214248272541734748912108712031343138716401665Nous réduisons donc les possibilités à 15 shellcodes ! Cela reste raisonnable pour regarder à la main avec gdb le contenu (c’est d’ailleurs ce que j’ai effectué durant le CTF) mais nous allons opter pour une solution plus propre.
Identification du bon shellcode avec qiling
Pour analyser les précédents shellcode, nous allons utiliser qiling1 qui va nous permettre d’émuler le binaire et de l’instrumenter. Le script va ensuite afficher les premières instructions en langage d’assemblage des différents shellcodes possibles via capstone2. Pour ce faire, on va hooker l’instruction suivant l’appel à la fonction decrypt_rc4_shellcode, qui contiendra dans RAX le pointeur vers le shellcode déchiffré et mélangé :
from qiling import Qilingfrom qiling.const import QL_VERBOSEfrom qiling.const import QL_INTERCEPTfrom capstone import *
g_shellcode_size=-1
def getShellCode(ql: Qiling) -> None: global g_shellcode_size global base_addr data = ql.mem.read(ql.arch.regs.read("RAX") , 100) #g_shellcode_size)
md = Cs(CS_ARCH_X86, CS_MODE_64) for i in md.disasm(data, base_addr): print("[*] {} {}".format(i.mnemonic, i.op_str)) ql.emu_stop()
def getShellCodeSize(ql: Qiling) -> None: global g_shellcode_size g_shellcode_size=ql.arch.regs.read("RAX")
for possibleSeed in [23,214,248,272,541,734,748,912,1087,1203,1343,1387,1640,1665]: print("Current SEED =>", possibleSeed) rootfs = r'/qiling/rootfs/x8664_linux_glibc2.39/' ql = Qiling(["/qiling/rootfs/x8664_linux_glibc2.39/deck_decoder",str(possibleSeed)], rootfs, verbose=QL_VERBOSE.OFF)
base_addr = ql.loader.images[0].base hook_addr_shellcode = base_addr + 0xEA89 hook_addr_shellcode_size = base_addr + 0xE45A
ql.hook_address(getShellCodeSize,hook_addr_shellcode_size) ql.hook_address(getShellCode,hook_addr_shellcode)
ql.run()Nous obtenons trois types de shellcode :
- Retour immédiat :
[*] ret[*] imul edx, dword ptr [rsi + 0x2e15e7a3], -0x10[*] jo 0x55555555405f[*] cmp eax, 0xbd1e86ce[*] in al, 0xf9[*] loopne 0x555555554045[*] mov esi, dword ptr [rsi + 0x4b][*] push 0x28692ae7[*] call 0x5555290644a0[*] xchg eax, ecx
[...]Le shellcode retournant immédiatement, il est impossible qu’il puisse être valide. En effet pour rappel les 2 caractères dupliqués dans rdi (et rax au moment de l’appel) ne vont être en rien altéré par le shellcode et à l’issue de celui-ci, la valeur présente dans rax (qui n’a donc pas bougé) ne peut pas représenter 3 octets différents (par exemple la première sortie codée en dur attendu est 751E22F6AFDC1D1Ah)
- SBB et ret
[*] sbb al, 0xb8[*] ret[*] or byte ptr [rdx + 0x636345c0], dh[*] cmc[*] test byte ptr [rax], dh[*] or dword ptr [rcx - 0x4e], 0x96e67a9b[*] sub bl, byte ptr [rcx + 0x34][*] add cl, dl[*] and dword ptr [rax], 0xffffff9d
[...]Ici pour les mêmes raisons qu’évoquer pour le cas précédent, la première instruction n’est pas suffisante pour obtenir les différentes valeurs attendues à la sortie du shellcode
- Le bon shellcode
Il ne restait qu’un seul shellcode, ayant le PIN 1203:
[*] movabs rax, 0x17385c21c8470c56[*] xor rax, rdi[*] push rbx[*] movabs rbx, 0x31caaa5db0333fda[*] xor rbx, rdi[*] push rcx[*] movabs rcx, 0xbf70117c0a477a5b[*] xor rcx, rdi[*] push rdx[*] movabs rdx, 0x3e279f9775678f7a[*] xor rdx, rdi[*] push rsi[*] movabs rsi, 0x247027417713ddbb[*] xor rsi, rdi[*] push r8[*] movabs r8, 0xa5030df8f4a6505a
[...]Récupération du flag avec qiling
Maintenant que nous avons le bon shellcode il faut réussir à le résoudre pour retrouver les paramètres permettant d’obtenir les valeurs codées en dur. Le shellcode est plutôt très long et le passage sous angr3 n’a pas été fructueux durant le CTF. Cependant, une seconde caractéristique du binaire va nous permettre de rapidement retrouver le flag : le paramètre passé au shellcode ne dépend que de deux octets (qui sont dupliqué pour remplir rdi).
Nous avons donc 2^16 = 65536 possibilités pour chacune des sorties attendues. Nous pouvons réduire davantage cette range car nous savons que le flag commence par MCTF{ ce qui donnera : MC ; CT ; TF ; F{ ; {? où ? représente un caractère aléatoire. Si on utilise string.printable pour chaque cas il n’y a que 100 possibilités ce qui peut largement être bruteforce. Voici le script qiling émulant le shellcode précédemment récupéré et affichant le flag :
from qiling import Qilingfrom qiling.const import QL_VERBOSEfrom qiling.const import QL_ARCH, QL_OSimport string
flag = "M"print(flag,end="",flush=True)
founded = Falsedef checkOutput(ql: Qiling,expected_rax: int) -> None: if expected_rax == ql.arch.regs.read("RAX") : global founded founded = True ql.emu_stop()
shellcode = bytes.fromhex("""""")
rootfs = r'/qiling/rootfs/x8664_linux_glibc2.39/'
hardcoded_results = [0x751E22F6AFDC1D1A,0x25E2D8737E1EE778,0x5FA5062A2A463E93,0x31E402F96E8BDF97,0x835BE6989055C8F7,0x5D96E686BBBB53FA,0x0ECE6FF58CDD9D31A,0x0C21A2CBC37DBC25F,0x504E496158267321,0x1E7F1D0186F1EC8C,0x177A0713EE72684C,0x701183528F5AC6CF,0x0B732A1AFDC2F5679,0x76C06994CE3A61BC,0x0F5F06AB9884DE54F,0x701183528F5AC6CF,0x5A37ADF157A8C201,0x0C094D5287D091C4F,0x0F5F06AB9884DE54F,0x3DAA050C3B50450E,0x0A93C0AF6A0E9C41C,0x0F5D4CBAB3B2C88A3,0x0A27A01B298EC17A8,0x5FCEFDDD776A26F0,0x0DEBDE5DBB1C1C4B3,0x0E08C572F24190AB,0x0D512D32829E4869,0x0FFBD122F4A434777]
for expected_rax_output in hardcoded_results: for c in string.printable: ql = Qiling(code=shellcode, rootfs=rootfs, archtype=QL_ARCH.X8664, ostype=QL_OS.LINUX, verbose=QL_VERBOSE.DISABLED) rdi = ( hex(ord(c))[2:] + hex(ord(flag[-1]))[2:] )*4 ql.arch.regs.write("RDI", int(rdi,16)) ql.hook_address(checkOutput, 0x000000000120137f,expected_rax_output) ql.run(end=0x20137e) global fouded if founded: print(c,end="",flush=True) flag+=c founded = Falseprint()MCTF{ShUff13_th3_sh3LLc0de!!}