Articles

𝐑𝐚𝐧𝐝𝐨𝐦 𝐅𝐨𝐫𝐞𝐬𝐭 : 𝐮𝐧 𝐦𝐨𝐝𝐞̀𝐥𝐞 𝐩𝐮𝐢𝐬𝐬𝐚𝐧𝐭 𝐩𝐨𝐮𝐫 𝐥𝐚 𝐩𝐫𝐞́𝐝𝐢𝐜𝐭𝐢𝐨𝐧 𝐞𝐭 𝐥𝐚 𝐜𝐥𝐚𝐬𝐬𝐢𝐟𝐢𝐜𝐚𝐭𝐢𝐨𝐧

Image
Le 𝐑𝐚𝐧𝐝𝐨𝐦 𝐅𝐨𝐫𝐞𝐬𝐭 est une 𝐦𝐞 ́ 𝐭𝐡𝐨𝐝𝐞 𝐝 ’ 𝐞𝐧𝐬𝐞𝐦𝐛𝐥𝐞 qui construit un grand nombre d’arbres de décision puis combine leurs prédictions. Chaque arbre est entraîné sur un échantillon aléatoire des données obtenu par bootstrap , et à chaque séparation, il ne considère qu’un sous-ensemble aléatoire de variables . Cette double part d’aléa rend les arbres différents les uns des autres, ce qui permet de réduire le surapprentissage et d’ améliorer la précision du modèle. 👉 La prédiction finale correspond à : • un vote majoritaire en classification • une moyenne en régression 📐 𝐋𝐞 𝐦𝐨𝐝𝐞 ̀ 𝐥𝐞 : ŷ_RF(x) = (1 / B) × Σ T_b(x) 𝐎𝐮 ̀ : B → nombre d’arbres T_b(x) → prédiction de l’arbre b x → variables explicatives 🌲 𝐂𝐨𝐦𝐦𝐞𝐧𝐭 𝐜 ̧ 𝐚 𝐟𝐨𝐧𝐜𝐭𝐢𝐨𝐧𝐧𝐞 ? ① Tirer B échantillons bootstrap avec remise ② Construire un arbre sur chaque échantillon ③ À chaque nœud, sélectionner aléatoirement m variables parmi les p vari...

𝐐𝐮’𝐞𝐬𝐭-𝐜𝐞 𝐪𝐮𝐞 le 𝐜𝐥𝐚𝐬𝐬𝐢𝐟𝐢𝐞𝐮𝐫 𝐍𝐚𝐢𝐯𝐞 𝐁𝐚𝐲𝐞𝐬 ?

Image
Le 𝐍𝐚𝐢𝐯𝐞 𝐁𝐚𝐲𝐞𝐬 est un 𝐜𝐥𝐚𝐬𝐬𝐢𝐟𝐢𝐞𝐮𝐫 𝐩𝐫𝐨𝐛𝐚𝐛𝐢𝐥𝐢𝐬𝐭𝐞 rapide, fondé sur le 𝐭𝐡𝐞 ́ 𝐨𝐫𝐞 ̀ 𝐦𝐞 𝐝𝐞 𝐁𝐚𝐲𝐞𝐬 . Son objectif est de prédire la classe d’une observation en calculant la probabilité de chaque classe à partir des variables explicatives. Pourquoi dit-on “naive” ? Parce qu’il suppose que toutes les variables explicatives sont 𝐢𝐧𝐝𝐞 ́ 𝐩𝐞𝐧𝐝𝐚𝐧𝐭𝐞𝐬 𝐜𝐨𝐧𝐝𝐢𝐭𝐢𝐨𝐧𝐧𝐞𝐥𝐥𝐞𝐦𝐞𝐧𝐭 à la classe. Cette hypothèse est souvent peu réaliste dans la pratique, mais le modèle donne malgré tout des résultats surprenamment efficaces . 📐 𝐋𝐚 𝐟𝐨𝐫𝐦𝐮𝐥𝐞 : P(Cₖ | x) = P(Cₖ) × ∏ P(x ᵢ | Cₖ) / P(x) 𝐎𝐮 ̀ : P(Cₖ | x) → probabilité a posteriori de la classe k sachant les variables P(Cₖ) → probabilité a priori de la classe k P(x ᵢ | Cₖ) → vraisemblance de la variable i sachant la classe k P(x) → évidence, commune à toutes les classes, souvent ignorée dans la décision finale ⚡ 𝐂𝐨𝐦𝐦𝐞𝐧𝐭 𝐜 ̧ 𝐚 𝐟𝐨𝐧𝐜𝐭𝐢𝐨𝐧𝐧...

𝐐𝐮’𝐞𝐬𝐭-𝐜𝐞 𝐪𝐮𝐞 𝐥𝐞 𝐁𝐨𝐨𝐭𝐬𝐭𝐫𝐚𝐩𝐩𝐢𝐧𝐠 𝐞𝐧 𝐌𝐋 ?

Image
Le 𝐛𝐨𝐨𝐭𝐬𝐭𝐫𝐚𝐩𝐩𝐢𝐧𝐠 est une 𝐦𝐞 ́ 𝐭𝐡𝐨𝐝𝐞 𝐝𝐞 𝐫𝐞 ́ 𝐞 ́ 𝐜𝐡𝐚𝐧𝐭𝐢𝐥𝐥𝐨𝐧𝐧𝐚𝐠𝐞 qui permet d’estimer la 𝐝𝐢𝐬𝐭𝐫𝐢𝐛𝐮𝐭𝐢𝐨𝐧 𝐝 ’é 𝐜𝐡𝐚𝐧𝐭𝐢𝐥𝐥𝐨𝐧𝐧𝐚𝐠𝐞 d’une statistique sans imposer d’hypothèses paramétriques fortes . L’idée est simple : on tire plusieurs échantillons avec remise à partir des données observées, on calcule la statistique à chaque fois, puis on construit une distribution empirique . Cette approche permet d’estimer : 𝐥 ’ 𝐢𝐧𝐜𝐞𝐫𝐭𝐢𝐭𝐮𝐝𝐞 les 𝐢𝐧𝐭𝐞𝐫𝐯𝐚𝐥𝐥𝐞𝐬 𝐝𝐞 𝐜𝐨𝐧𝐟𝐢𝐚𝐧𝐜𝐞 les 𝐞𝐫𝐫𝐞𝐮𝐫𝐬 𝐬𝐭𝐚𝐧𝐝𝐚𝐫𝐝 surtout lorsque les formules théoriques sont difficiles, voire impossibles à utiliser. 𝐏𝐚𝐬 𝐛𝐞𝐬𝐨𝐢𝐧 𝐝𝐞 𝐟𝐨𝐫𝐦𝐮𝐥𝐞 𝐜𝐨𝐦𝐩𝐥𝐞𝐱𝐞 : il suffit de rééchantillonner et de recalculer . 📐 𝐋𝐚 𝐩𝐫𝐨𝐜𝐞 ́ 𝐝𝐮𝐫𝐞 : θ̂*ᵇ = s(X*ᵇ), b = 1, ..., B 𝐎𝐮 ̀ : X* ᵇ → échantillon bootstrap (de même taille que l’échantillon initial, tiré avec remise) θ ̂* ᵇ → stat...

𝑄𝑢’𝑒𝑠𝑡-𝑐𝑒 𝑞𝑢’𝑢𝑛 𝑚𝑜𝑑𝑒̀𝑙𝑒 𝑑𝑒 𝑓𝑎𝑐𝑡𝑒𝑢𝑟𝑠 𝑒𝑛 𝑓𝑖𝑛𝑎𝑛𝑐𝑒 ?

Image
👋 Apprenons ensemble ↓ Les modèles de facteurs en finance permettent de décomposer le rendement d’un actif en facteurs de risque systématiques plus un terme idiosyncratique propre à l’actif. Autrement dit, au lieu de traiter chaque action séparément, ces modèles expliquent les rendements par des expositions communes à des moteurs de performance comme le risque de marché, la taille, la valeur ou le momentum . L’idée clé : une grande partie du rendement provient de quelques paris systématiques , et non d’une simple “magie” du stock-picking. 📐 𝑳𝒆 𝒎𝒐𝒅𝒆 ̀ 𝒍𝒆 : r ᵢ = αᵢ + Σⱼ ₌₁ ᴷ βᵢⱼ · f ⱼ + εᵢ Où : r ᵢ → rendement de l’actif i αᵢ → alpha ( rendement excédentaire après prise en compte des facteurs) βᵢⱼ → exposition / sensibilité au facteur j f ⱼ → rendement du facteur j εᵢ → bruit idiosyncratique ( diversifiable ) K → nombre de facteurs ⚡ 𝑪𝒐𝒎𝒎𝒆𝒏𝒕 𝒄 ̧ 𝒂 𝒇𝒐𝒏𝒄𝒕𝒊𝒐𝒏𝒏𝒆 ? ① Identifier les facteurs ( marché, taille, valeur,...

𝐐𝐮𝐞𝐥 𝐭𝐞𝐬𝐭 𝐬𝐭𝐚𝐭𝐢𝐬𝐭𝐢𝐪𝐮𝐞 𝐜𝐡𝐨𝐢𝐬𝐢𝐫 ? 𝐔𝐧 𝐫𝐞𝐩𝐞̀𝐫𝐞 𝐬𝐢𝐦𝐩𝐥𝐞 𝐩𝐨𝐮𝐫 𝐦𝐢𝐞𝐮𝐱 𝐝𝐞́𝐜𝐢𝐝𝐞𝐫 📊

Image
Si le choix du 𝐛𝐨𝐧 𝐭𝐞𝐬𝐭 𝐬𝐭𝐚𝐭𝐢𝐬𝐭𝐢𝐪𝐮𝐞 vous semble parfois compliqué, ce petit repère peut vous aider à y voir plus clair. ⤵️ 𝐀 ̀ 𝐧𝐨𝐭𝐞𝐫 : les 𝐬𝐭𝐚𝐭𝐢𝐬𝐭𝐢𝐪𝐮𝐞𝐬 𝐝𝐞𝐬𝐜𝐫𝐢𝐩𝐭𝐢𝐯𝐞𝐬 permettent de résumer les données, mais elles ne constituent pas des 𝐭𝐞𝐬𝐭𝐬 𝐝 ’ 𝐡𝐲𝐩𝐨𝐭𝐡𝐞 ̀ 𝐬𝐞𝐬 . ✅ 𝐓𝐞𝐬𝐭 𝐙 : adapté aux 𝐠𝐫𝐚𝐧𝐝𝐬 𝐞 ́ 𝐜𝐡𝐚𝐧𝐭𝐢𝐥𝐥𝐨𝐧𝐬 lorsque la 𝐯𝐚𝐫𝐢𝐚𝐧𝐜𝐞 𝐝𝐞 𝐥𝐚 𝐩𝐨𝐩𝐮𝐥𝐚𝐭𝐢𝐨𝐧 est connue. ✅ 𝐓𝐞𝐬𝐭 𝐭 : utilisé pour 𝐜𝐨𝐦𝐩𝐚𝐫𝐞𝐫 𝐝𝐞𝐬 𝐦𝐨𝐲𝐞𝐧𝐧𝐞𝐬 , notamment avec des 𝐞 ́ 𝐜𝐡𝐚𝐧𝐭𝐢𝐥𝐥𝐨𝐧𝐬 𝐩𝐥𝐮𝐬 𝐩𝐞𝐭𝐢𝐭𝐬 . ✅ 𝐀𝐍𝐎𝐕𝐀 : recommandé pour 𝐜𝐨𝐦𝐩𝐚𝐫𝐞𝐫 𝐥𝐞𝐬 𝐦𝐨𝐲𝐞𝐧𝐧𝐞𝐬 𝐝𝐞 𝐭𝐫𝐨𝐢𝐬 𝐠𝐫𝐨𝐮𝐩𝐞𝐬 𝐨𝐮 𝐩𝐥𝐮𝐬 . ✅ 𝐂𝐨𝐫𝐫𝐞 ́ 𝐥𝐚𝐭𝐢𝐨𝐧 𝐝𝐞 𝐏𝐞𝐚𝐫𝐬𝐨𝐧 : mesure la 𝐫𝐞𝐥𝐚𝐭𝐢𝐨𝐧 𝐥𝐢𝐧𝐞 ́ 𝐚𝐢𝐫𝐞 entre deux 𝐯𝐚𝐫𝐢𝐚𝐛𝐥𝐞𝐬 𝐜𝐨𝐧𝐭𝐢𝐧𝐮𝐞𝐬 . ✅ 𝐓𝐞𝐬𝐭 𝐔 𝐝𝐞 𝐌𝐚𝐧𝐧 – 𝐖𝐡𝐢𝐭𝐧𝐞𝐲 : une bonne alternative ...