• l’année dernière
FRnOG 40 - Thomas Holterbach : GILL, a new BGP routes collection platform
Transcription
00:00Merci et bonjour à tous. Aujourd'hui je vais vous parler de routage dans
00:04l'internet et notamment de BGP donc ça tombe bien parce que je pense qu'il y a
00:07beaucoup d'opérateurs réseau qui configurent BGP fréquemment et en fait
00:12j'aimerais commencer aujourd'hui avec une analogie assez simple. En fait
00:16configurer BGP c'est un petit peu comme quand on conduit une voiture.
00:19Il faut observer, analyser et aussi maîtriser les facteurs extérieurs parce
00:24qu'on est dans un contexte d'interdomain routing donc il y a des systèmes
00:28autonomes qui sont indépendants, on ne peut pas les contrôler donc il faut
00:31maîtriser ces facteurs et quand on roule en voiture, la bonne nouvelle c'est
00:35qu'on a un pare-brise, on a des rétroviseurs donc on a une bonne
00:38visibilité donc ça fonctionne plutôt bien. Dans le contexte de BGP on a aussi
00:45une bonne visibilité et notamment grâce à des archives publiques de routes BGP
00:49qui sont collectées par des organisations telles que
00:53Ripe Rees, Rod Views et PCH donc merci à eux pour ça.
00:56Comment ça se passe en fait aujourd'hui ? On peut prendre un exemple assez simple
01:00comme ici avec quelques systèmes autonomes qui sont connectés avec des
01:03liens de peer-to-peer et des liens de clients fournisseurs classiques et en
01:07fait ce qui va se passer c'est qu'il va y avoir des routers dans ces aides qui
01:11vont venir se connecter à ces plateformes de collecte et en fait ils
01:15vont juste exporter leurs routes et les plateformes de collecte vont venir les
01:18récolter et les sauvegarder dans des archives publiques.
01:22Ces routeurs là on les appelle des points de vue et ils sont très utiles.
01:26Alors les opérateurs réseau peuvent utiliser ces archives de routes
01:32publiques pour monitorer BGP parce que comme quand on conduit en voiture avec
01:36BGP il peut y avoir beaucoup de choses critiques qui peuvent arriver.
01:40Typiquement il peut y avoir des pannes, des erreurs de configuration, des attaques
01:44de routage etc etc je pense que vous savez mieux que moi ce qui peut arriver.
01:48Les opérateurs réseau peuvent utiliser ces archives publiques mais
01:53vous pouvez aussi utiliser des services de surveillance BGP en fait qui vont
01:59faire le travail pour vous donc ces services utilisent aussi ces archives de
02:02routes publiques donc il y a des projets de recherche et il y a des outils
02:05commerciaux par exemple Kentik, ThousandEyes etc etc
02:09donc tout ça c'est très utile seulement aujourd'hui il y a un problème.
02:15Le problème c'est ce pourcentage 1.2% donc qu'est ce que c'est que ce
02:20pourcentage ? En fait c'est le pourcentage d'aides dans l'internet qui partagent
02:26leurs données BGP aujourd'hui avec les plateformes de connect public et donc ça
02:30c'est un très faible pourcentage et en fait on s'est même rendu compte qu'avec
02:36le temps en fait ce pourcentage n'augmente pas.
02:39On essaye de déployer plus de points de collecte mais comme dans le même temps
02:43la taille de l'internet augmente en fait cette proportion n'augmente pas.
02:46Alors c'est un pourcentage qui est assez faible et qu'est ce que ça veut dire du
02:50coup d'avoir seulement 1.2% de couverture parce qu'on appelle ça aussi
02:53la couverture entre guillemets ce pourcentage d'aides qui partagent leurs
02:57données BGP. Alors heureusement ça veut pas dire que
03:01on voit seulement 1.2% de ce qui se passe dans BGP, bonne nouvelle,
03:05on voit certainement plus que ça parce que sinon ça serait un petit peu
03:09difficile de surveiller BGP et de configurer proprement BGP.
03:14Pourquoi est-ce qu'on voit certainement plus que 1.2% ? Parce qu'en fait les
03:19points de vue, les routeurs qui viennent partager leurs données en fait ils ont
03:23une vue parfois qui peut être plus globale que seulement leur autonome
03:28système parce que dans les routes BGP il y a des attributs comme l'espace, les
03:31valeurs de communauté et donc on peut avoir des informations aussi sur ce
03:35qui se passe à distance. Par exemple ici le point de vue 1 en fait il va
03:39voir une partie de la topologie donc il va voir par exemple tous les liens
03:43quand on va regarder aux espaces des routes que ce point de vue exporte on va
03:47voir tous les liens sauf le lien 1.3. Si on regarde le point de vue 2 ici on
03:53va voir tous les liens dans la topologie sauf le lien 1.2 et 2.3 donc en fait on
03:57voit que ces routeurs là ils ont une vue, ce qu'on appelle une vue partielle,
04:00ils voient certains liens, ils n'en voient pas d'autres, ils n'en voient pas d'autres
04:03parce que BGP ne propage pas forcément toutes les routes par exemple parce qu'il
04:07peut y avoir des politiques de routage qui sont configurées etc.
04:10Donc on voit probablement plus que 1.2% de ce qui se passe dans BGP
04:15aujourd'hui mais qu'est ce qu'on voit en fait et qu'est ce qu'on ne voit pas en
04:18fait on sait pas vraiment répondre à cette question.
04:20Est-ce qu'on voit 10% de ce qui se passe ? Est-ce qu'on voit 20% de ce qui se passe ?
04:24Est-ce qu'on voit 50% de ce qui se passe ? On sait pas. Tout ce qu'on sait c'est
04:28qu'on voit certainement pas 100% parce qu'il y a encore pas mal d'événements
04:32qui arrivent et qu'on n'a pas pu anticiper. Alors du coup à l'université de
04:38Strasbourg, c'est là d'où je viens, on s'est dit qu'on allait faire des
04:41simulations pour essayer d'évaluer, de mesurer ce qu'on voit, ce qu'on voit pas.
04:45Donc bien sûr ce qu'on voit, ce qu'on voit pas, ça dépend de l'objectif qu'on
04:50a. Donc il peut y avoir des objectifs qui sont plus faciles à accomplir que
04:54d'autres. Donc ici pour cette présentation on va
04:58se focaliser sur deux cas pratiques assez communs. Donc d'abord
05:03l'identification de liens de peer-to-peer. Donc ça ça peut être utile si on veut
05:06cartographier l'internet par exemple. Et le deuxième cas pratique c'est la
05:10détection de forges d'origine hijacked. Donc ça c'est un type d'attaque de
05:13routage qui est assez dangereux et qui est utilisé en pratique.
05:17Donc voilà. Alors focalisons-nous d'abord sur le premier cas pratique,
05:22l'identification de liens de peer-to-peer. Donc qu'est-ce qu'on a fait ici à
05:26l'université Strasbourg ? En fait on a simulé des petits internets dans nos
05:29serveurs. Donc petits, il y a quand même quelques milliers d'AS mais ça reste plus
05:32petit que l'internet réel bien sûr. Et en fait ce qu'on a fait c'est qu'on a
05:38augmenté le nombre d'AS qui partagent le route BGP. C'est ce qu'on voit ici sur
05:42l'axe des X. On commence à 0.5% donc c'est pas beaucoup et ensuite on monte
05:46jusqu'à 100%. Et sur l'axe des Y, alors je sais pas pourquoi il n'y a pas
05:52la ligne mais bon c'est pas grave, ça se comprend. Sur l'axe des Y et bien il y a
05:58le pourcentage de liens de peer-to-peer qu'on arrive à identifier. Donc 0%
06:01c'est très mauvais, 100% on arrive à cartographier l'ensemble de la topologie.
06:06Donc en fait ici cette bande bleue qu'est-ce que ça représente ? En fait ça
06:11représente la couverture aujourd'hui de RIS et de RouteViews combinés.
06:15Donc ça c'est parmi les deux plus grosses plateformes de collecte qui
06:18existent aujourd'hui. Et comme je vous ai dit tout à l'heure c'est environ 1%.
06:21Donc c'est là où est cette bande bleue. En fait on s'est rendu compte qu'avec la
06:25couverture qu'on a aujourd'hui, donc 1%, on voit environ seulement 16% des liens
06:30de peer-to-peer. Ok donc ça c'est pas beaucoup.
06:34Concrètement ça veut dire que toutes les cartes qu'on voit de l'internet en
06:38fait elles sont très probablement imprécises et il nous manque énormément
06:42de liens. C'est un petit peu comme si on voulait rouler en voiture et qu'on voit
06:45seulement 16% de notre pare-brise, ça serait assez difficile.
06:50Alors qu'en est-il maintenant des hijack BGP ? Donc en fait pour les hijack BGP, là
06:55je vais pas vous montrer la figure parce que je vais aller droit au but,
06:58en fait ici on a une meilleure visibilité parce que cet objectif est
07:03plus facile à réaliser, c'est plus facile de détecter des hijack que
07:06d'identifier des liens de peer-to-peer. Mais on a une visibilité donc de 74%
07:11ce qui veut dire qu'on arrive à détecter 74% des hijack mais ça reste
07:15quand même insuffisant ici parce qu'un hijack c'est une attaque de routage, c'est
07:18quelque chose de particulièrement critique et on ne peut pas laisser 25% de
07:23ce qui se passe dans BGP en dehors de nos radars, un attaquant va pouvoir
07:26exploiter ça et lancer justement une attaque qu'on n'arrivera pas à détecter.
07:31C'est comme si on conduisait sans pouvoir regarder notre angle mort,
07:35ça marcherait pendant un moment mais tôt ou tard ça finirait par un problème.
07:39Quand on a vu ça, une solution assez intuitive qu'on s'est dit c'est
07:49est-ce qu'on pourrait pas juste augmenter le nombre de points de vue
07:53afin de collecter plus de données. Alors effectivement imaginons on peut
07:59reprendre l'exemple précédent, on a deux points de vue et on va en
08:02rajouter trois par exemple donc ça va nous faire cinq points de vue, on va
08:05collecter davantage d'informations. Alors effectivement nos simulations
08:12confirment que cette intuition est correcte donc plus on augmente la
08:16couverture ici sur l'axe des X, mieux on va être capable d'identifier les
08:21unites peer-to-peer. En fait on se rend compte que quand on a une couverture de
08:2650% effectivement on voit la grosse majorité des unites peer-to-peer, on en voit
08:30environ 90%. Donc ça c'est très intéressant mais là il faut quand même
08:35se rendre compte qu'il faut pas juste augmenter le nombre de points de vue par
08:37deux, il faut l'augmenter par 20 si on veut arriver à quelque chose de
08:40satisfaisant. Donc c'est une ordre de grandeur en plus de ce qu'on a aujourd'hui.
08:44Donc ça c'est intéressant mais du coup il y a un autre problème et l'autre
08:49problème c'est justement ce qui est sur cette corbe.
08:52En fait qu'est ce que c'est que cette corbe ? C'est le nombre médian de routes
08:57BGP collectée par RIS et RoadViewers aujourd'hui. Et en fait qu'est ce qu'on
09:02voit ? On voit que ce nombre il augmente à travers le temps de manière quadratique.
09:07Pourquoi ? Parce que en fait déjà ces plateformes elles déploient de plus en
09:11plus de points de vue mais en plus dans l'internet il y a de plus en plus d'AS, de
09:15plus en plus de préfixes et donc ça va créer de plus en plus d'updates BGP et
09:19de volumes de données. Donc aujourd'hui tous les jours on
09:22collecte environ 1 terabyte de données et on peut s'attendre à ce que ce
09:27nombre augmente encore plus dans les années qui viennent.
09:30Donc ça c'est un problème. Par exemple RIS qui est une des
09:35plateformes majeures aujourd'hui en fait ils ont publié des
09:38blog posts récemment où ils expliquent qu'ils n'arrivent plus à gérer le volume
09:44de données qu'ils récoltent. C'est trop coûteux pour eux alors du coup ce
09:49qu'ils ont fait c'est qu'ils freinent volontairement le
09:53déploiement de nouveaux points de vue et du coup c'est exactement l'inverse de
09:57ce qu'on suggère avant avec nos simulations. Eux ils vont freiner le
10:00déploiement de points de vue alors que justement nous on suggère d'en
10:03déployer plus. Mais bon vous voyez que là c'est un problème après ils n'ont pas le
10:06choix donc voilà ils font ce qu'ils peuvent, ils font du très bon travail.
10:09Mais bon voilà ils sont confrontés à ce problème là et dans le même temps les
10:15utilisateurs aussi ils ont des problèmes à processer toutes ces données là.
10:21Par exemple on s'est rendu compte que les chercheurs souvent ils échantillonnent
10:25les données pour faire leurs études BGP. Donc en fait on les a sondé et
10:31on s'est rendu compte que la plupart d'entre eux ils échantillonnent non pas
10:36par choix mais par dépit en fait. Donc là par exemple sur 8 chercheurs qu'on a
10:40sondé il y en a 7 qui nous ont dit qu'ils auraient bien aimé
10:44utiliser plus de données mais bon bah ils n'avaient pas le temps ou ils n'avaient
10:47pas les ressources pour le faire du coup ils se sont contentés d'en utiliser
10:49seulement un petit échantillon. Voilà donc ça c'est les problèmes d'aujourd'hui
10:54avec le monitoring BGP et aujourd'hui du coup je suis là pour vous
10:59introduire une plateforme qu'on a développée qui s'appelle GIL et en fait
11:03vraiment l'idée avec GIL c'est de ne plus avoir cette visibilité limitée
11:07qu'on a sur BGP mais c'est vraiment d'essayer d'avoir une visibilité beaucoup
11:10plus large à 360 degrés. Ok donc dans la suite de cette présentation il y aura
11:16trois points principaux d'abord je vais vous montrer que les routes BGP elles
11:19sont souvent redondantes. Ensuite je vais vous montrer que cette
11:23redondance elle permet une nouvelle stratégie de collecte qu'on appelle
11:26overshoot and discard et finalement je vais vous introduire GIL du coup je vais
11:30vous montrer comment on a pu mettre cette stratégie en pratique et je vais
11:33montrer quelques résultats. D'abord premier point donc je vais
11:37montrer que les routes BGP elles sont souvent redondantes.
11:39Ok donc reprenons l'exemple de tout à l'heure avec notre petit internet avec
11:44quelques AS et imaginons maintenant que l'AS 4 ici annonce deux préfixes le
11:51préfixe P1 P2 et l'AS 6 annonce le préfixe P3. On reprend nos deux points
11:57de vue qu'on avait tout à l'heure le point de vue PV1 PV2 qui sont dans
12:00l'AS 2 et 6 et on va imaginer qu'on a maintenant deux événements qui
12:05surviennent une panne entre le lien 2 et 4 et aussi qu'on a un attaquant, un hijacker
12:10dans l'AS 7 qui va hijacker le préfixe P3. Alors du coup ce qui va se
12:16passer lorsque ces deux événements vont survenir en fait c'est qu'on va
12:20collecter des mises à jour de routes donc par exemple du point de vue 1 on va
12:24collecter ces deux routes en fait ici on voit dans l'aspace que c'est une
12:28route qui va contourner la panne logiquement puisque l'aspace c'est 2 1 4
12:32ici et du point de vue 2 on va également collecter deux routes pareil quand on
12:37regarde à l'espace on voit que c'est une route qui contourne la panne alors
12:42qu'est ce qu'on voit ici plus précisément bon d'abord on voit que les
12:46routes il y a beaucoup de redondances dans ces routes les espaces peuvent être
12:49identiques les préfixes également peuvent être identiques donc il y a
12:53beaucoup de redondances mais en plus de ça elles sont pas si utiles que ça
12:57parce que en fait la panne elle est seulement visible dans une direction ce
13:01qui va nous empêcher de pouvoir la localiser précisément et aussi le
13:05hijacker en fait ne sera même pas détecté parce que la route hijacker en
13:09fait ne va même pas se propager dans un as où il ya un point de vue donc ça
13:13c'est assez dramatique aussi donc voilà maintenant je vais vous montrer que
13:18cette redondance qu'on a dans les routes bgp on va pouvoir l'exploiter pour
13:22mettre en place une stratégie qu'on appelle overshoot and discard alors
13:27qu'est ce que c'est que cette stratégie donc dans un premier temps le overshoot
13:31ça veut dire qu'on va essayer de déployer autant de points de vue que
13:34possible là l'objectif c'est vraiment d'éviter de manquer des informations
13:40importantes on veut vraiment avoir toutes les informations possibles par
13:43exemple si je reprends l'exemple précédent on va rajouter du coup plus
13:46de points de vue maintenant on en aura 5 et le résultat de tout ça c'est qu'en
13:51fait on va récolter plus d'informations ici par exemple on va récolter une route
13:57du point de vue 3 en plus et une route du point de vue 4 alors ça c'est
14:03particulièrement utile pourquoi parce que maintenant en fait grâce à la route
14:06du point de vue 3 on va on va permettre on va on va pouvoir pardon voir la panne
14:12dans les deux directions et donc on va pouvoir la localiser précisément ça
14:16c'est grâce aux deux updates qui sont soulignés en rouge ici et grâce à la
14:20dernière update du point de vue 4 maintenant on va pouvoir détecter le
14:23hijack parce que ce point de vue là est localisé dans la s5 qui est proche de
14:26l'attaquant donc on va pouvoir détecter le hijack donc du coup logiquement on
14:31voit que dès qu'on a plus de points de vue ça nous aide à avoir plus
14:34d'informations utiles oui mais le problème dans le même temps c'est qu'on
14:38a aussi plus de données qu'on a récupéré en effet on a 6 updates
14:41versus 4 avant et ça comme je l'ai dit avant c'est un problème et c'est pour ça
14:47qu'on a donc du coup la deuxième étape ici de nos stratégies qui est le
14:50discard donc discard qu'est ce qu'on fait en fait on va filtrer les routes qui
14:55sont redondantes là l'objectif c'est de réduire un maximum le volume de données
14:59alors comment ça va se passer en fait on va utiliser des filtres c'est à dire
15:03qu'avant d'enregistrer les données on va on va mettre en place des filtres donc
15:07par exemple ici tout ce qui vient du point de vue 1 pour le préfixe p1 p2 on
15:12va le supprimer et tout ce qui vient du point de vue 2 pour le préfixe p1 on va
15:15également le supprimer le résultat c'est quoi c'est qu'au final on va juste
15:19collecter et enregistrer trois updates et en fait ces trois updates et ben elles
15:25vont toujours nous permettre de faire nos inférences ici donc on va toujours
15:29pouvoir détecter la pagne dans les deux directions donc la localiser et aussi
15:33détecter le hijack donc au final ici on a moins d'updates que quand on a juste
15:40deux vantage points et qu'on garde tous les... pardon deux points de vue et qu'on garde
15:43toutes les données et en plus on arrive à faire des inférences plus
15:47pertinentes donc c'est c'est bénéfique dans tous les cas
15:51ok donc finalement maintenant je vais vous montrer comment on met en place en
15:55fait cette stratégie overshoot and discard dans notre nouvelle plateforme
15:59de collecte du coup qui s'appelle gill alors c'est pas si facile que ça de
16:04mettre ça en place en pratique il y a deux challenges en particulier le
16:10challenge numéro 1 c'est qu'il n'y a pas de consensus sur qu'est ce que c'est que
16:15deux routes bgp redondantes parce que ça dépend de ce que vous voulez faire avec
16:18les données là je vous ai montré deux objectifs mais peut-être que vous avez
16:22d'autres objectifs et du coup par la définition de redondante est différent
16:26différente du coup comment est ce qu'on gère ce problème là avec gill en fait
16:31on a designé nos algorithmes pour justement ne pas être spécifique à une
16:37définition de redondance précise mais plutôt à rester très généraliste
16:42en fait l'idée ici c'est de garder les routes bgp qui permettent de mieux
16:49reconstituer les routes qu'on a supprimé finalement c'est un petit peu comme un
16:53algorithme de compression d'images ok on peut on peut par exemple considérer une
16:58image ici c'est une image de strasbourg par exemple et on peut considérer que
17:01chaque pixel en fait c'est une route bgp d'accord et en fait ici on peut prendre
17:08deux sous-ensembles de pixels par exemple on a l'option 1 et on a l'option 2
17:12on voit que l'option 1 est largement plus pertinente que l'option 2 parce que
17:16avec l'option 1 on va permettre de reconstruire l'image initiale avec une
17:20très bonne précision en fait c'est exactement ce qu'on fait dans gill aussi
17:23on va on va identifier un sous-ensemble de routes qui va permettre de
17:27reconstituer l'ensemble initial avec la meilleure précision possible
17:30donc ici avec gill par exemple on garderait l'image de l'option 1 parce
17:35qu'effectivement il ya des pixels qui sont utiles alors que dans l'option 2 il
17:38ya beaucoup de pixels qui sont redondants voilà donc c'est ça ce qui
17:41nous permet d'être très généraliste et la bonne nouvelle en fait c'est que
17:47dans l'internet les routes bgp sont fortement redondantes donc en fait on a
17:53fait une expérience ici par exemple sur l'axe des y vous avez la qualité de la
17:59reconstitution et sur l'axe des x vous avez le pourcentage de routes qu'on a
18:04gardé donc en fait bon intuitivement plus on va garder de routes mieux sera
18:10la qualité de la reconstitution mais si on se rend compte que on peut en fait
18:14reconstituer 94 % des routes de l'ensemble initial qu'on avait avec
18:21seulement 7 % d'entre elles donc en fait là ça montre vraiment qu'il ya
18:25énormément de redondance et ça je précise que c'est avec des données qui
18:27sont réelles qui viennent de rails prise de reviews et donc c'est pour ça que
18:33cette stratégie overshoot and discard et gill est particulièrement
18:36efficace en pratique il ya un deuxième challenge ici c'est aussi comment
18:42garantir l'équité on veut surtout pas qu'il y ait des gens qui soient
18:46prioritisés et d'autres qui soient défavorisés du coup ça ça reste un
18:52challenge alors comment on fait en sorte justement qu'il y ait cette équité et
18:59que tout le monde puisse bénéficier de la plateforme en fait gill va identifier
19:02des points de vue qui sont non redondants et qu'on appelle des points
19:06de vue encre ok et depuis ces points de vue on va
19:09considérer on va on va pardon conserver toutes les données ok donc si je reprends
19:13l'exemple de tout à l'heure par exemple on peut se dire que le point de vue 2 et
19:16le point de vue 3 sont des points de vue encre et du coup on va récupérer toutes
19:20les données depuis ces points de vue alors au final on va avoir un petit peu
19:24plus de données qu'on va enregistrer maintenant on a quatre updates mais
19:27maintenant on va pouvoir répondre à des questions du style est ce que les deux
19:32préfixes p1 p2 ont les mêmes attributs bgp même s'ils sont peut-être redondants
19:38et bien on pourra répondre à cette question grâce à cette stratégie avec
19:42les points de vue encre ok donc du coup si vous êtes intéressés il y a un
19:48prototype de gill qui tourne sur un site bgp roads d'alio
19:51bon ça reste un prototype pour l'instant on a une petite dizaine de
19:55pires on vient de lancer la plateforme donc c'est tout récent bon pour l'amorcer
20:00un petit peu on va on va certainement essayer de mirorer ceux de riz et
20:03rootviews comme ça on va pouvoir tout de suite l'amorcer avec quelques centaines
20:06de pires si vous êtes intéressés et que vous voulez contribuer vous pouvez
20:10vous connecter à gill et partager vos données bgp c'est fait en cinq minutes
20:15parce qu'on a entièrement automatisé le process sur le site internet
20:21voilà alors juste pour finir j'aimerais aussi expliquer pourquoi gill en fait se
20:27démarque des plateformes qui existent déjà parce qu'il existe déjà pas mal de
20:32plateformes de collecte donc il y en a qui sont par exemple privées on les voit
20:36ici kentic, thousand eyes etc ils ont leurs plateformes privées
20:41il y en a qui sont publics comme je les ai cités tout à l'heure ripriz, pch,
20:45rootviews mais ces plateformes en fait elles ont soit des politiques de
20:49peering qui sont sélectives soit elles ont un périmètre de peering limité tout
20:54le monde ne peut pas peerer avec eux et en fait gill il va être ici en haut à
20:57gauche il va d'abord fournir les données publiquement à l'ensemble de la
21:01communauté mais aussi on a une politique de peering qui est vraiment 100% en
21:05vert parce que tout le monde peut se connecter en remote bgp session c'est à
21:07dire vous avez juste besoin d'une connexion internet pour venir partager
21:10vos données et c'est tout bon voilà donc finalement gill a un impact
21:14positif sur beaucoup d'études c'est ce qu'on a trouvé sur le long terme si on
21:17arrivait à avoir une couverture de 50% un jour on pourrait tripler le nombre de
21:22liens peer-to-peer qu'on identifie doubler le nombre de pannes qu'on peut
21:25localiser détecter 9% de plus de hijack etc etc sur le court terme en fait on
21:31s'est rendu compte que les utilisateurs qui échantillent les données le font
21:34souvent de manière très naïve par exemple aléatoirement en fait si on
21:38utilise les algorithmes de gill on arrive à améliorer ces études là donc
21:41plus 15% d'as-business relationship inféré une meilleure précision pour
21:45détecter des hijack etc etc et ça j'insiste sur le fait que c'est sans
21:49processer plus de données c'est ça un petit peu la magie du truc c'est qu'on
21:53ne processe pas plus de données que ce qui se fait aujourd'hui mais comme elles
21:56sont plus pertinentes et ben on a des meilleurs résultats voilà bah je vous
22:00remercie et si vous avez des questions je suis à disposition
22:03on peut peut-être prendre une question
22:08je vais pas prendre la place de quelqu'un mais bon merci pour la présentation super
22:12intéressante est ce que vous avez une évaluation en ordre de grandeur du
22:16volume de données stockées voulait dire en ce moment où je sais pas oui
22:22alors en fait oui donc on a publié un papier de recherche bien sûr là dessus
22:28on a une évaluation qui est assez poussée en fait ça c'est un peu
22:31configurable c'est à dire que nous on règle nos algorithmes en ce moment pour
22:35qu'ils suppriment un petit peu plus de 80% des données donc on va seulement
22:40garder 10% des données maintenant vous pouvez le configurer pour supprimer plus
22:43ou moins bien sûr c'est un trade off en ce moment c'est ce qui se passe plus ou
22:47moins avec nos évaluations qu'on a fait après là on n'a que dix pires donc on
22:50peut facilement récupérer toutes les données on n'a même pas besoin de
22:52défiltrer mais si la plateforme elle devient populaire qu'on a beaucoup
22:57beaucoup plus de pires on pourrait potentiellement supprimer plus de 90% des
23:01données en volume bah nous pour l'instant on n'a que dix pires donc c'est
23:06il ya quasiment rien

Recommandations