Contribution d'IP : Amélioration de la confidentialité et limitation des abus/Nouvelles fonctionnalités
Contexte
Notre objectif pour ce projet est double :
- en premier lieu, le but est de protéger nos projets contre le vandalisme, le harcèlement, les faux-nez, les campagnes de désinformation et autres attitudes disruptives ;
- deuxièmement, de protéger les contributeurs non-enregistrés contre d'éventuels harcèlement, représailles et abus en ne rendant pas publique leur adresse IP.
Suite aux échanges sur la page de discussion du projet et ailleurs, nous avons pu noter différentes façons dont les adresses IP sont utilisées dans les projets Wikimédia :
- les adresses IP sont utiles pour rechercher des contributeurs « proches » (qui contribuent à partir de la même plage IP ou d’une plage IP proche) ;
- elles sont utilisées pour inspecter l’historique des contributions d’un contributeur non enregistré ;
- les adresses IP sont utiles pour identifier des contributions faites sur plusieurs wikis ;
- elles sont utiles pour déterminer si quelqu'un essaie de contribuer à partir d’un VPN ou d’un nœud Tor ;
- elles sont utiles pour découvrir la position d'un contributeur ou de connaître certains détails tels que l’université, l’entreprise ou l’agence gouvernementale à partir de laquelle la personne contribue ;
- les adresses IP sont utilisées pour tenter d’établir un lien entre une IP et un vandale ;
- parfois, elles sont utilisées pour définir des filtres anti-abus spécifiques afin de contrer certains spams ;
- les adresses IP sont importantes pour le blocage de plages complètes d’IP.
Utiliser les adresses IP pour détecter les faux-nez est un processus imparfait. Les adresses IP sont de plus en plus dynamiques et leur nombre continue d'augmenter au fur à mesure que le nombre d'utilisateurs et d'équipements augmente. Les adresses de type IPv6 sont complexes et difficiles à reconnaître. Pour la plupart des nouveaux contributeurs, les adresses IP semblent être un ensemble de nombres apparemment aléatoires qui n'ont aucun sens, sont difficiles à retenir et à utiliser. Il faut beaucoup de temps et d'efforts aux nouveaux contributeurs pour s'habituer à l'utilisation d'adresses IP à des fins de blocage et de filtrage.
Notre objectif est de réduire notre dépendance vis-à-vis des adresses IP en mettant en place des outils qui s'appuient sur diverses sources d'information afin de détecter les contributeurs similaires. Afin de masquer les adresses IP sans impacter négativement nos projets, le processus doit être amélioré de sorte qu'afficher les IP publiquement devienne redondant. C'est également une opportunité de développer des outils plus puissants permettant d'identifier les vandales.
Idées d'outils à concevoir
Nous voulons qu'il soit plus simple pour les contributeurs d'obtenir à propos des adresses IP les informations nécessaires aux tâches qu'ils doivent effectuer. Pour ce faire, nous pensons à trois nouvelles améliorations ou fonctionnalités.
1. Outil Informations sur l’IP
This feature is currently a work in progress. To follow along, please visit: IP Info Feature.
Les adresses IP fournissent des informations clés sur la situation géographique, l'institution d'où l'on contribue, l'usage d'un nœud Tor/VPN, la plage d'adresses IP, etc. Actuellement, lorsqu'une personne souhaite obtenir ces détails sur une IP, elle doit utiliser des outils externes tels que des moteurs de recherche. Nous pouvons simplifier ce processus en rendant ces informations visibles aux contributeurs de confiance.
Jusqu'ici, l'une des inquiétudes rapportées lors des échanges avec la communauté est qu'il est difficile de savoir si une IP est celle d'un VPN ou si elle est sur une liste noire. Les listes noires ne sont pas toujours fiables — certaines ne sont pas à jour tandis que d'autres contiennent des erreurs. Il est important pour nous de comprendre ce que vous apporte le fait de savoir si une IP est celle d'un VPN ou si elle est sur une liste noire ; et aussi de comprendre comment vous procédez d'habitude pour connaître ces informations.
Intérêts:
- Cela éliminerait le besoin de copier-coller les adresses IP dans des outils externes en vue d'extraire les informations nécessaires.
- Nous nous attendons également à ce que cela réduise considérablement le temps mis à collecter ces informations.
- Sur le long terme, cela aiderait à réduire notre dépendance vis-à-vis des adresses IP, lesquelles ne sont pas toujours aisées à reconnaître et manipuler.
Risques :
- En fonction de la mise en œuvre de ces outils, nous courrons le risque qu'un plus grand nombre de personnes en sachent plus sur les IP (au lieu du nombre limité de personnes actuellement au fait du fonctionnement des adresses IP).
- En fonction du service utilisé pour collecter les détails sur les IP, il possible que ces informations ne soient pas traduites mais uniquement disponibles en anglais.
- Les utilisateurs peuvent avoir du mal à comprendre si c'est une institution ou une personne qui est à l'origine d'une contribution.
2. Recherche de contributeurs similaires
Pour détecter les faux-nez (et les utilisateurs non enregistrés), les contributeurs doivent faire de grands efforts pour déterminer si deux utilisateurs ne font qu'un. Cela implique de comparer les contributions des utilisateurs, les détails sur leur localisation, les styles de contribution et bien plus encore. L'objectif de cette fonctionnalité sera de simplifier ce processus et d'automatiser certaines comparaisons qui peuvent être effectuées sans travail manuel.
This would be done with the help of a machine learning model that can identify accounts demonstrating a similar behavior. The model will be making predictions on incoming edits that will be surfaced to checkusers (and potentially other trusted groups) who will then be able to verify that information and take appropriate measures.
Nous pourrions également avoir un moyen de comparer deux ou plusieurs utilisateurs non enregistrés afin de trouver des similitudes et savoir notamment s'ils contribuent à partir d'adresses IP ou de plages d'adresses IP proches. Une autre opportunité ici est de permettre à l'outil d'automatiser certains des mécanismes de blocage que nous utilisons — comme la détection automatique de plage et la suggestion de plages à bloquer.
A tool like this holds a lot of possibilities—from identifying individual bad actors to uncovering sophisticated sockpuppeting rings. But there is also a risk of exposing legitimate sock accounts who want to keep their identity secret for various reasons. This makes this project a tricky one. We want to hear from you about who should be using this tool and how can we mitigate the risks.
Avec l'aide de la communauté, une telle fonctionnalité peut être améliorée afin d'égaler les mécanismes utilisés actuellement par la communauté quand il s'agit de comparer des contributeurs. Une possibilité est également d’entraîner un modèle d’apprentissage automatique à faire ces comparaisons (un peu comme ORES détecte les modifications problématiques).
Voici à quoi cette fonctionnalité pourrait ressembler de manière pratique :
-
Recherche de contributeurs similaires par IP
-
Recherche de contributeurs similaires à IP masquée
Avantages :
- Un tel outil pourrait faire gagner beaucoup de temps et réduire les efforts des administrateurs et patrouilleurs souhaitant repérer les contributeurs mal intentionnés.
- Cet outil pourrait permettre d'identifier plus facilement des plages d'IP utilisées par plusieurs contributeurs problématiques.
Risques :
- Si nous utilisons l’apprentissage automatique pour détecter les faux-nez, il faudra faire très attention et surveiller les biais éventuels lors de la phase d'entrainement de l'outil à partir de données. Il ne faudra pas accorder une confiance exagérée dans les scores de similitude calculés. L'humain doit nécessairement être associé au processus de révision.
- Un accès plus facile à des informations telles que la position géographique peut parfois rendre plus facile, et non plus difficile, la recherche d’informations sur l’identité de quelqu’un.
3. Base de données sur les vandales récurrents
Les vandales récidivistes sont recensés manuellement sur les wikis, même si ce n'est pas toujours le cas. Cela consiste généralement à dresser un profil de leurs styles de contribution, les articles auxquels ces vandales contribuent, des signes permettant de reconnaître leurs faux-nez, la liste de toutes les adresses IP utilisées par ces vandales et plus encore. Vu le grand nombre de pages contenant des détails sur les adresses IP utilisées par ces vandales, c'est de plus en plus une tâche gigantesque que de rechercher et de trouver des informations pertinentes lorsqu'on en a besoin, à supposer qu'elles soient disponibles. Une meilleure façon de procéder pourrait être de créer une base de données qui répertorie les vandales récidivistes.
Un tel système faciliterait la recherche inter-wiki pour les vandales répertoriés et correspondant à un critère de recherche. À terme, cela pourrait potentiellement être utilisé pour signaler automatiquement les utilisateurs lorsque leurs adresses IP ou leurs habitudes de modification correspondent à ceux de vandales connus. Une fois que l'utilisateur a été signalé, un administrateur peut prendre les mesures nécessaires si cela semble approprié. Une question ouverte se pose : celle de savoir si cette fonctionnalité devrait être publique ou privée ou une alternative à mi-chemin. Il est possible de définir des autorisations pour différents niveaux d'utilisation, pour l'accès en lecture seule ou en écriture à la base de données, etc. Nous aimerions vous entendre sur ce point : selon vous, qu'est ce qui fonctionnerait le mieux et pourquoi?
Implication:
- Une telle base de donnée demanderait que la communauté participe en y renseignant les vandales actuellement connus. Cela peut être un énorme travail pour certains wikis.
Avantages:
- Effectuer une recherche inter-wiki sur les vandales connus offrirait un avantage par rapport au système actuel, réduisant ainsi le travail des patrouilleurs.
- La détection automatique de contributeurs potentiellement problématiques en combinant leur mode de contribution et les plages d'adresses IP connues serait utile. Cela permettrait aux administrateurs de se former une opinion et de prendre des décisions sur la base des indicateurs suggérés.
Risques:
- Au fur et à mesure que nous concevrons un tel système, nous devrons réfléchir sérieusement aux moyens de sécuriser ces informations et déterminer quelles personnes qui y auront accès.
Ces idées sont à l'état d'ébauche. Nous avons besoin de votre aide afin de les peaufiner. Quelles sont les implications, avantages et risques que nous n'aurions pas envisagés ? Comment pouvons-nous améliorer ces idées ? Nous attendons vos retours sur la page de discussion.
Outils utilisés actuellement
Sur wiki
- CheckUser : l'outil CheckUser (Vérificateur de comptes) permet à un utilisateur avec des droits de « vérificateur » d’accéder à des données confidentielles stockées sur un utilisateur, telles qu'une adresse IP ou une plage CIDR. Ces données incluent les adresses IP utilisées par un utilisateur, la liste de tous les utilisateurs qui ont contribué à partir de cette adresse IP ou d'une plage IP, toutes les modifications à partir d'une adresse IP ou d'une plage IP, l'agent utilisateur et les en-têtes X-Forwarded-For. Il est le plus souvent utilisé pour détecter les faux-nez.
- Permet aux vérificateurs de savoir quel utilisateur a créé plus de 50 comptes en utilisant une même adresse de courriel. L'existence de ces cas a été confirmée dans le ticket phab:T230436 (bien que cette tâche ne concerne pas ce sujet). Cela n’impacte pas la confidentialité des IP directement mais cela pourrait légèrement aider à gérer les cas d'abus répétés.
Outils propres à certains projets (y compris les robots et scripts)
Veuillez spécifier sur quel projet l'outil est utilisé, ce qu'il fait et indiquez un lien si possible
Outils externes
Outils sur ToolForge
- Contributions croisées
- WHOIS et reverse DNS
- Analyse d'interactions entre deux ou trois contributeurs.
- IPCheck : permet de collecter des détails sur une adresse IP, si le contributeur utilise un proxy, un noeud Tor ou VPN.
- GUC : contributions globales des contributeurs.
- Détails sur des plages d'adresse IP
Outils connexes
- Blocages majeurs d’adresses IP : http://www.nirsoft.net/countryip/cz.html
- Analyseur de la chaine d’agent utilisateur : http://www.useragentstring.com/
- Nmap
- Spamhaus : listes et XBL (liste de blocage des systèmes infectés)
- Talos : réputation de l’IP (surtout pour le pourriel)