240 liens privés
Behav Res Methods. 2022; 54(4): 1794–1817.
Published online 2021 Oct 25. doi: 10.3758/s13428-021-01698-z
PMCID: PMC8545361
PMID: 34697754
LOCO: The 88-million-word language of conspiracy corpus
Alessandro Miani,corresponding author1 Thomas Hills,2,3 and Adrian Bangerter1
La propagation des théories du complot en ligne représente une menace sérieuse pour la société. Pour comprendre le contenu des conspirations, nous présentons ici le corpus LOCO (Language of Conspiracy). LOCO est un corpus de 88 millions de tokens composé de documents sur les conspirations (N = 23 937) et sur le courant dominant (N = 72 806) provenant de 150 sites Web. En imitant le comportement des internautes, les documents ont été identifiés à l'aide de Google en croisant un ensemble de phrases de départ avec un ensemble de sites Web. LOCO est structuré de manière hiérarchique, ce qui signifie que chaque document est croisé avec des sites Web (N = 150) et des sujets (N = 600, sur trois résolutions différentes). Un riche ensemble de caractéristiques linguistiques (N = 287) et de métadonnées comprend la date de téléchargement, des mesures de l'engagement dans les médias sociaux, des mesures de la popularité, de la taille et du trafic des sites Web, ainsi que des annotations sur les partis pris politiques et les rapports factuels. Nous avons exploré les caractéristiques de LOCO sous différents angles, montrant que les documents suivent des événements sociétaux importants dans le temps (par exemple, la mort de la princesse Diana, la fusillade de l'école de Sandy Hook, les épidémies de coronavirus), tandis que les modèles de caractéristiques lexicales (par exemple, la tromperie, le pouvoir, la domination) se chevauchent avec ceux extraits des communautés de médias sociaux en ligne consacrées aux théories du complot. En calculant la similarité en cosinus à l'intérieur d'un sous-corpus, nous avons dérivé un sous-ensemble des documents conspirationnistes les plus représentatifs (N = 4 227) qui, par rapport aux autres documents conspirationnistes, présentent un langage conspirationniste prototypique et exagéré et sont plus fréquemment partagés sur Facebook. Nous montrons également que les utilisateurs de sites web conspirationnistes naviguent vers les sites web par des moyens plus directs que les utilisateurs traditionnels, ce qui suggère un biais de confirmation. LOCO et les ensembles de données connexes sont disponibles gratuitement à l'adresse https://osf.io/snpcg/.
Informations complémentaires
La version en ligne contient du matériel supplémentaire disponible à l'adresse 10.3758/s13428-021-01698-z.