Misinformation on Twitter During the Danish National Election: A Case Study

Leon Derczynski, Torben Oskar Albert-Lindqvist, Marius Venø Bendsen, Nanna Inie, Viktor Due Pedersen and Jens Egholm Pedersen

TRUTH & TRUST ONLINE 2019

Elections are a time when communication is important in democracies, including over social media. This paper describes a case study of applying NLP to determine the extent to which misinformation and external manipulation were present on Twitter during a national election. We use three methods to detect the spread of misinformation: analysing unusual spatial and temporal behaviours; detecting known false claims and using these to estimate the total prevalence; and detecting amplifiers through language use. We find that while present, detectable spread of misinformation on Twitter was remarkably low during the election period in Denmark.

pdf

Joint Rumour Stance and Veracity Prediction

Emil Refsgaard Middelboe, Anders Edelbo Lillie and Leon Derczynski

NODALIDA 2019

The net is rife with rumours that spread through microblogs and social media. Not all the claims in these can be verified. However, recent work has shown that the stances alone that commenters take toward claims can be sufficiently good indicators of claim veracity, using e.g. an HMM that takes conversational stance sequences as the only input. Existing results are monolingual (English) and mono-platform (Twitter). This paper introduces a stanceannotated Reddit dataset for the Danish language, and describes various implementations of stance classification models. Of these, a Linear SVM provides predicts stance best, with 0.76 accuracy / 0.42 macro F1. Stance labels are then used to predict veracity across platforms and also across languages, training on conversations held in one language and using the model on conversations held in another. In our experiments, monolinugal scores reach stance-based veracity accuracy of 0.83 (F1 0.68); applying the model across languages predicts veracity of claims with an accuracy of 0.82 (F1 0.67). This demonstrates the surprising and powerful viability of transferring stance-based veracity prediction across languages.

pdf

Political Stance Detection for Danish

Rasmus Lehmann and Leon Derczynski

NODALIDA 2019

The task of stance detection consists of classifying the opinion expressed within a text towards some target. This paper presents a dataset of quotes from Danish politicians, labelled for stance, and also stance detection results in this context. Two deep learning-based models are designed, implemented and optimized for political stance detection. The simplest model design, applying no conditionality, and word embeddings averaged across quotes, yields the strongest results. Furthermore, it was found that inclusion of the quote’s utterer and the party affiliation of the quoted politician, greatly improved performance of the strongest model.

Dansk abstrakt: I indeværende artikel præsenteres et annoteret datasæt over citater fra danske politikere, samt to Deep Learning-baserede modeller til brug ved identifikation af holdninger i de annoterede citater. Det konkluderes at den simpleste af de to modeller opnår de bedste resultater, samt at brug af information vedrørende citaternes kontekst forbedrer modellernes resultater.

pdf

Bornholmsk Natural Language Processing: Resources and Tools

Leon Derczynski and Alex Speed Kjeldsen

NODALIDA 2019

This paper introduces language processing resources and tools for Bornholmsk, a language spoken on the island of Bornholm, with roots in Danish and closely related to Scanian. This presents an overview of the language and available data, and the first NLP models for this living, minority Nordic language.

Sammenfattnijng pa borrijnholmst: Dæjnna artikkelijn introduserer natursprågsresurser å varktoi for borrijnholmst, ed språg a dær snakkes på ön Borrijnholm me rødder i danst å i nær familia me skånst. Artikkelijn gjer ed âuersyn âuer språged å di datan som fijnnes, å di fosste NLP modællarna for dætta læwenes nordiska minnretâlsspråaged.

pdf

The Lacunae of Danish Natural Language Processing

Andreas Kirkedal, Barbara Plank, Leon Derczynski and Natalie Schluter

NODALIDA 2019

Danish is a North Germanic language spoken principally in Denmark, a country with a long tradition of technological and scientific innovation. However, the language has received relatively little attention from a technological perspective. In this paper, we review Natural Language Processing (NLP) research, digital resources and tools which have been developed for Danish. We find that availability of models and tools is limited, which calls for work that lifts Danish NLP a step closer to the privileged languages.

Dansk abstrakt: Dansk er et nordgermansk sprog, talt primært i kongeriget Danmark, et land med stærk tradition for teknologisk og videnskabelig innovation. Det danske sprog har imidlertid været genstand for relativt begrænset opmærksomhed, teknologisk set. I denne artikel gennemgar vi sprogteknologi-forskning, -ressourcer og -værktøjer udviklet for dansk. Vi konkluderer at der eksisterer et fatal af modeller og værktøjer, hvilket indbyder til forskning som løfter dansk sprogteknologi i niveau med mere priviligerede sprog.

pdf

UniParse: A universal graph-based parsing toolkit

Daniel Varab and Natalie Schluter

NODALIDA 2019

This paper describes the design and use of the graph-based parsing framework and toolkit UniParse, released as an open-source python software package. UniParse as a framework novelly streamlines research prototyping, development and evaluation of graph-based dependency parsing architectures. UniParse does this by enabling highly efficient, sufficiently independent, easily readable, and easily extensible implementations for all dependency parser components. We distribute the toolkit with ready-made configurations as reimplementations of all current state-of-the-art first-order graph-based parsers, including even more efficient Cython implementations of both encoders and decoders, as well as the required specialised loss functions.

pdf

ITU Copenhagen at ACL 2019, Florence

We’re glad to have the following papers at the Annual meeting of the Association for Computational Linguistics 2019 (ACL) in Florence:

  • Claudio Greco Barbara Plank, Raquel Fernández, Raffaella Bernardi. Psycholinguistics meets Continual Learning: Measuring Catastrophic Forgetting in Visual Question Answering. In ACL 2019. Tuesday July 30, 15:03, Hall 4
  • Nils Rethmeier and Barbara Plank. MoRTy: Unsupervised Learning of Task-specialized Word Embeddings by Autoencoding. In RepL4NLP, ACL 2019 workshop. Friday August 2

Barbara Plank has also co-chaired the entire set of workshops at ACL conferences this year, including ACL and also NAACL and EMNLP. Also, rumour has it that Natalie Schluter may be making a presentation during the final day’s closing talks. Enjoy Florence, and we hope to see you here!

Manuel Ciosici joins NLP at ITU

We are delighted to welcome Manuel Ciosici to NLP at ITU! Manuel has recently handed in his Ph.D. thesis at Aarhus University. During his studies, Manuel researched word representations and their role in Natural Language Processing. Word representation induction methods take in large corpora of natural language text and compute ways to represent words in such a way that makes words understandable by computer algorithms. He studied word representations based on word clusters and showed that they are highly effective at learning to represent syntactic information. With word representations based on word vectors he proposed a method for determining the meaning of abbreviations based on their use in sentences.

Manuel will be doing postdoc work with Leon Derczynski, researching deep learning approaches to multi-lingual stance detection for misinformation detection, as part of the internal MultiStance project funded by ITU Computer Science.

Manuel Ciosici

ITU Copenhagen at NODALIDA 2019, Turku

We are excited to have seven papers accepted at the Nordic Natural Language Processing conference, NODALIDA:

  • UniParse: A universal graph-based parsing toolkit
    Daniel Varab and Natalie Schluter (arXiv)
  • The Lacunae of Danish Natural Language Processing
    Andreas Kirkedal, Barbara Plank, Leon Derczynski and Natalie Schluter
  • Bornholmsk Natural Language Processing: Resources and Tools
    Leon Derczynski and Alex Speed Kjeldsen
  • Political Stance in Danish
    Rasmus Lehmann and Leon Derczynski
  • Cross-Lingual Transfer and Very Little Labeled Data for Named Entity Recognition in Danish
    Barbara Plank
  • Joint Rumour Stance and Veracity Prediction
    Emil Refsgaard Middelboe, Anders Edelbo Lillie and Leon Derczynski
  • Lexical Resources for Low-Resource PoS Tagging in Neural Times
    Sigrid Klerke and Barbara Plank

We hope to see you in Finland!

Analyse: Takt og tone for de politiske partier på sociale medier

Hvor formelle er politikerne når de adresserer os? Debattens omgangstone fortæller noget om den danske politiske kultur, såvel som om de specifikke vælgere, der tales til.

Image result for man in suit pointing

Ved at analysere et stort datamatieriale med partiernes og de politiske kandidaters opslag på sociale medier, er det muligt at beskrive omgangstonen i den politiske debat herhjemme. Og tonen i den politiske debat giver et indblik i den danske, politiske kultur.

Venstres sætninger handler om Mette Frederiksen

Et simpelt første spørgsmål er at se på hvem partierne og deres kandidater primært adresserer – det angiver en ramme for hvordan de interagerer med vælgerne. Denne analyse laves med et værktøj kaldet dependency parsing.

Hvad er dependency parsing?

Ordene i en sætning står i forhold til hinanden på en måde, som fortæller os hvordan ordene giver mening hver især. Én måde at beskrive disse forhold hedder “dependencies”. For eksempe vil verber (udsagnsord) og adjektiver (tillægsord) som regel beskrive substantiver (navneord), adverbier (biord) kan modificere verber, og der vil være ét ord som er det primære fokus i sætningen – sætningens “hoved”. At finde disse dependencies eller forhold i sætninger kaldes “dependency parsing”, og det kan gøres ved hjælp af en computer. 

En “dependency parser” er et automatiseret værktøj, som tager en sætning som input, og identificerer forholdene mellem ordene. Den dependency parser som er brugt i denne analyse, er blevet trænet i dansk tekst, hvor et eller flere mennesker manuelt på forhånd har markeret alle relationerne i flere hundrede tusind sætninger. Parseren kan, ved at se alle disse forhold, derefter selv identificere relationerne i nye sætninger. Computeren lærer dette ved brug af et neuralt nerværk. 

Værktøjet, som er brugt i denne analyse, hedder “dapipe”, og er baseret på UDpipe. Værktøjet kan downloades gratis her: https://nlp.itu.dk/resources/

Analysen viser også, at der er forskel på, hvordan partierne taler til deres vælgere, og hvor formelle partiernes kandidater er.

Venstre iscenesætter deres politik med Mette Frederiksen

Lad os først se på, hvem partierne og deres kandidater primært adresserer – det giver en ramme for, hvordan de interagerer med deres støttere.

De fleste politikere bruger “Det”, “Vi”, og “Jeg” som subjekt i deres sætninger. Det vil sige, at de primært taler om hvad de selv vil gøre, hvad “vi” kan gøre, eller de laver mere generelle udsagn. “Det” topper listen for næsten alle partier, bortset fra Radikale Venstre og Alternativet, som oftere beskriver hvad “vi” kan gøre, og Stram Kurs, som med en mere direkte og konfronterende tone, primært bruger “du” som subjekt.

Interessante ting dukker op hvis man kigger på de 10 mest populære subjekter i partiernes sætninger. For eksempel er Klaus Riskær Pedersen-partiet det eneste parti som laver konkrete udmeldinger med “landbrug” som subjekt. Stram Kurs’s partikandidater har “Islam” som ét af deres primære subjekter. Det syvende mest populære subjekt i Venstres opslag er Mette Frederiksen, hvilket indikerer at de iscenesætter store dele af deres debat med oppositionens leder – et tegn på at Venstre har en kontradiktorisk politisk tilgang.

Stram Kurs bruger mest kompliceret sprog

En lix-test viser, at Stram Kurs kandidater bruger det generelt mest komplekse sprog på sociale medier, mens Nye Borgerlige bruger det mindst komplekse.

Stram Kurs 41,5
Alternativet 41,0
Enhedslisten 40,7
Radikale Venstre 40,1
Socialdemokratiet 40,0
Det Konservative Folkeparti 39,8
Dansk Folkeparti 39,7
Kristendemokraterne 39,6
Socialistisk Folkeparti 39,6
Venstre 39,5
Liberal Alliance 39,4
Klaus Riskær Pedersen 39,0
Nye Borgerlige 38,6

Figur 2: Hvor uformelle er partiernes kandidater på sociale medier? Lav score indikerer en mere formel tone, mens høj score indikerer en højere forekomst af uformelt sprog).

(Figur 1: Gennemsnitligt lixtal for partiernes kandidaters sprog på sociale medier. Et lavere tal betyder et mere simpelt sprog).

Vi ser, at Søren Grinderslev og Uwe Max Jensen skubber Stram Kurs’ lixtal op med høj aktivitet på sociale medier, specielt i debatter med andre brugere, hvor de bruger lange ord som ”omkalfatres”, ”voldsparatheden”, ”islamiseringen”, og ”koranafbrændinger”.

Selvom partiernes generelle lixtal ligger relativt tæt på hinanden – mellem 38 og 42 – har politikerne en langt større varians. Socialdemokratiets folketingskandidat Camilla Fabricius fra Aarhus har analysens mest komplekse sprog med et meget højt lixtal på 57,4, efterfulgt SF’s Jonas Ghiyati (57,3).

I den anden ende af skalaen finder vi Venstres Hans Christian Schmidt med et gennemsnitligt lixtal på 14,2 og Alternativets Henrik Marstal på 20,8.

Fakta: Lixtal

Lix er en forkortelse for læsbarhedsindex – et mål for en teksts læsbarhed. Lixtallet er det gennemsnitlige antal ord per helsætning, plus procentdelen af lange ord, altså ord på over seks bogstaver. Et lavt lixtal er tegn på et simplere sprog, hvilket er mere læsbart og har en appel til et bredere publikum. Et højt lixtal er et tegn på et mere komplekst sprog, hvilket ofte associeres med akademisk sprog og højere uddannelsesniveau. Tekster med et lixtal mellem 35-44 anses som inden for normal læsevenlighed, altså for eksempel aviser og magasiner.

Kristendemokraterne og Nye Borgerlige bruger mere autoritært sprog

Et andet interessant grammatisk fænomen er brugen af imperativer – eller bydeform, som det også hedder på dansk.

Bydeform indikerer instrukser, for eksempel “Kom!” eller “Spis!”. I politisk dialog bliver bydeform ofte brugt til at fortælle andre, hvad de skal gøre. For eksempel kan afsenderen have autoritet til at give andre instrukser, eller at afsenderen forsøger at skabe et forhold til andre ved hjælp af direkte appel. Bydeform bruges oftere af mænd end af kvinder.

Kristendemokraterne er det parti som oftest bruger bydeform på sociale medier – bydeformen bruges i 4,1 procent af deres opslag.

Nye Borgerlige bruger bydeformen næstmest – nemlig i 3,8 procent af deres opslag. Liberal Alliance, Venstre og Enhedslisten er de partier, som bruger bydeform mindst, det er tilfældet i blot 2,4 procent af deres opslag. Det stemmer nogenlunde overens med forventningerne – hverken Liberal Alliance eller Venstre står for særligt autoritative ideologier, og Venstres tilbagegang i meningsmålingerne kunne tyde på, at deres autoritet hos vælgerne er faldet.

Hvis vi ser nærmere på hvilke instrukser, bydeformen giver, bruger Dansk Folkeparti især “bevar, “grib”, og “hold” oftere end andre partier, mens SF’s kandidater opfordrer til “lad” og “læs”. Kristendemokraterne instruerer deres vælgere “forbered i stedet for ”læs”, og Socialdemokratiets kandidater formaner: “husk”.

Examples:

  • Lad: ”Lad os fokusere på indholdet frem for strukturen”, ”Lad os nu komme i gang med den grønne omstilling”, ”Lad os give vores Europa-Parlament en stærk stemme”
  • Forbered: ”Slå et slag forbi TV2 i morgen og få et mere nuanceret billede af KD og den politik vi også står for. Forbered dig her: (link)”
  • Læs: ”Læs om din lokale kandidat i Hvidovre Avis”, ”Læs min anmeldelse: (link)”
  • Grib: ”Så grib din ret og gør din pligt”
  • Husk: ”Husk at du aldrig bliver for gammel til at stemme😀”, ”.. så husk hvilken virkelighed du kommer fra”

Autoritære politikere er de mest formelle

Den sidste analyse af partiernes tone på sociale medier er deres grad af formalitet. Uformelt sprog er mere afslappet, mens formelt dansk har en mere saglig og aristokratisk tone. På formelt dansk siger man for eksempel “De” i stedet for “du”, mens man på uformelt dansk i højere grad bruger slang, udråbstegn, og skriver cifre for tal i stedet for bogstaver – for eksempel at skrive ”8” i stedet for ”otte”).

Parti

Forekomst at uformel sprogbrug

Alternativet

64%

Det Konservative Folkeparti

41%

Klaus Riskær Pedersen

38%

SF

35%

Venstre

33%

Dansk Folkeparti

30%

Socialdemokratiet

27%

Radikale Venstre

22%

Liberal Alliance

21%

Enhedslisten

19%

Nye Borgerlige

16%

Kristendemokraterne

15%

Stram Kurs

Utilstrækkeligt datagrundlag

Figur 2: Hvor uformelle er partiernes kandidater på sociale medier? Lav score indikerer en mere formel tone, mens høj score indikerer en højere forekomst af uformelt sprog. Andelen af uformelt sprog er udregnet ved at dividere antallet af opslag med uformelt sprog med det totale antal opslag fra hvert enkelt parti.

Valget af formelt eller uformelt sprog varierer meget blandt partierne, og vi kan se, at kandidaterne fra Kristendemokraterne og Nye Borgerlige, ud over at være de primære brugere af bydeform, også har den laveste forekomst af uformelt sprog. Socialdemokratiet er en smule mere formelle end Venstre, og Alternativet har den højeste forekomst af uformelt sprog.

Analysen er udarbejdet af Leon Strømberg-Derczynski, adjunkt på IT-Universitetet (ITU), der er medlem af NLP-forskerteamet på ITU. Forskerteamet består desuden af Torben Oskar Albert-Lindqvist, Marius Venø Bendsen, Nanna Inie, Jens Egholm Pedersen, Viktor Due Pedersen og Troels Runge.