Rob van der Goot joins NLP at ITU

Rob has a background in information science, but quickly became interested in the field of natural language processing, especially in the problem of building robust models. His expertise lies in automatically deriving syntactic analyses of natural language (parsing), with a focus on low-resource settings. During his PhD, he improved the automatic syntactic analysis of social media texts by first translating it to a more ‘standard’ form (try it yourself: www.robvandergoot.com/monoise). More broadly, he is interested in the automatic processing of all types of language varieties without having explicit training data.
 
Rob will be working at the ITU as a postdoc under supervision of Barbara Plank (partially funded by Amazon), together they will develop natural language processing models for low-resource languages and language varieties.
 
Rob van der Goot

Joint Rumour Stance and Veracity Prediction

Emil Refsgaard Middelboe, Anders Edelbo Lillie and Leon Derczynski

NODALIDA 2019

The net is rife with rumours that spread through microblogs and social media. Not all the claims in these can be verified. However, recent work has shown that the stances alone that commenters take toward claims can be sufficiently good indicators of claim veracity, using e.g. an HMM that takes conversational stance sequences as the only input. Existing results are monolingual (English) and mono-platform (Twitter). This paper introduces a stanceannotated Reddit dataset for the Danish language, and describes various implementations of stance classification models. Of these, a Linear SVM provides predicts stance best, with 0.76 accuracy / 0.42 macro F1. Stance labels are then used to predict veracity across platforms and also across languages, training on conversations held in one language and using the model on conversations held in another. In our experiments, monolinugal scores reach stance-based veracity accuracy of 0.83 (F1 0.68); applying the model across languages predicts veracity of claims with an accuracy of 0.82 (F1 0.67). This demonstrates the surprising and powerful viability of transferring stance-based veracity prediction across languages.

pdf

Analyse: Takt og tone for de politiske partier på sociale medier

Hvor formelle er politikerne når de adresserer os? Debattens omgangstone fortæller noget om den danske politiske kultur, såvel som om de specifikke vælgere, der tales til.

Image result for man in suit pointing

Ved at analysere et stort datamatieriale med partiernes og de politiske kandidaters opslag på sociale medier, er det muligt at beskrive omgangstonen i den politiske debat herhjemme. Og tonen i den politiske debat giver et indblik i den danske, politiske kultur.

Venstres sætninger handler om Mette Frederiksen

Et simpelt første spørgsmål er at se på hvem partierne og deres kandidater primært adresserer – det angiver en ramme for hvordan de interagerer med vælgerne. Denne analyse laves med et værktøj kaldet dependency parsing.

Hvad er dependency parsing?

Ordene i en sætning står i forhold til hinanden på en måde, som fortæller os hvordan ordene giver mening hver især. Én måde at beskrive disse forhold hedder “dependencies”. For eksempe vil verber (udsagnsord) og adjektiver (tillægsord) som regel beskrive substantiver (navneord), adverbier (biord) kan modificere verber, og der vil være ét ord som er det primære fokus i sætningen – sætningens “hoved”. At finde disse dependencies eller forhold i sætninger kaldes “dependency parsing”, og det kan gøres ved hjælp af en computer. 

En “dependency parser” er et automatiseret værktøj, som tager en sætning som input, og identificerer forholdene mellem ordene. Den dependency parser som er brugt i denne analyse, er blevet trænet i dansk tekst, hvor et eller flere mennesker manuelt på forhånd har markeret alle relationerne i flere hundrede tusind sætninger. Parseren kan, ved at se alle disse forhold, derefter selv identificere relationerne i nye sætninger. Computeren lærer dette ved brug af et neuralt nerværk. 

Værktøjet, som er brugt i denne analyse, hedder “dapipe”, og er baseret på UDpipe. Værktøjet kan downloades gratis her: https://nlp.itu.dk/resources/

Analysen viser også, at der er forskel på, hvordan partierne taler til deres vælgere, og hvor formelle partiernes kandidater er.

Venstre iscenesætter deres politik med Mette Frederiksen

Lad os først se på, hvem partierne og deres kandidater primært adresserer – det giver en ramme for, hvordan de interagerer med deres støttere.

De fleste politikere bruger “Det”, “Vi”, og “Jeg” som subjekt i deres sætninger. Det vil sige, at de primært taler om hvad de selv vil gøre, hvad “vi” kan gøre, eller de laver mere generelle udsagn. “Det” topper listen for næsten alle partier, bortset fra Radikale Venstre og Alternativet, som oftere beskriver hvad “vi” kan gøre, og Stram Kurs, som med en mere direkte og konfronterende tone, primært bruger “du” som subjekt.

Interessante ting dukker op hvis man kigger på de 10 mest populære subjekter i partiernes sætninger. For eksempel er Klaus Riskær Pedersen-partiet det eneste parti som laver konkrete udmeldinger med “landbrug” som subjekt. Stram Kurs’s partikandidater har “Islam” som ét af deres primære subjekter. Det syvende mest populære subjekt i Venstres opslag er Mette Frederiksen, hvilket indikerer at de iscenesætter store dele af deres debat med oppositionens leder – et tegn på at Venstre har en kontradiktorisk politisk tilgang.

Stram Kurs bruger mest kompliceret sprog

En lix-test viser, at Stram Kurs kandidater bruger det generelt mest komplekse sprog på sociale medier, mens Nye Borgerlige bruger det mindst komplekse.

Stram Kurs 41,5
Alternativet 41,0
Enhedslisten 40,7
Radikale Venstre 40,1
Socialdemokratiet 40,0
Det Konservative Folkeparti 39,8
Dansk Folkeparti 39,7
Kristendemokraterne 39,6
Socialistisk Folkeparti 39,6
Venstre 39,5
Liberal Alliance 39,4
Klaus Riskær Pedersen 39,0
Nye Borgerlige 38,6

Figur 2: Hvor uformelle er partiernes kandidater på sociale medier? Lav score indikerer en mere formel tone, mens høj score indikerer en højere forekomst af uformelt sprog).

(Figur 1: Gennemsnitligt lixtal for partiernes kandidaters sprog på sociale medier. Et lavere tal betyder et mere simpelt sprog).

Vi ser, at Søren Grinderslev og Uwe Max Jensen skubber Stram Kurs’ lixtal op med høj aktivitet på sociale medier, specielt i debatter med andre brugere, hvor de bruger lange ord som ”omkalfatres”, ”voldsparatheden”, ”islamiseringen”, og ”koranafbrændinger”.

Selvom partiernes generelle lixtal ligger relativt tæt på hinanden – mellem 38 og 42 – har politikerne en langt større varians. Socialdemokratiets folketingskandidat Camilla Fabricius fra Aarhus har analysens mest komplekse sprog med et meget højt lixtal på 57,4, efterfulgt SF’s Jonas Ghiyati (57,3).

I den anden ende af skalaen finder vi Venstres Hans Christian Schmidt med et gennemsnitligt lixtal på 14,2 og Alternativets Henrik Marstal på 20,8.

Fakta: Lixtal

Lix er en forkortelse for læsbarhedsindex – et mål for en teksts læsbarhed. Lixtallet er det gennemsnitlige antal ord per helsætning, plus procentdelen af lange ord, altså ord på over seks bogstaver. Et lavt lixtal er tegn på et simplere sprog, hvilket er mere læsbart og har en appel til et bredere publikum. Et højt lixtal er et tegn på et mere komplekst sprog, hvilket ofte associeres med akademisk sprog og højere uddannelsesniveau. Tekster med et lixtal mellem 35-44 anses som inden for normal læsevenlighed, altså for eksempel aviser og magasiner.

Kristendemokraterne og Nye Borgerlige bruger mere autoritært sprog

Et andet interessant grammatisk fænomen er brugen af imperativer – eller bydeform, som det også hedder på dansk.

Bydeform indikerer instrukser, for eksempel “Kom!” eller “Spis!”. I politisk dialog bliver bydeform ofte brugt til at fortælle andre, hvad de skal gøre. For eksempel kan afsenderen have autoritet til at give andre instrukser, eller at afsenderen forsøger at skabe et forhold til andre ved hjælp af direkte appel. Bydeform bruges oftere af mænd end af kvinder.

Kristendemokraterne er det parti som oftest bruger bydeform på sociale medier – bydeformen bruges i 4,1 procent af deres opslag.

Nye Borgerlige bruger bydeformen næstmest – nemlig i 3,8 procent af deres opslag. Liberal Alliance, Venstre og Enhedslisten er de partier, som bruger bydeform mindst, det er tilfældet i blot 2,4 procent af deres opslag. Det stemmer nogenlunde overens med forventningerne – hverken Liberal Alliance eller Venstre står for særligt autoritative ideologier, og Venstres tilbagegang i meningsmålingerne kunne tyde på, at deres autoritet hos vælgerne er faldet.

Hvis vi ser nærmere på hvilke instrukser, bydeformen giver, bruger Dansk Folkeparti især “bevar, “grib”, og “hold” oftere end andre partier, mens SF’s kandidater opfordrer til “lad” og “læs”. Kristendemokraterne instruerer deres vælgere “forbered i stedet for ”læs”, og Socialdemokratiets kandidater formaner: “husk”.

Examples:

  • Lad: ”Lad os fokusere på indholdet frem for strukturen”, ”Lad os nu komme i gang med den grønne omstilling”, ”Lad os give vores Europa-Parlament en stærk stemme”
  • Forbered: ”Slå et slag forbi TV2 i morgen og få et mere nuanceret billede af KD og den politik vi også står for. Forbered dig her: (link)”
  • Læs: ”Læs om din lokale kandidat i Hvidovre Avis”, ”Læs min anmeldelse: (link)”
  • Grib: ”Så grib din ret og gør din pligt”
  • Husk: ”Husk at du aldrig bliver for gammel til at stemme😀”, ”.. så husk hvilken virkelighed du kommer fra”

Autoritære politikere er de mest formelle

Den sidste analyse af partiernes tone på sociale medier er deres grad af formalitet. Uformelt sprog er mere afslappet, mens formelt dansk har en mere saglig og aristokratisk tone. På formelt dansk siger man for eksempel “De” i stedet for “du”, mens man på uformelt dansk i højere grad bruger slang, udråbstegn, og skriver cifre for tal i stedet for bogstaver – for eksempel at skrive ”8” i stedet for ”otte”).

Parti

Forekomst at uformel sprogbrug

Alternativet

64%

Det Konservative Folkeparti

41%

Klaus Riskær Pedersen

38%

SF

35%

Venstre

33%

Dansk Folkeparti

30%

Socialdemokratiet

27%

Radikale Venstre

22%

Liberal Alliance

21%

Enhedslisten

19%

Nye Borgerlige

16%

Kristendemokraterne

15%

Stram Kurs

Utilstrækkeligt datagrundlag

Figur 2: Hvor uformelle er partiernes kandidater på sociale medier? Lav score indikerer en mere formel tone, mens høj score indikerer en højere forekomst af uformelt sprog. Andelen af uformelt sprog er udregnet ved at dividere antallet af opslag med uformelt sprog med det totale antal opslag fra hvert enkelt parti.

Valget af formelt eller uformelt sprog varierer meget blandt partierne, og vi kan se, at kandidaterne fra Kristendemokraterne og Nye Borgerlige, ud over at være de primære brugere af bydeform, også har den laveste forekomst af uformelt sprog. Socialdemokratiet er en smule mere formelle end Venstre, og Alternativet har den højeste forekomst af uformelt sprog.

Analysen er udarbejdet af Leon Strømberg-Derczynski, adjunkt på IT-Universitetet (ITU), der er medlem af NLP-forskerteamet på ITU. Forskerteamet består desuden af Torben Oskar Albert-Lindqvist, Marius Venø Bendsen, Nanna Inie, Jens Egholm Pedersen, Viktor Due Pedersen og Troels Runge.