Annotations in the MERLIN corpus

 

Background information

 

The annotation structure

The MERLIN data have been enriched with a multi-level annotation. ...

While most learner language features had to be annotated manually, NLP (Natural Language Processing) was used for automatic learner language annotations such as tokenization and lemmatization, part-of-speech tagging or segmentation into sentences or T-units.

 

Annotations in the full MERLIN corpus

The main annotations available for the almost all learner texts (for detailed figures please see MERLIN corpus) are target hypotheses (target hypotheses 1) and annotations of grammatical and orthographical learner language features (error annotation 1):

All annotation is based on human interpretation of what the person who produced the text might have had on his/her mind. In a learner text collection (learner corpus), it is important to make this interpretation explicit to make annotations more easily understandable and to avoid problems of reliability. Therefore, the MERLIN team formulated target hypotheses (TH) that are a corrected version of the learner texts. The team followed the rules developed for the FALKO corpus and adapted them to the project needs where necessary (cf. Reznicek/Lüdeling et al. 2012).

The "minimal target hypothesis" (TH1) is a minimally intervening version of the learner text that is orthographically and grammatically correct, but might contain deviations from what a native speaker would say on other levels (e.g., lexical). TH1 were written for the whole MERLIN corpus.

Based on these target hypotheses, data were annotated with a wide range of language characteristics – the learner language features – originating from various sources (learn more here). These language features are described in detail in the annotation scheme. You can find a list of the features with some examples here. In the MERLIN corpus, learner language features from the fields of orthography and grammar are available for the whole database (error annotation 1).

 

Annotations in the core corpus

In the explorative, smaller MERLIN core corpus, linguistic aspects regarding vocabulary, pragmatics, sociolinguistic appropriateness are taken into consideration. The core corpus consists of two groups of texts which received either A2 or B2 ratings (for Italian: A2 and B1/B1+).

Learn more about the core corpus, in the research section.

Almost all core corpus texts were enriched with an extended target hypothesis (TH2) that aims at creating an acceptable (for a native speaker) version of the original learner text. TH2 takes into account more language dimensions that often regard context-dependent phenomena.

Also, learner language features regarding vocabulary, sociolinguistics, pragmatics, and intelligibility are included in a part of the core corpus annotations (error annotation 2). Very often, these phenomena are not errors. These language features are also described in detail in the annotation scheme.

In the future, it would be desirable to have these explorative pilot annotations re-checked to then be able to cover the whole MERLIN database with TH2 & EA2 annotations. For now, we ask users to handle the core corpus annotations with caution.

You can find more details on the annotation layers and contents here.

 

The annotation scheme - Learner language features

For the annotation of learner language characteristics, the MERLIN team developed an annotation scheme. ...

The scheme is not merely based on error coding, but also takes into account other linguistic characteristics. It thus reflects the view of learner language as an evolving language system in its own right.

Also, the annotation scheme integrates tags that were indicated as important by CEFR users as well as tags suggested by Second Language Acquisition research, the CEFR scales, and the learner texts themselves.

Read more about the source of the annotated features and the methodology.

Download the MERLIN annotation scheme.

The MERLIN annotations followed a strict policy of reliability control. Also, difficult decisions in the annotation process are available through the project documentation (see Documentation of additional annotation issues). If you have any questions concerning concrete annotations, please don't hesitate to get in touch with the MERLIN-team .

 

 

List of learner language features with examples

Grammar | Orthography | Intelligibility | Vocabulary | Cohesion/Coherence | Sociolinguistic appropriateness | Pragmatics

 

GRAMMAR TAGS

Example*

word order in main clause

*[Vielleicht du könntest mir bei meine Wohnungssuche helfen.]
*[Sollst du Wasser und Bikini mitbringen.]

word order in subordinate clause

*[wenn haben Sie Zeit,] dann bitte sagen Sie mir.

negation general

*Ich habe [nicht] Zeit.; *Er wird dort arbeiten [nein].

CZE: double negation

*[mám] žádný čas {nemám žádný čas}; *nikdo [volal] {nikdo nevolal}

verb valency: number of obligatory arguments

CZE: *Petr vstává v 6 hodin. On nesnídá, protože [on] nemá hlad.

GER: *Er hat uns nicht gesagt, ob {er} kommen will.

agreement (subject and verb)

*Jana [hast] gelesen, *Jana [sind] müde

reflexive pronoun

CZE: *smála [si];

GER: *er [entschuldigt], *Laura und Ferdinand reden [sich]

ITA: *[se] {si} lava ogni mattina

CZE: possessive reflexive pronoun

*potřebuju [moji] knihu, * vidím [mého] otce

inexistent inflection (nouns, adj, verb)

adjective: *ein [blaus] Himmel {blauer}; [teuerer] {teurer}; [größen] {großen / größeren}

noun: *das schöne [Hause], *[euche] [Fahrrade]

verb: *Johannes [trinks] keine Milch. *… meine Rechte und Pflichten zu [weißen]; *Wie ich dir [gesagen] hate...

wrong inflection (nouns, pronouns, adj)

case: čte romány a chodí na [procházce]; *… ich suche eine neue Wohnung in [diese] Stadt

 

 

 

number: *Ich werde zwei [Woche] dort verbringen;

gender: *Ich brauche [eine] [große] Wagen für die Möbel.

ambiguous (number? case?): *Die Silvesternacht habe ich mit [meiner] [Kinder] verbracht.

verb: tense

GER: *gestern wir [kochen] gemeinsam;

ITA: *Mi ha domandato se [ho] fretta {Mi ha domandato se avevo fretta}

verb: voice

CZE: *studenti [budou napsáni] test

GER: *Peter [wurde gezeigt] mir sein neues Buch; die Stadt [gründete] im Jahre 1234;

verb: mood

CZE: *[Jdi] do města?

GER: *er [würde gehen] gestern ins Kino {ist gestern ins Kino gegangen/ging gestern}

ITA: *[Stai] bene!

verb: aspect (CZE+ITA)

CZE: *celý den [se naučil] {celý den učil}

ITA: imperfetto instead of pass.pross.: *sempre pensavo {ho sempre pensato} che voi due

verb formation (morphol.)

errors in the formation of complex predicates (i.e. analytical verb forms, predicates with modals and copulative predicates).

*er wird [lese]; *du musst [kommst]; *Diese zwei Frage richtig {zu} beantworten ist nicht einfach.; *Der Buchladen [hat] in der Stadt, *Die Studentin [ist] kam in die Schule

main verb

*… mit großem Interesse habe ich in XY Zeitung Ihre Anzeige {gelesen}; *Ich [nehme] besoche meine Tochter.

preposition

*ich warte {auf} deine Antwort; *kannst du [bei] mir helfen?, *Er ist gekommen eine Stunde [vor]

article

GER: *habe {die} litauische Staatsangehörigkeit; *ich bringe [etwas] Geschänk

ITA: *[il] mese fa siamo andati;

conjunction

*er füttert den Hund, {der/welcher} nicht ihm gehört; *er half mir [dass] ich aufstehe, *Karl kam [um] [für] helfen

ITA: clitic

puoi [chiamarla] {puoi chiamarmi}; ho dimenticato di [scrivere] prima {ho dimenticato di scriverlo prima}; *non { c'è } problema

part of speech error

*Ich freue mich für unsere [besucht] {Besuch}; *Ich bin sehr flexibel und [Mobilität] {mobil}; *Kannst du mich [Hilfe] {helfen}

* [...] tag-relevant extracts of learner language expressions {...} correction of the erroneous learner expression

 

Orthography

 

ORTHOGRAPHY TAGS

 Example*

general grapheme error

GER: *[libe] {liebe}, *[Monart] {Monat}; *[schreipt] {schreibt};*[wie] {wir}

ITA: *[mo] {ma}; *[experienza] {esperienza};

grapheme transposition

CZE: *[kraští] {kratší};

GER: *[revelant] {relevant};

ITA: *[saulti] {saluti};

CZE+ITA: diacritical marks

CZE: *[kratši] {kratší}; *[Váčlav] {Václav}; *[ůplný] {úplný};

ITA: *[e] andata {è}; *[perchè] {perché}

capitalization

*[sie] waren in Frankreich, [Und] danach in Deutschland.

word boundary

CZE: *[ne čekala] {nečekala}; *[dolesa] {do lesa}

GER: *[Schlafe zimmer]; *[das selbe]; *[Desweiteren]

ITA: *[qui ndi]

abbreviation

CZE: *[at.] {atd.}

GER: *[Sms] {SMS};

punctuation

*[Er kam nicht] aber er hat sich nicht entschuldigt.
*Rom, Paris[,] und Berlin gefallen mir sehr.

GER+ITA: apostrophe

GER: *Das ist [Mama's] Buch.

ITA: *d{‘}accordo

* [...] tag-relevant extracts of learner language expressions {...} correction of the erroneous learner expression

 

Intelligibility

 

INTELLIGIBILITY TAGS

Example*

intelligibility of text

In the text, deviations occur.

ITA: *[Ciao Caro. Come stai? Io sto bene. Vorrei andare a trovare te in Italia. Com'è la tua città? È la città grande? O forse una vecchia città? Anche ha il mare, o in vicino? Alla sera vorrei andiamo in discoteca. Qualce volta mangiamo asieme al ristorante. C'è anche possibile per andiamo al cinema. Mi piace per guardare un film. Penso le persone in Italia sono gentili. Ma purtroppo resto solo per cinque giorni. E poi devo ritornare a casa mia. Tanti cari saluti. Un bacio. Maria]

The text is not comprehensible. More than one half of all sentences is not intelligible.

CZE: *[Děkuje za E-mail, že jsi pozval k narozeniním. Tesi mě, a mám otazky: Kde bude místo oslavy? Myslím že bude u tobě, ale kde v Praze? Já ještě nejsem nebyl u tobě ... . A kdy začiná? V pátek večer asi 19 hodin? Kromě toho, kdo a jaké hosty bude při tom? Zdravím, Tomoo]

GER: *[Hallo Julia
meine Frau und Ichwollten nach Köln im ZuG in der nacht vahren wann 2.1.2011 bis 04.01.2011 Ich nehme besoche meine Tochter. Ich kanne nicht Fahren. Fragen Sie Ihre Julia. meine wollten ist gut ich Besoche Kerche und centrem. meine Hotel ist gut
viel Gruße Danke]

intelligibility of sentence

a) The sentence manifests deviations, but it is still interpretable.

CZE: *[Určitě, dobře si využijeme ten večer.]

GER: *[Diese Wohnung sind Bitte 2,3 km von Centrum, warum ich immer fahre mit meine fahrrad, und meine Beruf ist Kürche Hilfe, immer morgens, und Abend Arbeit.]

b) The sentence is completely incomprehensible

CZE: *[Děkuje za E-mail, že jsi pozval k narozeniním.]

GER: *[meine wollten ist gut ich Besoche Kerche und centrem.]

ITA: *[A queste cita di posto?]

* [...] tag-relevant extracts of learner language expressions {...} correction of the erroneous learner expression

 

Vocabulary

 

VOCABULARY TAGS

Example*

formulaic sequence: collocation

CZE: [dávej na sebe pozor], [nabyla jsem dojmu], tam [se cítím jako doma]

GER: … dass meine Tochter im April ein gesundes [Kind zur Welt bringt]; [Erfahrung im Umgang mit] Kindern und der Haushaltsführung; *[den Teufel an die große grüne Wand malen]

ITA: *[ho suonato il pianoforte] - *[ho suonato] per tante tante ore [il pianoforte]

formulaic sequence: compound equivalent (ITA)

[occhiali da sole], [ferro da stiro], *[lista di desideri] {lista di nozze}

formulaic sequence: idiom

CZE: najít klíč ke štěstí, mít černé svědomí

GER: etwas auf die lange Bank schieben; Morgenstund hat Gold im Mund.

ITA: {non cavare un ragno dal buco}

formulaic sequence: communicative phraseologism

CZE:
pokud vím, tak...; mám na mysli...; upřímně řečeno...; jak bylo řečeno výše...;přejděme k dalšímu...
common places: Co se stalo, stalo se.
dicta: Méně je někdy více, Vše má své výhody a nevýhody.

GER:
Wie geht’s, wie steht’s?; Mach dir nichts draus.; ich meine ... ; meines Erachtens ...
common places (e.g. Was man hat, hat man.)
dicta (geflügelte Worte) (e.g. Nicht immer, aber immer öfter.)

ITA:
non so che dirti ... a; scolta ...; come dico sempre ...
common places: Quel che è fatto è fatto.
dicta (geflügelte Worte): Non ha prezzo.

incomprehensible sequence caused by accumulation of lexical/grammatical error(s)

CZE: *Určitě, že pro kládný výsledek z něčeho máme hodně pracovat a snažit se dosáhnout toho všem sebou.

GER: *Ich wünsche mich meine Sohn alles guten zum Geburtstag .

ITA: *credo veramente che tutti i richieste siano ufuali che io posso darLa

non-existing form (word / formulaic sequence)

CZE: *výsledky [průžek] {?}; *[trvali] čas {trávili}; *urobit

GER: *Kaus; *wer will schon Staub essen; *… ist ein Menefreghista

ITA: * passegere {meaning passeggiate}; bisogna mangiare una mela acida; compra milk e tomatoes

formulaic sequence: limited intelligibility

CZE: *[Vždycky dívejte na člověka není z hledisko v čem je.]

GER: *[viel Öl zu heiß geben] {Öl ins Feuer gießen}

ITA: *[ho pagato troppi occhie dalle testi ]{un occhio della testa}

semantic error: denotation (word / formulaic sequence)

CZE:
*[využít si] života {užít si} života (1)
*[zaměstnání na celou dobu] {zaměstnání na plný úvazek} (1)

GER:
*kauen {essen}, *sich die hand mit warmem Wasser verbrennen (1)
*Ihr Baby [gewohnt]! (0)
*Das ist eine schwierige Zeit. Jetzt müssen wir alle [ins Gras beißen] {die Zähne zusammenbeißen} (0)

ITA:
[venire] {andare}, [imparare] {studiare} (1)
----
(1) minor deviation from meaning (0) wrong, incomprehensible, hardly or not inferable from context

semantic error: connotation (attitude), (word / formulaic sequence)

CZE: *[barák] {dům}; odejít navěky {zemřít}

GER: *[Köter] {Hund}, *[Alter] {Vater}; *ins Gras beißen {sterben}

ITA: *bagnarola {(vecchia) automobile/imbarcazione}; *i miei vecchi {i miei genitori]

semantic error: precision (word / formulaic sequence)

a) semantically acceptable and comprehensible but unusual, not precise

GER: *eine [Liste] {eine Liste mit Wohnungsadressen}

ITA: *vi devo chiedere qualche cosa {informazione}

CZE: doma má roztomilé [zvíře] {psa}

b) semantically acceptable but imprecise; a specific term/sequence exists to express the same meaning

GER: *[eine Firma, die Bücher macht] {Verlag}

ITA: *[per me ci sono tante cose nuove] {per me ci sono tante novità}

CZE: *vzdělání [dalo pro mě velkou pomoc] {pomohlo mi}

word formation error: derivation

CZE: odpovědání {odpověď}, opravdivý {opravdový}

GER: *Suchung {Suche} , *[unheilsam] {unheilbar}

ITA: *bracciare instead of abbracciare

word formation error: composition

CZE: životuschopný {životaschopný}

GER: *Sprache Kurs {Sprachkurs}, *[Türhaus] {Haustür}

ITA: *ferro di stiro, *areoporto

formulaic sequence: form error

CZE:
*je to [jen] příklad z mnoha {je to jen jediný příklad z mnoha}
* brát něco [doslova] vážně {brát vážně} / {brát doslova}
*[známkové] oblečení {značkové oblečení}
* Kdo jinému [kopá jámu], sám do ní padá. {Kdo jinému jámu kopá, sám do ní padá.}

GER:
*etwas auf [die] Bank schieben {etwas auf die lange Bank schieben}; *… ist meiner [Meinung], nicht ein großes Problem {meiner Meinung nach};
*Öl ins [heiße] Feuer gießen; *den Teufel an die [große] Wand malen
* in Betracht [nehmen] {in Betracht ziehen}
*Der Apfel fällt [vom Baum nicht weit.]

ITA:
*[carini] {miei cari}
*prendere due piccioni [neri] con una fava instead of prendere due piccioni con una fava
*la stagione d'estate {la stagione estiva}
* tanti [saluti cari] {tanti cari saluti}

* [...] tag-relevant extracts of learner language expressions {...} correction of the erroneous learner expression

 

Coherence/Cohesion

 

COHERENCE/COHESION TAGS

Example*

connector accuracy

GER:
*dort gibt es viele Studenten [als] die Miete nicht sehr hoch ist
* Ich will auch Istanbul besuchen, [weil] schicke mir bitte Informationen.
*[Ich fände es am besten eine Möglichkeit gäbe,] eine Unterkunft in einer Gastfamilie zu bekommen.
*[Für] was die Familien angeht, ...

ITA:
*Gli rivolgo allo scopo [che] ho qualche domanda.
*La mia famiglia gioca volentieri a pallavolo, non [però] c'era nessun possibilità nella Residence"
*Il mio titolo di studio è l'insegnante e per questo motivo mi piace lavorare [anche] con i bambini, organizzare le gite e l'altro divertimento

CZE:
*Chtěla jsem se zeptat [pokud] máte parkoviště protože přijdu s autem.
*Přinese [pokud] nějaké jídlo, můžeme mít oběd.
*[Potřebovala bys pomoct,] klidně napiš.
*[Pokud] přijde-li, budu rád.

content jumps

CZE:
*Prázdninové kurzy češtiny jsou zajímavé. Chci se ucházet o kurz a asi stipendium. Kolik to stojí? Kdy začina kurz? [To je kouzelný, že zůstam chvilečku v Praze.] Můzeš posílat mě toho inzerát?

GER:
*Ich habe am Wochenende deine Brief bekommen. Das ist schön dass Anna in den Kindergarten und Max ist in der dritten Klasse. [Ich möchte eine Hasen haben, aber ich habe Allergie für die Haar.]
*Ich bin verheiratet und habe ich 3 Kinder. [Wir arbeiten bis 04:00 Uhr.]

ITA:
1) *Molte cordiali felicitazioni per il tuo ottimo voto. Durante gli ultimi tempi aiutavo a mia madre degente in una casa di cura per persone anziane. [...] Un cambiamento non è probabile. Forse c'è la possibilità per te di lavorare qualche mese alla pari all'estero per mantenere le tue conoscenze linguistiche [...]. Penserò in ogni caso a te.

reference

CZE:
*paní, jehož se ptal {jíž}, *dal jsem to jeho bratrovi {jejímu}
Budeš mít narozeniny? Jaký dárek si přejete?

GER:
*meiner Küssen für [ihre] (=deine) Kinder
*Die Frage ist sehr zusammengesetzt, [es] lässt sich nicht so einfach beantworten.

ITA:
*Spero che la vostra [=tua] famiglia anche è sana
*Se glielo non [te lo] pagano devi lavorare in una ditta nel tempo libero

metacommunicative device

CZE: zároveň; nadto; navíc; potom; především; ani – ani; jednak – jednak; popřípadě; prostě; přesněji; tedy; totiž; tudíž; vlastně

GER: im Folgenden; zusammenfassend; erstens, zweitens, drittens; wie wir besprochen haben; Jetzt wechseln wir das Thema

ITA: insomma; in conclusione; in primo luogo; in secondo luogo; in altre parole, in breve; inoltre; si osservi poi; si noti, in particolare, che

* [...] tag-relevant extracts of learner language expressions {...} correction of the erroneous learner expression

 

Sociolinguistic appropriateness

 

SOCIOL. APPROPRIATENESS

Example*

salutations/complimentary closes

CZE: [Ahoj Davide]; *[Dobrý den Pane ředitele hotelu]

GER: [Hallo Maria]; *[tschüß Herr Meier]

ITA: [Ciao Francesco] [Tanti saluti, Maria]

opening/closing formulae

CZE: [S přáním hezkého dne]; *[Mejte se hezký]

GER: [Vielen Dank für Deinen Brief. Ich habe mich sehr gefreut.]

ITA: *[Aspetto la sua risposta al più presto]; [Come stai?]

inappropriate style (formality)

introducing a letter to a friend with

CZE:*[Ahoj pane řediteli]

GER:*[Sehr geehrter Marco]; [Willkommen in „Stadt X“] (task: Bericht über Wohnungsmarkt)

ITA:*[Egregio Andrea], *[ti ringrazio cordialemente della tua gentile lettera del 12 m.s.]

inappropriate addressing (formality)

in a formal letter:

CZE: *Prosím, [máš] další informace pro mě?

ITA: *Mi [puoi] dare informazione sulle condizioni?

GER: *Kann ich Informationen von [euch] bekommen?

in an informal letter:
CZE: *Bylo by dobré, kdybyste přijela do Drážd'an.

ITA: *[Vi] ringrazio per la tua email.

GER: *Kommen [Sie] nächste Woche mich besuchen?

ITA: lexicalised clitics (verbi procomplementari)

-CI andarci, arrivarci (arrivarci a capire)
-LA contarla, farla (la fa a tutti), farla franca
-LE (darle, prenderle)
-NE farne (farne di tutti i colori), volerne (non volermene)
-CELA (avercela, mettercela, farcela)
-CENE (volercene,) (corrercene)
-CISI (mettercisi)
-SELA cavarsela, cercarsela, contarsela, darsela (darsela a gambe)
-SENE (andarsene, fregarsene, intendersene, restarsene, rimanersene, starsene, tornarsene, venirsene (venirsene a casa)

POLIREMATICHE: darci dentro, dormirci sopra, mettercela tutta

ITA: personal pronoun redundancy

*[A me mi piace]...; *[A lui] non [gli lascio] nulla.
*[Ne racconta di] storie!
*[Mi bevo] una birra; [Mi vedo] un film

ITA: marked syntactic structures

Frasi scisse (cleft sentences)
sei tu che hai detto questo; Sono le foto che mi fanno pensare alle vacanze dell'anno passato

Dislocazioni a sinistra
Che non sarei venuto, lo sapevi benissimo.; La spesa l’ho fatta ieri quindi oggi sono libera.

Disclocazione a destra
Ne voglio parlare con te, dei miei problemi.; Non preoccuparti! Lo portiamo noi, il vino!

c'è presentativo (special kind of cleft sentence)
C'è mia cugina che ti vuole parlare.; C’è Andrea che ti cerca. Cosa gli dico?

ITA: 'che polivalente'

[Vieni qui che ti voglio dare qualcosa.] {in modo che/perché}
[Ho sentito cose che non avevo fatto caso] {a cui non}
[Il paese che sono stata] {in cui/dove}

GER: main clause word order after 'weil'

Ich habe Hunger, [weil es ist ja auch schon ganz schön spät.]

* [...] tag-relevant extracts of learner language expressions {...} correction of the erroneous learner expression

 

Pragmatics

 

PRAGMATICS TAGS

Example*

politeness - overly direct language form

CZE: *[Teď mi řekni, co ti mám koupit za dárek.]

GER: *[Wir gehen ins Schwimmbad und du bringst etwas zu essen mit!]

ITA: *[Senti, io penso a andare a trovarti, per vedere la tua cittá famosa.]

direct REQUEST

CZE:
*Prosím, poslej mně to inzerát. Mam jenom dvě nebo tři otázky…; *Neříkáš jestli oslavy bude poledne nebo večer. Čekám za odpovědaní.

GER:
Fragen Sie Ihre Julia.; Ruf mich bitte an.
*Aus ausgegebenen Gründe fördere ich mich Zurückerstattung diese Kosten.; Bitte nicht vergessen!

ITA:
Ne pensi e fammi sapere la tua decisione. ; Mi chiami per dirmi.
*Vi prego di farmi sapere se avete bisogna delle informazione ulteriore; *Fatemi sapere!; *Portammi il libro!

indirect REQUEST

GER:
*Entschuldingung. Aber möchte ich ein PostCard von Istanbul kannst du mir schinken?
*Ich wünsche mir aus Istambul einige Postkarte.
*Können Sie bitte meine Katze füttern [?]

CZE:
*Mohl bys mi poslat ten inzerát?
*Chtela bych uvidě­t tvůj novy byt! Hodi si ti to?

ITA:
*Potreste mandarmi la lista dei corsi al mare e la possibilità di alloggio
* Puoi dirmi dove lavori adesso e che cosa fai?
* Potreste organizzare un posto dove posso dormire?

* [...] tag-relevant extracts of learner language expressions {...} correction of the erroneous learner expression