Current projects @ CISCL | Projects Archive | Resources

Advanced ERC Grant - SynCart - From Maps to Principles: Syntactic Cartography and Locality in Adult Grammar and Language Acquisition

Duration: 2014 - 2017
PI: Luigi Rizzi
People involved: Luigi Rizzi
Advance ERC grant
 

PRIN 2012 - Theory, Experimentation, Applications: Long distance dependencies in forms of linguistic diversity

Duration: 2013 - 2015
PI: Adriana Belletti
People involved: Adriana Belletti
 

FIRB 2007 - Fundamental research on language in the service of the Italian language

Documentation, monolingual, bilingual and L2 acquisition, and the conception of multimedia products - FIRB Project (2008)

Duration: 2008 - 2011
PI: Adriana Belletti
People involved: Adriana Belletti, Giuliano Bocci, Cristiano Chesi
The Interdepartmental Center of Cognitive Studies on Language of the University of Siena (CISCL, www.ciscl.unisi.it) has promoted and coordinated advanced theoretical-descriptive research on language for several years in a perspective of cognitive sciences. The Center is characterized by a marked international dimension, with a stable nucleus of researchers and frequent visits by Italian and foreign scholars. The present project originates from some among the most significant activities of the Center. -The Center has a clear documental vocation which manifests itself in the collection of studies on language and cognition in general and on Italian in particular, as well as in the collection of corpora of spontaneous and elicited production in the acquisition of Italian – monolingual, bilingual, L2 – and of different second languages, with Italian as L1. A significant enlargement of the documents collected at the Center is among the main aims of the project. A strategic aim is the constitution of a diversified data base composed of: theoretical and descriptive studies on Italian, the cartography of Italian syntactic structures, corpora of spontaneous and elicited production of L1, bilingual, and L2 Italian. -The project makes use of a solid theoretical and descriptive basis that is grounded on the results obtained in the framework of several PRIN projects (1997-2005) on different aspects of the “cartography of syntactic structures”, an approach that aims at designing detailed maps of the syntactic structures of the language, and of a PRIN project (2001-2003) for the linguistic analysis of contemporary Italian, and its implications in the domain of teaching and translation. -The present project aims at widening the documental basis both through the increase of the collection of (pre-)publications at the documentation Center at CISCL in Siena, by creating a special new section of studies on Italian, mainly of cartographic inspiration, also in a comparative perspective, and through the increase and systematization of a new section of the documentation Center devoted to corpora of spontaneous and elicited production in the acquisition of Italian as L1 and L2. A link will also be created with the corpora of L1 and L2 acquisition of Italian being collected at present at the units of Milano-Bicocca and Venezia. Beside the documental goal, a strictly related aim is the creation of a digital support for the study of Italian as an L2, dedicated to specific syntactic structures and their prosody, currently planned at the Padova-CNR unit. -Furthermore, the Center has a clear experimental vocation for the analysis of the development of syntactic and prosodic structures in different modalities of acquisition of Italian. The units involved in the project address the following topics: child acquisition (Milan), the comparative aspect in the different adult and child modalities and in pathology (Siena); the syntax-prosody correlation (Padua), the grammatical analysis and the language-dialect relation with both descriptive and didactic aims (Venice). The broader objective in this domain, along with the contribution of the various units, is a better understanding of how contemporary Italian structures work, always bearing in mind domains of possible applications. -Finally, we will strengthen links with Italian linguists operating abroad, with whom forms of collaboration already exist, and operating on the teaching and consolidation of the Italian language in the Italian communities abroad. The goals of this activity are, on the one hand, the offer of the didactic tools elaborated within the project, and, on the other hand, the perspective of enriching the descriptive basis of contemporary Italian with data of the language spoken by the Italian communities abroad.
 

BlueSign Translator II - Machine Translation from Italian to LIS

Traduzione automatica di notiziari televisivi dall'italiano verbale alla Lingua Italiana dei Segni (LIS)

Duration: 2008 - 2009
PI: Cristiano Chesi
People involved: Cristiano Chesi, Luigi Rizzi
L’implementazione di un sistema di traduzione di buona qualità da Lingua Italiana Verbale (LIV) a Lingua Italiana dei Segni (LIS) racchiude varie criticità ben note nel campo della traduzione automatica (Hutchins & Somers, 1992). Per affrontare produttivamente il problema in modo da prevedere risultati intermedi concretamente valutabili, è necessario scomporre l’intero progetto del modulo di traduzione in almeno due fasi: una prima fase di analisi linguistica del problema specifico di traduzione LIV2LIS dei notiziari TG, a cui trovare una soluzione efficiente basata su una trasduzione superficiale dell’ordine delle parole (modello tranfer-based, Peterson, 2002); una seconda fase, basata sulla valutazione dell’efficienza e della scalabilità dei risultati ottenuti nella prima fase, che, partendo da indicazioni precise fornite da parlanti nativi LIS, permetta di stabilire delle priorità linguistiche su cui concentrarsi in modo da codificare in modo più adeguato regole che, compatibilmente con le possibilità del modulo di rendering, possano catturare fenomeni linguistici esclusi dalla fase 1 (es. coreferenza di espressioni (pro)nominali, espressione della modalità, espressione di domande etc.). FASE 1 Per individuare e quantificare le criticità specifiche di questo modulo di traduzione LIV?LIS sarà necessario procedere per tappe: 1.1 creazione corpus - Il primo passo consiste nel recuperare/costruire un corpus di notiziari RAI (formato testuale) realisticamente omogenei rispetto a quelli su cui si intende effettuare la traduzione automatica. Tale corpus potrebbe idealmente essere suddiviso in sezioni corrispondenti ai diversi livelli di complessità strutturale di cui si accennava nella riunione del 22 Marzo (es. sezione testi completi, sezione testi semplificati, sezione testi “ridotti all’osso”...). 1.2 profiling corpus - Il secondo passo consiste nel profiling del(le varie sezioni del) corpus in modo da valutare quantitativamente e qualitativamente la reale difficoltà del task di traduzione. La scala di difficoltà si baserà su parametri linguistico-strutturali quali gli indici di frequenza/tipicità degli elementi lessicali, la presenza di anafore/coreferenze inter e cross-frasali, la modificazione aggettivale/avverbiale e/o preposizionale più o meno locale, la prevalenza di strutture predicative semplici Soggetto-Verbo-Oggetto Vs. subordinate, la prevalenza di strutture nominali semplici Vs. modificate da sintagmi preposizionali e/o relative, presenza di dipendenze a distanza etc.) 1.3 strategia transfer-based - come terza fase, sarà isolata una parte del corpus analizzato che verrà taggato (il TAG-set adottato sarà lo standard TUT, Bosco, Lombardo, Vassallo e Lesmo, 2000); su questa porzione di testi verranno costruite regole di transfer dalla LIV alla LIS (es. [Sogg. neg. Verbo Ogg.] ? [Sogg. Ogg. Verbo neg], per catturare riordinamenti superficiali di frasi come “Gianni non odia Maria” ? “Gianni Maria odia non”). 1.4 valutazione - una volta realizzata ed implementata una grammatica per il transfer superficiale verrà valutata: a. la sua accuratezza nel riordinare le parole in un modo considerato linguisticamente naturale per un parlante LIS nativo; b. la copertura e la precisione nell’analisi della porzione di corpus selezionata per la traduzione; c. la copertura e la precisione nell’analisi della parte restante del corpus con seguente valutazione di scalabilità della soluzione di transfer implementata. FASE 2 La FASE 2 sarà volta a rendere il modello linguistico possibilmente scalabile e robusto compatibilmente con i risultati di valutazione della fase 1.4. Un approccio example-based statistico (Brown, 2002) sarà probabilmente la strategia più indicata per affrontare il problema del transfer su larga scala. Questo approccio richiederà 4 steps: 2.1 treebank bilingue allineata - una parte del corpus bilingue ILV-LIS allineato sarà taggato in modo semiautomatico con l’ausilio della grammatica sviluppata nella fase 1. Un’attenta riflessione dovrà essere condotta in modo da arricchire lo standard TUT con tratti funzionali peculiari della lingua dei segni (Marshall, Safar 2003). 2.2 training - la treebank così costruita sarà utilizzata per il training di un sistema di analisi basato su S(uper)V(ector)M(achines) che cercherà di inferire ed ottimizzare il maggior numero possibile di regole. 2.3 benchmark scalabilità – porzioni via via crescenti del corpus allineato verranno etichettate semiautomaticamente e testate con le regole generate nella fase 2.2 in modo da verificare la scalabilità e la robustezza del modello proposto. 2.4 valutazione – in modo analogo alla fase 1.4, sarà necessaria una valutazione della traduzione proposta sulle seguenti scale: a. accuratezza nel riordinare le parole in un modo considerato linguisticamente naturale per un parlante LIS nativo; b. copertura e precisione nella traduzione LIV?LIS basandosi sull’intero corpus bilingue LIV/LIS allineato.