CISCL - centro interdipartimentale di studi cognitivi sul linguaggio

introduction iconresearch iconpeople iconoublication iconevents iconphd iconinfodocumentation icon
introduction research people publications events phd about ciscl documentation center
Didattica > Formazione
Linguistica Computazionale (crea poster per questo ciclo di eventi )
Periodo: IV quarto
Ph.D. Cristiano Chesi chesi@media.unisi.it (ricevimento: martedì, ore 15:00, presso il CISCL, stanza 327, Palazzo S. Niccolò, Via Roma 56)
Descrizione

Il tema di quest’anno sarà lo sviluppo e l’interrogazione di banche dati multi-linguistiche (corpora).

Il corso fornirà gli strumenti teorici e tecnici per comprendere l’utilità delle banche dati, i vantaggi (ed i limiti) di un approccio quantitativo allo studio del linguaggio. I principali temi che verranno analizzati saranno:
- database e informazioni lessicali;
- analizzatori morfologici e sintattici (robusti agli errori di spelling, alle malformatezze sintattiche e alle elisioni);
- l’annotazione sintattica e semantica di strutture linguistiche;
- il formalismo da usare per descrivere la variazione cross-linguistica tra le strutture frasali (principi universali e parametrizzazione);
- l’utilizzo delle banche dati annotate nel parsing, nella generazione e nella traduzione automatica.
 

Calendario ed eventuale programma dei singoli incontri
22-4-2009 (ore: 16-19)
Presentazione del corso: introduzione alla linguistica computazionale
Ph.D. Cristiano Chesi

Aula 349/C, Complesso San Niccolò, Via Roma 56
Abstract:
Obiettivi e organizzazione del corso, breve inquadramento interdisciplinare della linguistica computazionale (con particolare riferimento al Natural Language Processing, NLP).

Materiali messi a disposizione:
lingcomp-09-00-syllabus.pdf [25.24 KB]
lingcomp-09-01-intro.pdf [388.76 KB]

23-4-2009 (ore: 10-13)
Strumenti linguistico-formali & informatici
Ph.D. Cristiano Chesi

Aula E, Facoltà  di Lettere, Via Roma 47
Abstract:
Grammatiche formali e la gerarchia di Chomsky; grammatiche a struttura sintagmatica e trasformazionali; grammatiche ad unificazione; principi e parametri. Macchine di Turing (universali), concetto di computazione, dati, programmi, input e output; basi dati (corpora, database e strumenti per interrogarli); algoritmi.

Materiali messi a disposizione:
lingcomp-09-02-formalizzazioni.pdf [333.59 KB]

29-4-2009 (ore: 16-19)
Lessico, analisi morfologica e robustezza agli errori
Ph.D. Cristiano Chesi

Aula 349/C, Complesso San Niccolò, Via Roma 56
Abstract:
Lessici computazionali, analisi morfologica e codifica informazioni linguistiche. Robustezza agli errori.

Materiali messi a disposizione:
lingcomp-09-03-morfologia.pdf [301.05 KB]

30-4-2009 (ore: 10-13)
Laboratorio su creazione corpora ed analisi con espressioni regolari
Ph.D. Cristiano Chesi

Aula 329 (aula informatica), Complesso San Niccolò, Via Roma 56
Abstract:
costruzione di un corpus e analisi informazioni linguistiche.

Scaricate qua il software descritto nelle dispense per la creazione della treebank

Materiali messi a disposizione:
lingcomp-09-04-lab1-childes.pdf [84.65 KB]

6-5-2009 (ore: 16-19)
Parsing sintattico: introduzione ad alcuni algoritmi
Ph.D. Cristiano Chesi

Aula 349/C, Complesso San Niccolò, Via Roma 56
Abstract:
Regole di riscrittura, tagging, Top-down Vs Bottom-up parsing, chart parsing, left corner, la programmazione dinamica e l’algoritmo di Earley.

Materiali messi a disposizione:
lingcomp-09-05-parsing.pdf [351.5 KB]

7-5-2009 (ore: 10-13)
Laboratorio di parsing
Ph.D. Cristiano Chesi

Aula 329 (aula informatica), Complesso San Niccolò, Via Roma 56
Abstract:
Scrivere grammatiche, valutare l’efficienza degli algoritmi di parsing, comprendere la struttura di un programma di parsing.

Materiali messi a disposizione:
lingcomp-09-06-lab2-parsing.pdf [11.35 KB]

13-5-2009 (ore: 16-19)
Rappresentazione della conoscenza, recupero di informazioni e disambiguazione
Ph.D. Cristiano Chesi

Aula 349/C, Complesso San Niccolò, Via Roma 56
Abstract:
Ontologie, ambiguità, dal lessico alla rappresentazione della conoscenza (passando per wordnet). Classificazione documenti, riassunto, recupero informazioni con l’approccio Bag-of-Words.

Materiali messi a disposizione:
lingcomp-09-07-semantics.pdf [232.76 KB]

14-5-2009 (ore: 10-13)
Laboratorio su ontologie & disambiguazione
Ph.D. Cristiano Chesi

Aula 329 (aula informatica), Complesso San Niccolò, Via Roma 56
Abstract:
Esplorazione di wordnet & individuazione di idiosincrasie cross-linguistiche.

Materiali messi a disposizione:
lingcomp-09-08-lab3-wordnet.pdf [44.79 KB]

20-5-2009 (ore: 16-19)
Approccio simbolico o subsimbolico al processamento linguistico
Ph.D. Cristiano Chesi

Aula 349/C, Complesso San Niccolò, Via Roma 56
Abstract:
Quando le reti neurali sono utili e perché, come funziona una rete neurale che "elabora" il linguaggio naturale (Simple Recurrent Networks), e che aspetti coglie. In che senso le reti neurali "acquisiscono" proprietà grammatricali.

Materiali messi a disposizione:
lingcomp-09-09-net.pdf [605.71 KB]

21-5-2009 (ore: 10-13)
Laboratorio sulle reti neurali
Ph.D. Cristiano Chesi

Aula 329 (aula informatica), Complesso San Niccolò, Via Roma 56
Abstract:
Costruzione di alcune reti con T-learn & cluster analysis.

Materiali messi a disposizione:
lingcomp-09-10-lab4-tlearn.pdf [20.92 KB]

27-5-2009 (ore: 16-19)
Grammatiche minimaliste e parsing avanzato
Ph.D. Cristiano Chesi

Aula 349/C, Complesso San Niccolò, Via Roma 56
Abstract:
Riassunto dei temi principali del corso, introduzione alle grammatiche minimaliste e strategie di parsing.

Materiali messi a disposizione:
lingcomp-09-11-advanced_parsing.pdf [338.17 KB]

28-5-2009 (ore: 10-13)
Laboratorio sulle Treebanks
Ph.D. Cristiano Chesi

Aula 329 (aula informatica), Complesso San Niccolò, Via Roma 56
Abstract:
Treebanks, queries strutturate (T-search, T-grep), esplorazione dei vari tratti della Siena University Treebank. Corpora allineati per la Traduzione Automatica (handout lezione 4)
Esami

Gli studenti frequentanti saranno valutati sulla base della presentazione/discussione di un piccolo corpus sviluppato appositamente per il corso.
L’esame potrà essere sostenuto anche senza la presentazione/discussione del corpus, in tal caso l’orale verterà sugli appunti del corso e sul testo di Lenci, Montemagni & Pirrelli (2005).
 

Bibliografia di riferimento

- Lenci, Montemagni & Pirrelli (2005) Testo e Computer: Elementi di Linguistica Computazionale. Carocci
- Jurafsky & Martin (2000) Speech & Language Processing. Prentice-Hall
- Allegranza & Mazzini (2000) Linguistica Generativa e Grammatiche a Unificazione. Paravia scriptorium
 

Approfondimenti e/o programma per non frequentanti

Gli studenti non frequentanti dovranno sostenere un colloquio orale sul testo di Lenci, Montemagni & Pirrelli (2005) più un testo a scelta tra quelli segnalati. Anche gli studenti non frequentanti potranno scegliere di sviluppare un piccolo corpus (previa consultazione del docente) che verrà discusso all’orale.
 

 Altri corsi attivi:
- Acquisizione del linguaggio (Luigi Rizzi)
- Laboratorio di Ricerca Linguistica (Luigi Rizzi, Adriana Belletti, Valentina Bianchi, Cristiano Chesi)
- Linguistica Applicata II (Adriana Belletti)
- Linguistica Computazionale (Cristiano Chesi)
- Linguistica Generale (Luigi Rizzi, Valentina Bianchi)
- Morfosintassi (Adriana Belletti)
- Psicolinguistica (Alessandro Laudanna)
- Semantica (Valentina Bianchi)
- Storia della Linguistica (Elisa Di Domenico)
- Teoria Grammaticale (Luigi Rizzi)

 

  [ home | presentazione | ricerca | persone | pubblicazioni | didattica - Ph.D. | eventi | info | documentazione ]
last update: daily updated