CISCL - centro interdipartimentale di studi cognitivi sul linguaggio

introduction iconresearch iconpeople iconoublication iconevents iconphd iconinfodocumentation icon
introduction research people publications events phd about ciscl documentation center
Didattica > Formazione
Linguistica Computazionale (crea poster per questo ciclo di eventi )
Periodo: II quarto
Ph.D. Cristiano Chesi chesi@media.unisi.it (ricevimento: martedì, ore 15:00, presso il CISCL, stanza 327, Palazzo S. Niccolò, Via Roma 56)
Descrizione

Il corso fornisce unintroduzione teorica e pratica al tema della Traduzione Automatica (TA).

Durante le prime lezioni saranno approfondite le principali problematiche che un sistema di TA deve fronteggiare (modellizzazione della variazione cross-linguistica, rappresentazione della conoscenza espressa dagli enunciati etc.). Verranno quindi presentate alcune soluzioni classiche (rule-to-rule, interlanguage etc.) proposte per risolvere questi problemi cercando di evidenziarne le criticità , le difficoltà  implementative e le inadeguatezze rispetto alla teoria linguistica che propone precisi parametri di variazione tra le lingue (Teoria dei Principi e dei Parametri, Chomsky 1981).

Nella seconda parte del corso verrà  descritta unarchitettura modulare ideale e, una volta approfonditi vari aspetti legati a ciascun modulo, sarà  chiesto alla classe (suddivisa in gruppi di 2/3 persone) di scegliere e approfondire/implementare (con laiuto del docente) i vari moduli (un modulo per gruppo).
Queste le principali componenti che verranno analizzate:
- lessico / database lessicali
- analizzatore morfologico (robusto agli errori di spelling)
- parsing (analizzatore) sintattico (robusto alle malformatezze sintattiche e alle elisioni)
- formalismo da usare per descrivere la variazione cross-linguistica tra le strutture frasali (principi universali e parametrizzazione)
- modulo per la rappresentazione della conoscenza / inferenza / riconoscimento espressioni idiomatiche
- componente di generazione

Gli obiettivi formativi che il corso si prefigge sono:
- rendere consapevole lo studente delle necessità  /difficoltà  del trattamento automatico di lingue diverse
- concepire e sviluppare un sistema completo e complesso attraverso un lavoro di gruppo
Per seguire il corso non è necessaria nessuna particolare competenza informatica. È invece gradita una spiccata curiosità  per tematiche legate allIntelligenza Artificiale, alla Psicologia Cognitiva e (ovviamente) alla Linguistica Generativa.

[12 dic 2005 I ipotesi di architettura] [19 dic 2005 II ipotesi]
 

Calendario ed eventuale programma dei singoli incontri
28-11-2005 (ore: 16-18)
Presentazione del corso: introduzione alla linguistica computazionale e alla traduzione automatica
Ph.D. Cristiano Chesi

Aula 5, Virtus
Abstract:
Obiettivi e organizzazione del corso, breve inquadramento interdisciplinare della linguistica computazionale (con particolare riferimento al Natural Language Processing, NLP). Traduzione Automatica (Machine Translation, MT), storia, prospettive e modelli. Alcuni esempi di MT

Materiali messi a disposizione:
lingcomp-06-01-intro.pdf [792.58 KB]

30-11-2005 (ore: 16-18)
Strumenti linguistico-formali
Ph.D. Cristiano Chesi

Aula 5, Virtus
Abstract:
Grammatiche formali e la gerarchia di Chomsky; grammatiche a struttura sintagmatica e trasformazionali; grammatiche ad unificazione; principi e parametri.

Materiali messi a disposizione:
lingcomp-06-02-formalizzazioni.pdf [237.54 KB]

1-12-2005 (ore: 16-18)
Strumenti informatici
Ph.D. Cristiano Chesi

Aula 5, Virtus
Abstract:
Macchine di Turing (universali), concetto di computazione, dati, programmi, input e output; basi dati (corpora, database e strumenti per interrogarli); algoritmi (cicli ed oggetti, Ideazione, descrizione, formalizzazione ed implementazione di un algoritmo).

Materiali messi a disposizione:
lingcomp-06-03-informatica.pdf [111.72 KB]

5-12-2005 (ore: 17:30-19:30)
Lessico, analisi morfologica e robustezza agli errori
Ph.D. Cristiano Chesi

Aula 5, Virtus
Abstract:
Lessici computazionali, analisi morfologica e codifica informazioni linguistiche (sintassi e semantica). Robustezza agli errori.

Materiali messi a disposizione:
lingcomp-06-04-morfologia.pdf [315.4 KB]

7-12-2005 (ore: 16-18)
Laboratorio su espressioni regolari e analisi morfologica
Ph.D. Cristiano Chesi

Laboratorio Didattico, P.zza S.Francesco, 8
Abstract:
Analisi morfologica con PCKimmo, recupero informazioni da corpora.

Materiali messi a disposizione:
lingcomp-06-05-lab1.pdf [45.92 KB]

12-12-2005 (ore: 16-18)
Teoria dell' apprendibilità
Ph.D. Cristiano Chesi

Aula 5, Virtus
Abstract:
Accenni alla teoria dell’apprendibilità . Come si può indurre ’automaticamente’ una grammatica.

Materiali messi a disposizione:
lingcomp-06-06-learning.pdf [232.72 KB]

14-12-2005 (ore: 16-18)
Approccio sub-simbolico al NLP (e alla MT)
Ph.D. Cristiano Chesi

Aula 5, Virtus
Abstract:
Quando le reti neurali sono utili e perché, come funziona una rete neurale che ’elabora’ il linguaggio naturale (Simple Recurrent Networks), e che aspetti coglie. Come si applicano le reti neurali a problemi di traduzione.

Materiali messi a disposizione:
lingcomp-06-07-net.pdf [1176.47 KB]

15-12-2005 (ore: 16-18)
Laboratorio sulle reti neurali
Ph.D. Cristiano Chesi

Laboratorio Didattico, P.zza S.Francesco, 8
Abstract:
Costruzione di alcune reti con T-learn & cluster analysis.

Materiali messi a disposizione:
lingcomp-06-08-lab2-tlearn.pdf [20.61 KB]

19-12-2005 (ore: 16-18)
Parsing sintattico: introduzione ad alcuni algoritmi
Ph.D. Cristiano Chesi

Aula 5, Virtus
Abstract:
Regole di riscrittura, Top-down Vs Bottom-up parser, il problema del tagging, chart parsing, left corner, la programmazione dinamica e l’algoritmo di Earley.

Materiali messi a disposizione:
lingcomp-06-09-parsing.pdf [284.89 KB]

19-12-2005 (ore: 18-20)
Discussione Gruppi
Ph.D. Cristiano Chesi

Aula 5, Virtus
Abstract:
Presentazione gruppi, dichiarazione precisa del task da svolgere e degli obiettivi da raggiungere, discussione architettura generale del sistema di traduzione che tenteremo di implementare.

Materiali messi a disposizione:
lingcomp06-use_case-ipotesi1.gif [7.5 KB]
lingcomp-06-10-discussI.pdf [46.54 KB]
lingcomp06-use_case-ipotesi2.gif [7.85 KB]

21-12-2005 (ore: 16-18)
Laboratorio di parsing
Ph.D. Cristiano Chesi

Laboratorio Didattico, P.zza S.Francesco, 8
Abstract:
Scrivere grammatiche, valutare lefficienza degli algoritmi di parsing, comprendere la struttura di un programma di parsing.

Materiali messi a disposizione:
lingcomp-06-11-lab3-parsing.pdf [83.38 KB]

9-1-2006 (ore: 16-18)
Rappresentazione della conoscenza
Ph.D. Cristiano Chesi

Aula 349/C, Complesso San Niccolò, Via Roma 56
Abstract:
Ontologie e rappresentazione della conoscenza; First Order Predicate Calculus, codifica di eventi (tempo, aspetto e modo) e analisi semantica

Materiali messi a disposizione:
lingcomp-06-12-semantics.pdf [117.7 KB]

11-1-2006 (ore: 16-18)
Parsing sintattico avanzato: P&P e minimalismo
Ph.D. Cristiano Chesi

Aula 349/C, Complesso San Niccolò, Via Roma 56
Abstract:
Regole di riscrittura Vs. principi, P&P parsers (Pappi, Fong 1991); Grammatiche ad unificazione: HPSG, FUG.

Materiali messi a disposizione:
lingcomp-06-13-parsingII.pdf [130.82 KB]

12-1-2006 (ore: 16-18)
Laboratorio su ontologie, disambiguazione e sottocategorizzazione verbale
Ph.D. Cristiano Chesi

Laboratorio Didattico, P.zza S.Francesco, 8
Abstract:
Esplorazione di wordnet, individuazione di idiosincrasie e gap cross-linguistici.

Materiali messi a disposizione:
lingcomp-06-14-lab4-wordnet.pdf [45.9 KB]

16-1-2006 (ore: 16-18)
Generazione
Ph.D. Cristiano Chesi

Aula 349/C, Complesso San Niccolò, Via Roma 56
Abstract:
Sistemi reversibili, generazione diretta ed indiretta, generazione via transfer e via interlingua.

Materiali messi a disposizione:
lingcomp-06-15-generation.pdf [156.53 KB]

18-1-2006 (ore: 16-18)
Laboratorio su sistemi di MT
Ph.D. Cristiano Chesi

Laboratorio Didattico, P.zza S.Francesco, 8
Abstract:
Esplorazione sistemi di MT, valutazione performance, inferenze su architettura e sulle componenti impiegate

Materiali messi a disposizione:
lingcomp-06-16-lab5-MT.pdf [37.47 KB]

19-1-2006 (ore: 16-18)
Traduzione automatica oggi
Ph.D. Cristiano Chesi

Aula 349/C, Complesso San Niccolò, Via Roma 56
Abstract:
Gli orizzonti della MT: web, information retrieval e problematiche aperte
23-1-2006 (ore: 16-18)
Presentazioni Gruppi
Ph.D. Cristiano Chesi

Aula 349/C, Complesso San Niccolò, Via Roma 56
Abstract:
Presentazione e discussione dei primi risultati dei gruppi di lavoro.
Esami

Gli studenti frequentanti saranno valutati sulla base della presentazione/discussione dello sviluppo del modulo del sistema di traduzione automatica prescelto (breve presentazione/discussione informale in powerpoint o altro supporto alla fine del corso, più una breve tesina, non più di 10 cartelle, in cui il contributo individuale al modello analizzato sarà  evidenziato).
Lesame potrà  essere sostenuto anche senza la presentazione/discussione del modulo del sistema di traduzione, in tal caso lorale verterà  sugli appunti del corso e sul testo di Hutchins & Somers (1992).
 

Bibliografia di riferimento

Hutchins & Somers (1992) An introduction to machine translation London: Academic Press, 1992 (scaricabile gratuitamente su internet: http://ourworld.compuserve.com/homepages/WJHutchins/IntroMT-TOC.htm)

(approfondimenti in PDF per accedere richiedere la password al docente!)
 

Approfondimenti e/o programma per non frequentanti

Gli studenti non frequentanti dovranno sostenere un colloquio orale sul testo di Hutchins & Somers (1992) più un testo a scelta tra gli approfondimenti riportati di seguito. Anche gli studenti non frequentanti potranno scegliere di approfondire un modulo del sistema di traduzione automatica in una tesina (previa consultazione del docente) che verrà  discussa allorale.
Approfondimenti
-Allegranza & Mazzini (2000) Linguistica Generativa e Grammatiche a Unificazione. Paravia scriptorium
- Allen (1987) Natural Language Understanding. MIT Press
- Fong (1991) Comptational properties of principle-based grammatical theories. Ph.D. Thesis
- Jurafsky & Martin (2000) Speech & Language Processing. Pretience Hall, NJ
- Lenci, Montemagni & Pirrelli (2005) Testo e Computer: Elementi di Linguistica Computazionale. Carocci, Roma
- Miller G. (1993) Five papers on wordnet.
- Shank (2001) ’Im sorry Dave, Im afraid I cant do that’ in G. Stork HALs Legacy. MIT Press
 

 Altri corsi attivi:
- Acquisizione del linguaggio (Luigi Rizzi)
- Laboratorio di Ricerca Linguistica (Luigi Rizzi, Adriana Belletti, Valentina Bianchi, Cristiano Chesi)
- Linguistica Applicata II (Adriana Belletti)
- Linguistica Computazionale (Cristiano Chesi)
- Linguistica Generale (Luigi Rizzi, Valentina Bianchi)
- Morfosintassi (Adriana Belletti)
- Psicolinguistica (Alessandro Laudanna)
- Semantica (Valentina Bianchi)
- Storia della Linguistica (Elisa Di Domenico)
- Teoria Grammaticale (Luigi Rizzi)

 

  [ home | presentazione | ricerca | persone | pubblicazioni | didattica - Ph.D. | eventi | info | documentazione ]
last update: daily updated