16 Giugno 2016

Risorse e Strumenti

Risorse

Lessici

  • PAROLE-SIMPLE-CLIPS
    È un lessico di uso generale a quattro livelli che è stato elaborato in tre diversi progetti. Il nucleo dei lessici morfologici e sintattici è stato costruito nell’ambito del progetto europeo “Azione Preparatoria per l’Organizzazione delle Risorse Linguistiche per l’Ingegneria della Lingua” (LE-PAROLE). Il modello linguistico e il nucleo del lessico semantico sono stati elaborati all’interno del progetto europeo “Informazioni Semantiche per Lessici Plurilingui Multifunzionali” (LE-SIMPLE). Il livello fonologico della descrizione e l’estensione della copertura lessicale sono stati prodotti nel contesto del progetto italiano “Corpora e Lessici dell’Italiano Parlato e Scritto” (CLIPS). Comprende un totale di 387.267 unità fonetiche, 53.044 unità morfologiche (53.044 lemmi), 37.406 unità sintattiche (28.111 lemmi) e 28.346 unità semantiche (19.216 lemmi). È stato codificato a livello semantico, in piena conformità con gli standard internazionali specificati nel modello PAROLE-SIMPLE e basati su EAGLES. Le codifiche sintattica e semantica sono state operate in collaborazione con Thamus (Consorzio per l’Ingegneria Documentaria Multilingue), che è responsabile di 25.000 entrate aggiuntive.
  • SIMPLE LOD
    È la serializzazione RDF di tutti i sostantivi estratti dal lessico PAROLE-SIMPLE-CLIPS. Le entrate lessicali sono serializzate in Lemon, mentre le relazioni semantiche sono modellate secondo la OWL di SIMPLE.
  • ItalWordNet LOD
     – datahub: http://datahub.io/dataset/iwn
    – ilc: http://www.languagelibrary.eu/owl/italWordNet15/schema/synset
  • GeoDomainWordNet
     – datahub: http://datahub.io/dataset/geodomainwn
    – ilc per l’inglese: http://www.languagelibrary.eu/owl/geodomainWN/eng/geonames-synset
    – ilc per l’italiano: http://www.languagelibrary.eu/owl/geodomainWN/ita/geonames-synset
    I concetti dell’ontologia GeoNames, con le loro etichettature e glosse inglesi, in italiano sono stati trasformati in una risorsa simil-WordNet, e sono stati debitamente collegati ai WordNet generici di entrambe le lingue. Questa risorsa è pubblicata in RDF conformemente al W3C e allo schema Lemon.
  • Sentiment Lexicon LOD
    https://github.com/opener-project/public-sentiment-lexicons/tree/master/propagation_lexicons/it (in formato LMF)
    Il Lessico Italiano dei Sentimenti è stato sviluppato in modo semi-automatico da ItalWordNet partendo da una lista di 1.000 parole-chiave controllate manualmente. Contiene 24.293 entrate lessicali annotate con polarità positiva/negativa/neutra.

Terminologie di Dominio

  • FiscalDB
  • SindacDB
  • MARITERM

Ontologie

  • IMAG-Act
    È un’ontologia interlinguistica dell’azione. Usando i corpora del parlato, sono stati identificati e rappresentati visivamente con scene prototipiche 1.010 concetti di azione ad alta frequenza. L’ontologia permette la definizione di corrispondenze interlinguistiche fra verbi e azioni in inglese, italiano, cinese e spagnolo. Grazie alla rappresentazione visiva dei concetti di azione identificati, IMAG-Act può essere potenzialmente estesa a qualsiasi lingua.

Strumenti

Banche Dati Lessicali

  • ItalWordNet (in manutenzione)
    È un sistema di interrogazione online a ItalWordNet (il WordNet italiano), una versione aggiornata della banca dati italiana di EuroWordNet. La banca dati ItalWordNet è stata prodotta nell’ambito del programma nazionale italiano denominato “SI-TAL”. Contiene un totale di 49.360 synset.

Strumenti per l’Estrazione di Conoscenza

  • PANACEA WebServices
    Sono servizi sviluppati nell’ambito del progetto europeo denominato “PANACEA” e ospitati presso ILC-CNR. Consentono la costruzione automatica di risorse linguistiche e offrono convertitori di formati, etichettatori di parti del discorso, analizzatori sintattici di dipendenze, strumenti di acquisizione lessicale (estrattori di MultiWord e per la sottocategorizzazione, combinatori lessicali). Tutorial per l’utilizzo di questi servizi e la composizione di flussi di lavoro sono disponibili qui.

(work in progress)