Tendenze, progressi e limiti

Autore: Antonio Corvino

Nel panorama digitale che ci circonda stiamo assistendo ad una competizione serratissima tra algoritmi di ogni tipo. Questi, in particolare quelli di intelligenza artificiale, provano a soddisfare una specifica esigenza attraverso, per la maggior parte dei casi, un canale ben preciso: la comunicazione testuale.

Le tecnologie basate sull’Artificial Intelligence hanno spalancato orizzonti nuovi negli ambiti della comunicazione uomo – macchina, dove il testo svolge un ruolo chiave. I chatbot e gli assistenti virtuali, alimentati da potenti modelli di linguaggio come i Large Language Model (LLM), hanno raggiunto una maturità tale da interagire, capendo e rispondendo, alle richieste effettuate dagli utenti anche nel loro linguaggio naturale, riuscendo a sviluppare una dimensione di conversazione fluida e intuitiva[1]. Il testo, così, diviene lo strumento cardine mediante il quale l’utente può interagire e ricercare quanto è nelle sue intenzioni, formulando domande, richieste ben delineate, soluzioni ed ispirazioni, interagendo con le macchine in modo del tutto paragonabile a quanto avviene tra esseri umani. Vien da sé che la qualità e la chiarezza del testo, in ambedue le direzioni, sono i punti cruciali dell’esperienza.

Nell’era delle immagini e della comunicazione visiva, l’avvento dei chatbot di intelligenza artificiale come ChatGPT[2], DALL-E 2[3], OpenAI[4], Imagen[5], Muse[6]di Google[7], Midjourney[8] e altri, ha avuto il merito, a latere, di evidenziare la centralità della testualità nella costruzione dei modelli di comunicazione differenti, come immagini, video e suoni.

Una delle applicazioni più interessanti in questa direzione è il text-to-image, processo che consente la genesi di immagini partendo da descrizioni testuali[9]. Testo e immagine sono da sempre considerati due forme di comunicazione distinte, sebbene pur sempre correlate. Con l’avvento di tecnologie come la text-to-image, il testo svolge da input per il sistema AI, che poi genera un’immagine corrispondente alla descrizione effettuata.

Questo processo, naturalmente, richiede una comprensione accurata del testo, così come un’ottima capacità di tradurlo in informazioni visive[10]. La comprensione accurata del testo è un requisito fondamentale per il successo della tecnica text-to-image: infatti, il capire esattamente la richiesta, in particolare se fatta con i linguaggi naturali, è il quid essenziale nella realizzazione di un’immagine coerente e realistica. Questo richiede per l’appunto l’apprendimento di LLM in grado di cogliere le sfumature del linguaggio naturale e tradurle in elementi visivi.

L’apprendimento è basato su una mole massiccia di dati. L’LLM viene allenato utilizzando set di dati composto sia di testo sia di immagini: questo passaggio risulta fondamentale per la relazione tra il testo e le immagini corrispondenti, consentendo al sistema di generare nuove immagini basate sulle descrizioni testuali fornite.

Nonostante i progressi significativi nella tecnologia del text-to-image, ci sono ancora alcune sfide e limitazioni da affrontare. Ad esempio, la generazione di immagini dettagliate e realistiche a partire da brevi descrizioni testuali può essere complessa, così come l’interpretazione del testo può variare a seconda del contesto culturale e delle esperienze personali, il che può influire sulla qualità e l’accuratezza delle immagini generate[11].

Come assicurarsi che la macchina abbia ben interpretato la nostra richiesta?

In questo preciso quesito interviene la filologia digitale, un campo interdisciplinare che combina gli studi filologici tradizionali con le tecnologie informatiche, che mediante l’analisi e la comprensione dei testi digitali, l’applicazione di metodi e strumenti tradizionali supportati da toolsinformatici consente all’LLM di esplorare il significato, il contesto e la struttura delle parole e delle frasi[12].

Altro ambito è la giusta comprensione del contesto: spesso le richieste degli utenti sono ambigue o poco chiare, e la mancanza di contesto può portare a risposte imprecise o non pertinenti da parte dei chatbot. La filologia digitale può contribuire a interpretare correttamente le richieste, analizzando il contesto linguistico e culturale in cui si inseriscono, in quanto la semantica delle parole e delle frasi fa in questo ambito la differenza. La filologia digitale può contribuire ad arricchire i modelli con conoscenze semantiche, consentendo loro di riconoscere sinonimi, polisemie e svolte linguistiche proprie di specifiche culture o precisi contesti.

Altra possibilità offerta dalla filologia digitale è quella di svolgere il ruolo di garante critica dell’addestramento, prevenendo pregiudizi e informazioni errate, identificando e/o mitigando il bias e l’errore per migliorare l’affidabilità delle risposte dei chatbot.

Nel complesso universo delle tecnologie testuali legate alle evoluzioni dell’AI è fondamentale per garantire un’interazione efficace e soddisfacente tra utente e sistema.

La filologia digitale offre un approccio interdisciplinare che combina l’analisi linguistica e culturale con gli strumenti informatici per affrontare le sfide legate alla comprensione contestuale[13], alla semantica e al bias nei dati di addestramento[14].

Bibliografia

[1] Wei, Jason, et al. “Emergent abilities of large language models.” arXiv preprint arXiv:2206.07682 (2022).

[2] Liu, Yiheng, et al. “Summary of chatgpt/gpt-4 research and perspective towards the future of large language models.” arXiv preprint arXiv:2304.01852 (2023).

[3] https://labs.openai.com/ (accessed on 10 July 2023).

[4] https://openai.com/ (accessed on 10 July 2023).

[5] https://imagen-ai.com/ (accessed on 10 July 2023).

[6] https://muse-model.github.io/ (accessed on 10 July 2023).

[7] https://research.google/ (accessed on 10 July 2023).

[8] https://www.midjourney.com/home/?callbackUrl=%2Fapp%2F (accessed on 10 July 2023).

[9] Huang, Yupan, et al. “Layoutlmv3: Pre-training for document ai with unified text and image masking.” Proceedings of the 30th ACM International Conference on Multimedia. 2022.

[10] Marcus, Gary, Ernest Davis, and Scott Aaronson. “A very preliminary analysis of DALL-E 2.” arXiv preprint arXiv:2204.13807 (2022).

[11] Morriello, Rossana. “OpenAI e ChatGPT: funzionalità, evoluzione e questioni aperte.” DigitCult-Scientific Journal on Digital Cultures 8.1 (2023): 59-76.

[12] Andrews, Tara L. “The third way: philology and critical edition in the digital age.” The Journal of the European Society for Textual Scholarship. Brill, 2013. 61-76.

[13] McGann, Jerome. “Philology in a new key.” Critical Inquiry 39.2 (2013): 327-346.

[14] Ray, Partha Pratim. “ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope.” Internet of Things and Cyber-Physical Systems (2023).

Share this on

Keep in contact.

If you are interested in collaborating with us or if you would like information about our services, please contact us and we will be happy to help. Let’s get in touch and make something great happen.