Qualora ci fosse qualcuno, attivo a vario titolo nell'industria musicale, non ancora consapevole della presenza sul mercato di una startup che opera all’incrocio tra musica e AI e che si chiama Suno, ecco quattro punti fondamentali da annotare: ha raccolto 125 milioni di dollari in un round di finanziamento nel giugno 2024 ha lanciato il suo servizio nove mesi fa ma è già stata utilizzata da più di 12 milioni di persone per creare musica rivaleggia con l’altra startup Udio (che ha a sua volta vantato il proprio traguardo di 10 milioni ma, nel suo caso, di tracce create al secondo) e con Dream Track di Google, che ha ottenuto licenze che consentono di creare canzoni utilizzando voci famose è in guerra con l’industria musicale Per molti Suno ricorda Napster: una novità dirompente e sconvolgente, dalle conseguenze potenzialmente nefaste per l’industria musicale. Secondo altri, invece, è “la nuova Spotify”, un paragone suggerito sia dalla rapidità di adozione sia dal livello dell’investimento finanziario che i VC hanno dimostrato di volere sostenere, nonostante i venti contrari che soffiano sul rapporto tra AI e musica. Eppure Suno potrebbe anche diventare la nuova Instagram: ossia, uno strumento radicalmente facile da utilizzare e capace di elevare la creazione musicale a un livello comparabile a quello al quale la società del gruppo Meta, con la complicità degli smartphones, ha elevato la fotografia, democratizzandone l’uso e rendendo sconfinato il numero di individui diventati creatori di contenuti anziché semplici consumatori online. Infine, ovviamente, potrebbe anche non essere nulla di tutto ciò. Breve storia e fondatori Suno ha poco meno di due anni di vita. I suoi co-fondatori si chiamano Mickey Shulman, Georg Kucsko, Martin Camacho e Keenan Freyberg. Erano tutti precedentemente impiegati in un’altra startup di intelligenza artificiale, la Kensho Technologies (basata dalle parti di Cambridge, nel Massachusetts). Qui hanno lavorato insieme fino al 2022 come esperti di apprendimento automatico. Kensho si concentrava sulla ricerca di soluzioni di AI per risolvere problemi aziendali complessi. Il gruppo dei co-fondatori di Suno ha lavorato su una tecnologia di trascrizione da audio a testo focalizzata sulle “earning calls” delle aziende quotate. E’ lungo questo percorso professionale che Shulman – ora anche CEO - e i suoi colleghi si sono innamorati delle possibilità inesplorate della “audio AI”. Si noti che Shulman e Camacho sono entrambi musicisti che suonavano insieme ai tempi di Kensho. Il loro primo rilascio di gruppo è stato un programma di sintesi vocale chiamato Bark. Quando hanno cominciato a intervistare i primi utenti di Bark, dal loro riscontro è diventato chiaro che un generatore di musica era nei desideri di molti: è stato abbastanza per cominciare a fare alcuni esperimenti iniziali, e a ritenerli promettenti. Oggi Suno ha sede nell'area di Boston ed è culturalmente “figlia” del movimento tecnologico che ruota intorno al MIT, alla prestigiosa sede di Cambridge e all’iconica università di Harvard. Alla fine dell'anno scorso, Microsoft ha annunciato una partnership con Suno, tramite la quale gli utenti di Microsoft Copilot possono utilizzare il software di Suno per creare musica. A posteriori, si è trattato dell’anticamera della popolarità. Nei primi otto mesi dal lancio pubblico della prima versione di Suno, 10 milioni di persone avrebbero creato musica utilizzando lo strumento. Uno dei primi investitori di Suno è stato Antonio Rodriguez, partner della società di venture capital Matrix, che fino ad allora aveva finanziato una sola precedente impresa musicale, la società di categorizzazione musicale EchoNest, in seguito acquisita da Spotify per alimentare il suo algoritmo e potenziare il suo sistema di raccomandazione. Rodriguez nelle scorse settimane, prima del celebre round di finanziamento da 125 milioni di dollari, aveva candidamente ammesso sui media americani di essere pienamente consapevole del "rischio che dovevamo assumere quando abbiamo investito nella società, perché rappresentiamo il portafoglio capiente che sarà citato in giudizio subito dopo questi ragazzi.... Onestamente, se avessimo avuto accordi con le label quando questa società è stata fondata, probabilmente non ci avremmo investito. Penso che avessimo bisogno di realizzare questo prodotto senza vincoli". Shulman & Co. pensano in grande. Ecco cosa ha detto di recente il CEO, dopo il famoso round di investimento: "… Stiamo cercando di coinvolgere molto di più nella musica rispetto a ora un miliardo di persone. "Se le persone sono molto più coinvolte nella musica, molto più concentrate sulla creazione, sviluppando gusti molto più distinti, ciò sarà ovviamente positivo per gli artisti. La visione che abbiamo del futuro della musica è quella di un mondo favorevole agli artisti. Non stiamo cercando di sostituire gli artisti" Come funziona In termini di approccio al problema tecnologico da risolvere, la tecnologia di Suno ne utilizza uno del tutto analogo a quello dei grandi modelli linguistici (large language models, o LLM) come ChatGPT, che suddividono il linguaggio umano in segmenti “discreti” (ovvero ‘separati’). Questi segmenti, anche noti come token, assorbono i suoi milioni di usi, stili e strutture e per poi ricostruirli su richiesta. Ma l'audio, in particolare la musica, è incredibilmente più complesso del linguaggio parlato. Non è riconducibile a segmenti “discreti” come le parole, perché è sostanzialmente un'onda, un segnale continuo. Considerando che la frequenza di campionamento dell'audio di alta qualità è generalmente di 44 kHz o 48 kHz, applicare all’audio il processo riservato al linguaggio naturale equivale a gestire 48.000 token al secondo: la risoluzione di un grande problema come questo consiste nel comprendere come comprimere tutto ciò in qualcosa di più ragionevole. Dal punto di vista dell’utente, la piattaforma di Suno permette a "chiunque di creare ottima musica" partendo da semplici prompt di testo in stile ChatGPT, ma anche inserendo testi di canzoni. Suno genera quindi melodie, armonie e composizioni complete basate su questi spunti iniziali. In guerra con l’industria musicale Ai gruppi che rappresentano l'industria musicale a vario titolo, alla testa dei quali si è posizionato Ed Newton-Rex di Fairly Trained, interessa la questione dell'addestramento dei modelli di AI generativa, poiché questi modelli finiscono con il generare contenuti che competono con opere protette da copyright su cui sono stati addestrati illecitamente. Suno sembra generare output che somigliano a musica protetta da copyright, dai testi alle melodie, dalle progressioni di accordi agli stili. In assenza di dichiarazioni precise da parte dell’azienda, si ricade per forza in uno di tre casi: (1) la somiglianza è casuale, (2) il modello è stato addestrato su musica protetta da copyright regolarmente licenziata, (3) il modello è stato addestrato su musica protetta da copyright, ma senza le licenze necessarie. Ad oggi non ci sono sentenze definitive che sanciscano che l'addestramento della AI debba essere esente dal copyright. L'Unione Europea, con l'AI Act, richiede agli sviluppatori di AI di ottenere l'autorizzazione dai titolari dei diritti per utilizzare materiali protetti da copyright per addestrare i loro modelli. L'AI Act include alcune esenzioni dal copyright come stabilito dalla legge dell'UE, ad esempio per scopi di ricerca. Uscendo dal legalese e entrando nel pratico, quando una società di AI non rivela le fonti dei suoi dati di addestramento – è il caso di Suno – gli esperti che tendono a credere che abbia attinto a materiale protetto da copyright utilizzano il modello ‘sospetto’ per cercare output che somiglino a materiale protetto da copyright: detti output sono un forte indicatore che quel materiale provenga dai dati di addestramento. C’è di più. Questo tipo di somiglianza dell'output non è una condizione necessaria perché il copyright sia stato violato: di fatto, se il modello è stato addestrato su opere protette da copyright senza una licenza, il copyright è stato violato: punto. Non importa che il modello generi poi copie esatte o molto somiglianti dei dati di addestramento o meno. I fondatori di Suno – Mikey Shulman, Georg Kucsko, Martin Camacho e Keenan Freyberg – sottolineano che, a differenza di altri modelli di AI generativa, Suno non consente agli utenti di chiedere musica creata nello stile di un artista specifico. Tuttavia, pur non usando il nome di un artista noto o il nome di un brano famoso come prompt, se lo si scrive in modo deliberatamente errato (ad esempio: fAbba invece di Abba), e si elabora un prompt aderente all’intenzione originale (ad esempio: prompt = “una canzone pop anni Settanta di una band chiamata fAbba”), l’output… è sorprendente. Senza considerare che inserendo testi veri di canzoni esistenti, sembra che Suno finisca per elaborare melodie che somigliano molto a melodie note e protette da copyright. Rientrando nel legalese, negli Stati Uniti le aziende di AI generativa spesso sostengono che addestrare i loro modelli AI senza il consenso dei titolari dei diritti rientri nell'eccezione del “fair use”. Ma l’industria musicale non concorda con questa posizione, e i tribunali non si sono ancora pronunciati definitivamente in un senso o nell'altro. La posizione dell’industria, ridotta alla sua essenza, è la seguente: se gli utenti deviano le loro ore di ascolto dalla musica composta da umani a favore della musica composta con AI da società che l’hanno addestrata su musica protetta da copyright, l'atto di copiare ha di fatto ridotto il mercato per l'originale. Il che rende difficile sostenere che l'addestramento di un modello AI generativo su musica protetta da copyright possa essere considerato “fair use”.