ByteDance presenta OmniHuman-1, uno degli strumenti DeepFake più realistici sul mercato
Ricercatori di ByteDance, la società madre di Tiktok, hanno introdotto questa settimana un nuovo strumento di intelligenza artificiale chiamato OmniHuman per generare video umani basati su immagini e altri media.
Hai fretta? Ecco i fatti essenziali!
- ByteDance ha presentato il suo ultimo strumento di intelligenza artificiale, OmniHuman-1, che può generare video con movimenti, stili e comportamenti realistici a partire da una singola foto.
- Il team di ricerca ha condiviso un documento con ulteriori dettagli sulla metodologia e sulle strategie applicate per ottenere deepfake realistici.
- OmniHuman non è ancora disponibile al pubblico.
La prima versione dello strumento di intelligenza artificiale, OmniHuman-1, è in grado di generare video che supportano diversi stili di immagini – che vanno dalla fotografia realistica all’animazione e ai cartoni animati – oltre a offrire variazioni audio e musicali, vari rapporti di aspetto e immagini in movimento realistiche. In diverse dimostrazioni, l’azienda cinese ha esibito le capacità del modello di intelligenza artificiale.
“OmniHuman supera notevolmente i metodi esistenti, generando video di persone estremamente realistici basati su input di segnali deboli, in particolare audio”, afferma il articolo pubblicato lunedì dal team di Bytedance. “Supporta immagini di ingresso di qualsiasi rapporto di aspetto, che siano ritratti, mezzi corpi o immagini a figura intera, fornendo risultati più realistici e di alta qualità in vari scenari.”
Il team di ricerca ha spiegato di aver utilizzato una “strategia di allenamento misto per la condizionamento del movimento multimodalità” e ha fornito diversi esempi delle capacità dello strumento, tra cui la ricreazione di una lezione con Albert Einstein, la simulazione di discorsi utilizzando immagini da siti web royalty-free, e la generazione di esibizioni musicali da media audio o video.
Il team di ricerca di ByteDance ha avvertito dei rischi di frode: non hanno ancora rilasciato lo strumento di intelligenza artificiale al pubblico e non hanno condiviso una data – e altre preoccupazioni etiche. L’azienda ha assicurato che le immagini e i video utilizzati per dimostrare le prestazioni del modello sono stati presi da fonti pubbliche.
Secondo Forbes, l’azienda cinese ha utilizzato 18.700 ore di dati video umani per allenare la nuova modalità. Diversi esperti hanno già condiviso le loro opinioni sul nuovo strumento AI.
“Creare qualcosa da una semplice foto e farla sembrare come se stesse veramente parlando e muovendosi è affascinante da un punto di vista tecnologico, ma potrebbe avere anche molte potenziali conseguenze negative”, ha detto Samantha G. Wolfe, professoressa aggiunta presso la Steinhardt School of Culture, Education and Human Development della NYU e fondatrice di PitchFWD in un’intervista con Forbes. “Le versioni finte di leader aziendali o leader politici che dicono qualcosa che non è accurato possono avere un enorme influenza su un’azienda, o un enorme influenza su un paese.”
Le preoccupazioni di Wolfe sono condivise da molti esperti del settore. Gli esperti di cybersecurity hanno recentemente avvertito di una nuova ondata di truffe con deepfake generati da IA sofisticate.
Lascia un commento
Annulla