Содержание
Просмотр рекомендованной музыки на iPhone
В разделе «Слушать» приложения «Музыка» подписчики Apple Music могут воспроизводить и изучать избранные альбомы, плейлисты, интервью и персональные подборки, выбранные на основе их предпочтений.
Выбор любимых жанров и артистов
При первом выборе раздела «Слушать» Вам будет предложено указать свои предпочтения в Apple Music. Apple Music будет использовать эти предпочтения, чтобы рекомендовать Вам музыку.
Коснитесь названия жанров, которые Вам нравятся (коснитесь дважды, чтобы отметить жанры, которые Вам нравятся; коснитесь и удерживайте жанры, которые Вам не интересны).
Коснитесь «Далее» и выполните те же действия для появившихся имен артистов.
Чтобы добавить исполнителя, которого нет в списке, коснитесь «Добавить артиста» и введите имя исполнителя.
Воспроизведение музыки
Коснитесь «Слушать», затем коснитесь плейлиста или альбома.
Коснитесь «Воспроизвести» или коснитесь «Перемешать», чтобы перемешать композиции в альбоме или плейлисте.
Можно также коснуться и удерживать плейлист или альбом, а затем коснуться «Воспроизвести».
Воспроизведение песен из каталога артиста
Откройте страницу артиста и коснитесь рядом с именем артиста.
Приложение «Музыка» включает песни из всего каталога артиста и воспроизводит его хиты и редко исполняемые композиции в случайном порядке.
Добавление артистов в Избранное
Откройте страницу артиста и коснитесь кнопки в верхней части экрана.
После добавления артиста в Избранное он будет отображаться в разделе «Избранные артисты» на вкладке «Для Вас», а его музыка будет чаще появляться в рекомендациях. Также можно выбрать параметр для получения уведомлений о новых композициях артиста.
Сообщите Apple Music, что Вам нравится
Выполните любое из указанных действий.
Коснитесь и удерживайте альбом, плейлист или песню, затем коснитесь «Нравится» или «Предлагать меньше похожих».
На экране «Исполняется» коснитесь кнопки , затем коснитесь «Нравится» или «Предлагать меньше похожих».
Если Вы будете сообщать Apple Music, что Вам нравится и не нравится, в будущем рекомендации будут точнее.
Просмотр подборки композиций, которые Вы слушали чаще всего в течение года
Для подписчиков Apple Music в конце каждого года подписки создает особый плейлист «Мой год» из наиболее полюбившихся композиций (при условии, что Вы слушали достаточное количество музыки в течение этого года подписки). Чтобы просмотреть плейлисты, составленные для каждого года действия Вашей подписки, коснитесь «Слушать», смахните вверх до раздела «Топ-песни плейлистов «Мой год»», затем выберите год. Более подробную информацию о прослушанной в течение года музыке можно просмотреть на сайте replay.music.apple. com. См. статью службы поддержки Apple Использование плейлиста «Мой год» в Apple Music.
Оцените музыку в своей медиатеке
Откройте «Настройки» > «Музыка».
Включите функцию «Показ рейтинга звездами».
В приложении «Музыка» коснитесь и удерживайте песню в медиатеке, коснитесь «Присвоить рейтинг» и выберите оценку от одной до пяти звезд.
Рейтинг песен синхронизируется на всех Ваших устройствах, которые используют такой же Apple ID.
Эта функция появляется, только если у Вас уже есть рейтинги звездами из синхронизированной медиатеки на Вашем устройстве.
Выключение отслеживания прослушиваемой музыки в Apple Music
Если Вы не хотите, чтобы подписчики в Apple Music видели музыку, которую Вы слушаете, выполните следующую последовательность действий.
Откройте «Настройки» > «Музыка».
Выключите функцию «Использование истории».
Выключение истории прослушивания влияет на новые музыкальные рекомендации и на содержимое плейлистов «Мой год».
Цой, Сид Вишес и Курт Кобейн: главные фильмы о звездах рок-музыки
- ForbesLife
- Святослав Иванов
Автор
Кадр из фильма «Бархатная золотая жила»
Сериал «Король и Шут» продолжает развлекать миллионы зрителей, что делает его одним из самых успешных рок-байопиков в истории российских сериалов. А в американском и британском кино это вполне устоявшийся жанр. Историк культуры Святослав Иванов рассказывает про самые знаковые фильмы о рок-музыкантах и прослеживает эволюцию жанра
«Манкиз» (1966–1968)
Режиссер и продюсер Боб Рафелсон задумал The Monkees — разом и рок-группу, и сериал — еще в 1962-м, но понадобилась пара лет простоя и оглушительный успех The Beatles, чтобы продать идею телевизионщикам. Ситком, конечно, не был байопиком в прямом значении, но предвосхитил многие из них, показав, что жизнь рок-звезд — сама по себе шоу, которое должно развиваться по киношным законам.
В сериале были скрещены два жанра: ситком 1950-х вроде «Я люблю Люси» (где главные герои были слегка измененными версиями самих себя) плюс известный еще с 1920-х поджанр star vehicle — фильмы, построенные вокруг главной звезды, часто музыкальной. И невероятная мода 1960-х на волосатых парней с гитарами.
Сериал «Манкиз» сделал звездами группу, созданную специально для него; счет проданных пластинок шел на десятки миллионов копий. Схему эту потом повторят много раз — вплоть до «Ранеток» и «Ханны Монтаны» уже в 21 веке.
«История Бадди Холли» (1978)
Жанр байопика чаще всего предполагает некоторую хронологическую дистанцию: во-первых, история должна быть законченной («лучше всего», если главный герой уже умер), во-вторых, после нее должно пройти время — чтобы было ясно, где заканчиваются сиюминутные кривотолки и начинается вечность.
Поэтому неудивительно, что если взглянуть на стартовый (и самый легендарный) отрезок истории рок-н-ролла — с середины 50-х по середину 70-х, — то рок-байопиков там не найти. Столь же неудивительно, что героем первого биографического фильма о человеке с гитарой стал первый «великомученик» рок-н-ролла Бадди Холли, погибший в авиакатастрофе в 1959 году. 34-летний Гэри Бьюзи убедительно перевоплотился в 22-летнего Холли, сам спел и сыграл на гитаре все его песни — и даже был номинирован на «Оскар» (а композитор фильма получил статуэтку за лучший адаптированный саундтрек).
Успех «Истории Бадди Холли» прописал рок-байопики на экранах и вызвал небольшую волну подражаний — например, телефильм Джона Карпентера «Элвис» (1979), где недавно почившего Короля играл молодой Курт Расселл.
«Сид и Нэнси» (1986)
«История Бадди Холли» задавала тон позитивной иконографии рок-н-ролла: главный герой предстает искренним борцом за творческую свободу, толерантность и другие прогрессивные идеи. Но, как писал Гоголь, «беленькими нас всякий полюбит, а ты полюби нас черненькими»! И вот в конце 70-х и в 80-х рок-культура дала миру множество историй о «черненьких».
Жизнь басиста The Sex Pistols Сида Вишеса и его антисоциальная история любви с Нэнси Спанджен была самой знаковой из таких — и просилась на экран со времен смерти обоих героев в конце 70-х. Это тот самый рок-н-ролл, где, как потом хорошо сформулировала российская рэп-группа «Птицу ЕМЪ»: «Алкоголь и нервные срывы, мордобой и грязные риффы». В истории Сида и Нэнси было всего с лихвой: героин, депрессия, селфхарм, суицид, роковая любовь в духе Бонни и Клайда — и немного панк-рока.
Роль Вишеса сделала звездой Гэри Олдмана, но сам фильм провалился в прокате — и понадобилась новая волна популярности панка в 90-х, чтобы он стал культовым. Так или иначе, троп «рок-звезда и саморазрушение» был явлен миру именно здесь.
«Дорз» (1991)
Биография лидера The Doors Джима Моррисона стала первым байопиком, который снял именитый режиссер — а конкретно, Оливер Стоун. Ветеран войны во Вьетнаме, Стоун посвятил львиную часть своей фильмографии либо самой войне, либо ее истокам — порочному социально-политическому климату Америки. «Дорз» вполне помещается в этот контекст — Стоун вписал судьбу Моррисона в панораму его эпохи.
Пестрый фон сюжета включает и саму войну во Вьетнаме, и протесты против нее, и движение за права афроамериканцев, и вытекающую из всего этого субкультуру хиппи. Моррисон здесь — не столько «поэт-безумец, мистический анархист, ходящий над безднами», сколько лицо поколения, не сумевшего додавить отцовский консерватизм и высокомерие элит. Важнейшее значение в фильме имеет фигура умолчания — упоминаемые лишь вскользь, намеренно замалчиваемые главным героем отношения Моррисона с его отцом-адмиралом, воплощающим все то, против чего бунтовали хиппари.
Фильм не был хорошо принят, но закрепил вариацию рок-байопика как портрета на фоне эпохи. А исполнивший главную роль Вэл Килмер стал образцом работы в биографическом жанре — для поколения 90-х лица Килмера и Моррисона обрели такое сходство, что почти смешались.
«Бархатная золотая жила» (1998)
Фильмы, описанные выше, стремились к достоверному воспроизведению реальности — и претерпевали тяжелый вал критики за те места, где отклонялись от фактов. То ли дело «Бархатная золотая жила», абсолютно не претендовавшая на достоверность.
Здесь тоже стоит обратить внимание на фигуру автора. Тодд Хейнс начал режиссерскую карьеру с самопальной биографии певицы Карен Карпентер, где все роли играли куклы Барби. В дальнейших работах Хейнс исследовал болезни и обсессии, гендер и квир-культуру, социальные нормы и отклонения от них. «Золотая бархатная жила» затрагивает более-менее все перечисленное.
Фильм посвящен британскому глэм-року 70-х; его герои — собирательные персонажи, один из которых — как-бы-Дэвид Боуи, другой — как-бы-Игги Поп (в исполнении Юэна Макгрегора аккурат между «На игле» и «Звездными войнами»). Этот китчевый и фрагментарный фильм совершенно не претендует на документальность, но тем не менее отлично передает дух эпохи и ее бушующий творческий поток. А значит, отныне, чтобы снимать фильмы о рокерах, нужно фантазировать как рокеры.
«Круглосуточные тусовщики» (2002)
Главный герой этого очаровательного (и познавательного) фильма Майкла Уинтерботтома — не великий певец, не борец против элит и даже не бунтующий басист. В центре истории — сыгранный Стивом Куганом продюсер и журналист Тони Уилсон, забавный и неуклюжий человек, имеющий тем не менее огромное значение для британской музыки.
Куган-Уилсон проводит для зрителей экскурсию по манчестерской сцене конце 70-х — начала 90-х. Вот выступают те же Sex Pistols — заезжие лондонцы, заразившие местную молодежь вирусом панка. Вот идут к успеху Joy Division — культовая группа, чья история закончилась самоубийством вокалиста Иана Кертиса. Вот манчестерские модники «продают гитары и покупают диджейские пульты» — и тогда на смену угрюмому пост-панку приходит витальная и бодрая танцевальная музыка.
Музыканты здесь — не трагические гении и не зловещие социопаты. Они такие, какими скорее всего и были в повседневной жизни, — отвязные, импульсивные, веселые и жутко безответственные мальчишки, которых еще поди заставь записать альбом или сыграть концерт. Тони Уилсон, неловко спотыкаясь, все это преодолевает — и создает легендарный лейбл Factory Records и не менее легендарный ночной клуб The Haçienda. Всякий раз это заканчивается фиаско, но из них и состоит история.
«Контроль» (2007)
В середине 2000-х вышли два знаковых фильма. Оба основаны на биографиях главных «проклятых поэтов» США и Великобритании — Курта Кобейна из Nirvana и Иана Кертиса из Joy Division соответственно, — и оба заканчиваются самоубийством главного героя.
В обоих фильмах стиль несколько довлеет над содержанием. В фильме Гаса ван Сэнта «Последние дни» персонаж, основанный на биографии Кобейна, ходит-бродит, бренчит на гитаре, бьет баклуши и варит что-то в кастрюле. В фильме о Кертисе «Контроль» история рассказана более традиционно, но она тонет в эстетских черно-белых планах: недаром его режиссер Антон Корбайн — прославленный фотограф, в том же духе снимавший Joy Division при жизни вокалиста.
Наконец, оба фильма пришлись ко двору для тогдашней тинейджерской аудитории, особенно принадлежащей к субкультуре эмо. Экранные Кобейн и Кертис были героями одновременно пассивно-агрессивными и романтическими. Недавний российский фильм о Янке Дягилевой очень схож по стилю с «Последними днями».
Материал по теме
Житие святой: как экспериментальный байопик оживил панк-икону Янку Дягилеву
«Меня там нет» (2007)
Принадлежность Боба Дилана (тогда еще не лауреата Нобелевской премии по литературе) к рок-музыке — вопрос дискуссионный. Но он точно значимая фигура для рок-культуры, так что нельзя проигнорировать посвященный ему фильм «Меня там нет». К тому же, фильм весьма необычный.
Режиссер Тодд Хейнс, уже фигурировавший в этом списке с «Бархатной золотой жилой», в 2007 году во второй раз внес инновационный вклад в биографический жанр как таковой. Хейнс исходил из представления, что Боб Дилан — это не столько кудрявый мужчина по имени Роберт Аллен Циммерман, родившийся в 1941 году, сколько антология его публичных образов, творческих фантазий и источников вдохновения.
В «Меня там нет» и правда нет персонажа по имени Боб Дилан. Есть сыгранные Кристианом Бэйлом и Кейт Бланшетт музыканты, чьи творческие пути воспроизводят противоречивые фрагменты ранней карьеры Дилана. Есть его ролевые модели — поэт Артюр Рембо и фолк-певец Вуди Гатри. Есть актер, играющий как-бы-Дилана в фильме (Хит Леджер) — а есть персонаж фильма (Ричард Гир), которого сыграл сам Дилан. И есть мнение, что такой калейдоскопический коллаж рассказывает историю певца, поэта и идола лучше, чем это сделал бы привычный нарратив.
«Стать Джоном Ленноном» («Мальчик ниоткуда», 2009)
Первая кинобиография The Beatles была снята в 1979 году. Не исключено, что фильм «Рождение Beatles» был вдохновлен успехом вышеописанной «Истории Бадди Холли». Потом последовала череда фильмов разной степени сомнительности.
Должно быть, лица и голоса битлов настолько четко впечатаны в сознание землян, что любое их искусственное воспроизведение смотрится странно, как творчество ИИ. В итоге гораздо больше внимания привлекали фильмы, связанные с реальными The Beatles лишь косвенно, — «Через вселенную» и «Yesterday».
Фильм, вышедший в российском прокате под названием «Стать Джоном Ленноном», — исключение. Он рассказывает о 15-20-летнем Ленноне, его семье, смерти матери и создании великой группы. Эта неплохо проработанная тинейджерская драма показала, что вместо того, чтобы пересказывать события, хорошо известные широкой публике, иногда лучше сосредоточиться на малоизвестных аспектах реальной истории. И что начало порой интереснее, чем конец.
«Винил» (2016)
Спродюсированный Мартином Скорсезе и Миком Джаггером сериал рассказывает в основном о вымышленных персонажах — сотрудниках нью-йоркского рекорд-лейбла в 1970-х. Однако исторический фон был настолько детальным и выпуклым, что «Винил» воспринимается как коллективный байопик.
Во второстепенных персонажах ходят музыканты Led Zeppelin, New York Dolls, Carpenters, а также Элвис Пресли, Дэвид Боуи, Лу Рид, Элис Купер, Боб Марли, Литл Ричард и диджей Кул Герк — отец хип-хопа. Сериал вышел дорогим и не слишком рейтинговым для канала HBO. И в итоге его не продлили на второй сезон.
Если бы заказчики продвинули хронологию сериала хотя бы во вторую половину десятилетия, то среди героев наверняка прописались бы Ramones, Chic, Blondie, Talking Heads. А так жанр не выдержал форму современного сериала, и «Винил» кажется, скорее, монументальной неудачей. На его фоне тот же «Король и Шут» пока представляется более удачным кейсом.
«Лето» (2018)
До недавнего времени самый заметный и чуть ли не единственный рок-байопик, сделанный в России. Оно и понятно. Гитарные легенды начали появляться в Москве и Питере с двадцатилетним опозданием относительно Нью-Йорка и Лондона; так и фильмы о них появились значительно позже. Также логично, что героями стали Майк Науменко и Виктор Цой — умершие еще до распада СССР, нам они уже почти не современники.
Фильм, который Кирилл Серебренников монтировал под домашним арестом, посвящен сотрудничеству — соперничеству двух звезд. Науменко олицетворяет классический рок-н-ролл, который даже в Ленинграде 1981-го был старомоден; Цой — нью-вейв, под знаком которого и произойдет выход советской рок-музыки из подполья. Несмотря на противоречия и взаимную ревность, оба героя и оба стиля дают результат в симбиозе.
Как и почти любой российский инди-фильм, «Лето» не окупилось в прокате и получило тонну критики за историческую недостоверность, однако взяло каннский приз за лучший саундтрек и держит неплохой зрительский рейтинг. То есть с некоторыми оговорками первый российский опыт рок-байопика можно назвать удачным.
«Богемская рапсодия» (2018)
Нынешняя волна популярности рок-житий довольно предсказуема, особенно в силу того, что публике более-менее известна канва событий. Все они повторяют схему, заданную в фильме «Переступить черту» (2005) о кантри-певце Джонни Кэше — он начинался с того, что герой Хоакина Феникса, ставший звездой, погружался в воспоминания о своем тернистом пути.
«Богемская рапсодия» и «Рокетмен» (как и «Переступить черту», названные в честь песен) — это омут памяти Фредди Меркьюри и Элтона Джона соответственно. А еще есть «Элвис», вышедший в 2022 году, — пересказ событий с точки зрения менеджера Пресли, сыгранного Томом Хэнксом, в котором есть что-то от Сальери в «Амадее» Милоша Формана.
Все фильмы выстроены по примерно одной и той же схеме. Отношения с родителями токсичны или как минимум сложны (хотя в конце концов они хотели лучшего для сына). Шоу-бизнес поначалу неуступчив и не верит в успех таланта, но затем выжимает из него все соки. Где рок-н-ролл — там секс и наркотики. Друзья-музыканты то бранятся, то тешатся. В непростых отношениях с возлюбленными и начальниками намеренно сгущены краски. А песни в конце концов побеждают любую беду.
«Повелители хаоса» (2018)
Режиссер фильма Юнас Окерлунд когда-то сам играл в группе Bathory, исполнявшей фирменный скандинавский блэк-метал. Через стокгольмскую музыкальную сцену он пришел в режиссуру — снимал клипы для земляков Roxette, позже сделал легендарный клип Smack My Bitch Up группы The Prodigy, работал с Мадонной, Полом Маккартни, Metallica, Rammstein, Бейонсе, Леди Гагой, U2, Pussy Riot. Сняв несколько малоизвестных фильмов, Окерлунд вернулся к скандинавскому блэк-металу с фильмом «Повелители хаоса».
Этот триллер более-менее точно воспроизводит самую пугающую историю из мира рок-музыки об участниках норвежских групп Mayhem и Burzum. Они выступали под псевдонимами вроде «Некромясник» и «Адский молот». Мечтали быть олицетворением тьмы не только в творчестве, но и в жизни. Результат: пара реальных жестоких убийств и несколько сожженных церквей.
Несмотря на всю трагичность событий, герои «Повелителей хаоса» показаны не столько жестокими и опасными для общества людьми (какими их часто изображали в медиа), сколько незрелыми и закомплексованными юношами, которые ведут себя нелепо. Это роднит фильм Окерлунда с «Круглосуточными тусовщиками»; получается, эти два фильма больше остальных в этом списке приближены к реальности.
Создание музыки с помощью глубокого обучения | by Isaac Tham
Представляем новую архитектуру на основе VAE для создания новых музыкальных семплов by Rezli on Unsplash
Глубокое обучение радикально изменило изменили области компьютерного зрения и обработки естественного языка не только в классификации, но и в генеративных задачах, что позволило создавать невероятно реалистичные изображения, а также искусственно генерируемые новостные статьи. Но как насчет области аудио — или, точнее, музыки? В этом проекте мы стремимся создать новые архитектуры нейронных сетей для создания новой музыки, используя 20 000 образцов MIDI различных жанров из набора данных Lakh Piano Dataset, популярного эталонного набора данных для недавних задач создания музыки.
Этот проект был совместной работой Исаака Тэма и Мэтью Кима , студентов старших курсов Пенсильванского университета.
Предыстория
Генерация музыки с использованием методов глубокого обучения была предметом интереса в течение последних двух десятилетий. Музыка оказывается другой проблемой по сравнению с изображениями, среди трех основных измерений: во-первых, музыка временна, с иерархической структурой и зависимостями во времени. Во-вторых, музыка состоит из множества инструментов, которые взаимозависимы и раскрываются во времени. В-третьих, музыка сгруппирована в аккорды, арпеджио и мелодии — следовательно, каждый временной шаг может иметь несколько выходов.
Однако у аудиоданных есть несколько свойств, которые делают их в некотором смысле похожими на то, что обычно изучается в глубоком обучении (компьютерное зрение и обработка естественного языка, или НЛП). Последовательный характер музыки напоминает нам НЛП, для которого мы можем использовать рекуррентные нейронные сети. Есть также несколько «каналов» звука (с точки зрения тонов и инструментов), которые напоминают изображения, для которых можно использовать сверточные нейронные сети. Кроме того, глубокие генеративные модели — это новые захватывающие области исследований, способные создавать реалистичные синтетические данные. Некоторыми примерами являются вариационные автоэнкодеры (VAE) и генеративно-состязательные сети (GAN), а также языковые модели в НЛП.
В большинстве ранних методов создания музыки использовались рекуррентные нейронные сети (RNN), которые естественным образом включают временные зависимости. Скули (2017) использовал LSTM для создания музыки для одного инструмента так же, как языковые модели. Этот же метод использовал Нельсон (2020), который адаптировал его для создания музыки в стиле lo-fi.
Недавно сверточные нейронные сети (CNN) с большим успехом использовались для создания музыки, а DeepMind в 2016 году продемонстрировал эффективность WaveNet, который использует расширенные свертки для создания необработанного звука. Ян (2017) создал MidiNet, который использует Deep Convolutional Generative Adversarial Networks (DCGAN) для создания музыкальных последовательностей с несколькими инструментами, которые могут быть обусловлены как музыкой предыдущего такта, так и аккордом текущего такта. Концепция GAN была развита Донгом в 2017 году с MuseGAN, который использует несколько генераторов для создания синтетической музыки с несколькими инструментами, которая учитывает зависимости между инструментами. Донг использовал Wasserstein-GAN с Gradient Penalty (WGAN-GP) для большей стабильности тренировок.
Наконец, поскольку последние достижения НЛП были достигнуты с помощью сетей внимания и преобразователей, были также предприняты попытки применить преобразователи для создания музыки. Шоу (2019) создал MusicAutobot, который использует комбинацию BERT, Transformer-XL и Seq2Seq для создания многозадачного движка, который может как генерировать новую музыку, так и создавать гармонию, зависящую от других инструментов.
Набор данных
Наши данные взяты из набора данных Lakh Pianoroll, коллекции из 174 154 многодорожечных пианороллов, полученных из набора данных Lakh MIDI, и курировались Лабораторией музыки и искусственного интеллекта в Исследовательском центре ИТ-инноваций, Academia Sinica. Мы использовали версию набора данных LPD-5, которая включает треки для фортепиано, ударных, гитары, баса и струнных, что позволяет нам создавать сложную и богатую музыку и демонстрировать способность наших генеративных моделей аранжировать музыку на разных инструментах. Мы использовали очищенное подмножество набора данных Lakh Pianoroll, которое включает 21 245 MIDI-файлов. Каждый из файлов имел соответствующие метаданные, что позволяло нам определить информацию о каждом файле, такую как имя исполнителя и название.
Базовый метод: прогнозирование следующей ноты с помощью RNN
Чтобы установить базовый уровень генерации музыки, который мы можем улучшить, мы использовали рекуррентные нейронные сети (RNN), существующий и легко воспроизводимый метод. Генерация музыки формулируется как задача предсказания следующей ноты. (Этот метод очень похож на рекуррентные языковые модели, которые используются в НЛП. Щелкните здесь, чтобы получить дополнительную информацию.) Это позволит нам генерировать столько музыки, сколько мы хотим, непрерывно передавая сгенерированную ноту обратно в модель.
Что касается реализации, мы использовали Gated Recurrent Unit (GRU) вместо обычного RNN из-за его лучшей способности сохранять долгосрочные зависимости. Каждый GRU будет принимать активацию и вывод предыдущего уровня в качестве входных данных, а выходным сигналом будет следующая нота с учетом предыдущей активации и ввода.
Чтобы создать данные, необходимые для обучения нашей рекуррентной нейронной сети, мы сначала проанализировали фортепианные ноты нашего набора данных, представив каждый файл в виде списка нот, найденных в файле. Затем мы создали обучающие входные последовательности, взяв подмножества представления списка для каждой песни, и создали соответствующие обучающие выходные последовательности, просто взяв следующую ноту каждого подмножества. С помощью этих обучающих входных и выходных данных модель будет обучена прогнозировать следующую ноту, что затем позволит нам передать любую последовательность нот и получить прогноз следующей ноты. Каждая входная последовательность передавалась во встроенный слой, который создавал вложения размером 96. Затем это вложение передавалось в вентилируемую рекуррентную единицу с одним слоем, который затем передавался в полносвязный слой для вывода распределения вероятностей следующей заметки. Мы могли бы выбрать ноту с наибольшей вероятностью в качестве следующей предсказанной ноты, но это привело бы к детерминированным последовательностям без вариаций. Следовательно, мы выбираем следующую ноту из полиномиального распределения с выходными вероятностями.
В то время как модель предсказания следующей ноты RNN проста и понятна в реализации, сгенерированная музыка звучит далеко не идеально, и ее полезность очень ограничена. Поскольку мы кодируем каждую отдельную ноту в токен и предсказываем распределение вероятностей по кодировкам, мы действительно можем сделать это только для одного инструмента, потому что для нескольких инструментов количество комбинаций нот увеличивается экспоненциально. Кроме того, предположение о том, что все ноты имеют одинаковую длину, определенно не отражает большинство музыкальных произведений.
Генерация музыки для модели предсказания следующей ноты RNN
Мультиинструментальная RNN
Поэтому мы стремились изучить другие методы создания музыки для нескольких инструментов одновременно и придумали Мультиинструментальную RNN.
Вместо того, чтобы кодировать музыку в уникальные ноты/аккорды, как мы делали в первоначальной идее, мы работали напрямую с мультиинструментальным роялем 5 x 128 на каждом временном шаге, сглаживая его, чтобы он стал 640-мерным вектором, который представляет музыку на каждом временном шаге. Затем мы обучили RNN предсказывать 640-мерный вектор следующего временного шага, учитывая предыдущую последовательность 640-мерных векторов длиной 32.
Хотя этот метод теоретически имел бы смысл, было сложно получить удовлетворительные результаты из-за сложности создания разнообразия, которое дополняло бы все инструменты.
- В настройке с одним инструментом мы выбрали полиномиальное распределение с вероятностью, взвешенной по выходным баллам softmax, для создания следующей заметки. Однако, поскольку все инструменты размещены вместе в 640-мерном векторе, генерация следующей ноты с использованием партитур softmaxed по всему вектору 640d может означать, что некоторые инструменты потенциально могут иметь несколько нот, а некоторые — ни одного.
- Мы попытались решить эту проблему, запустив функцию softmax отдельно для каждого из 128-мерных векторов 5 инструментов, чтобы мы могли сгенерировать определенное количество нот для каждого инструмента.
- Однако это означало, что отбор проб для каждого прибора был независимым друг от друга. Это означает, что сгенерированная последовательность фортепиано не будет дополнять последовательности других инструментов. Например, если из последовательности семплируется аккорд C-E-G, бас не может его включить и может сэмплировать аккорд D-F-A, который гармонически диссонирует и не дополняет.
· Кроме того, существовала проблема, связанная с незнанием того, сколько нот нужно сэмплировать для каждого инструмента в каждый момент времени. Эта проблема отсутствовала в настройке с одним инструментом, потому что отдельные ноты и аккорды из нескольких нот кодируются как целочисленные представления. Мы решили эту проблему путем выборки определенного количества нот для каждого временного шага (например, 2 для фортепиано, 3 для гитары) из полинома. Но это не увенчалось успехом, так как сгенерированная музыка звучала очень случайным и немузыкальным.
Создана музыка для многоинструментальной модели RNN
Переход от рекуррентной к сверточной
С этого момента мы решили сосредоточиться на сверточных нейронных сетях (CNN) , а не на RNN для создания музыкальных последовательностей. CNN будет напрямую генерировать последовательность длиной 32, выводя трехмерный тензор 5 x 32 x 128. Это решило бы проблему незнания того, сколько заметок генерировать, и необходимости использовать полиномиальную выборку. Было показано, что архитектуры CNN, такие как WaveNet, обеспечивают такую же хорошую, если не лучшую производительность, как RNN при генерации последовательностей. Кроме того, их намного быстрее обучать благодаря оптимизации производительности с помощью сверточных операций.
MelodyCNN и Conditional HarmonyCNN
Чтобы сгенерировать несколько инструментальных дорожек, совместимых друг с другом, мы попробовали модель генерации из двух частей, которая включает MelodyCNN для генерации мелодии в следующем временном шаге, а также Conditional-HarmonyCNN для создания инструментов, отличных от фортепиано, с учетом мелодии для того же временного шага, а также музыки этого инструмента для последнего временного шага.
Архитектура MelodyCNN + Conditional HarmonyCNN, используемая для создания музыки. ( Изображение автора )
Поскольку размеры входного и выходного данных одинаковы (32 x 128), используемая архитектура MelodyCNN была симметричной, с 3 сверточными слоями, 3 плотными слоями и 3 деконволюционными слоями. Условная HarmonyCNN использовала 3 сверточных слоя для каждого из входных данных (фортепиано и предыдущего инструмента), затем объединила полученные тензоры перед прохождением через плотные и деконволюционные слои.
Таким образом, MelodyCNN изучает отображение между последовательностями фортепиано в последовательных временных шагах, в то время как Conditional HarmonyCNN отображает пространство фортепианной музыки на другие инструменты.
Используя в общей сложности 5 CNN (по одной для каждого инструмента), новую музыку можно генерировать итеративно, учитывая начальную последовательность с несколькими инструментами. Во-первых, MelodyCNN используется для предсказания следующей последовательности фортепиано, а Conditional HarmonyCNN используются для предсказания других инструментов.
Pianoroll музыки, сгенерированной MelodyCNN + Conditional Harmony CNN. ( Изображение автора )
Этот фреймворк был успешным в создании музыкальных последовательностей с несколькими инструментами, где инструменты звучат музыкально дополняющими друг друга. Однако изменение начальной последовательности, из которой генерируется музыка, привело к очень небольшим изменениям в сгенерированной музыке, как показано на пианино выше: три сгенерированные последовательности почти идентичны друг другу.
Это показывает, что CNN, вероятно, сошлись при выводе только небольшого подмножества общих последовательностей в обучающих данных, что минимизировало потери при обучении. Необходимо найти другой метод для создания некоторого разнообразия в выходной музыке при одинаковых входных данных, и для этого мы обратимся к VAE.
Сгенерированная музыка для модели Melody CNN + Conditional Harmony CNN
Использование вариационных автоэнкодеров (VAE)
Предыстория VAE
скрытое пространство обладает хорошими свойствами, позволяющими осуществлять генеративный процесс. Двумя такими свойствами являются непрерывность — близкие точки в скрытом пространстве должны давать аналогичные точки после декодирования, и полнота — точка, выбранная из скрытого пространства, должна давать значимое содержимое после декодирования.
Стандартный автоэнкодер кодирует входные данные в вектор в скрытом пространстве, но не гарантирует, что скрытое пространство удовлетворяет непрерывности и полноте, что позволяет генерировать новые данные. Напротив, VAE кодирует ввод как распределение по скрытому пространству. В частности, мы предполагаем, что скрытое распределение распределено по Гауссу, поэтому кодировщик, кодирующий распределение, эквивалентен кодеру, выдающему параметры среднего и стандартного отклонения нормального распределения.
Для обучения VAE используется двухчленная функция потерь: ошибка реконструкции (разница между декодированными выходами и входами), а также член регуляризации (KL-расхождение между скрытым распределением и стандартным гауссовским) для регуляризации скрытого распределение должно быть как можно ближе к стандартному нормальному.
Иллюстрация того, как работает вариационный автоэнкодер (VAE). (Изображение автора)
Application
Таким образом, мы применяем VAE к задаче создания музыки. Предыдущий ввод пианино кодируется VAE пианино в скрытую кодировку пианино размерности K, zₜ. Затем к средним параметрам закодированного скрытого распределения добавляется случайный шум. Стандартное отклонение этого случайного шума является гиперпараметром, который пользователь может настраивать в зависимости от желаемой вариации. Скрытые параметры zₜ затем вводятся в MelodyNN, многослойный персептрон, который изучает отображение скрытого распределения предыдущей последовательности фортепиано на скрытое распределение следующей последовательности фортепиано. Выход z_t+1 затем декодируется, чтобы стать следующим выходом фортепиано.
VAE для конкретных инструментов также обучаются игре на других четырех инструментах (гитара, бас, струнные, барабаны).
Затем, аналогично ConditionalCNN ранее, мы используем ConditionalNN, другой MLP, который принимает сгенерированные скрытые параметры фортепиано следующего периода, а также латентные параметры гитары предыдущего периода z_t+1, и изучает отображение на следующий- скрытые параметры периодической гитары w_t+1. Затем w_t+1 декодируется декодером VAE для конкретного инструмента для получения гитарного выхода следующего периода. Обучаются 4 ConditionalNN, по одному для каждого инструмента, отличного от фортепиано, что позволяет генерировать следующую последовательность из 5 инструментов.
Следовательно, сопоставляя музыкальные входные данные со скрытыми распределениями с помощью VAE, мы можем внести изменения в сгенерированный музыкальный выход, добавив случайный шум к параметрам закодированного скрытого распределения. Из-за непрерывности это гарантирует, что после добавления случайного шума декодированные входные данные будут похожи, но отличаются от исходных входных данных, а из-за полноты это гарантирует, что они дают значимые музыкальные выходные данные, аналогичные входному распределению музыки.
Ниже показано визуальное руководство по архитектуре.
Архитектура VAE-NN, используемая для создания музыки. ( Изображение автора )
Результаты
Два пианоролла, сгенерированные из одной и той же начальной последовательности. Один пример изменения, показанного в музыкальном выводе, показан выше. Оба вышеприведенных трека имели одинаковую начальную последовательность, но сгенерированные барабанные ритмы немного отличались. Кроме того, первая дорожка имела фортепианную секцию ближе к концу, а вторая — нет, и условные нейронные сети реагировали, изменяя сгенерированные сопровождающие инструментальные дорожки. (Изображение автора) 9Обучено 0006 ВАЭ латентной размерности 8, 16, 32 и 64. В конце концов, для обучения условных нейронных сетей было использовано 16-мерное скрытое пространство, поскольку музыкальные сэмплы в музыкальном пространстве относительно редки.
После обучения условных нейронных сетей мы обнаружили, что метод VAE+NN успешен в создании выходных данных с использованием нескольких инструментов, которые звучат связно, а также имеют соответствующее количество вариаций, чтобы они были эстетически привлекательными. Было обнаружено, что случайный шум со стандартными отклонениями от 0,5 до 1,0 создает наилучшую степень вариации.
Несколько хороших примеров музыки, сгенерированной с помощью VAE-NN.
Создание музыки в определенных стилях
Метод создания музыки в зависимости от определенных стилей (Изображение автора)
Объясненная выше структура VAE-NN позволяет нам напрямую создавать музыку на основе определенных стилей, таких как определенный исполнитель, жанр , или год. Например, если мы хотим сгенерировать музыку в стиле Thriller Майкла Джексона, мы могли бы:
1. Разбить песню на 32-шаговые последовательности и закодировать пианоролл каждой последовательности в скрытое пространство, используя кодировщик VAE каждого инструмента. Храните уникальные последовательности в установить для каждого прибора.
2. При создании музыки из стартовой последовательности из этого набора выбирается один скрытый вектор на инструмент. Этот выбранный скрытый вектор (из нашей желаемой песни) s затем интерполируется со скрытым вектором предыдущей последовательности для создания нового скрытого вектора,
, где α представляет собой скрытый фактор выборки , который является гиперпараметром, который можно настроить. . (Выберите более высокие значения α для сгенерированной музыки, чтобы она в большей степени соответствовала желаемому стилю)
3. Используйте z’ₜ вместо zₜ в качестве входных данных для MelodyNN, чтобы сгенерировать новый скрытый вектор и, следовательно, сгенерированную последовательность фортепиано.
Используя этот метод и α = 0,5, мы создали новую музыку на основе нескольких песен, например, Thriller Майкла Джексона и I Want It That Way Backstreet Boys. Это позволило создать аудиосэмплы, которые имеют некоторое сходство с оригинальной песней, но также с некоторыми вариациями. (Еще раз, степень вариации может быть настроена с помощью Noise_sd гиперпараметр). Можно даже создавать музыку на основе сэмплов, представляющих собой гибрид разных исполнителей или стилей, что позволяет любителям музыки синтезировать музыку, сочетающую стили разных музыкальных звезд.
Музыка сгенерирована с использованием стиля VAE-NN.
Ошибки: GAN
Вдохновленные успехом MidiNet, который использовал Deep Convolutional Generative Adversarial Networks (DCGAN) для создания реалистично звучащей музыки, мы попытались использовать GAN также для создания музыки. Известно, что GAN генерируют очень реалистичные синтетические образцы в области компьютерного зрения лучше, чем VAE. Это связано с тем, что GAN не оценивают явную плотность вероятности базового распределения, в то время как VAE пытаются оптимизировать нижнюю границу вариации. Однако известно, что GAN очень трудно успешно обучать.
Мы использовали генератор с 6 деконволюционными слоями, взяв 100-мерный вектор шума и сгенерировав многоинструментальную музыкальную последовательность 5 x 32 x 128. Дискриминатор имеет противоположную архитектуру: он принимает музыкальную последовательность 5 x 32 x 128, пропускает ее через 6 сверточных слоев и выводит вероятность того, что образец является реальным.
Как для генератора, так и для дискриминатора использовалась активация PReLU, а также пакетная нормализация для сверточных слоев. Для обоих использовался оптимизатор Adam.
Для повышения стабильности GAN были предприняты следующие методы:
- Сглаживание меток: вместо использования жестких меток 0 или 1 для сгенерированных или реальных изображений соответственно мы добавляем к метке случайный шум (чтобы сгенерированные изображения имеют метку от 0 до 0,1, а реальные изображения имеют метку от 0,9 до 1).
- Сопоставление функций: добавление регуляризаторов L2 для обеспечения близкого распределения реальных и сгенерированных данных. Использовались два регуляризатора: первый на абсолютной разнице ожидаемого значения входных данных реального и сгенерированного изображения, а второй — на абсолютной разнице ожидаемого значения выходных данных первого сверточного слоя для входных данных реального и сгенерированного изображений.
- Правило обновления двух масштабов времени (TTUR): использование более высокой скорости обучения для дискриминатора по сравнению с генератором.
- Настройка скорости обучения
Несмотря на несколько попыток, обучение GAN оказалось безуспешным для создания разнообразной реалистично звучащей музыки. Были случаи коллапса режима, такие как сгенерированный звуковой образец ниже, который представляет собой 100 сэмплов, сгенерированных из разных векторов шума, объединенных вместе. Сгенерированные образцы в основном похожи. Другие попытки не привели к чему-либо существенному.
Ошибки неудачного эксперимента с GAN
Еще одна базовая линия: Трансформеры
Второй, более сложный базовый метод, который мы использовали, — это архитектура трансформатора. Трансформеры добились больших успехов в НЛП, способные тренироваться гораздо быстрее и обладающие гораздо лучшей долговременной памятью, чем старые языковые модели, основанные на повторениях. Мы использовали архитектуру Transformer-XL проекта Music Autobot из-за ее чрезвычайно воспроизводимого кода — мы благодарим Эндрю Шоу за это и рекомендуем вам ознакомиться с его блестящей серией статей!
В обычной модели трансформатора прямые соединения между блоками данных дают возможность зафиксировать долгосрочные зависимости. Однако эти ванильные преобразователи реализованы с контекстом фиксированной длины, поэтому преобразователи не могут моделировать зависимости, длина которых превышает фиксированную длину, и происходит фрагментация контекста.
Архитектура Transformer-XL предоставляет методы для решения этих проблем. Во-первых, он имеет механизм повторения на уровне сегмента. Во время обучения представления, вычисленные для предыдущего сегмента, кэшируются, чтобы их можно было использовать в качестве расширенного контекста, когда модель обрабатывает следующий сегмент. Таким образом, теперь информация может проходить через границы сегментов, а также решает проблему фрагментации контекста. Во-вторых, он имеет схему относительного позиционного кодирования. Это позволяет модели понять не только абсолютное положение каждой лексемы, но и положение каждой лексемы относительно друг друга, что чрезвычайно важно в музыке.
В отличие от текста, токенизация музыки намного сложнее. Одна музыкальная нота представляет два разных значения — высоту тона и продолжительность (она также может представлять многие другие вещи, такие как громкость и синхронизация, но они менее важны для наших целей). В результате каждая заметка должна быть закодирована в последовательность токенов. К счастью, проект Music Autobot занимается токенизацией MIDI-файлов.
Мы также находим сгенерированную музыку относительно хорошей — проверьте ее ниже!
Выход Майкла Джексона
Потоковое воспроизведение Майкла Джексона Исаака на ПК и мобильных устройствах. Слушайте более 265 миллионов треков бесплатно на SoundCloud.
soundcloud.com
Заключение
В целом, мы внедрили различные методы глубокого обучения для решения проблемы создания музыки с разным уровнем успеха. В нашем базовом методе использовалась модель рекуррентной нейронной сети как для одного трека, так и для нескольких треков. Хотя эта модель добилась большего успеха в отношении музыкальности воспроизводимых нот, ее полезность была очень ограничена, поскольку она могла воспроизводить ноты только на четвертных долях. Затем мы перешли к модели сверточной нейронной сети, используя ванильную CNN для создания фортепианной дорожки и условную CNN, которая использовала фортепианную дорожку для создания дорожек других инструментов. Мы обнаружили, что схемы, созданные моделями CNN, были гораздо более правильными и последовательными, потому что мы использовали условные модели.
Разработанная нами новая архитектура на основе VAE стала наиболее успешным вкладом в наш проект. Кодируя последовательности в скрытое пространство с помощью VAE, мы можем затем добавить шум в скрытое пространство, чтобы увеличить вариацию генерируемого вывода контролируемым образом, сохраняя при этом сходство между предыдущими последовательностями, в конечном итоге улучшая уникальность нашей сгенерированной музыки.
Вы можете найти весь наш код в нашем репозитории Github — не стесняйтесь использовать его для своих собственных приключений по созданию музыки. Оставьте комментарий или свяжитесь со мной лично на LinkedIn, если у вас есть какие-либо вопросы, и я буду рад помочь!
Что действительно делает область глубокого обучения удивительной, так это культура совместной работы с открытым исходным кодом — наша работа никогда не была бы возможна без множества щедрых участников до нас, и мы надеемся, что этот проект был небольшим, но значимым вкладом в пространство глубокого обучения. .
Особая благодарность профессорам Лайлу Ангару и Конраду Кордингу, которые преподавали этот курс глубокого обучения (CIS522 — Глубокое обучение науке о данных в Университете Пенсильвании), а также советнику TA Pooja за ее руководство в течение семестра.
MusicLM: Google AI генерирует музыку различных жанров на частоте 24 кГц
текст к музыке —
Бендж Эдвардс
—
Увеличить / Сгенерированное искусственным интеллектом изображение взрывающегося музыкального шара.
Ars Technica
В четверг исследователи из Google объявили о новой генеративной модели искусственного интеллекта под названием MusicLM, которая может создавать музыкальный звук частотой 24 кГц из текстовых описаний, таких как «успокаивающая мелодия скрипки, сопровождаемая искаженным гитарным риффом». Он также может преобразовать напевную мелодию в другой музыкальный стиль и воспроизводить музыку в течение нескольких минут.
MusicLM использует модель ИИ, обученную тому, что Google называет «большим набором данных немаркированной музыки», а также субтитры из MusicCaps, нового набора данных, состоящего из 5521 пары музыка-текст. MusicCaps получает свои текстовые описания от экспертов-людей и соответствующие аудиоклипы из Google AudioSet, коллекции из более чем 2 миллионов помеченных 10-секундных звуковых клипов, извлеченных из видео YouTube.
Вообще говоря, MusicLM работает в двух основных частях: во-первых, он берет последовательность звуковых токенов (фрагментов звука) и сопоставляет их с семантическими токенами (словами, представляющими значение) в подписях для обучения. Вторая часть получает пользовательские титры и/или входной звук и генерирует акустические токены (фрагменты звука, составляющие результирующий выход песни). Система основана на более ранней модели ИИ под названием AudioLM (представленной Google в сентябре) вместе с другими компонентами, такими как SoundStream и MuLan.
Google утверждает, что MusicLM превосходит предыдущие музыкальные генераторы ИИ по качеству звука и точности текстовых описаний. На демонстрационной странице MusicLM Google предоставляет множество примеров модели ИИ в действии, создавая звук из «богатых титров», описывающих ощущение музыки, и даже вокала (пока что это тарабарщина). Вот пример богатой подписи, которую они предоставляют:
Медленная песня в стиле регги с басом и барабанами. Устойчивая электрогитара. Высокие бонги с мелодиями звонка. Вокал расслабленный, непринужденный, очень выразительный.
Google также демонстрирует «длинное поколение» MusicLM (создание пятиминутных музыкальных клипов из простой подсказки), «режим истории» (который берет последовательность текстовых подсказок и превращает ее в трансформирующуюся серию музыкальных мелодий), « преобразование текста и мелодии» (которое берет человеческое гудение или свист и изменяет его в соответствии со стилем, изложенным в подсказке), и генерирует музыку, соответствующую настроению подписей к изображениям.
Реклама
Увеличить / Блок-схема модели создания музыки с помощью искусственного интеллекта MusicLM, взятая из научной статьи.
Google Research
Далее на странице с примерами Google погружается в способность MusicLM воссоздавать определенные инструменты (например, флейту, виолончель, гитару), различные музыкальные жанры, различные уровни опыта музыканта, места (побег из тюрьмы, спортзал), периоды времени (клуб 1950-х годов) и многое другое.
Музыка, созданная ИИ, не является новой идеей ни в коем случае, но методы генерации музыки ИИ предыдущих десятилетий часто создавали нотную запись, которая позже воспроизводилась вручную или с помощью синтезатора, тогда как MusicLM генерирует необработанные звуковые частоты музыки. . Кроме того, в декабре мы рассказали о Riffusion, хобби-проекте искусственного интеллекта, который может аналогичным образом создавать музыку из текстовых описаний, но не с высокой точностью. Google ссылается на Riffusion в своей академической статье MusicLM, говоря, что MusicLM превосходит его по качеству.