Poznaj Music Understanding: analiza dźwięku na urządzeniu

Q: Jak uzyskać tylko tę analizę, której potrzebuję?

Wywołaj analyze(for:) zamiast ogólnego analyze(). Wywołanie ogólne wypełnia każde pole SessionResult; wywołanie ukierunkowane zwraca tylko żądane typy, a resztę pozostawia jako nil. Apple zaleca wskazywanie typów „dla najwyższej wydajności”, aby uniknąć zbędnych obliczeń.1

Q: Jaka jest różnica między TimedValue a RangedValue?

TimedValue wiąże wartość z pojedynczym momentem CMTime, natomiast RangedValue wiąże wartość z przedziałem CMTimeRange. Oba typy pojawiają się w całym frameworku: na przykład sygnatury tonacji przychodzą jako wartości z zakresem, a aktywność poszczególnych instrumentów jako wartości ze znacznikiem czasu.1

Q: Jak zbudować z tego wizualizator reagujący na dźwięk na żywo?

Skorzystaj ze strumieniowego API głośności w MusicUnderstandingSession, które dostarcza wartości przez AsyncSequence dla każdych 100 ms przeanalizowanego dźwięku. Uruchom dwa współbieżne zadania (jedno konsumujące wyniki, drugie napędzające analizę) i podawaj dźwięk na żywo przez własny AudioProvider, który jest zgodny z AsyncSequence, wytwarza obiekty AVReadOnlyAudioPCMBuffer i wysyła końcowe nil, aby zasygnalizować zakończenie.1 Analiza dźwięku na urządzeniu stoi obok pozostałej inteligencji multimedialnej, którą Apple udostępniło w tym roku: zobacz, jak AI na urządzeniu trafia do Spotlight i mediów w iOS 27 oraz jak framework Speech wypada w porównaniu z SFSpeechRecognizer po stronie zamiany dźwięku na tekst tego samego problemu. Gdy całkowicie wyrośniesz z wbudowanych modeli Apple, kolejnym krokiem jest uruchamianie własnych modeli na Apple silicon za pomocą Core AI. Pełnym centrum serii jest Apple Ecosystem Series.

Blake Crosley 9 min read

Na WWDC 2026 zespół Final Cut Pro w Apple udostępnił dwie funkcje zbudowane na jednym frameworku: wykrywanie rytmu, które ujawnia siatkę uderzeń utworu, dzięki czemu montażyści mogą dopasowywać cięcia do taktów i uderzeń, oraz funkcję montażu na iPadzie, która automatycznie synchronizuje klipy z muzyką.¹ Obie opierają się na Music Understanding — nowym frameworku, który przekazuje muzyczną inteligencję utworu (tonację, rytm, strukturę, tempo odczuwane, aktywność instrumentów i głośność), nie wymagając żadnej wiedzy o przetwarzaniu sygnałów ani o uczeniu maszynowym. Działa w całości na urządzeniu, więc analizowany dźwięk pozostaje prywatny i działa bez połączenia z siecią.¹ Ten artykuł przechodzi przez framework w formie warsztatu: sześć obszarów analizy, sposób, w jaki wytwarza je MusicUnderstandingSession, oraz strumieniowy AsyncSequence głośności, który urealnia wizualizacje reagujące na dźwięk.

W skrócie

Music Understanding analizuje sześć obszarów utworu (tonację, rytm, strukturę, tempo odczuwane, aktywność instrumentów i głośność) na urządzeniu, bez potrzeby posiadania wiedzy o przetwarzaniu sygnałów czy uczeniu maszynowym.¹
Z AVAsset lub własnego dostawcy dźwięku tworzy się MusicUnderstandingSession, a następnie wywołuje analyze(), aby uzyskać wszystko, albo analyze(for:), aby wskazać konkretne typy i pominąć zbędne obliczenia.¹
Wyniki trafiają do struktury SessionResult, w której każda cecha jest polem opcjonalnym; ogólne analyze() wypełnia je wszystkie, a ukierunkowane analyze(for:) pozostawia resztę jako nil.¹
Przez całe API przewijają się dwa typy uwzględniające czas: TimedValue łączy wartość z CMTime, a RangedValue łączy wartość z CMTimeRange.¹
MusicUnderstandingSession udostępnia też strumieniowe API głośności, które dostarcza wartości przez AsyncSequence dla każdych 100 ms przeanalizowanego dźwięku — to fundament napędzania animacji reagującej na dźwięk na żywo.¹

Dlaczego muzyczna inteligencja na urządzeniu ma znaczenie

Watch on Apple Developer ↗

Conner z Computational Music Team w Apple wymienia sześć obszarów analizy frameworka, zaczynając od 1:39.

Obietnica jest wąska i uczciwa: framework „zajmuje się za Ciebie całym przetwarzaniem sygnałów i wnioskowaniem modelu, więc do jego użycia nie potrzebujesz żadnej wiedzy o przetwarzaniu sygnałów ani o uczeniu maszynowym”.¹ Zdejmuje to z barków twórców aplikacji tę część analizy dźwięku, której większość z nich nigdy nie chciała brać na siebie. Wykrycie tempa, podzielenie utworu na refren i zwrotkę czy zmierzenie postrzeganej głośności oznaczało dawniej albo licencjonowanie zewnętrznego silnika, albo ręczne zbudowanie potoku DSP.

Działanie na urządzeniu zmienia również rachunek prywatności. Ponieważ framework „działa w całości na urządzeniu, analizowany dźwięk pozostaje prywatny i działa bez połączenia z siecią”.¹ Utwór nigdy nie opuszcza telefonu, by zostać przeanalizowany, a analiza działa w samolocie bez zasięgu. Dla aplikacji DJ-skiej porządkującej bibliotekę według tempa albo dla montażysty wideo dopasowującego cięcia do uderzeń to połączenie — brak zależności od sieci i brak dźwięku opuszczającego urządzenie — stanowi praktyczny przełom.

Apple przedstawia sześć obszarów jako elementy budulcowe utworu. Rytm to puls, napędzany pojedynczymi uderzeniami, które układają się w takty; liczba uderzeń w ciągu minuty to beats per minute, czyli bpm.¹ Takty tworzą frazy (muzyczne zdania), frazy łączą się w segmenty, a segmenty budują sekcje, takie jak refren, zwrotka, intro czy mostek.¹ Instrumenty — bęben, bas czy wokal — grają w różnym czasie i z różną intensywnością wokół wspólnego zbioru dźwięków zwanego tonacją.¹ Utwór może utrzymywać stałe bpm, choć poszczególne części odczuwane są jako wolniejsze lub szybsze, co Apple nazywa tempem odczuwanym, a w pewnych momentach utwór robi się głośniejszy niż w innych.¹ Te sześć pojęć odpowiada jeden do jednego typom wyników frameworka.

Sesja: jeden obiekt, dwa sposoby zapytania

Aplikacje współpracują z MusicUnderstandingSession, inicjując ją „za pomocą AVAsset albo własnego dostawcy dźwięku”.¹ Aby uruchomić analizę, wywołuje się analyze i czeka na wyniki. Domyślnie analizowane są wszystkie typy, lecz Apple jasno wskazuje dźwignię wydajności: „Aby uzyskać najwyższą wydajność, można wskazać interesujące typy analizy i tym samym uniknąć zbędnych obliczeń”.¹ Obliczanie wyłącznie tego, co się wyświetla, stanowi różnicę między narzędziem responsywnym a takim, które zacina się przy każdym wczytaniu.

Aplikacja przykładowa, Music Understanding Lab, pokazuje ścieżkę pliku od początku do końca. fileImporter w SwiftUI wybiera utwór i zwraca jego URL, a ten URL staje się AVURLAsset. Apple zwraca uwagę na jedno kluczowe ustawienie: należy ustawić PreferPreciseDurationAndTimingKey na true „w celu zapewnienia najdokładniejszych wyników”.¹ Następnie tworzy się sesję z assetu, wywołuje analyze i czeka na zwrócenie wyników sesji.

Wyniki te lądują w strukturze SessionResult, w której „każda cecha analizowana przez Music Understanding ma własne pole wyniku. Wszystkie są opcjonalne”.¹ Dwa punkty wejścia różnią się tym, co wypełniają. Ogólne API analyze() udostępnia wszystkie wyniki. Ukierunkowane API analyze(for:) zwraca tylko te wyniki, o które poproszono, a „reszta będzie nil”.¹ Opcjonalność nie jest więc przypadkiem w projekcie API — to sposób, w jaki framework informuje, jaką pracę faktycznie wykonał.

Dwa typy powracają w całym frameworku, aby powiązać czas z wartością. TimedValue wiąże wartość z CMTime (pojedynczym momentem), a RangedValue wiąże CMTimeRange (przedział) z wartością.¹ Niemal każdy z poniższych wyników przyjmuje jedną z tych dwóch postaci, więc jednorazowe ich poznanie procentuje we wszystkich sześciu obszarach.

Spacer po sześciu wynikach

Tonacja. Dla analizy tonacji framework zwraca strukturę KeyResult, która „zawiera tablicę zakresów, odwzorowując KeySignature na określony przedział czasu za pomocą RangedValue”.¹ KeySignature przechowuje tonikę i tryb. Tonika „może być dowolną ze standardowych wysokości chromatycznych” i reprezentuje dźwięk podstawowy (jak C czy G), wokół którego zbudowany jest utwór; tryb „jest durowy albo molowy”.¹ Ponieważ wynikiem jest tablica zakresów, a nie jedna wartość, API obsługuje utwory, które w połowie zmieniają tonację.

Rytm. Analiza rytmu daje RhythmResult. Struktura przekazuje „znaczniki czasu każdego uderzenia i taktu jako tablice CMTime”, a ponadto ogólne, globalne tempo przez beatsPerMinute.¹ Jeden szczegół ma znaczenie dla interfejsów na żywo: beatsPerMinute jest opcjonalne, „ponieważ jeśli framework nie przetworzył dość dźwięku, by znaleźć co najmniej dwa uderzenia, bpm zostanie ustawione na nil”.¹ Do zmierzenia odstępu potrzebne są dwa uderzenia, więc to nil oznacza, że framework odmawia zgadywania.

Struktura. Żądanie analizy struktury zwraca StructureResult z trzema właściwościami, „dla sekcji, segmentów i fraz”, a dla każdej otrzymuje się tablicę CMTimeRange.¹ Trzy poziomy zagnieżdżają się: sekcja składa się z jednego lub kilku segmentów, a każdy segment składa się z fraz.¹ To właśnie ta hierarchia pozwala montażyście przyciągnąć cięcie do granicy refrenu zamiast do dowolnego znacznika czasu.

Tempo odczuwane. Tempo odczuwane „mówi, jak szybka wydaje się muzyka słuchaczowi”, przy czym partie bardziej energetyczne niosą wyższą wartość niż wolniejsze.¹ Jego żądanie zwraca PaceResult — strukturę z „pojedynczą właściwością zawierającą tablicę wartości z zakresem”.¹ Tempo odczuwane różni się od bpm: tempo może utrzymywać się na stałym poziomie, podczas gdy odczuwana energia rośnie i opada.

Aktywność instrumentów. Żądanie aktywności instrumentów zwraca InstrumentActivityResult z dwiema właściwościami: jedną dla zakresów i jedną dla aktywności.¹ API Ranges „udostępnia słownik odwzorowujący każdy Instrument na” wartość przypisaną do instrumentu (transkrypcja urywa się przed podaniem typu tej wartości), a Apple przedstawia zakresy jako właściwy wybór, gdy „chcesz jedynie wiedzieć, czy instrument jest obecny, czy nie”.¹ Właściwość activity niesie więcej szczegółów: „odwzorowuje instrument na TimedValue typu Float”, a wartości te „wyrażają, jak intensywnie instrument gra w czasie”.¹ Apple nazywa wynik aktywności „znakomitym źródłem do napędzania animacji reagujących na dźwięk”, ponieważ intensywność każdego instrumentu w każdej chwili to dokładnie to, do czego wizualizator chce się przywiązać.¹

Głośność. Framework mierzy głośność w Loudness Units Full Scale (LUFS), „branżowym standardzie modelowania tego, jak ludzkie ucho odbiera głośność”.¹ Żądanie analizy głośności wytwarza strukturę LoudnessResult, która obsługuje głośności integrated, momentary i shortTerm.¹ Integrated to pojedyncza wartość dla ogólnej głośności dźwięku. Momentary i shortTerm dostarczają wartości ze znacznikami czasu co 100 milisekund, ale w różnych oknach: momentary używa okna 400 milisekund i wychwytuje „krótkie, nagłe skoki głośności”, podczas gdy shortTerm używa okna 3 sekund, by dać „bardziej wygładzony obraz trendu głośności w czasie”.¹ Wynik niesie również wartość szczytową — bezwzględnie najwyższą głośność dźwięku, mierzoną w decybelach.¹

Strumieniowy AsyncSequence głośności

Powyższe API wsadowe analizują gotowy plik. Do pracy na żywo MusicUnderstandingSession „udostępnia także strumieniowe API głośności”, w którym „wartości są dostarczane przez AsyncSequence dla każdych 100 ms dźwięku przeanalizowanego przez framework”.¹ Nowy odczyt głośności co 100 ms to rytm, w jakim działa wizualizator czasu rzeczywistego — dlatego to właśnie to API, a nie wsadowe, jest sercem interfejsu reagującego na dźwięk.

Wzorzec użycia opiera się na dwóch współbieżnych zadaniach. Sesję inicjuje się jak poprzednio, a następnie „ustawia dwa zadania: jedno do konsumowania wyników głośności w miarę ich dostarczania, a drugie do rozpoczęcia analizy”.¹ Jedno zadanie oczekuje na wartości z sekwencji i przekazuje je do animacji; drugie posuwa analizę naprzód. Producent i konsument działają obok siebie, zamiast wzajemnie się blokować.

Podawanie dźwięku na żywo wymaga dostarczenia AudioProvider. AudioProvider „jest zgodny z AsyncSequence i wytwarza obiekty AVReadOnlyAudioPCMBuffer”.¹ Apple wyraźnie wskazuje kontrakt zakończenia: gdy dostawca „wysłał wszystkie bufory dźwięku, musi wysłać końcowe nil, aby zasygnalizować zakończenie”.¹ Jeśli zapomni się o końcowym nil, zadanie konsumujące będzie wiecznie czekać na dźwięk, który nigdy się nie kończy. To, że dostawca sam jest AsyncSequence, stanowi elegancką część rozwiązania: źródło dźwięku i wyjście głośności frameworka mówią od początku do końca tym samym językiem iteracji asynchronicznej.

Dwie kolejne możliwości sesji dopełniają obraz. Każdy wynik Music Understanding jest codable, więc wyeksportowanie pełnej analizy to „po prostu utworzenie JSONEncoder i zakodowanie wyników sesji”.¹ A kafelek Video w aplikacji przykładowej pokazuje, jak wyniki się składają: „wykorzystuje strukturę i tempo odczuwane do stworzenia wideo zsynchronizowanego z muzyką”, identyfikując przedziały czasu sekcji, a następnie używając tempa odczuwanego każdej sekcji (liczby zdarzeń na minutę podzielonej przez 60 sekund), by zdecydować, ile klipów zmieści się w danym przedziale — z krótszymi, szybszymi klipami w partiach energetycznych i dłuższymi, wolniejszymi w spokojnych.¹

Najważniejsze wnioski

Dla twórców aplikacji audio i multimedialnych:

Zacznij od analyze(for:), a nie od analyze(): wymień tylko te typy analizy, które wyświetlasz, aby framework pominął resztę, ponieważ niezamówione wyniki i tak wracają jako nil.¹
Traktuj beatsPerMinute w interfejsie jako rzeczywiście opcjonalne; nil oznacza, że framework nie zobaczył jeszcze dwóch uderzeń, więc pokaż stan oczekiwania zamiast fałszywego tempa.¹
Ustaw PreferPreciseDurationAndTimingKey na true dla AVURLAsset przed utworzeniem sesji, ponieważ Apple wiąże dokładność wyników z tą flagą.¹

Dla pracy w czasie rzeczywistym i wizualizatorów:

Buduj animację reagującą na dźwięk na żywo w oparciu o AsyncSequence głośności (wartość co 100 ms) oraz o właściwość activity instrumentów, która odwzorowuje każdy instrument na TimedValue intensywności w czasie.¹
Uruchamiaj zadanie konsumujące i zadanie analizy współbieżnie, a w swoim własnym AudioProvider zadbaj o wysłanie końcowego nil po ostatnim AVReadOnlyAudioPCMBuffer, aby strumień zakończył się czysto.¹

Dla zespołów zajmujących się katalogiem i narzędziami:

Sortuj lub grupuj bibliotekę muzyczną według tonacji albo tempa przy użyciu KeyResult i RhythmResult, a analizy zachowuj, kodując codable SessionResult do JSON w celu ponownego wykorzystania.¹

FAQ

Co analizuje framework Music Understanding od Apple?

Analizuje sześć obszarów utworu: tonację, rytm, strukturę, tempo odczuwane, aktywność instrumentów i głośność. Każdy z nich odpowiada typowi wyniku (KeyResult, RhythmResult, StructureResult, PaceResult, InstrumentActivityResult oraz LoudnessResult) zwracanemu wewnątrz SessionResult. Framework obsługuje przetwarzanie sygnałów i wnioskowanie modelu, więc nie jest wymagana wiedza o DSP ani o uczeniu maszynowym.¹

Czy Music Understanding działa na urządzeniu, czy w chmurze?

Na urządzeniu. Apple stwierdza, że framework „działa w całości na urządzeniu”, więc analizowany dźwięk pozostaje prywatny i działa bez połączenia z siecią. Analiza działa na wszystkich platformach Apple bez zależności od sieci.¹

Jak uzyskać tylko tę analizę, której potrzebuję?

Wywołaj analyze(for:) zamiast ogólnego analyze(). Wywołanie ogólne wypełnia każde pole SessionResult; wywołanie ukierunkowane zwraca tylko żądane typy, a resztę pozostawia jako nil. Apple zaleca wskazywanie typów „dla najwyższej wydajności”, aby uniknąć zbędnych obliczeń.¹

Jaka jest różnica między TimedValue a RangedValue?

TimedValue wiąże wartość z pojedynczym momentem CMTime, natomiast RangedValue wiąże wartość z przedziałem CMTimeRange. Oba typy pojawiają się w całym frameworku: na przykład sygnatury tonacji przychodzą jako wartości z zakresem, a aktywność poszczególnych instrumentów jako wartości ze znacznikiem czasu.¹

Jak zbudować z tego wizualizator reagujący na dźwięk na żywo?

Skorzystaj ze strumieniowego API głośności w MusicUnderstandingSession, które dostarcza wartości przez AsyncSequence dla każdych 100 ms przeanalizowanego dźwięku. Uruchom dwa współbieżne zadania (jedno konsumujące wyniki, drugie napędzające analizę) i podawaj dźwięk na żywo przez własny AudioProvider, który jest zgodny z AsyncSequence, wytwarza obiekty AVReadOnlyAudioPCMBuffer i wysyła końcowe nil, aby zasygnalizować zakończenie.¹

Analiza dźwięku na urządzeniu stoi obok pozostałej inteligencji multimedialnej, którą Apple udostępniło w tym roku: zobacz, jak AI na urządzeniu trafia do Spotlight i mediów w iOS 27 oraz jak framework Speech wypada w porównaniu z SFSpeechRecognizer po stronie zamiany dźwięku na tekst tego samego problemu. Gdy całkowicie wyrośniesz z wbudowanych modeli Apple, kolejnym krokiem jest uruchamianie własnych modeli na Apple silicon za pomocą Core AI. Pełnym centrum serii jest Apple Ecosystem Series.

Źródła

Apple, WWDC 2026 session 253, Meet the Music Understanding framework. Źródło ujęcia działania na urządzeniu, prywatności i trybu offline; funkcji wykrywania rytmu w Final Cut Pro oraz montażu na iPadzie; sześciu obszarów analizy (tonacja, rytm, struktura, tempo odczuwane, aktywność instrumentów i głośność) oraz definicji elementów budulcowych utworu; MusicUnderstandingSession inicjowanej z AVAsset lub dostawcy dźwięku; analyze() w zestawieniu z analyze(for:) oraz SessionResult złożonego z pól opcjonalnych; konfiguracji AVURLAsset i PreferPreciseDurationAndTimingKey przez fileImporter w SwiftUI; typów TimedValue/CMTime oraz RangedValue/CMTimeRange; typów KeyResult/KeySignature (tonika i tryb), RhythmResult/beatsPerMinute (opcjonalne poniżej dwóch uderzeń), StructureResult (sekcje, segmenty, frazy), PaceResult, InstrumentActivityResult (ranges i activity, activity jako TimedValue typu Float) oraz LoudnessResult (LUFS, okna integrated/momentary/shortTerm, wartość szczytowa w decybelach); strumieniowego AsyncSequence głośności dostarczającego wartości co 100 ms przy dwóch współbieżnych zadaniach; AudioProvider zgodnego z AsyncSequence, wytwarzającego obiekty AVReadOnlyAudioPCMBuffer i wysyłającego końcowe nil; wyników codable oraz eksportu przez JSONEncoder; a także algorytmu kafelka Video opartego na strukturze i tempie odczuwanym. ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩