Apple's LLM herkent jouw activiteit via audio en beweging - dit betekent het

maandag, 24 november 2025 (17:40) - iCulture

In dit artikel:

Apple publiceerde recent onderzoek naar het herkennen van gebruikersactiviteiten door sensordata van toestellen zoals iPhone en Apple Watch te combineren met grote taalmodellen. In het paper “Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition” laten onderzoekers zien dat je met zogenaamde late fusion—waar kleine bron‑specifieke modellen eerst korte tekstsamenvattingen van audio en eenvoudige bewegingslabels (IMU: accelerometer/gyroscoop) maken, en een LLM die samenvattingen per tijdstap logisch samenvoegt—alledaagse handelingen betrouwbaar kunt afleiden. De tests gebruikten de first‑person dataset Ego4D met taken als koken, afwassen, tv‑kijken, lezen en sporten.

Belangrijke bevindingen:
- De late‑fusion aanpak vereist weinig taak‑specifieke training: het LLM benut algemene kennis en redeneervermogen om audio‑captions en IMU‑labels te integreren, wat de aanpak flexibel en efficiënter maakt dan één zwaar multimodaal model.
- Zonder specifieke training (zero‑shot) presteert het LLM al significant beter dan toeval; met één voorbeeld (one‑shot) verbeteren de scores verder.
- Audio‑captions bleken het meest informatief; ruwe audio‑labels en simpele IMU‑labels kunnen soms misleiden, waardoor temporeel overkoepelend redeneren essentieel is.
- Extra synthetische context (bijv. binnen/buiten, hartslagzones) vergroot de nauwkeurigheid. IMU‑informatie voegt vooral waarde toe bij intensieve activiteiten, maar de gebruikte IMU‑classifier had beperkte uitvoerwaarde.

Privacy en praktische voordelen:
- Omdat het systeem werkt met samenvattingen in plaats van ruwe audio/video, is het minder gevoelig voor persoonlijke details en dus privacyvriendelijker.
- Het combineren van bestaande kleine bronmodellen zonder alles in één grote multimodale architectuur levert ook winst in geheugengebruik en rekenkracht.

Wat gebruikers kunnen verwachten:
- Deze methode kan bestaande gezondheid‑ en fitnessfuncties verfijnen: een LLM kan, op basis van omgevingsgeluid en bewegingspatronen, beter onderscheiden of je kookt, de afwas doet of een workout uitvoert en zo feedback, suggesties of logging aanpassen. Apple past vaak onderzoeksresultaten later toe in iOS‑functies; een concreet voorbeeld is hoe beweging en kraan‑geluid al gebruikt worden om de handenwas‑timer op de Apple Watch te activeren.

Kanttekeningen:
- De aanpak is veelbelovend maar niet foutloos: sommige sensorlijnafleveringen blijven verwarrend en de IMU‑classifier was beperkt. Tijdsoverkoepelend redeneren en aanvullende context verbeteren de resultaten aanzienlijk.

Kortom: Apple toont aan dat LLM’s, gecombineerd met compacte bronmodellen en late fusion, een efficiënte, privacyvriendelijke en flexibele route bieden om activiteiten op mobiele toestellen beter te herkennen—met directe implicaties voor slimmere gezondheids‑ en gebruiksfeatures in toekomstige iOS‑toepassingen.