Hintergrund: Was wir über Apples Vision Pro und visionOS wissen

Seite 2: Hardware im Detail

Inhaltsverzeichnis

Das Zimmer und die Menschen darin, die Augen hinter dem Visor des Nutzers – diese Bilder erschafft die Vision Pro mit der Rechenpower eines Dual-Chip-Designs. Die Leistung erbringt Apples M2-Chip, der aktuell unter anderem im MacBook Air und Mac mini steckt.

Für ein möglichst verzögerungsfreies Zusammenspiel der Sensoren steht dem leistungsfähigen M2 ein zweites Herzstück zur Seite: Der neue R1 widmet sich voll und ganz den Signalen von Sensoren, Kameras und Mikrofonen. Wer schon einmal länger ein AR- oder VR-Headset getragen hat, stellte unter Umständen nach einiger Zeit ein leichtes Unwohlsein fest. Dazu kann es kommen, wenn die Wahrnehmung durch die verschiedenen Sinne nicht übereinstimmt. Wenn man etwa den Kopf dreht und sich das Bild, das die Augen sehen, nicht augenblicklich mitbewegt. Je nach Empfindlichkeit können sich bereits geringe Latenzzeiten negativ auswirken, dafür muss der Nutzer sie nicht mal bewusst wahrnehmen.

Apple verteilt die Rechenlast auf zwei Chips: Während der M2 die Leistung für Betriebssystem und Apps erbringt, verarbeitet der neue R1 die Signale der Kameras und Sensoren nahezu in Echtzeit.

(Bild: Apple)

Die Geschwindigkeit, mit der der R1 Bild und Ton der Umgebung zum Nutzer überträgt, also auf die beiden Innendisplays und die integrierten Lautsprecher, bezeichnet Apple als achtmal schneller als ein Wimpernschlag und beziffert sie mit 12 Millisekunden. Zum Vergleich: Berührungen nehmen wir mit etwa 140 bis 150 Millisekunden wahr, optische Reize mit durchschnittlich 180 bis 200 Millisekunden. Das unterstreicht die Geschwindigkeit von Apples Real-Time-Verarbeitung. Dabei darf man nicht vergessen, dass die Vision Pro nicht nur einfach die Bilder von außen nach innen überträgt; viel mehr kombiniert sie alle Kamerabilder mit den Informationen des LiDAR-Scanners, um die reale Welt mit den digitalen Inhalten dreidimensional zu verschmelzen.

Akustisch verstärkt Audio Raytracing das Raumempfinden und stimmt den Hall der virtuellen Realität etwa auf ein gefliestes Zimmer ab oder auf eines mit Teppichboden und schweren Vorhängen. Genau genommen müsste es Wavetracing heißen, denn während Raytracing eigentlich berechnet, wie sich Lichtstrahlen an den verschiedenen Gegenständen und Oberflächen der näheren Umgebung brechen und von ihnen reflektiert werden, geht es hier um die Wirkung des Interieurs auf die Schallwellen, ob ein Möbel sie etwa schluckt oder verstärkt. Ambient Spatial Audio weist der Geräuschquelle dann noch eine Richtung und Entfernung zu.

Die Audio Pods sitzen bewusst nicht auf dem Ohr, um den Nutzer nicht von der Umgebung abzuschirmen. Bei Bedarf kann er die Vision Pro mit AirPods verbinden.

(Bild: Apple)

Die beiden Dual-Treiber-Audio-Pods sitzen auf dem Bandanschluss etwas vor und über den Ohren, weshalb einem nicht entgeht, wenn jemand den Raum betritt oder einen anspricht. Der flexible Bandanschluss soll gewährleisten, dass die Audio Pods ohne zu drücken nah am Kopf sitzen können. Dual-Treiber bedeutet, dass sie einen Treiber für die hohen und mittleren Töne besitzen und einen eigenen für die tiefen. Damit sie optimal wirken, kann der Nutzer unter Zuhilfenahme eines iPhones mit TrueDepth-Kamera ein 3D-Audioprofil erstellen, das die Ausgabe auf die eigene Kopf- und Ohrengeometrie abstimmt. Will er sich vollkommen abschotten oder sicherstellen, weitere Personen um ihn herum nicht zu stören, kann er die Vision Pro natürlich auch mit AirPods koppeln.

Die Darstellung visualisiert, wie die Vision Pro per Audio Raytracing die Gegenstände im Raum analysiert, um den Raumklang auf die Materialien von hölzernen Regalen, samtenen Sofas oder Fliesen abzustimmen.

(Bild: Apple)

Details zu einzelnen Komponenten hat Apple nicht genannt und wird die Namen womöglich auch niemals preisgeben. Der Twitter-User INSIDERSONY spricht von folgenden Komponenten, die wir jeweils kurz erläutern:

Komponente Eigenschaften Beschreibung
Sony Inner Display 1.3 Inch Silicon-Based OLED Internes Display, das auf Silizium basiert und OLED-Technologie verwendet. Es ist 1,3 Zoll groß.
Sony IMX418 Fisheye IR, 6DoF-Tracking Bildsensor mit Fisheye-Infrarot-Fähigkeiten, der für 6DoF-Tracking (6 Degrees of Freedom) verwendet wird. Das bedeutet, dass er Bewegungen in alle sechs Freiheitsgrade erfasst: vorwärts, rückwärts, aufwärts, abwärts, seitwärts und Drehungen.
Sony Eye-Tracking WLO Package Augenverfolgungssystem, das in einem WLO-Paket (Wafer Level Optics) untergebracht ist und präzises Eye-Tracking in kompakten Geräten ermöglicht.
Sony Face-Tracking WLO Package Ein Gesichtsverfolgungssystem, das in einem WLO-Paket (Wafer Level Optics) untergebracht ist. Es ermöglicht präzises Face-Tracking in kompakten Geräten.
Sony IMX418 Fisheye IR, Torso-Tracking Bildsensor mit Fisheye-Infrarot-Fähigkeiten, der speziell für die Verfolgung des Oberkörpers (Torso) verwendet wird.
Sony IMX611 dToF, ToF ToF-Bildsensor (Time of Flight), der dToF-Technologie (direct Time of Flight) verwendet. Er misst die Zeit, die ein Lichtsignal benötigt, um von einem Objekt reflektiert zu werden und zum Sensor zurückzukehren. Er wird zur Tiefenwahrnehmung und 3D-Abbildung verwendet.