← Alle Beitrage

Apple Vision Framework: On-Device-CV, die die meisten Entwickler übersehen

Apples Vision Framework, jenes ohne das Suffix „OS”, liefert mehr als zwei Dutzend On-Device-Computer-Vision-Operationen. Die meisten iOS-Entwickler greifen standardmäßig zu OpenAI Vision API, Google Cloud Vision oder AWS Rekognition für Aufgaben, die das Framework in Millisekunden auf der Neural Engine des Geräts erledigt. Diese Voreinstellung spiegelt eher eine Voreingenommenheit als eine Bewertung wider: Cloud-APIs wirken nach „moderner KI”, Vision wirkt nach „Plattform-Infrastruktur”, und so wird die Plattform übersprungen. Diese Voreingenommenheit verkennt, was die Plattform inzwischen enthält.

Vision ist das Local-First-CV-Framework. Es läuft auf der Neural Engine, sofern verfügbar, andernfalls auf der GPU und im äußersten Notfall auf der CPU. Die Inferenz erfolgt für die meisten Operationen in wenigen Millisekunden. Das Framework verursacht keine Kosten pro Aufruf. Die Daten verlassen das Gerät nie. Den API-Schlüssel gibt es nicht, weil keine API existiert. Für die meiste Computer-Vision-Arbeit, die eine iOS-App leistet, ist dies das richtige Werkzeug.

TL;DR

  • Apple Vision bietet mehr als zwei Dutzend On-Device-CV-Operationen: Texterkennung, Gesichtserkennung und -landmarken, Körper- und Hand-Pose-Schätzung, Barcode-Lesen, Dokumentensegmentierung, Bild-Embeddings, Saliency, Tiererkennung, Konturen, Trajektorien, optischer Fluss und einen Runner für jedes beliebige Core-ML-Modell.
  • Jede Operation läuft in Millisekunden auf der Neural Engine, verursacht keine Kosten pro Aufruf, benötigt kein Netzwerk und erzeugt keine Drittanbieter-Telemetrie.
  • Cloud-APIs gewinnen in einem spezifischen Fall: komplexes semantisches Reasoning über ein Bild (ein multimodales LLM, das ein Diagramm, ein Meme oder die Absicht eines Dokuments versteht). Bei pixelbasierten Operationen (Gesichter finden, Text lesen, eine Hand erkennen) gewinnt Vision bei Kosten, Latenz und Datenschutz.
  • Die Verbindung zum Agent-Workflow: Vision-Ergebnisse fließen in App Intents und in LLM-Aufrufe von Foundation Models on-device, ohne Netzwerk-Roundtrip. Die gesamte Pipeline läuft lokal.

Was Vision tatsächlich enthält

Vision gruppiert seine Operationen als VNRequest-Typen. Eine Anfrage wird erstellt, mit Parametern konfiguriert, mit einem Bild (oder CVPixelBuffer, oder CIImage, oder CGImage, oder URL) versorgt und ausgeführt. Die Ergebnisse kommen als Beobachtungen zurück, die an die Anfrage angehängt sind. Die nachfolgenden Kategorien decken das Territorium des Frameworks ab dem Stand iOS 26 ab.

Texterkennung

VNRecognizeTextRequest führt OCR durch. Die Anfrage unterstützt recognitionLevel (.fast für Live-Kamera-Streams, .accurate für Dokumentenscans), Sprachhinweise, benutzerdefinierte Wortlisten und Bounding-Box-Konfidenz. Der .accurate-Pfad unter iOS 18+ verarbeitet gedruckten Text gut über Belege, Beschilderungen und Dokumente hinweg; Handschrifterkennung wird in einer Teilmenge von Sprachen unterstützt (siehe Apples Liste der Erkennungssprachen3).

let request = VNRecognizeTextRequest { request, error in
    guard let observations = request.results as? [VNRecognizedTextObservation] else { return }
    let lines = observations.compactMap { $0.topCandidates(1).first?.string }
    print(lines.joined(separator: "\n"))
}
request.recognitionLevel = .accurate
request.usesLanguageCorrection = true
request.recognitionLanguages = ["en-US"]

let handler = VNImageRequestHandler(cgImage: image, options: [:])
try handler.perform([request])

Dieselbe Operation über die OpenAI Vision API kostet etwa einen Bruchteil eines Cents pro Aufruf im Low-Detail-Modus und deutlich mehr im High-Detail-Modus, dauert 1-3 Sekunden im Roundtrip und sendet das Bild an OpenAIs Server. Vision liefert Ergebnisse lokal in 100-300 ms, kostenlos und ohne Datenexfiltration.

Gesichtserkennung und -landmarken

Drei Schichten der Gesichtsanalyse sind in Vision enthalten:

  • VNDetectFaceRectanglesRequest liefert Bounding-Boxen für jedes Gesicht im Bild.
  • VNDetectFaceLandmarksRequest liefert strukturierte Landmark-Regionen pro Gesicht (Kieferlinie, Mund, Augen, Augenbrauen, Nase, Pupillen), jeweils mit mehreren Schlüsselpunkten.
  • VNDetectFaceCaptureQualityRequest liefert pro Gesicht einen Qualitätswert (0-1), der Beleuchtung, Schärfe und Zentrierung widerspiegelt. Apps können ihn nutzen, um Selfie-Aufnahmen zu steuern oder den besten Frame aus einer Serie automatisch auszuwählen.

Für die meisten Apps, die Gesichter finden, auf Gesichter zuschneiden, Gesichter unkenntlich machen oder Gesichter zählen müssen, ist die Rectangles-Anfrage das richtige Werkzeug. Für Apps, die etwas auf das Gesicht eines Benutzers animieren (Filter, Masken, Tracking), sind Landmarken plus Pupillenverfolgung das richtige Werkzeug. Nichts davon erfordert eine Modelldatei oder einen Netzwerkaufruf.

Körper- und Hand-Pose

VNDetectHumanBodyPoseRequest liefert die 19 benannten Gelenke in VNHumanBodyPoseObservation.JointName4 (Nase, Hals, Schultern, Ellbogen, Handgelenke, Hüften, Knie, Knöchel, Ohren, Augen, Wurzel) mit 2D-Koordinaten und Konfidenzwerten pro Gelenk. VNDetectHumanBodyPose3DRequest erweitert die Topologie in den 3D-Raum und liefert VNHumanBodyPose3DObservation-Ergebnisse; die Anfrage nutzt Tiefendaten (AVDepthData), wenn das Gerät sie freigibt, um die Genauigkeit zu verbessern, benötigt aber keinen LiDAR-Scanner.4 VNDetectHumanHandPoseRequest liefert 21 Hand-Landmarken in Fingergelenkauflösung.

Body Pose ist das, was Fitness-Apps verwenden, um Wiederholungen ohne Wearable zu zählen, was AR-Apps verwenden, um virtuelle Inhalte an die Hände eines Benutzers zu heften, und was Haltungs-Apps verwenden, um die Form zu bewerten. Hand Pose treibt die Gestenerkennung an (der Benutzer hält zwei Finger hoch, die App sieht zwei Finger). Beide können auf neueren iPhones mit Video-Frame-Raten laufen, ausreichend für Live-AR und Gesteneingaben. Die Cloud-Äquivalente sind Google MediaPipe oder proprietäre Fitness-Tech-APIs, welche das Framework ersetzt.

Barcode und QR

VNDetectBarcodesRequest liest die Symbologien, die die meisten Einzelhandels- und Inventar-Workflows benötigen (QR, PDF417, Aztec, Code 128, Code 39, EAN-13, ITF14, Data Matrix, GS1 DataBar und weitere) und liefert die Roh-Payload sowie das Begrenzungsrechteck. Die Erkennung läuft in Millisekunden und funktioniert unter Lichtverhältnissen, die Apples eigene Kamera-App bereits validiert.

Dokumentensegmentierung

VNDetectDocumentSegmentationRequest findet rechteckige Dokumente in einem Bild und liefert deren Eckpunkte, wobei die Perspektive berücksichtigt wird. Die Anfrage ist das, was Dokumentenscanner-Apps verwenden, um das Dokument zuzuschneiden und in ein flaches Bild zu rektifizieren. Apples eigenes VisionKit-Framework umhüllt die Anfrage zusammen mit einer UI, doch die zugrunde liegende Operation lässt sich direkt aufrufen, wenn eine App eine eigene UI benötigt.

Saliency und Ästhetik

VNGenerateAttentionBasedSaliencyImageRequest liefert eine Heatmap, wo die Aufmerksamkeit eines Betrachters in einem Bild am wahrscheinlichsten fokussiert wird. VNGenerateObjectnessBasedSaliencyImageRequest liefert eine Heatmap, wo sich Objekte befinden. VNCalculateImageAestheticsScoresRequest, in iOS 18 als öffentliche API hinzugefügt1, liefert ästhetische Qualitätswerte einschließlich einer Nutzwert-Klassifizierung (Memos, Screenshots) und eines ästhetischen Werts. Diese Werte sind das, was Photos verwendet, um „Memory”-Kandidaten in den Vordergrund zu rücken, und was in Auto-Crop-Entscheidungen einfließt.

Bildklassifizierung und Embeddings

VNClassifyImageRequest liefert Top-N-Kategorielabels für ein Bild mithilfe eines integrierten Klassifikators, der Hunderte gängiger Objektkategorien abdeckt.5 VNGenerateImageFeaturePrintRequest liefert einen Feature-Vektor (das Embedding des Modells), der für die Bildähnlichkeitssuche geeignet ist.

Embeddings sind das, was eine Photos-App, das „Ähnliche Gerichte finden” einer Rezept-App oder die Ähnlichkeits-Deduplizierung einer Moodboard-App tatsächlich antreibt. Das Cloud-Äquivalent sind OpenAI-CLIP-Embeddings oder Googles Vertex AI; Vision liefert sie lokal und kostenlos.

Objektverfolgung und Trajektorien

VNDetectTrajectoriesRequest verfolgt sich bewegende Objekte über Frames hinweg und liefert parabolische Trajektorienanpassungen (ein geworfener Ball, ein abgeschossener Pfeil). VNTrackObjectRequest folgt einem manuell begrenzten Objekt durch eine Videosequenz.

Trajektorien sind das zugrunde liegende Primitiv für Sport-Apps (Verfolgung eines Baseballs, eines Basketballs, eines Tennisballs). Die Erkennung funktioniert auf einem Live-AVFoundation-Stream und liefert Ergebnisse in Echtzeit.

Eigene Modelle via VNCoreMLRequest

VNCoreMLRequest führt jedes Core-ML-Modell durch die Vision-Pipeline aus. Die Anfrage übernimmt automatisch das Preprocessing (Bildgrößenänderung, Farbraumkonvertierung, Normalisierung) basierend auf der Eingabebeschreibung des Modells. Eine App trainiert einen eigenen Klassifikator in Create ML (eine Handvoll Kategorien, hundert Beispielbilder pro Kategorie, zehn Minuten Training) oder lädt ein veröffentlichtes Modell herunter, legt das .mlpackage in das App-Bundle und führt es mit drei Codezeilen durch Vision aus.

let model = try VNCoreMLModel(for: MyClassifier(configuration: .init()).model)
let request = VNCoreMLRequest(model: model) { request, error in
    let results = request.results as? [VNClassificationObservation]
    print(results?.first?.identifier, results?.first?.confidence)
}
let handler = VNImageRequestHandler(cgImage: image, options: [:])
try handler.perform([request])

Das Cloud-Äquivalent für einen eigenen Klassifikator besteht darin, das Modell auf einem Server zu hosten, für die Inferenz-Rechenleistung zu zahlen, die API zu verwalten und die Netzwerklatenz zu akzeptieren. Vision verwandelt das Ganze in ein .mlpackage im App-Bundle und einen Request-Handler.

Wo Cloud-APIs tatsächlich gewinnen

Visions Territorium sind pixelbasierte Operationen: Finde dieses Ding, klassifiziere dieses Bild, erkenne diesen Text. Das Framework bietet kein komplexes semantisches Reasoning über die Bedeutung eines Bildes. Drei Fälle, in denen Cloud-APIs die richtige Wahl sind:

Multimodales LLM-Verständnis. „Was tut diese Person in diesem Bild?” „Ist dieses Diagramm irreführend?” „Übersetze diese Speisekarte und sage mir, welche Gerichte vegetarisch sind.” Keine dieser Fragen ist auf Pixelebene. Sie erfordern ein großes multimodales Modell, das visuelle Wahrnehmung mit Weltwissen und Sprache verbindet. Apples Foundation Models (das On-Device-LLM, behandelt in Foundation Models on-device LLM) beginnen, einiges davon on-device zu erledigen, doch für komplexes Reasoning gewinnen weiterhin GPT-4o, Claude Sonnet oder Gemini.

One-Shot-Spezialaufgaben ohne Trainingsdaten. Visions Klassifizierungsmodell ist fest; eigene Core-ML-Modelle benötigen Trainingsdaten. Ein multimodales LLM kann „ist das ein Foto einer Katze mit Fliege?” beantworten, ohne ein einziges gelabeltes Trainingsbeispiel gesehen zu haben. Für Prototyping oder einmalige Aufgaben, bei denen das Sammeln von Trainingsdaten zu teuer ist, sind Cloud-LLMs das richtige Werkzeug.

Dokumentenintelligenz jenseits von OCR. Visions OCR liefert Text. Eine Document-Intelligence-API (AWS Textract, Google Document AI, Azure Form Recognizer) liefert strukturierte Felder: Rechnungsnummer, Datum, Einzelposten, Summen. Die Strukturierung ist der Mehrwert, nicht die OCR. Für hochwertige Dokumenten-Workflows sind die Cloud-APIs meist richtig; für „lies diesen Beleg und gib den Text aus” ist es Vision.

Das Muster: Cloud gewinnt bei Reasoning und bei stark spezialisierten vertikalen APIs; Vision gewinnt bei Wahrnehmungs-Primitiven.

Ehrlicher Latenz- und Kostenvergleich

Eine repräsentative Inferenz-Pipeline auf einem iPhone 16 Pro (A18 Pro Chip):

Operation Vision (on-device) OpenAI Vision API AWS Rekognition
OCR (1 Seite Beleg) 150-300 ms 1-3 s Roundtrip + Kosten pro Bild 200-500 ms + Kosten pro Bild
Gesichtserkennung (1 Frame) 5-15 ms 1-2 s + Kosten 100-300 ms + Kosten
Body Pose (live 60fps) <16 ms nicht echtzeitfähig nicht echtzeitfähig
Bild-Embedding 20-40 ms 200-500 ms + Kosten nicht direkt angeboten
Eigener Klassifikator abhängig von Modellgröße erfordert gehostetes Modell erfordert gehostetes Modell

Die obigen Zahlen sind aus öffentlichen Apple-Benchmarks und von Entwicklern berichteten Messungen abgeleitet; entscheidend ist die Größenordnung, nicht der exakte Wert. Visions Vorteile liegen in den Kosten (null pro Aufruf), in der Tail-Latenz (kein Netzwerk-Jitter) und im Datenschutz (Daten verlassen das Gerät nie).

Die Kosten kumulieren sich, wenn eine App häufig Vision-Operationen aufruft. Eine Foto-Bearbeitungs-App, die 100 Bilder pro Sitzung verarbeitet, kostet über Cloud-APIs in der Größenordnung von Dollar pro Sitzung und über Vision null.

Die Verbindung zum Agent-Workflow

Vision passt sauber zu zwei bereits ausgelieferten Cluster-Ideen:

App Intents Tools für Apple Intelligence. Wenn die App eine Funktion wie „Gesichter in meinen Fotos finden” oder „Text aus Screenshot lesen” über einen AppIntent bereitstellt, führt die perform-Methode des Intents Vision lokal aus und liefert ein strukturiertes Ergebnis zurück. Der Orchestrator von Apple Intelligence kann den Intent aufrufen, ohne das Foto des Benutzers an einen Server zu senden. Der Beitrag zu App Intents erläutert den Schnittstellenkontrakt.

Foundation Models on-device LLM. Eine Pipeline, die sowohl Wahrnehmung als auch Reasoning benötigt, führt zuerst Vision aus (Text extrahieren, Gesichter finden, Objekte lokalisieren) und anschließend Foundation Models (über das Gefundene reflektieren, eine Zusammenfassung erzeugen). Beide Stufen laufen on-device. Gesamtzahl der Netzwerkaufrufe: null. Der Beitrag zu Foundation Models erklärt, wie das LLM aufgerufen wird; dieser Beitrag argumentiert, dass Vision das ist, was es ohne Cloud-Roundtrip speist.

let textRequest = VNRecognizeTextRequest()
textRequest.recognitionLevel = .accurate

let handler = VNImageRequestHandler(cgImage: receiptImage, options: [:])
try handler.perform([textRequest])

let extractedText = (textRequest.results ?? [])
    .compactMap { ($0 as? VNRecognizedTextObservation)?.topCandidates(1).first?.string }
    .joined(separator: "\n")

let llmResponse = await foundationModel.generate(
    "Summarize this receipt as JSON with merchant, total, and date fields:\n\(extractedText)"
)

Die gesamte Pipeline läuft auf dem Gerät. Kein API-Schlüssel. Kein Netzwerkaufruf. Keine Datenexposition gegenüber Drittanbietern.

Was sich über die letzten zwei Releases hinweg gefestigt hat

Drei Ergänzungen, die es zu nennen lohnt, mit konservativer Datierung gegen Apples Release Notes2:

Aesthetics Scoring als öffentliche API (iOS 18). VNCalculateImageAestheticsScoresRequest liefert Werte einschließlich Nutzwert-Klassifizierung und ästhetischem Wert und ersetzt das, was Foto-Kuratierungs-Apps zuvor mit eigenen Core-ML-Modellen approximieren mussten.

Verbesserte mehrsprachige OCR. VNRecognizeTextRequest hat seine Unterstützung für nicht-lateinische Schriftsysteme über die letzten Releases hinweg ausgebaut und damit den Abstand zu Cloud-OCR-Diensten verringert, die historisch eine stärkere Mehrsprachigkeitsabdeckung hatten. Apples Dokumentation zur Texterkennung listet die aktuelle Sprachunterstützung auf3.

Dokumentensegmentierung mit VisionKit-Integration. VNDetectDocumentSegmentationRequest findet rechteckige Dokumente und liefert Eckpunkte; VisionKit’s VNDocumentCameraViewController umhüllt die Dokumentaufnahme in einer designten UI für Benutzer, während DataScannerViewController (iOS 16+) Live-Text und maschinenlesbares Code-Scanning abdeckt.6

Die Headline-Fähigkeiten des Frameworks (Gesicht, Text, Pose, Barcode, Embeddings) sind seit mehreren iOS-Releases ausgereift. Das Muster: erweitern statt neu erfinden.

Warum die meisten Entwickler Vision überspringen

Drei Gründe, warum das Framework trotz klarer Sachlage übersprungen wird:

Cloud-First-Gewohnheit. Die meiste moderne KI-Entwicklung findet zuerst gegen Cloud-APIs statt. Entwickler wissen, wie man OpenAI aufruft; die Oberflächenfläche von VNRecognizeTextRequest plus VNImageRequestHandler plus VNRecognizedTextObservation fühlt sich an wie mehr API, die zu lernen ist, für etwas, das gemessen an Codezeilen weniger Zeilen umfasst als ein Aufruf von OpenAI Vision (keine Auth, kein HTTP, kein Retry, kein JSON-Parse).

Fehleinschätzung der Fähigkeiten. Entwickler, die das Framework nicht kürzlich überprüft haben, gehen davon aus, dass es nur OCR und Barcodes abdeckt. Die obige Kategorienliste umfasst mehr als zwei Dutzend Fähigkeiten, von denen mehrere kein Cloud-natives Äquivalent haben und mehrere kommerziellen APIs ohne deren Kosten ebenbürtig sind.

Divergenz zwischen Prototyp und Produktion. Cloud-APIs gewinnen im frühen Prototyping (ein curl-Kommando reicht für ein Ergebnis), und der Prototyp wird ohne Neubewertung in die Produktions-Pipeline überführt. Der richtige Schritt ist, mit dem Schnellsten zu prototypisieren und die Wahrnehmungsschicht neu zu bewerten, sobald der Workflow real ist.

Die Lösung besteht nicht darin, Cloud-APIs abzulehnen; sie besteht darin, zu wissen, was die Plattform enthält, damit die Wahl eine echte Wahl ist.

Was dieses Muster für iOS-26+-Apps bedeutet

Drei Erkenntnisse.

  1. Standardmäßig Vision für Wahrnehmungs-Primitive. Gesichter finden, Text lesen, Barcodes erkennen, Pose-Schätzung ausführen, Bild-Embeddings erzeugen. Das Framework läuft in Millisekunden auf der Neural Engine, kostet null und hinterlässt keine Datenspur bei Drittanbietern. Für pixelbasierte CV-Operationen ist das Framework der richtige Ausgangspunkt.

  2. Cloud-APIs für Reasoning verwenden, nicht für Wahrnehmung. Ein multimodales LLM, das die Bedeutung eines Bildes versteht, eine vertikale Document-Intelligence-API, die strukturierte Felder extrahiert, eine One-Shot-Spezialaufgabe ohne Trainingsdaten. Das ist das Territorium der Cloud; es der Cloud zu überlassen ist korrekt.

  3. Vision mit Foundation Models für vollständige On-Device-Pipelines kombinieren. Wahrnehmung (Vision) speist Reasoning (On-Device-LLM). Die Pipeline läuft Ende-zu-Ende lokal, ohne API-Schlüssel, ohne Netzwerk-Jitter und ohne Telemetrie, die das Gerät verlässt. Der Foundation Models Beitrag des Clusters behandelt die LLM-Hälfte; Vision ist die Eingabe-Hälfte.

Der vollständige Apple-Ecosystem-Cluster: typisierte App Intents; MCP-Server; die Routing-Frage; Foundation Models; die Unterscheidung zwischen Runtime und Tooling-LLM; drei Oberflächen; das Single-Source-of-Truth-Muster; Zwei MCP-Server; Hooks für die Apple-Entwicklung; Live Activities; die watchOS-Runtime; SwiftUI-Internals; RealityKits räumliches Mental Model; SwiftData-Schemadisziplin; Liquid-Glass-Muster; Multi-Plattform-Auslieferung; die Plattformmatrix; worüber ich mich weigere zu schreiben. Der Hub liegt unter Apple Ecosystem Series. Für den breiteren Kontext zu iOS mit KI-Agenten siehe den iOS Agent Development Guide.

FAQ

Was ist der Unterschied zwischen Apple Vision und visionOS?

Das Vision Framework ist die On-Device-Computer-Vision-API für iOS, macOS und visionOS. visionOS ist das Betriebssystem für Apple Vision Pro. Die Namensüberschneidung ist unglücklich. Vision (das Framework) läuft auf jedem modernen Apple-Gerät; visionOS (das OS) läuft speziell auf der Vision-Pro-Hardware.

Wann sollte ich Vision anstelle der OpenAI Vision API oder Google Cloud Vision verwenden?

Für pixelbasierte Wahrnehmungsaufgaben (Gesichter finden, Text lesen, Objekte erkennen, Elemente zählen, Pose schätzen, Bild-Embeddings erzeugen) ist Vision fast immer die richtige Wahl. Es läuft in Millisekunden, kostet nichts pro Inferenz und hält Benutzerdaten auf dem Gerät. Cloud-APIs sind richtig, wenn die Aufgabe komplexes semantisches Reasoning über die Bedeutung eines Bildes erfordert oder wenn eine vertikale Document-Intelligence-API strukturierte Felder jenseits der Textextraktion liefert.

Kann ich mein eigenes Core-ML-Modell durch Vision laufen lassen?

Ja. VNCoreMLRequest umhüllt jedes Core-ML-Modell und übernimmt automatisch das Preprocessing. Legen Sie die .mlpackage-Datei in das App-Bundle, instanziieren Sie das Modell, umhüllen Sie es mit einem VNCoreMLModel und führen Sie es durch einen Request-Handler aus. Derselbe Handler kann mehrere Anfragen parallel ausführen, einschließlich der eingebauten Vision-Anfragen und des eigenen Core-ML-Modells.

Wie funktioniert das Vision-Dispatch auf Apple Silicon?

Vision (und die Core-ML-Modelle, die es ausführt) wird automatisch auf die Neural Engine geleitet, sofern verfügbar, fällt sonst auf die GPU und im äußersten Notfall auf die CPU zurück. Das Framework wählt den schnellsten Pfad für das Gerät und die Operation. Auf den meisten modernen iPhones (A12 Bionic und später) übernimmt die Neural Engine den Großteil der Inferenz; der Entwickler konfiguriert das Dispatch nicht manuell.

Was ist neu in iOS 18 und iOS 26?

Die konservative Zusammenfassung, datiert gegen Apples Release Notes: VNCalculateImageAestheticsScoresRequest wurde in iOS 18 als öffentliche API hinzugefügt; VNRecognizeTextRequest hat über die letzten Releases hinweg seine Mehrsprachigkeitsunterstützung ausgebaut; VisionKit’s DataScannerViewController (iOS 16+) deckt Live-Text und maschinenlesbare Codes ab, während VNDocumentCameraViewController die Dokumentaufnahme abdeckt. Die Headline-Fähigkeiten (Text, Gesicht, Pose, Barcodes, Embeddings) sind seit mehreren iOS-Releases ausgereift.

Referenzen


  1. Apple Developer Documentation: VNCalculateImageAestheticsScoresRequest, eingeführt in iOS 18.0+. 

  2. Apple Developer Documentation: Vision framework, Referenz für verfügbare Anfragen und Plattformverfügbarkeit. 

  3. Apple Developer Documentation: Recognizing Text in Images und VNRecognizeTextRequest, unterstützte Erkennungssprachen. 

  4. Apple Developer Documentation: VNDetectHumanBodyPose3DRequest und VNHumanBodyPoseObservation.JointName. 3D Body Pose nutzt AVDepthData, wenn das Gerät sie freigibt; LiDAR ist nicht erforderlich. 

  5. Apple Developer Documentation: VNClassifyImageRequest und knownClassifications(forRevision:) für die Laufzeit-Labelmenge. 

  6. Apple Developer Documentation: DataScannerViewController (iOS 16+, scannt Live-Text und maschinenlesbare Codes) und VNDocumentCameraViewController (Dokumentaufnahme). 

Verwandte Beiträge

Core ML On-Device Inference: Die Muster, die wirklich in Produktion gehen

Core ML führt Modelle auf Neural Engine, GPU oder CPU aus. Die produktionstauglichen Muster: Modellkonvertierung, Dispat…

10 Min. Lesezeit

Core AI: Modelle auf Apple Silicon ausführen

Core AI ist das Low-Level-Framework von iOS 27 zur Modellausführung: Asset versus Model, NDArray-Tensoren, Compute-Unit-…

14 Min. Lesezeit

KI-Systeme entwickeln: Von RAG zu Agenten

Ich habe ein 3.500 Zeilen umfassendes Agentensystem mit 86 Hooks und Konsensvalidierung gebaut. Hier sind meine Erkenntn…

8 Min. Lesezeit