Activefrontiermultimodal Proprietary

command-a-vision-07-2025

by Cohere· Released July 2025· Cutoff April 2025

Command A Vision is Cohere's flagship multimodal model, combining advanced language understanding with native vision capabilities. It excels at tasks requiring both text and image analysis, such as document understanding, visual question answering, and multimodal reasoning. This model is part of the Command A family, designed for enterprise-grade performance and safety.

Official Site API Docs

Input cost

$2.50 per 1M tokens

Output cost

$10.00 per 1M tokens

Context window

128K tokens

Max output

4096 tokens

Modalities

textimage

License

proprietary

Capabilities

VisionFunction CallingCode GenerationStreamingJSON ModeMultilingualDocument UnderstandingGrounding

Best For

Enterprise applications requiring multimodal understanding, such as document analysis, visual Q&A, and content moderation.

Strengths

Strong multimodal reasoning combining text and images
Enterprise-grade safety and reliability
128K context window for long documents
Competitive pricing for vision tasks

Limitations

No audio or video understanding
Output limited to 4096 tokens
Not open source
May struggle with highly specialized visual domains

Use Cases

Document analysis and extraction

Visual question answering

Content moderation with image understanding

Multimodal chatbots

Automated report generation from images

E-commerce product description generation

Medical image captioning

Improvements Over Previous Model

First Cohere model with native vision support
128K context window, up from 100K in Command A
Improved multimodal reasoning benchmarks
Lower pricing compared to previous vision models
Enhanced safety features for image inputs

Back to all models