Microsoft llança Phi-4-multimodal, una nova IA per al processament de veu, imatge i text
La companyia dissenya un SLM que redueix la velocitat i millora la precisió de processament dades multimodals
Categories:
Microsoft ha presentat Phi-4-multimodal, un nou model de llenguatge petit (SLM, pel nom en anglès) amb el qual pretén fer una passa endavant en la qualitat dels resultats en reconeixement de veu i traducció. Aquesta intel·ligència artificial pot processar simultàniament la parla, imatges i text, i la companyia assenyala en una publicació al web corporatiu que disposa d’un vocabulari més ampli i suport multilingüe per millorar el processament del llenguatge.
La IA s’ha construït sobre una arquitectura de 5.600 milions de paràmetres i amb una unió de diverses tecnologies Low-Rank Adaptations (LoRAs) per facilitar l’adaptació i personalització de les dades, i per millorar el raonament i la interacció amb el context. Aquests trets, tal com remarquen, són els que han permès millorar la velocitat i precisió de processament, i integrar el raonament del llenguatge amb dades multimodals.
Tot i ser un SLM, la proposta de Microsoft ja es compara amb models grans (LLM) com Gemini-2-Flash-lite i Claude-3.5-Sonnet, en capacitats generals. Ofereix un treball de qualitat pel que fa al reconeixement i traducció de veu, a la capacitat de visió i a la comprensió de dades i gràfics, però no proporciona els mateixos resultats en l’oferta de respostes de veu. En aquesta funcionalitat, Microsoft reconeix obertament que està per sota de Gemini-2.0-Flash i GPT-4o. Les comparatives dutes a terme pel gegant tecnològic també situen la nova IA en termes de rendiment per sobre de models especialitzats com WhisperV3 i SeamlessM4T-v2-Large.
Malgrat que els models petits han demostrat tenir una bona capacitat de treball, Microsoft assenyala que encara hi ha diferències entre els SLM i LLM per la capacitat més limitada de retenir coneixement dels primers. La companyia ha afirmat que treballa activament per millorar-ho en futures actualitzacions.
Versió mini
El Phi-4-mini és un altre SLM presentat en paral·lel al Phi-4-multimodal. Aquest se centra en el processament de text sense tenir efectes negatius sobre la precisió i la velocitat, fet que la situa com a eina adequada per a les aplicacions que demanen una comprensió avançada del llenguatge natural.