
Si vols trastejar amb models d'intel·ligència artificial al teu propi PC amb Windows sense dependre del núvol, Ollama és ara mateix una de les millors portes dentrada. Amb aquesta eina pots baixar models com DeepSeek, Truca, Mistral, Phi, Qwen, Clava o Gemma i executar-los en local, amb les teves dades ben guardades a casa i sense pagar subscripcions mensuals.
En aquesta guia veuràs què és exactament Ollama, com instal·lar-lo a Windows pas a pas, com llançar els teus primers models des de la terminal i com treure'n partit tant en mode xat com integrat en altres eines com OpenWebUI o fins i tot ComfyUI. La idea és explicar-ho de forma clara, sense tecnicismes rars, perquè puguis tenir el teu propi “ChatGPT local” en uns minuts.
Què és Ollama i per què val la pena fer-lo servir a Windows

Ollama és un programa lleuger i de codi obert que s'instal·la al teu ordinador (Windows, macOS o Linux) i actua com una mena de “motor” o client de models d'IA. Per si sol no és un chatbot, sinó la base sobre la qual després descarregues i executes models com DeepSeek, Flama 3.2, Gemma 2 o Mistral.
El seu primer gran avantatge és que tot funciona en local: els models es descarreguen i es guarden al teu disc, i les consultes que fas es processen al teu propi maquinari. Això implica que no has d'anar a cap web, no depens d'una API externa, i els teus missatges no viatgen a servidors de tercers, cosa clau si et preocupa la privadesa.
El segon punt clau és que pots fer servir la IA fins i tot sense connexió a Internet. Necessites xarxa només per baixar Ollama i els models la primera vegada; a partir d'aquí, si no instal·laràs res de nou, pots seguir xatejant amb el teu LLM favorit en mode offline, ideal per a portàtils o equips que no sempre estan connectats.
A més, en executar els models a la teva màquina, et saltes moltes de les restriccions i filtres que solen tenir les versions web. Això no vol dir que puguis fer qualsevol cosa sense límits, però sí que tens més marge que quan depens d'un servei en línia amb polítiques molt estrictes.
L'altra particularitat d'Ollama és que es maneja per línia d'ordres. No porta una interfície gràfica pròpia; tu obris el Símbol del sistema o PowerShell, escrius una ordre tipus ollama run deepseek-r1:8b ia partir d'aquí xateges directament des de la terminal, que mostrarà un indicador com >>> perquè sàpigues que està llest per rebre prompts.
Avantatges d'executar models d'IA al local

Un model de llenguatge gran o LLM és, simplificant, el “cervell” que genera text, codi o descripcions a partir del que demanes. Amb Ollama pots tenir aquest cervell instal·lat al teu PC amb Windows en lloc de llogar-lo a un tercer a través del núvol.
Des d'un punt de vista pràctic, ganes en privadesa: tot el que escrius, l'historial de xats i els continguts generats es queden al dispositiu. Això resulta especialment interessant si vols tractar documentació interna, codi propietari, informació sensible o, simplement, no et ve de gust regalar les teves dades.
També notaràs avantatges a nivell de costos i flexibilitat. No cal pagar plans Pro ni preocupar-te per límits de tokens o de consultes. Quan tens el teu PC i els models descarregats, pots xatejar, generar text, programar o descriure imatges sense càrrecs addicionals.
Un altre punt fort és que pots personalitzar molt millor el teu entorn. Amb models locals pots provar diferents famílies (Truca, Mistral, Phi, Gemma, DeepSeek…), triar mides en funció del teu RAM, i integrar-los en els teus fluxos de treball: des d'interfícies web com OpenWebUI fins a nodes a ComfyUI per millorar prompts o descriure imatges.
Això sí, la cara B és que el teu maquinari mana. Un model petit de 1B o 3B sol anar fluid en gairebé qualsevol equip modern, mentre que un de 33B o 70B exigeix molta RAM i, si vols una cosa realment àgil, una GPU potent. Per això Ollama ofereix variants de cada model en diverses mides, perquè ajustis el consum de recursos al teu PC.
Requisits i rendiment: què necessites per utilitzar Ollama al Windows

Ollama, com a aplicació, és força lleuger; el pes real recau en els models que decideixis instal·lar. Un model com a Flama 3.2 en una variant petita pot ocupar al voltant de 2 GB, mentre que monstres com Gemma 2 de 27B poden disparar el consum de memòria i fer que el teu equip ni tan sols sigui capaç d'arrencar-los.
Els mateixos desenvolupadors d'Ollama recomanen tenir almenys 8 GB de RAM disponibles per a models 7B, Pujar a 16 GB per a models 13B i assolir els 32 GB per als de 33B. Això no vol dir que no arrenquin amb menys, però sí que et pots trobar bloquejos, penges o temps de resposta eterns.
En proves pràctiques amb models com Truca 3.2 en portàtils relativament modestos, s'ha vist que la CPU se situa al voltant del 50% mentre el model genera textos llargs (per exemple, articles d'unes 1000 paraules sobre AGI), i l'impacte a la memòria RAM és raonable. En molts equips de gamma mitjana actuals, aquestes variants petites i mitjanes funcionaran sense problemes.
Si passes a models més pesats com Gemma2:27b o alguns DeepSeek grans, la cosa canvia. En ordinadors amb poca RAM disponible, en intentar arrencar aquests models pots trobar-te errors directes per manca de memòria. Per això és important començar amb mides més contingudes i escalar només si el teu PC ho permet.
Al terreny de DeepSeek, els models distilled R1 amb mides com 1.5B, 8B o 14B han demostrat un equilibri molt interessant entre rendiment i recursos, fins al punt que Microsoft ha anunciat que integrarà variants 1.5B i superiors als seus Copilot+ PCs per aprofitar la seva eficiència.
Descarregar i instal·lar Ollama a Windows pas a pas
Per començar a fer servir aquesta eina al teu equip, el procés d'instal·lació és força semblant al de qualsevol altre programa de Windows, encara que després es gestioni per ordres.
Entra a la web oficial de Ollama (ollama.com). Només entrar, veuràs un botó de descarregar. Feu clic i us portarà a una pàgina on es llisten les descàrregues per a Windows, macOS i Linux. La web sol detectar automàticament el vostre sistema i us ofereix la descàrrega que toca.
Selecciona l'opció d' Windows i torna a prémer a descarregar per baixar l'instal·lador. Es tracta d'un executable estàndard, així que quan acabi la descàrrega, fes-hi doble clic per arrencar l'assistent.
Durant la instal·lació d'Ollama a Windows, no hi ha misteri: acceptes, polses a “Següent” les vegades que calgui i, quan aparegui el botó de install, el marques perquè copiï els fitxers i registri el servei que s'executarà en segon pla.
En acabar, és possible que no vegis cap finestra nova. Això és normal, perquè Ollama es queda corrent en segon pla. Si obriu l'àrea de notificacions de la barra de tasques (part inferior dreta), hauríeu de veure la icona indicant que el servidor local està actiu.
Configurar Ollama a Windows: inici automàtic i carpeta de models
Un cop instal·lat, val la pena ajustar un parell de detalls a Windows per tenir més control sobre quan arrenca Ollama i on guarda els models, sobretot si vas just despai en disc.
Per defecte, Ollama es inicia automàticament amb Windows. Si prefereixes arrencar-ho només quan ho necessitis, obre el Administrador de tasques (per exemple, amb Ctrl+Alt+Supr), aneu a la pestanya de Aplicacions d'inici, cerca l'entrada d'Ollama, fes clic dret i selecciona “Deshabilitat”. Així evitaràs que es carregui cada vegada que engegues el PC.
L'altre punt clau és triar la carpeta on es desaran els models. Pots indicar a Windows que Ollama faci servir, per exemple, un disc secundari amb més espai. Per fer-ho, obre el cercador del menú Inici i escriu ENV, després prem a "Editar les variables d'entorn del sistema".
A la finestra de Propietats del sistema, fes clic a "Variables d'entorn". Dins l'apartat de Variables d'usuari, Prem en “Nou…”. En el camp Nom de la variable escriu exactament OLLAMA_MODELS, I en Valor de la variable posa la ruta de la carpeta on vulguis que es guardin els models, per exemple H:\Ollama\Models.
És important que no canviïs el nom de la variable; si en poses un altre, Ollama ignorarà aquesta ruta i continuarà usant la ubicació per defecte. Quan acabeu, feu clic a D'acord a totes les finestres obertes perquè es guardin els canvis.
Com utilitzar la línia d'ordres per treballar amb Ollama
Amb el servei ja instal·lat i configurat, arriba el moment de obrir una terminal a Windows per parlar amb els teus models. Pots utilitzar tant PowerShell com el clàssic Símbol del sistema (CMD); tots dos funcionen bé amb Ollama.
Per obrir CMD, aneu al cercador de Windows, escriviu cmd, i si vols evitar problemes de permisos, pots fer clic dret i seleccionar "Executar com a administrador". Amb això ja tindràs la finestra de la línia d'ordres llista.
Si a la terminal escrius simplement ollama i prem Enter, veureu un llistat d'ordres disponibles. Entre ells hi ha els més importants per al dia a dia: correr per llançar models, llista per veure els que tens descarregats, o rm per eliminar aquells que ja no vulguis conservar.
quan executes ollama run, si aquest model no està descarregat, Ollama el baixa automàticament i, quan acaba, es queda carregat esperant els teus prompts. A la pròpia terminal veuràs l'indicador >>>; tot el que escriviu a partir d'aquest punt s'envia al LLM, i la resposta es genera línia a línia en aquesta mateixa finestra.
Durant una sessió, el model manté el context de la conversa, de manera que podeu fer preguntes encadenades: primer consultes pel clima a Barcelona a l'estiu, i després preguntes “I a París?” sense necessitat de repetir totes les dades. Si vols netejar aquest context i començar de zero, pots fer servir l'ordre /clar dins de la sessió.
Instal·lar i provar models amb Ollama (Truca, DeepSeek i companyia)
El catàleg de models d'Ollama és força ampli. Pots consultar la llista completa des de la web oficial, a la secció de Search (ollama.com/search), on veuràs opcions com Truca 2, Truca 3.2, Mistral, Gemma, Phi, Qwen, Clava, Fuyu, CodeLlama, WizardCoder, Alpaca i molts més.
En entrar a la fitxa d'un model concret, veureu una descripció, el nombre de paràmetres i les diferents variants per mida (indicades amb alguna cosa com 1B, 7B, 13B, 70B, etc.). També apareix clarament el comanda que has d'enganxar a la terminal per descarregar i executar aquesta versió concreta.
Per exemple, per arrencar un model senzill com Truca 3.2, podries fer servir una ordre de l'estil ollama run llama3.2. En executar-lo per primera vegada, el programa es descarregarà (ocupant uns quants GB, segons la variant) i, quan acabi, podràs començar a xatejar amb ell com si fos un ChatGPT local.
Si t'interessa especialment DeepSeek R1, molt de moda per la seva capacitat de mostrar “pensament profund” mentre raona, tens diverses versions al teu abast. Al Windows pots obrir CMD i llançar, per exemple:
- ollama run deepseek-r1:1.5b (la més lleugera, ideal per a equips modestos)
- ollama run deepseek-r1:8b (equilibri entre qualitat i recursos)
- ollama run deepseek-r1:14b
- ollama run deepseek-r1:32b
- ollama run deepseek-r1:70b (molt exigent en maquinari)
Quan el model està carregat, veuràs que comença a mostrar el seu procés de raonament intern abans de la resposta definitiva. Aquesta part pot ser molt llarga, i no porta etiquetes, així que quan detectis que canvia un espanyol més fluid o deixa de “pensar en veu alta”, sabràs que et dóna la contestació final.
Per gestionar el que tens instal·lat, l'ordre ollama list et mostrarà tots els models presents a la teva màquina, mentre que ollama rm nom_model et permet esborrar els que ja no facis servir per alliberar espai. Si en algun moment vols veure ajuda ràpida mentre ets en una sessió de xat, pots escriure /? i es mostrarà el llistat d'ordres internes (com / adéu per sortir o /show per veure detalls del model actual).
Usar Ollama amb una interfície gràfica: OpenWebUI
Encara que la terminal funciona bé, és normal que et vingui de gust una interfície més amigable per xatejar, desar converses, adjuntar imatges o veure el format de codi amb colors. Una de les opcions més completes per això és OpenWebUI, una interfície web de codi obert que es connecta al backend d'Ollama.
OpenWebUI està pensada per oferir una experiència tipus xat modern: suporta Markdown, LaTeX, ressaltat de codi, gestió de paràmetres del model i ús de RAG (Recuperació Augmentada de Generació) per enriquir les respostes amb fonts externes. A més, funciona bé en ordinadors de sobretaula i també des del mòbil, tot això sobre la teva xarxa local.
La forma més senzilla de desplegar OpenWebUI és amb estibador. A Windows, això implica tenir instal·lat escriptori docker i activar prèviament el Subsistema de Windows per a Linux (WSL), ja que Docker s'hi recolza per muntar els contenidors.
El flux general seria: primer instal·lar Docker i WSL, després assegurar-te que Ollama està en marxa al teu PC, i finalment executar el contenidor d'OpenWebUI que es connecta a Ollama com a motor d'IA. Un cop arrencat, accedeixes mitjançant el navegador a una adreça local (tipus http://localhost:3000, segons com ho tinguis configurat) i des d'aquí gestiones xats, models i ajustaments amb una interfície visual.
Quan tinguis tot això funcionant, pots provar diferents funcions avançades des de OpenWebUI: utilitzar Markdown per estructurar notes, LaTeX per a fórmules, ajustar temperatura o longitud màxima de les respostes, o fins i tot integrar fonts de dades externes per a consultes més riques.
Integrar Ollama amb ComfyUI i altres fluxos creatius
Més enllà del xat de text, els models que gestiones amb Ollama poden ser peça clau en workflows creatius, per exemple al costat de ComfyUI i Stable Diffusion per a generació d'imatges i vídeo.
En aquest context, un LLM s'utilitza per a escriure o millorar prompts que després alimentaràs Stable Diffusion o altres models visuals. Podeu demanar-vos que amplieu una descripció senzilla per a un vídeo, que refini l'estil o que adapti el text a un format molt concret.
Una altra utilitat interessant és la descripció automàtica d'imatges: un model com Llava o Florence2 (segons el flux de treball) analitza una imatge i genera un text descriptiu detallat. Aquest text pot servir per replicar l\'estil, documentar datasets o alimentar altres processos creatius.
Per utilitzar Ollama dins de ComfyUI, necessites primer instal·lar els nodes necessaris, com els del projecte Plush-for-ComfyUI. Després, al teu flux, incorpores nodes LLM que es connecten al servidor local d'Ollama. A les opcions del node, sols poder triar directament quin dels teus models descarregats vols utilitzar.
Per exemple, en un workflow d'imatge a vídeo, podeu tenir un primer LLM que descriu la imatge i un segon que reescriu el prompt per optimitzar-lo per a vídeo. Si en lloc de dependre de models al núvol els enllaçes amb Ollama, tindràs tot aquest procés corrent en local, amb l'avantatge de la privadesa i sense límits d'ús.
Triar el model adequat segons el que vulguis fer
A l'hora d'escollir què descarregar a Ollama, et convé tenir clar quin tipus de tasques faràs més sovint i com va el teu maquinari. No tots els models valen per a tot ni tots consumeixen el mateix.
Per a xat general i resposta a preguntes, les famílies Truca 2 / Truca 3.2 o Mistral en mides mitges solen anar molt bé. Solen donar respostes coherents i naturals per a ús diari, sense exigir una barbaritat de recursos.
Si et centres en programació i generació de codi, models especialitzats com CodeFlama o WizardCoder et poden donar millors resultats que un model generalista, ja que estan ajustats per interpretar i produir codi, entendre errors i proposar solucions.
Per a tasques multimodals (text + imatge), models com LLaVA o fuyu estan dissenyats per entendre imatges, generar subtítols, respondre preguntes sobre allò que veuen o combinar entrada visual i textual.
I si el que vols és experimentar amb el famós “pensament profund” de DeepSeek R1, pots començar per la variant 8B, que ofereix una relació molt cridanera entre qualitat de les respostes i recursos necessaris. Si més endavant et fas amb una màquina amb més RAM i una GPU potent, pots saltar a mides superiors.
En tots els casos, en visitar la fitxa del model a la web d'Ollama, veuràs clarament l'ordre a executar i la mida aproximada del fitxer. Com més gran és la B (nombre de paràmetres), més memòria i emmagatzematge consumirà, però en general també obtindràs respostes més matisades i potents.
Amb tot això, muntar el teu propi entorn d'IA amb Ollama a Windows és, al final, qüestió d'uns quants passos: instal·les l'aplicació, ajustes un parell d'opcions al sistema, descarregues el model que més et cridi l'atenció i comences a parlar-li des de la terminal oa través d'una interfície com OpenWebUI. A partir d'aquí, pots anar afegint-hi més models, integrar-los en fluxos de treball creatius o de desenvolupament i refinar a poc a poc el teu “laboratori” d'IA local sense dependre de serveis externs.