Assistent d'IA amb Raspberry Pi: projectes reals, maquinari i guia pràctica

  • Raspberry Pi 4/5 permeten assistents de veu i llenguatge amb VOSK, faster-whisper i LLM lleugers.
  • L'AI Kit amb Hailo‑8L aporta 13 TOPS i s'integra a Raspberry Pi OS (libcamera/picamera2).
  • Arquitectures híbrides: transcripció local i LLM remot via Ollama/Meshnet per equilibri rendiment-privadesa.

Assistent d'IA amb Raspberry Pi

Si estàs pensant a muntar un assistent d'IA amb Raspberry Pi, ets en bon lloc: avui la combinació de veu, visió i models de llenguatge ja és viable en aquestes petites SBC, tant amb la Raspberry Pi 4 com amb la més potent Raspberry Pi 5. Hi ha projectes reals que ho demostren i, a més, hi ha accessoris oficials que porten l'acceleració d'IA a bord per anar un pas més.

En aquest article trobaràs una panoràmica molt completa: des d'un assistent casolà activat per veu basat en Pi 4 i eines com VOSK i Ollama, fins a una Pi 5 que executa wake word, transcripció i inferència local amb models compactes com Qwen3:1.7bo Gemma3:1b. També veuràs com l'AI Kit amb NPU Hailo‑8L encaixa a la Pi 5, quines llibreries utilitzar per a reconeixement i TTS, i per què és clau tenir cura de la seguretat a casa ia l'empresa.

Per què muntar un assistent d'IA amb Raspberry Pi

informació sobre domòtica
Article relacionat:
Informació sobre domòtica: guia pràctica, usos i tendències

Un assistent intel·ligent en una Raspberry Pi us permet controlar dispositius, respondre preguntes i automatitzar rutines amb un cost contingut i un consum elèctric mínim; dit altrament, és una plataforma ideal per aprendre, prototipar i desplegar funcions de veu i llenguatge sense dependre sempre del núvol.

Amb una Pi pots integrar micròfons, càmeres i pantalles petites, a més de programar a Python, Java o C++; això obre la porta a projectes que van des d'un panell d'estat amb veu fins a un control d'accés amb reconeixement facial, passant per un bot domèstic que escolta, interpreta i actua segons les teves ordres.

Raspberry Pi 4 vs Raspberry Pi 5: potència i possibilitats

La Raspberry Pi 4 va demostrar que un assistent de veu local és possible si tries bé l'stack; no obstant això, la Raspberry Pi 5 no només accelera CPU i GPU, també afegeix connectivitat PCIe per a accessoris d'alt rendiment i millora ports i ample de banda, per la qual cosa l'experiència global es torna més fluida.

Entre les especificacions de la Pi 5 destaquen el seu ARM Cortex-A76 fins a 2,4 GHz, fins a 8 GB de RAM LPDDR4X, Wi-Fi 5, Bluetooth 5.0/BLE i doble micro-HDMI amb sortida 4K a 60 Hz. Unit a un bon conjunt de sensors, això permet que l'assistent gestioni tasques concurrents baixa latència a la interacció per veu.

ASRAI: un projecte real amb Pi 4 que aposta per privadesa i control

Un maker enginyós va crear ASRAI, un assistent activat per veu muntat en una Raspberry Pi 4 Model B amb una pantalla GPIO de 3,5 polzades i una càmera Sony PlayStation Eye. El detall sucós és a la PlayStation Eye: inclou una matriu de quatre micròfons que es pot desmuntar fàcilment per a la Pi i, al mercat de segona mà, es troba per unes poques monedes, així que és un ganga per a captació d'àudio amb formació de feix bàsica.

Al projecte, la Pi 4 executa localment VOSK per a reconeixement de veu offline i es connecta per xarxa a un LLM allotjat en un PC del propi autor mitjançant un punt API compatible amb OpenAI a través d'Ollama. Per fer que aquesta connexió funcioni des de qualsevol lloc, el creador va habilitar Meshnet de NordVPN, aconseguint així un enllaç privat i ubic sense exposar serveis a Internet de forma directa.

La idea és descarregar a la Pi la captura, wake word i transcripció local amb VOSK, mentre que la generació de llenguatge l'atén un model més potent en un altre equip mitjançant una API tipus OpenAI exposada per Ollama i accessible gràcies a Meshnet; d'aquesta manera, s'equilibra rendiment i privadesa.

Per al toc “humà”, el projecte inclou imatges per a estat adormit o escoltant a la pantallita. Si t'animes a replicar-ho, el creador comparteix els recursos necessaris, i convé tenir-ne a mà una impressora 3D i un soldador per al muntatge i ajustament de la matriu de micròfons.

La iniciativa va ser destacada per mitjans especialitzats i recorda altres aproximacions tipus Rhasspy en filosofia de disseny: reconeixement local i orquestració modular. Fins i tot s'esmenten experiències properes de col·laboradors que van convertir el seu Pi assistent d'IA i van analitzar el rendiment de diferents IAs a Raspberry Pi 5 per orientar els que estiguin valorant fer el salt de generació.

AI Kit oficial per a Raspberry Pi 5: la via ràpida a l'acceleració

Si preferiu pujar de nivell, l'AI Kit per Raspberry Pi 5 afegeix una NPU Hailo‑8L sobre una M.2 2242 preinstal·lada que s'acobla a la M.2 HAT+. Aquesta combinació aporta fins a 13 TOPS per a inferència eficient a la vora, alliberant a la CPU de càrregues intensives i permetent que l'assistent executi models de visió o àudio amb menor latència i consum.

El paquet ve complet: capçal GPIO apilable, espaiadors, cargols, una cinta flexible per connectar la placa AI al bus PCIe de la Pi 5 i un dissipador adequat per mantenir a ratlla la temperatura. La instal·lació física és senzilla i, després, el programari es desplega per apt a Raspberry Pi OS.

  • Mòdul Hailo AI amb NPU Hailo‑8L
  • Raspberry Pi M.2 HAT+ per a la Raspberry Pi 5
  • Coixinet tèrmic preinstal·lat entre mòdul i HAT+
  • Kit de muntatge amb espaiadors i cargols
  • Connector GPIO apilable de 16 mm i cable pla per a PCIe

La integració del dispositiu Hailo a l'entorn Raspberry Pi OS està madura: funciona amb libcamera, rpicam‑apps i picamera2 i l'ecosistema de programari (controladors Hailo, HailoRT i HailoTappas) s'instal·la directament mitjançant el gestor de paquets. Amb aquest camí, la base per a un assistent amb visió per computador (per exemple, detecció de cares o gestos) queda llesta amb mínima fricció.

Casos d'ús: del control de la llar a l'assistent conversacional

Amb una Pi 5 i l'AI Kit podeu muntar des d'un control d'accés amb reconeixement facial fins a un assistent domèstic conversacional mans lliures. També és factible un robot senzill amb navegació bàsica que rebi instruccions per veu i respongui amb síntesi de veu mitjançant un altaveu.

Si no vols acceleradors, també és viable un enfocament híbrid com a ASRAI (processat de veu local i LLM remot) o un full-local amb models compactes d'última fornada. La clau és ajustar la mida del model, la quantització i el pipeline dàudio perquè lexperiència sigui àgil i estable al maquinari disponible.

Programari clau per a veu i llenguatge a Raspberry Pi

Pel reconeixement de veu offline, VOSK és una aposta segura a Raspberry. Alternatives com PocketSphinx també són útils, i si prefereixes serveis cloud, hi ha integracions amb motors tipus Google Speech Recognition; no obstant això, molts projectes prioritzen privadesa i baixa latència, així que la transcripció local guanya sencers.

Per a la síntesi de veu local, pyttsx3 facilita un TTS bàsic i sense dependències externes. Pel que fa a la part de LLM, Ollama simplifica servir models amb endpoint “compatible OpenAI”, cosa que fa senzill connectar scripts propis o clients existents. Amb aquest enfocament, el teu Pi pot orquestrar el pipeline i delegar o no la generació en un equip més potent.

Un miniagent 100% a la Pi 5: wake word, transcripció i inferència local

Un entusiasta ha demostrat que una Raspberry Pi 5 amb 16 GB és capaç d'executar tot el cicle: detecció de paraula d'activació amb VOSK, transcripció amb faster-whisper i inferència amb LLM compactes com Qwen3:1.7by Gemma3:1b, tot en local. És un repte d'optimització però es pot; el repositori i l'entrada de bloc que el documenten són una mina per aprendre sobre ajustaments fins i gestió de recursos.

La lliçó que deixa aquest exemple és clara: amb models ben elegits, quantització i un pipeline ajustat, la Pi 5 respon amb temps raonables. Si el projecte requereix més múscul, sempre cal l'opció d'utilitzar la Hailo‑8L per a tasques de percepcions (visió, àudio) i mantenir un LLM lleuger local o recolzar-se en un servidor remot compatible.

Com començar: sistema operatiu, llibreries i estructura del projecte

Per maximitzar recursos, molts creadors recomanen Raspbian (Raspberry Pi OS) a la seva variant Lite, que redueix serveis i memòria de base. Des d'aquí, instal·la les llibreries de veu, TTS i orquestració que necessitaràs; amb Python és senzill aixecar un prototip funcional i escalable amb mòduls ben separats.

Una recepta de arrencada habitual inclou:

  1. Instal·lar Raspberry Pi OS Lite i aplicar actualitzacions del sistema.
  2. Configurar àudio (micròfons i altaveu), càmera si escau, i provar amb arecord/aplay.
  3. Instal·lar paquets com SpeechRecognition (si utilitzaràs serveis cloud) o VOSK/PocketSphinx per a offline, i pyttsx3 per a TTS local.
  4. Escollir el backend de LLM: local amb Ollama i models petits, o remot compatible.
  5. Codificar el bucle principal a Python: escolta, transcriu, interpreta (NLP) i executa accions.

A la capa de NLP, pots començar amb intents senzills i regles, i anar incorporant LLM conforme avenços. Per a l'execució d'ordres, definiu adaptadors per dispositiu o servei (per exemple, llums, climatització, recordatoris), de manera que l'assistent mantingui un nucli net i extensible.

Connectivitat i orquestració: tot encaixa amb bona xarxa

La Pi compta amb Wi‑Fi 5 i Bluetooth 5.0/BLE, així que pot parlar amb bombetes, altaveus i sensors sense cables. Quan intervenen serveis externs o diverses màquines, un teixit de xarxa privat com Meshnet de NordVPN simplifica que la Pi “vegi” un servidor de models fora de casa sense exposar ports al món, mantenint control i seguretat.

Si desplegueu l'assistent en diferents entorns, considereu contenidors per als components d'inferència o pipelins multimèdia. Una estructura amb serveis separats (ASR, TTS, LLM, orquestrador) et permetrà escalar peces i moure càrregues a un altre node amb impacte mínim a la resta del sistema.

Seguretat: bones pràctiques i vulnerabilitats a vigilar

Un assistent sempre escolta l'entorn i parla amb altres dispositius, per la qual cosa la ciberseguretat és crítica. Comença per mantenir el sistema i llibreries al dia per mitigar exploits coneguts, i activa xifrat a totes les comunicacions entre dispositius; separar la xarxa IoT de la resta de la casa és una mesura barata i efectiva.

Val la pena revisar avisos sobre IoT i middleware, i prendre nota de vulnerabilitats públiques com CVE-2021-22945 o CVE-2021-22946 entre d'altres, que serveixen com a recordatori d'auditar dependències i aplicar pegats ràpids. L'objectiu és que el teu assistent sigui útil sense esdevenir un vector de risc.

Integració amb càmera i visió per ordinador

Si el teu assistent incorpora càmera, la Pi 5 es porta bé amb libcamera i rpicam-apps; a més, picamera2 facilita l'accés programàtic a fluxos de vídeo. Amb Hailo‑8L, tasques com detecció d'objectes o reconeixement facial guanyen velocitat i eficiència, permetent escenaris de control d'accés o domòtica sensible al context.

Un enfocament habitual és mantenir la visió a la Pi i delegar al LLM la interpretació d'alt nivell (“si reconeixes X, pregunta'm si obro la porta”). En compartir només metadades o resultats, no imatges crues, millores privadesa i reduïx el ample de banda necessari.

Exemples pràctics que funcionen

– ASRAI a Pi 4: microfonia de la PlayStation Eye (4 micròfons), pantalla GPIO de 3,5 polzades, VOSK local, LLM remot via Ollama i connectivitat a qualsevol part amb Meshnet. Requereix impressió 3D i una mica de soldadura, però el resultat és un assistent àgil i discret.

– Pi 5 “tot en un”: wake word amb VOSK, transcripció amb faster-whisper i inferència local amb Qwen3:1.7by Gemma3:1b. La clau és loptimització i capar la mida dels models per mantenir latències raonables; el repositori associat és una guia viva per ajustar el teu projecte.

– Pi 5 amb AI Kit: reconeixement facial per a accés, reacció contextual amb models de visió accelerats i un LLM lleuger per a la conversa; drivers Hailo, HailoRT i HailoTappas instal·lables per apt i compatibilitat amb libcamera i picamera2 integrats en el propi Raspberry Pi OS.

Bones pràctiques de desenvolupament i manteniment

Estructura el codi en mòduls: captura d'àudio, ASR, NLP, execució, TTS i, si escau, visió. Afegeix logs útils i una manera depuració per traçar colls d'ampolla. Automatitza proves bàsiques (per exemple, intents predefinits) per no trencar regressions en afegir noves funcions.

A la part de maquinari, cuida l'alimentació i la ventilació, sobretot si hi afegeixes una NPU o treballes amb càrregues intenses. Un bon dissipador i un flux dʻaire decent eviten thermal throttling i mantenen estable lʻexperiència de conversa contínua.

Comunitat i normes: comparteix bé els teus projectes

Si publicaràs el teu assistent en comunitats de Raspberry Pi, recorda que es valora explicar com ho has fet, no només mostrar el resultat. Evita el correu brossa i qualsevol comportament abusiu, i per descomptat res de pràctiques insegures amb electricitat; a més d'aprendre més, mantindràs un entorn saludable i útil per a tothom.

Quan compartiu, documenteu maquinari, passos clau, dependències, configuracions d'àudio i models utilitzats. Això ajuda altres a reproduir la teva feina ja que et donin feedback de qualitat; a la llarga, aquesta col·laboració accelera el teu projecte més que qualsevol truc aïllat.

Què esperar en rendiment i com decidir la teva arquitectura

– Si busques privadesa i control total, aposta per ASR i TTS locals, i un LLM compacte a la Pi 5 o servit per Ollama a la teva xarxa privada amb Meshnet. Així operes “edge‑first” i mantenes les dades de veu sota el teu sostre.

– Si necessites respostes més riques i no et fa res sortir al núvol, el LLM remot buida el coll d'ampolla. La Pi queda com a cervell orquestrador que controla sensors i actuadors i gestiona la sessió de veu amb latència assumible.

– Si el vostre assistent ha de “veure”, l'AI Kit amb Hailo‑8L és l'opció guanyadora: 13 TOPS per a visió lleugera a la vora, drivers per apt i ecosistema suportat per Raspberry Pi OS. Si combines això amb un LLM mitjà fora de la Pi, tindràs una experiència rodona i equilibrada.

– Si optes per un full-local, escull models ajustats (Qwen3:1.7b, Gemma3:1b o altres equivalents) i cuida la ruta d'àudio; l'ús de faster‑whisper per a transcripció i VOSK per a wake word ja ha provat ser un camí viable a Pi 5 amb 16 GB.

Al final, muntar un assistent d'IA amb Raspberry Pi combina peces que ja són a l'abast: maquinari barat com la PlayStation Eye reciclada, programari com VOSK o faster-whisper, endpoints compatibles amb OpenAI via Ollama i, si ho necessites, l'ajuda extra de Hailo-8L a la Pi 5. Amb atenció a la seguretat (actualitza a un assistent funcional que respon bé al saló oa l'oficina.