DeepSeek
DeepSeek (Shēndù Qiúsuǒ en chino, Búsqueda Profunda en español) es una aplicación de chatbot de inteligencia artificial lanzado el 10 de enero de 2025 por la empresa china DeepSeek, que se especializa en el diálogo
El chatbot es un modelo de lenguaje ajustado con técnicas de aprendizaje tanto supervisadas como de refuerzo
Está compuesto por los modelos DeepSeek LLM, DeepSeek-V2, DeepSeek-V3, y DeepSeek-R1 de DeepSeek
Antecedentes
En febrero de 2016, High-Flyer fue cofundada por el entusiasta de la inteligencia artificial Liang Wenfeng, que había estado operando desde la crisis financiera de 2007-2008 mientras asistía a la Universidad de Zhejiang
En 2019, estableció High-Flyer como un fondo de cobertura centrado en el desarrollo y uso de algoritmos de negociación de IA
En 2021, High-Flyer utilizó exclusivamente IA en el comercio
Según estimaciones de 36Kr, Liang había acumulado un almacén de más de 10.000 chips Nvidia A100 antes de que el gobierno de Estados Unidos impusiera restricciones a los chips de IA en China
Dylan Patel, de la consultora de investigación de IA SemiAnalysis, estimó que DeepSeek tenía al menos 50.000 chips
En abril de 2023, High-Flyer puso en marcha un laboratorio de inteligencia artificial general dedicado a investigar el desarrollo de herramientas de IA independientes del negocio financiero de High-Flyer
En mayo de 2023, con High-Flyer como uno de los inversores, el laboratorio se convirtió en su propia empresa, DeepSeek
Las empresas de capital riesgo se mostraron reacias a proporcionar financiación, ya que era poco probable que pudieran generar una salida (retorno sobre la inversión) en un corto período de tiempo
Después de lanzar DeepSeek-V2 en mayo de 2024, que ofrecía un gran rendimiento a un precio bajo, DeepSeek se hizo conocido como el catalizador de la guerra de precios de los modelos de IA de China
Rápidamente se lo denominó el «Pinduoduo de la IA», y otros gigantes tecnológicos importantes como ByteDance, Tencent, Baidu y Alibaba comenzaron a reducir el precio de sus modelos de IA para competir con la empresa
A pesar del bajo precio cobrado por DeepSeek, fue rentable en comparación con sus rivales que estaban perdiendo dinero
Hasta el momento, DeepSeek se centra únicamente en la investigación y no tiene planes detallados de comercialización
Las preferencias de contratación de DeepSeek se centran en las habilidades técnicas más que en la experiencia laboral al reclutar nuevos empleados, por lo que la mayoría de sus nuevos empleados son estudiantes universitarios recientemente graduados o desarrolladores cuyas carreras en IA están menos establecidas
Versiones
DeepSeek LLM
El 2 de noviembre de 2023, DeepSeek presentó su primer modelo, DeepSeek Coder, que está disponible de forma gratuita tanto para investigadores como para usuarios comerciales
El código del modelo se hizo de código abierto bajo la licencia MIT, con un acuerdo de licencia adicional sobre el «uso posterior abierto y responsable» del modelo en sí
El 29 de noviembre de 2023, DeepSeek lanzó DeepSeek LLM, que se escaló hasta 67 000 millones de parámetros
Se desarrolló para competir con otros LLM disponibles en ese momento con un rendimiento cercano al de GPT-4
Sin embargo, enfrentó desafíos en términos de eficiencia computacional y escalabilidad
También se lanzó una versión de chatbot del modelo llamada DeepSeek Chat
DeepSeek-V2
En mayo de 2024 se lanzó DeepSeek-V2
El Financial Times informó que era más barato que sus pares con un precio de 2 RMB por cada millón de tokens de salida
La clasificación de Tiger Lab de la Universidad de Waterloo clasificó a DeepSeek-V2 en el séptimo lugar de su clasificación LLM
DeepSeek-V3
En diciembre de 2024 se lanzó DeepSeek-V3
Llegó con 671 mil millones de parámetros y se entrenó en alrededor de 55 días a un costo de 5,58 millones de dólares, utilizando significativamente menos recursos en comparación con sus pares
Se entrenó en un conjunto de datos de 14,8 billones de tokens
Las pruebas de referencia mostraron que superó a LLaMA 3.1 y Qwen 2.5 mientras que igualó a GPT-4o y Claude 3.5 Sonnet
La optimización de DeepSeek de recursos limitados destacó los límites potenciales de las sanciones estadounidenses al desarrollo de IA de China
Un artículo de opinión de The Hill describió el lanzamiento como la IA estadounidense llegando a su «momento Sputnik»
El modelo es una mezcla de expertos con Multi-head Latent Attention Transformer, que contiene 256 expertos enrutados y 1 experto compartido. Cada token activa 37 mil millones de parámetros y más
El 27 de enero de 2025, el asistente de inteligencia artificial de la startup china DeepSeek superó a ChatGPT como la aplicación gratuita mejor calificada en la App Store de EE. UU.
Ha provocado debates sobre la efectividad de las restricciones de exportación de EE. UU. sobre chips de inteligencia artificial avanzados a China
El modelo DeepSeek-V3, que utiliza los chips H800 de Nvidia, está ganando reconocimiento por su desempeño competitivo, desafiando el dominio global de los modelos de inteligencia artificial de EE. UU.
DeepSeek R1
En noviembre de 2024 se lanzó DeepSeek R1-Lite-Preview, que fue entrenado para inferencia lógica, razonamiento matemático y resolución de problemas en tiempo real
DeepSeek afirmó que superó el rendimiento de OpenAI o1 en puntos de referencia como American Invitational Mathematics Examination (AIME) y MATH
Sin embargo, The Wall Street Journal afirmó que cuando utilizó 15 problemas de la edición 2024 de AIME, el modelo o1 alcanzó una solución más rápido que DeepSeek R1-Lite-Preview
El 20 de enero de 2025 se lanzaron DeepSeek-R1 y DeepSeek-R1-Zero
Se basaron en V3-Base
Al igual que V3, cada uno es una mezcla de expertos con 671B de parámetros totales y 37B de parámetros activados
También lanzaron algunos modelos «DeepSeek-R1-Distill», que no se basan en R1
En cambio, son similares a otros modelos de peso abierto como LLaMA y Qwen, ajustados con datos sintéticos generados por R1
R1-Zero se entrenó exclusivamente mediante aprendizaje por refuerzo (RL), sin ningún aprendizaje supervisado (SFT)
Se entrenó utilizando optimización de política relativa de grupo (GRPO), que estima la línea de base a partir de las puntuaciones del grupo en lugar de utilizar un modelo crítico
El sistema de recompensa utilizado se basa en reglas y consta principalmente de dos tipos de recompensas: recompensas de precisión y recompensas de formato
Los resultados de R1-Zero no son muy legibles y cambian entre inglés y chino en los mismos, por lo que lo entrenaron para abordar estos problemas y mejorar aún más el razonamiento
Preocupaciones
Censura
Algunas fuentes han observado que la versión API oficial de R1 utiliza mecanismos de censura para temas que se consideran políticamente sensibles para el gobierno de la República Popular China
Por ejemplo, el modelo se niega a responder preguntas sobre las protestas de la plaza de Tiananmén de 1989, la persecución de los uigures o derechos humanos en la República Popular China
La IA puede generar inicialmente una respuesta, pero poco después la elimina y la reemplaza con un mensaje como:
Lo siento, eso está más allá de mi alcance actual. Hablemos de otra cosa
Los mecanismos de censura y restricciones integrados solo se pueden eliminar de forma limitada en la versión de código abierto del modelo R1
Si se tocan los valores socialistas fundamentales definidos por las autoridades reguladoras de Internet chinas o se plantea el estatus político de Taiwán, las discusiones se dan por terminadas
Cuando fue probado por NBC News, el R1 de DeepSeek describió a Taiwán como una parte inalienable del territorio de China y declaró:
Nos oponemos firmemente a cualquier forma de actividad separatista de independencia de Taiwán y estamos comprometidos a lograr la reunificación completa de la patria a través de medios pacíficos
Los investigadores occidentales pudieron en enero de 2025 engañar a DeepSeek para que diera respuestas precisas a algunos de estos temas adaptando la pregunta formulada
Seguridad y privacidad
También existe el temor de que el sistema de IA pueda utilizarse para operaciones de influencia extranjera, difusión de desinformación, vigilancia y desarrollo de armas cibernéticas para el gobierno de la República Popular China
Los términos y condiciones de privacidad de DeepSeek establecen lo siguiente:
Almacenamos la información que recopilamos en servidores seguros ubicados en la República Popular China… Podemos recopilar su entrada de texto o audio, indicaciones, archivos cargados, comentarios, historial de chat u otro contenido que proporcione a nuestro modelo y Servicios
Si bien la política de almacenamiento y recopilación de datos es coherente con la política de privacidad de ChatGPT, un artículo de prensa informa que esto representa un problema de seguridad
En respuesta, la autoridad de protección de datos italiana está buscando información adicional sobre la recopilación y el uso de datos personales por parte de DeepSeek y el Consejo de Seguridad Nacional de los Estados Unidos anunció que había iniciado una revisión de seguridad nacional
Sin embargo, cuando se utiliza DeepSeek AI localmente, los datos no se comparten públicamente
Usando DeepSeek
Creación de cuenta
Antes de poder usar DeepSeek es necesario tener una cuenta registrada en el sistema de DeepSeek
Para ello usaremos el siguiente enlace de registro
Introduciremos nuestro correo y una contraseña o usaremos nuestra cuenta de google
Iremos a nuestra cuenta de correo, que debe ser válida y real
Y confirmaremos el registro de la cuenta haciendo click en el email de verificación que nos enviarán
Seguiremos introduciendo el resto de datos de usuario que se nos solicite en el formulario
Y ya podemos empezar a usar el Chat de comandos promt de DeepSeek siempre que nos acreditemos con el usuario y contraseña de la cuenta que hemos creado
Instalación en local
Aparte del API oficial de DeepSeek, también podremos instalar el modelo de forma local en nuestro dispositivo, para ello utilizaremos el cliente para modelos de Inteligencia Artificial Ollama
Ollama
Ollama es un programa que puedes instalar en cualquier ordenador, tanto con sistema operativo Windows como con macOS o GNU/Linux
Se trata de un cliente de modelos de inteligencia artificial, por lo que es la base sobre la que luego instalar la IA que quieras utilizar
Ollama tiene dos particularidades
-
Permite usar una IA de forma local
Esto quiere decir que en vez de ir a la página de chat con inteligencia artificial de una empresa, el modelo está instalado en tu ordenador y lo utilizas directamente sin entrar en ninguna web
Eso nos favorece de las siguientes maneras:
- Los datos de todo lo que haces se quedan en tu PC, de forma que ninguna empresa los utiliza
- Puedes usas la IA sin conexión a internet
- Puedes saltarte censuras que tenga un modelo de inteligencia artificial que estás utilizando en una web
- Sin embargo, lo que no podrá es hacer búsquedas por internet para completar la información
-
Funciona a través de la terminal de tu ordenador (el símbolo de sistema en Windows, una shell en sistemas macOS o GNU/Linux)
Esto hace que no tengas que usar una aplicación aparte
Cuando instales Ollama, luego tendrás que usar la consola de tu dispositivo para instalar y ejecutar en ella el modelo que quieras, y las preguntas y los prompts los escribes en la consola, donde también obtendrás sus respuestas
Instalando Ollama en Windows
Es tan simple como acceder a su web y pulsar en el botón Download
Ahora, deberás elegir el Windows donde lo quieres instalar (la versión mínima es Windows 10)
Una vez elegido, pulsa en el botón Download
Por defecto la web mostrará el sistema que estás usando, pero podrás descargar el ejecutable de cualquier otro
Cuando lo descargues, lanza el programa de instalación
Instalar Ollama es muy sencillo, solo tienes que pulsar en el botón de siguiente en la pantalla de presentación, y luego pulsar en el botón Install en la pantalla de instalación
Una vez has instalado Ollama, lanza la aplicación
Verás que no pasa nada (como mucho aparece un icono en la barra de tareas), esto es porque tienes que abrir el terminal de tu ordenador (con permisos de administrador), que en Windows se llama símbolo de sistema
Ahora, antes de empezar tienes que ir a la web donde verás todos los modelos de IA disponibles
Como queremos usar DeepSeek ve a la web y te saldrán todos los enlaces disponibles de ese modelo
Elige bien en función de la capacidad de tu máquina en Gb de memoria y del espacio disponible de disco duro, usa la información del modelo para orientarte
Para hacer los ejemplos yo voy a utilizar deepseek-coder-v2, ya que mi máquina sólo dispone de 12 Gb de Ram y el modelo ocupa 8.9 GB en el disco duro
Una vez elegido, busca en la información del modelo una pestañita a la derecha que tiene un botón que permite copiar el texto, ya que lo usaremos en el símbolo del sistema
En mi caso:
Y simplemente lo pego en el simbolo del sistema y espero a que el modelo DeepSeek se instale (sólo la primera vez) y que el cursor se ponga en modo promp, respondiendonos por primera vez el modelo
La próxima vez que uses el modelo, deberás pegar el comando otra vez, pero tardará menos en responder porque ya estará instalado
Instalando Ollama en Android
Antes de empezar, nuestro dispositivo Android necesita cumplir los siguientes prerrequisitos:
- Al menos 4.5 GB RAM
- Una conexión a Internet estable para descargar el modelo Termux, Ollama y DeepSeek
- Android >= 7
Además de Ollama, vamos a utilizar el emulador de terminal Termux
Para instalarlo deberemos ir a la página web de desarrollo de Termux y elegir la última versión estable APK para tu versión de Android
También se puede encontrar en la PlayStore, pero puede que la última versión estable no coincida o sea más antigua que la que puede encontrar en la página web de desarrollo de Termux
Instalamos el archivo APK en nuestro dispositivo Android
Abrimos Termux para acceder al terminal
Una vez dentro del terminal necesitamos conceder a Termux acceso al almacenamiento del dispositivo
Para ello ejecutaremos:
Para tener Termux y los paquetes que dependen de él actualizados ejecutaremos:
Esperamos a que finalice el proceso de actualización
Ahora instalaremos Ollama ejecutando el siguiente comando:
Ahora iniciaremos Ollama con el siguiente comando:
Ahora, antes de empezar tienes que ir a la web donde verás todos los modelos de IA disponibles
Como queremos usar DeepSeek ve a la web y te saldrán todos los enlaces disponibles de ese modelo
Elige bien en función de la capacidad de tu máquina en Gb de memoria y del espacio disponible de disco duro, usa la información del modelo para orientarte
Para hacer los ejemplos yo voy a utilizar deepseek-coder-v2, ya que mi máquina sólo dispone de 12 Gb de Ram y el modelo ocupa 8.9 GB en el disco duro
Una vez elegido, busca en la información del modelo una pestañita a la derecha que tiene un botón que permite copiar el texto, ya que lo usaremos en el símbolo del sistema
En mi caso:
Y simplemente lo pego en el simbolo del sistema y espero a que el modelo DeepSeek se instale (sólo la primera vez) y que el cursor se ponga en modo promp, respondiendonos por primera vez el modelo
La próxima vez que uses el modelo, deberás pegar el comando otra vez, pero tardará menos en responder porque ya estará instalado
Privacidad
Hay que tener especial cuidado cuando usamos DeepSeek
Por defecto nuestras conversaciones se almacenan en un historial y se pueden usar para seguir entrenando a DeepSeek
Si no queremos que nuestros datos se usen para entrenar, hay una opción en la configuración de nuestra cuenta para desactivar el uso de nuestros datos para entrenar a DeepSeek (y el historial de conversaciones)
PROMP
DeepSeek está entrenado para seguir y ejecutar las instrucciones que nosotros le proporcionemos
Nuestras instrucciones, se denominan prompts
Pueden ser tan simples o complejas como queramos, y pueden incluir información adicional
Por ejemplo, un texto de ejemplo, una imagen, un enlace a una página web…
Podemos «hablar» con DeepSeek de forma interactiva
Por ejemplo, pedirle que complete o corrija sobre su respuesta previa
Eso significa que podemos preguntarle algo, y a continuación hacer referencia bien a nuestra pregunta anterior, bien a su respuesta:
Le pedimos que lo haga un poco más serio
PROMPS Efectivos
DeepSeek es bastante literal interpretando nuestras instrucciones, así que conviene que le demos toda la información necesaria para que complete sus tareas según nuestras expectativas
En general, un buen prompt debe incluir:
- Rol: para DeepSeek (experto en…, asistente de…)
- Contexto: la situación relativa al texto que tenemos que generar
- Instrucciones/tareas: Lo que necesitamos que DeepSeek haga por nosotros
- Formato/estilo: si queremos una carta formal, estilo más moderno, agresivo… o si necesitamos que la respuesta esté formateada en JSON por ejemplo
Incluso se le puede pedir al propio DeepSeek para que te de más consejos
Normalmente los prompts están en inglés, pero recuerda que le puedes pedirle a DeepSeek que te los traduzca a tu idioma
Ejemplos
Cuento de hadas
Vamos a pedirle que Escriba un cuento de hadas con final feliz
Le Pedimos que modifique el final del cuento por uno más triste
Le pedimos que genere una moraleja para la historia
Por último le pedimos que genere la historia pero con Hansel y Gretel, encontrándose con un dragón y que un hada madrina les da un consejo para vencerlo
Carta
Vamos a simular que somos un empleado de la Dirección General de Obras Públicas utilizando DeepSeek para ayudarle en su día a día
Le pedimos que genere una carta para informar a un usuario de que se va a realizar una canalización que pasará por su finca
Le pedimos que genere una segunda carta informando al usuario de que se ha desestimado su solicitud de paralización de la obra
Qué puede hacer
Hay muchas cosas que DeepSeek puede hacer muy bien, basta con pedírselas
A continuación os presentamos algunos ejemplos de aplicaciones:
Tareas creativas
- Generar historias de ficción
- Generar documentación técnica (si le proporcionamos suficiente información)
- Textos para propuestas de proyectos
- Informes
- Cartas
- Brainstorming: Nombres de producto, títulos de obras…
Formación
- Crear resúmenes de textos
- Generar actividades, ejercicios tipo test
- Planificar clases
- Generar temarios
- Código
Proofreading
- Revisar textos para corregir gramática y ortografía
- Cambiar el estilo:
- En función de la audiencia (para un estudiante de secundaria, para un científico…)
- En función del rol de DeepSeek («habla con el estilo y vocabulario de un profesor de literatura universitario/de un estudiante de secundaria…»)
Traducción
- DeepSeek ha sido entrenado con un corpus que incluye un gran número de lenguajes y podemos pedirle que traduzca desde/hacia ellos
Conviene que después de hacer una traducción, le pidamos a DeepSeek que revise el texto, corrija traducciones literales y ajuste el estilo y lenguaje a nuestra audiencia
- También conoce un gran número de lenguajes de programación y podemos pedirle que transforme código de un lenguaje a otro
- También podemos pedirle que transforme formatos de ficheros (por ejemplo, datos de formato csv a json)
Código
- Generación de código siguiendo instrucciones
Podemos especificar si necesitamos anotaciones de tipos (por ejemplo en Python) o tests unitarios
- Validación de código
- Explicación de funciones
- Refactoring: utilizando otra biblioteca, cambiando nombres de variables…
Razonamientos
Podemos plantear problemas, retos y cuestiones complejas a DeepSeek partiendo de supuestos y hechos bien especificados
Para su resolución se pueden realizar las siguientes técnicas de promting:
- IO (Direct Input/Output): planteamos un problema y solicitamos la respuesta
- IO con refinamiento: planteamos un problema, solicitamos la respuesta y le pedimos que la mejore
- CoT (Chain of Thoughts): planteamos un problema y le pedimos que nos explique cómo ha llegado a la solución paso a paso
- CoT-SC (Chain of Thoughts – Self Consistency): Aplicamos Chain Of Thoughts varias veces y seleccionamos la respuesta más consistente (la que se repite más veces)
- Tree-of-thoughts: generamos un prompt que permita a ChatGPT explorar distintas vías de pensamiento de forma crítica, hasta encontrar una solución satisfactoria
En el siguiente enlace se pueden encontrar estas técnicas con más detalles sobre ellas y también algunas técnicas más complejas
IO (Direct Input/Output)
Es el método más básico, consiste en preguntarle a DeepSeek directamente por la respuesta a nuestro problema
Funciona correctamente con cuestiones sencillas, pero fallará en problemas complejos
Aunque con los últimos entrenamientos DeepSeek ha aprendido a razonar por pasos aunque no se lo pidamos explícitamente, y en muchas ocasiones generará la respuesta correcta sin necesidad de ayuda adicional
IO con refinamiento
Un método que proporciona buenos resultados: le pedimos a DeepSeek que nos responda a nuestro problema
Y a continuación en prompts sucesivos le pedimos a DeepSeek que revise y mejore su respuesta
CoT (Chain of Thoughts)
Podemos pedirle explícitamente a DeepSeek que razone sobre cada etapa del proceso, o mostrarle un ejemplo con ese razonamiento para que él lo repita
CoT-SC (Chain of Thoughts – Self Consistency)
Realizaremos un razonamiento con Chain-of-thought varias veces, y a continuación seleccionaremos la respuesta más repetida (la más consistente entre las distintas ejecuciones)
Tree-of-thoughts
Generamos un prompt que permita a DeepSeek explorar distintas vías de pensamiento de forma crítica, hasta encontrar una solución satisfactoria
Limitaciones
Pero es importante conocerlas para evitar «sorpresas» al utilizar DeepSeek
Proporcionar respuestas complejas si no le damos tiempo para razonar
Si le pedimos a DeepSeek que nos responda a una pregunta compleja, DeepSeek intentará realizarla en pequeños pasos
La salida de cada paso le sirve de apoyo para el razonamiento siguiente, y mejora mucho sus resultados
Por ejemplo le pedimos:
Ahora se lo pedimos dejándole «pensar»:
Cuando le hemos dejado «pensar», el resultado ha sido mucho mejor
Operaciones matemáticas complejas
Los resultados nos los devolverá utilizando el lenguaje de etiquetas LaTeX
Por ejemplo, multiplicar números de más de 3 cifras
La respuesta de DeepSeek normalmente se aproximará al valor correcto (en este caso 553,254), pero no será exacta
Por ejemplo, operaciones con raíces cuadradas grandes
La solución se aproximará al valor correcto (en este caso 44.988887516807970076138159027823), pero no será exacta
En operaciones aritméticas aparentemente sencillas, empezaremos a ver efectos con números relativamente grandes
Por ejemplo, seguramente obtengamos la respuesta correcta para el valor de 3 elevado al cubo pero no para 333 elevado al cubo
Una vez que nos ha dado una respuesta, si no le corregimos dará ese resultado por bueno, y es bastante probable que DeepSeek lo reutilice en respuestas posteriores sobre la misma operación
Ofrecer o verificar información factual
Cuándo le preguntamos un dato factual, no tiene por qué respondernos con la realidad
Aunque afirme lo contrario, tampoco puede verificar si el dato es veraz o no con certitud
Tampoco puede darnos la fuente de sus datos (no es algo soportado por el algoritmo)
Por ejemplo vamos a preguntarle por el monumento ecuestre a Espartero, pero queremos información del de Logroño, ya que hay varios en España
Le insistimos que queremos el de Logroño
Nos ha respondido que no hay, cuando si que existe, este es un caso de alucinación
Aunque nos ha dado de forma educada, información útil sobre la ciudad y sus monumentos
Le pedimos educadamente que nos enumere si hay más en España
Acceso a información actualizada
El corpus de entrenamiento varia con el tiempo, pero es estático en un momento dado
Vamos a probar a preguntarle con fecha 18 de abril de 2025, cuándo falleció Akira Toriyama
En la fecha de 18 de abril de 2025, no ha podido responderme cuando falleció Akira Toriyama (que ha sido el 1 de marzo de 2024 con 68 años)
De hecho considera que todavía está vivo, pero muy amablemente me habla de su carrera profesional
Saber a qué fecha y hora estamos
DeepSeek presenta un comportamiento errático en este sentido, a veces contesta, a veces dice que no tiene esa información, y en ocasiones nos da una fecha errónea
Vamos a probar a preguntarle con fecha 18 de abril de 2025, qué hora es
Acceso a información sobre el propio DeepSeek
DeepSeek no conoce su versión actual, el valor de sus parámetros de configuración, etc
Al igual que con los datos factuales, en ocasiones DeepSeek nos puede contestar como si conociese la respuesta, pero no podemos confiar en que sea cierto