DeepSeek

DeepSeek

DeepSeek (Shēndù Qiúsuǒ en chino, Búsqueda Profunda en español) es una aplicación de chatbot de inteligencia artificial lanzado el 10 de enero de 2025 por la empresa china DeepSeek, que se especializa en el diálogo

El chatbot es un modelo de lenguaje ajustado con técnicas de aprendizaje tanto supervisadas como de refuerzo

Está compuesto por los modelos DeepSeek LLM, DeepSeek-V2, DeepSeek-V3, y DeepSeek-R1 de DeepSeek

Antecedentes

En febrero de 2016, High-Flyer fue cofundada por el entusiasta de la inteligencia artificial Liang Wenfeng, que había estado operando desde la crisis financiera de 2007-2008 mientras asistía a la Universidad de Zhejiang

En 2019, estableció High-Flyer como un fondo de cobertura centrado en el desarrollo y uso de algoritmos de negociación de IA

En 2021, High-Flyer utilizó exclusivamente IA en el comercio​

Según estimaciones de 36Kr, Liang había acumulado un almacén de más de 10.000 chips Nvidia A100 antes de que el gobierno de Estados Unidos impusiera restricciones a los chips de IA en China

Dylan Patel, de la consultora de investigación de IA SemiAnalysis, estimó que DeepSeek tenía al menos 50.000 chips​

En abril de 2023, High-Flyer puso en marcha un laboratorio de inteligencia artificial general dedicado a investigar el desarrollo de herramientas de IA independientes del negocio financiero de High-Flyer

En mayo de 2023, con High-Flyer como uno de los inversores, el laboratorio se convirtió en su propia empresa, DeepSeek

Las empresas de capital riesgo se mostraron reacias a proporcionar financiación, ya que era poco probable que pudieran generar una salida (retorno sobre la inversión) en un corto período de tiempo

Después de lanzar DeepSeek-V2 en mayo de 2024, que ofrecía un gran rendimiento a un precio bajo, DeepSeek se hizo conocido como el catalizador de la guerra de precios de los modelos de IA de China

Rápidamente se lo denominó el «Pinduoduo de la IA», y otros gigantes tecnológicos importantes como ByteDance, Tencent, Baidu y Alibaba comenzaron a reducir el precio de sus modelos de IA para competir con la empresa

A pesar del bajo precio cobrado por DeepSeek, fue rentable en comparación con sus rivales que estaban perdiendo dinero

Hasta el momento, DeepSeek se centra únicamente en la investigación y no tiene planes detallados de comercialización

Las preferencias de contratación de DeepSeek se centran en las habilidades técnicas más que en la experiencia laboral al reclutar nuevos empleados, por lo que la mayoría de sus nuevos empleados son estudiantes universitarios recientemente graduados o desarrolladores cuyas carreras en IA están menos establecidas

Versiones

DeepSeek LLM

El 2 de noviembre de 2023, DeepSeek presentó su primer modelo, DeepSeek Coder, que está disponible de forma gratuita tanto para investigadores como para usuarios comerciales

El código del modelo se hizo de código abierto bajo la licencia MIT, con un acuerdo de licencia adicional sobre el «uso posterior abierto y responsable» del modelo en sí​

El 29 de noviembre de 2023, DeepSeek lanzó DeepSeek LLM, que se escaló hasta 67 000 millones de parámetros

Se desarrolló para competir con otros LLM disponibles en ese momento con un rendimiento cercano al de GPT-4

Sin embargo, enfrentó desafíos en términos de eficiencia computacional y escalabilidad

También se lanzó una versión de chatbot del modelo llamada DeepSeek Chat

DeepSeek-V2

En mayo de 2024 se lanzó DeepSeek-V2

El Financial Times informó que era más barato que sus pares con un precio de 2 RMB por cada millón de tokens de salida

La clasificación de Tiger Lab de la Universidad de Waterloo clasificó a DeepSeek-V2 en el séptimo lugar de su clasificación LLM

DeepSeek-V3

En diciembre de 2024 se lanzó DeepSeek-V3

Llegó con 671 mil millones de parámetros y se entrenó en alrededor de 55 días a un costo de 5,58 millones de dólares, utilizando significativamente menos recursos en comparación con sus pares

Se entrenó en un conjunto de datos de 14,8 billones de tokens

Las pruebas de referencia mostraron que superó a LLaMA 3.1 y Qwen 2.5 mientras que igualó a GPT-4o y Claude 3.5 Sonnet

La optimización de DeepSeek de recursos limitados destacó los límites potenciales de las sanciones estadounidenses al desarrollo de IA de China

Un artículo de opinión de The Hill describió el lanzamiento como la IA estadounidense llegando a su «momento Sputnik»​

El modelo es una mezcla de expertos con Multi-head Latent Attention Transformer, que contiene 256 expertos enrutados y 1 experto compartido. Cada token activa 37 mil millones de parámetros y más

El 27 de enero de 2025, el asistente de inteligencia artificial de la startup china DeepSeek superó a ChatGPT como la aplicación gratuita mejor calificada en la App Store de EE. UU.

Ha provocado debates sobre la efectividad de las restricciones de exportación de EE. UU. sobre chips de inteligencia artificial avanzados a China

El modelo DeepSeek-V3, que utiliza los chips H800 de Nvidia, está ganando reconocimiento por su desempeño competitivo, desafiando el dominio global de los modelos de inteligencia artificial de EE. UU.

DeepSeek R1

En noviembre de 2024 se lanzó DeepSeek R1-Lite-Preview, que fue entrenado para inferencia lógica, razonamiento matemático y resolución de problemas en tiempo real

DeepSeek afirmó que superó el rendimiento de OpenAI o1 en puntos de referencia como American Invitational Mathematics Examination (AIME) y MATH

Sin embargo, The Wall Street Journal afirmó que cuando utilizó 15 problemas de la edición 2024 de AIME, el modelo o1 alcanzó una solución más rápido que DeepSeek R1-Lite-Preview

El 20 de enero de 2025 se lanzaron DeepSeek-R1 y DeepSeek-R1-Zero

Se basaron en V3-Base

Al igual que V3, cada uno es una mezcla de expertos con 671B de parámetros totales y 37B de parámetros activados

También lanzaron algunos modelos «DeepSeek-R1-Distill», que no se basan en R1

En cambio, son similares a otros modelos de peso abierto como LLaMA y Qwen, ajustados con datos sintéticos generados por R1

R1-Zero se entrenó exclusivamente mediante aprendizaje por refuerzo (RL), sin ningún aprendizaje supervisado (SFT)

Se entrenó utilizando optimización de política relativa de grupo (GRPO), que estima la línea de base a partir de las puntuaciones del grupo en lugar de utilizar un modelo crítico

El sistema de recompensa utilizado se basa en reglas y consta principalmente de dos tipos de recompensas: recompensas de precisión y recompensas de formato

Los resultados de R1-Zero no son muy legibles y cambian entre inglés y chino en los mismos, por lo que lo entrenaron para abordar estos problemas y mejorar aún más el razonamiento

Preocupaciones

Censura

Algunas fuentes han observado que la versión API oficial de R1 utiliza mecanismos de censura para temas que se consideran políticamente sensibles para el gobierno de la República Popular China

Por ejemplo, el modelo se niega a responder preguntas sobre las protestas de la plaza de Tiananmén de 1989, la persecución de los uigures o derechos humanos en la República Popular China

La IA puede generar inicialmente una respuesta, pero poco después la elimina y la reemplaza con un mensaje como:

Lo siento, eso está más allá de mi alcance actual. Hablemos de otra cosa

Los mecanismos de censura y restricciones integrados solo se pueden eliminar de forma limitada en la versión de código abierto del modelo R1

Si se tocan los valores socialistas fundamentales definidos por las autoridades reguladoras de Internet chinas o se plantea el estatus político de Taiwán, las discusiones se dan por terminadas

Cuando fue probado por NBC News, el R1 de DeepSeek describió a Taiwán como una parte inalienable del territorio de China y declaró:

Nos oponemos firmemente a cualquier forma de actividad separatista de independencia de Taiwán y estamos comprometidos a lograr la reunificación completa de la patria a través de medios pacíficos

Los investigadores occidentales pudieron en enero de 2025 engañar a DeepSeek para que diera respuestas precisas a algunos de estos temas adaptando la pregunta formulada

Seguridad y privacidad

También existe el temor de que el sistema de IA pueda utilizarse para operaciones de influencia extranjera, difusión de desinformación, vigilancia y desarrollo de armas cibernéticas para el gobierno de la República Popular China

Los términos y condiciones de privacidad de DeepSeek establecen lo siguiente:

Almacenamos la información que recopilamos en servidores seguros ubicados en la República Popular China… Podemos recopilar su entrada de texto o audio, indicaciones, archivos cargados, comentarios, historial de chat u otro contenido que proporcione a nuestro modelo y Servicios

Si bien la política de almacenamiento y recopilación de datos es coherente con la política de privacidad de ChatGPT, un artículo de prensa informa que esto representa un problema de seguridad

En respuesta, la autoridad de protección de datos italiana está buscando información adicional sobre la recopilación y el uso de datos personales por parte de DeepSeek y el Consejo de Seguridad Nacional de los Estados Unidos anunció que había iniciado una revisión de seguridad nacional

Sin embargo, cuando se utiliza DeepSeek AI localmente, los datos no se comparten públicamente

Usando DeepSeek

Creación de cuenta

Antes de poder usar DeepSeek es necesario tener una cuenta registrada en el sistema de DeepSeek

Para ello usaremos el siguiente enlace de registro

Introduciremos nuestro correo y una contraseña o usaremos nuestra cuenta de google

Iremos a nuestra cuenta de correo, que debe ser válida y real

Y confirmaremos el registro de la cuenta haciendo click en el email de verificación que nos enviarán

Seguiremos introduciendo el resto de datos de usuario que se nos solicite en el formulario

Y ya podemos empezar a usar el Chat de comandos promt de DeepSeek siempre que nos acreditemos con el usuario y contraseña de la cuenta que hemos creado

Instalación en local

Aparte del API oficial de DeepSeek, también podremos instalar el modelo de forma local en nuestro dispositivo, para ello utilizaremos el cliente para modelos de Inteligencia Artificial Ollama

Ollama

Ollama es un programa que puedes instalar en cualquier ordenador, tanto con sistema operativo Windows como con macOS o GNU/Linux

Se trata de un cliente de modelos de inteligencia artificial, por lo que es la base sobre la que luego instalar la IA que quieras utilizar

Ollama tiene dos particularidades

  • Permite usar una IA de forma local

    Esto quiere decir que en vez de ir a la página de chat con inteligencia artificial de una empresa, el modelo está instalado en tu ordenador y lo utilizas directamente sin entrar en ninguna web

    Eso nos favorece de las siguientes maneras:

    • Los datos de todo lo que haces se quedan en tu PC, de forma que ninguna empresa los utiliza

    • Puedes usas la IA sin conexión a internet
    • Puedes saltarte censuras que tenga un modelo de inteligencia artificial que estás utilizando en una web
    • Sin embargo, lo que no podrá es hacer búsquedas por internet para completar la información
  • Funciona a través de la terminal de tu ordenador (el símbolo de sistema en Windows, una shell en sistemas macOS o GNU/Linux)

    Esto hace que no tengas que usar una aplicación aparte

    Cuando instales Ollama, luego tendrás que usar la consola de tu dispositivo para instalar y ejecutar en ella el modelo que quieras, y las preguntas y los prompts los escribes en la consola, donde también obtendrás sus respuestas

Instalando Ollama en Windows

Es tan simple como acceder a su web y pulsar en el botón Download

Ahora, deberás elegir el Windows donde lo quieres instalar (la versión mínima es Windows 10)

Una vez elegido, pulsa en el botón Download

Por defecto la web mostrará el sistema que estás usando, pero podrás descargar el ejecutable de cualquier otro

Cuando lo descargues, lanza el programa de instalación

Instalar Ollama es muy sencillo, solo tienes que pulsar en el botón de siguiente en la pantalla de presentación, y luego pulsar en el botón Install en la pantalla de instalación

Una vez has instalado Ollama, lanza la aplicación

Verás que no pasa nada (como mucho aparece un icono en la barra de tareas), esto es porque tienes que abrir el terminal de tu ordenador (con permisos de administrador), que en Windows se llama símbolo de sistema

Ahora, antes de empezar tienes que ir a la web donde verás todos los modelos de IA disponibles

Como queremos usar DeepSeek ve a la web y te saldrán todos los enlaces disponibles de ese modelo

Elige bien en función de la capacidad de tu máquina en Gb de memoria y del espacio disponible de disco duro, usa la información del modelo para orientarte

Para hacer los ejemplos yo voy a utilizar deepseek-coder-v2, ya que mi máquina sólo dispone de 12 Gb de Ram y el modelo ocupa 8.9 GB en el disco duro

Una vez elegido, busca en la información del modelo una pestañita a la derecha que tiene un botón que permite copiar el texto, ya que lo usaremos en el símbolo del sistema

En mi caso:

Y simplemente lo pego en el simbolo del sistema y espero a que el modelo DeepSeek se instale (sólo la primera vez) y que el cursor se ponga en modo promp, respondiendonos por primera vez el modelo

La próxima vez que uses el modelo, deberás pegar el comando otra vez, pero tardará menos en responder porque ya estará instalado

Instalando Ollama en Android

Antes de empezar, nuestro dispositivo Android necesita cumplir los siguientes prerrequisitos:

  • Al menos 4.5 GB RAM
  • Una conexión a Internet estable para descargar el modelo Termux, Ollama y DeepSeek
  • Android >= 7

Además de Ollama, vamos a utilizar el emulador de terminal Termux

Para instalarlo deberemos ir a la página web de desarrollo de Termux y elegir la última versión estable APK para tu versión de Android

También se puede encontrar en la PlayStore, pero puede que la última versión estable no coincida o sea más antigua que la que puede encontrar en la página web de desarrollo de Termux

Instalamos el archivo APK en nuestro dispositivo Android

Abrimos Termux para acceder al terminal

Una vez dentro del terminal necesitamos conceder a Termux acceso al almacenamiento del dispositivo

Para ello ejecutaremos:

Para tener Termux y los paquetes que dependen de él actualizados ejecutaremos:

Esperamos a que finalice el proceso de actualización

Ahora instalaremos Ollama ejecutando el siguiente comando:

Ahora iniciaremos Ollama con el siguiente comando:

Ahora, antes de empezar tienes que ir a la web donde verás todos los modelos de IA disponibles

Como queremos usar DeepSeek ve a la web y te saldrán todos los enlaces disponibles de ese modelo

Elige bien en función de la capacidad de tu máquina en Gb de memoria y del espacio disponible de disco duro, usa la información del modelo para orientarte

Para hacer los ejemplos yo voy a utilizar deepseek-coder-v2, ya que mi máquina sólo dispone de 12 Gb de Ram y el modelo ocupa 8.9 GB en el disco duro

Una vez elegido, busca en la información del modelo una pestañita a la derecha que tiene un botón que permite copiar el texto, ya que lo usaremos en el símbolo del sistema

En mi caso:

Y simplemente lo pego en el simbolo del sistema y espero a que el modelo DeepSeek se instale (sólo la primera vez) y que el cursor se ponga en modo promp, respondiendonos por primera vez el modelo

La próxima vez que uses el modelo, deberás pegar el comando otra vez, pero tardará menos en responder porque ya estará instalado

Privacidad

Hay que tener especial cuidado cuando usamos DeepSeek

Por defecto nuestras conversaciones se almacenan en un historial y se pueden usar para seguir entrenando a DeepSeek

Si no queremos que nuestros datos se usen para entrenar, hay una opción en la configuración de nuestra cuenta para desactivar el uso de nuestros datos para entrenar a DeepSeek (y el historial de conversaciones)

PROMP

DeepSeek está entrenado para seguir y ejecutar las instrucciones que nosotros le proporcionemos

Nuestras instrucciones, se denominan prompts

Pueden ser tan simples o complejas como queramos, y pueden incluir información adicional

Por ejemplo, un texto de ejemplo, una imagen, un enlace a una página web…

Podemos «hablar» con DeepSeek de forma interactiva

Por ejemplo, pedirle que complete o corrija sobre su respuesta previa

Eso significa que podemos preguntarle algo, y a continuación hacer referencia bien a nuestra pregunta anterior, bien a su respuesta:

Le pedimos que lo haga un poco más serio

PROMPS Efectivos

DeepSeek es bastante literal interpretando nuestras instrucciones, así que conviene que le demos toda la información necesaria para que complete sus tareas según nuestras expectativas

En general, un buen prompt debe incluir:

  1. Rol: para DeepSeek (experto en…, asistente de…)
  2. Contexto: la situación relativa al texto que tenemos que generar
  3. Instrucciones/tareas: Lo que necesitamos que DeepSeek haga por nosotros
  4. Formato/estilo: si queremos una carta formal, estilo más moderno, agresivo… o si necesitamos que la respuesta esté formateada en JSON por ejemplo

Incluso se le puede pedir al propio DeepSeek para que te de más consejos

Normalmente los prompts están en inglés, pero recuerda que le puedes pedirle a DeepSeek que te los traduzca a tu idioma

Ejemplos

Cuento de hadas

Vamos a pedirle que Escriba un cuento de hadas con final feliz

Le Pedimos que modifique el final del cuento por uno más triste

Le pedimos que genere una moraleja para la historia

Por último le pedimos que genere la historia pero con Hansel y Gretel, encontrándose con un dragón y que un hada madrina les da un consejo para vencerlo

Carta

Vamos a simular que somos un empleado de la Dirección General de Obras Públicas utilizando DeepSeek para ayudarle en su día a día

Le pedimos que genere una carta para informar a un usuario de que se va a realizar una canalización que pasará por su finca

Le pedimos que genere una segunda carta informando al usuario de que se ha desestimado su solicitud de paralización de la obra

Qué puede hacer

Hay muchas cosas que DeepSeek puede hacer muy bien, basta con pedírselas

A continuación os presentamos algunos ejemplos de aplicaciones:

Tareas creativas

  • Generar historias de ficción
  • Generar documentación técnica (si le proporcionamos suficiente información)
  • Textos para propuestas de proyectos
  • Informes
  • Cartas
  • Brainstorming: Nombres de producto, títulos de obras…

Formación

  • Crear resúmenes de textos
  • Generar actividades, ejercicios tipo test
  • Planificar clases
  • Generar temarios
  • Código

Proofreading

  • Revisar textos para corregir gramática y ortografía
  • Cambiar el estilo:
    • En función de la audiencia (para un estudiante de secundaria, para un científico…)
    • En función del rol de DeepSeek («habla con el estilo y vocabulario de un profesor de literatura universitario/de un estudiante de secundaria…»)

Traducción

  • DeepSeek ha sido entrenado con un corpus que incluye un gran número de lenguajes y podemos pedirle que traduzca desde/hacia ellos

    Conviene que después de hacer una traducción, le pidamos a DeepSeek que revise el texto, corrija traducciones literales y ajuste el estilo y lenguaje a nuestra audiencia

  • También conoce un gran número de lenguajes de programación y podemos pedirle que transforme código de un lenguaje a otro
  • También podemos pedirle que transforme formatos de ficheros (por ejemplo, datos de formato csv a json)

Código

  • Generación de código siguiendo instrucciones

    Podemos especificar si necesitamos anotaciones de tipos (por ejemplo en Python) o tests unitarios

  • Validación de código
  • Explicación de funciones
  • Refactoring: utilizando otra biblioteca, cambiando nombres de variables…

Razonamientos

Podemos plantear problemas, retos y cuestiones complejas a DeepSeek partiendo de supuestos y hechos bien especificados

Para su resolución se pueden realizar las siguientes técnicas de promting:

En el siguiente enlace se pueden encontrar estas técnicas con más detalles sobre ellas y también algunas técnicas más complejas

IO (Direct Input/Output)

Es el método más básico, consiste en preguntarle a DeepSeek directamente por la respuesta a nuestro problema

Funciona correctamente con cuestiones sencillas, pero fallará en problemas complejos

Aunque con los últimos entrenamientos DeepSeek ha aprendido a razonar por pasos aunque no se lo pidamos explícitamente, y en muchas ocasiones generará la respuesta correcta sin necesidad de ayuda adicional

IO con refinamiento

Un método que proporciona buenos resultados: le pedimos a DeepSeek que nos responda a nuestro problema

Y a continuación en prompts sucesivos le pedimos a DeepSeek que revise y mejore su respuesta

CoT (Chain of Thoughts)

Podemos pedirle explícitamente a DeepSeek que razone sobre cada etapa del proceso, o mostrarle un ejemplo con ese razonamiento para que él lo repita

CoT-SC (Chain of Thoughts – Self Consistency)

Realizaremos un razonamiento con Chain-of-thought varias veces, y a continuación seleccionaremos la respuesta más repetida (la más consistente entre las distintas ejecuciones)

Tree-of-thoughts

Generamos un prompt que permita a DeepSeek explorar distintas vías de pensamiento de forma crítica, hasta encontrar una solución satisfactoria

Limitaciones

Pero es importante conocerlas para evitar «sorpresas» al utilizar DeepSeek

Proporcionar respuestas complejas si no le damos tiempo para razonar

Si le pedimos a DeepSeek que nos responda a una pregunta compleja, DeepSeek intentará realizarla en pequeños pasos

La salida de cada paso le sirve de apoyo para el razonamiento siguiente, y mejora mucho sus resultados

Por ejemplo le pedimos:

Ahora se lo pedimos dejándole «pensar»:

Cuando le hemos dejado «pensar», el resultado ha sido mucho mejor

Operaciones matemáticas complejas

Los resultados nos los devolverá utilizando el lenguaje de etiquetas LaTeX

Por ejemplo, multiplicar números de más de 3 cifras

La respuesta de DeepSeek normalmente se aproximará al valor correcto (en este caso 553,254), pero no será exacta

Por ejemplo, operaciones con raíces cuadradas grandes

La solución se aproximará al valor correcto (en este caso 44.988887516807970076138159027823), pero no será exacta

En operaciones aritméticas aparentemente sencillas, empezaremos a ver efectos con números relativamente grandes

Por ejemplo, seguramente obtengamos la respuesta correcta para el valor de 3 elevado al cubo pero no para 333 elevado al cubo

Una vez que nos ha dado una respuesta, si no le corregimos dará ese resultado por bueno, y es bastante probable que DeepSeek lo reutilice en respuestas posteriores sobre la misma operación

Ofrecer o verificar información factual

Cuándo le preguntamos un dato factual, no tiene por qué respondernos con la realidad

Aunque afirme lo contrario, tampoco puede verificar si el dato es veraz o no con certitud

Tampoco puede darnos la fuente de sus datos (no es algo soportado por el algoritmo)

Por ejemplo vamos a preguntarle por el monumento ecuestre a Espartero, pero queremos información del de Logroño, ya que hay varios en España

Le insistimos que queremos el de Logroño

Nos ha respondido que no hay, cuando si que existe, este es un caso de alucinación

Aunque nos ha dado de forma educada, información útil sobre la ciudad y sus monumentos

Le pedimos educadamente que nos enumere si hay más en España

Acceso a información actualizada

El corpus de entrenamiento varia con el tiempo, pero es estático en un momento dado

Vamos a probar a preguntarle con fecha 18 de abril de 2025, cuándo falleció Akira Toriyama

En la fecha de 18 de abril de 2025, no ha podido responderme cuando falleció Akira Toriyama (que ha sido el 1 de marzo de 2024 con 68 años)

De hecho considera que todavía está vivo, pero muy amablemente me habla de su carrera profesional

Saber a qué fecha y hora estamos

DeepSeek presenta un comportamiento errático en este sentido, a veces contesta, a veces dice que no tiene esa información, y en ocasiones nos da una fecha errónea

Vamos a probar a preguntarle con fecha 18 de abril de 2025, qué hora es

Acceso a información sobre el propio DeepSeek

DeepSeek no conoce su versión actual, el valor de sus parámetros de configuración, etc

Al igual que con los datos factuales, en ocasiones DeepSeek nos puede contestar como si conociese la respuesta, pero no podemos confiar en que sea cierto