Lo que no te contaron de DEEPSEEK: La IA China

Metatube

GVGmall 25% Cupón para ➞ NG20 Windows 11 Pro Key (€21): https://biitt.ly/NG11 Windows 10 Pro Key (€14): https://biitt.ly/NG10 Windows10home Key(€13):https://biitt.ly/NG10H Windows11home Key(€19):https://biitt.ly/NG11H Office 2016 Pro Key(€25): https://biitt.ly/NG2016 Compre la CLAVE OEM GLOBAL de MS Win 11 Pro en: https://www.gvgmall.com/  Mi libro ENTIENDE LA TECNOLOGÍA ➞ https://amzn.to/3Z2dcrP  Aprende todo sobre TECNOLOGÍA: 👨‍🎓 MASTERMIND ➞ https://mastermind.ac  Series de este canal: 🖥️ Montaje PCs ➞ https://bit.ly/30OCj3M 💾 Divulgación Informática ➞ https://bit.ly/3nx4Ch2 ⚙️ Videos de Hardware ➞ https://bit.ly/3nxTGzE 🧰 PC Modding ➞ https://bit.ly/34DeY6o ⌨️ Guías Teclados Mecánicos ➞ https://bit.ly/2Gxz7Tz 🖱️ Guías Mouse de Gaming ➞ https://bit.ly/3nGFRzh 💻 Portátiles ➞ https://bit.ly/3jFUxvX 🎧 Auriculares para jugar ➞ https://bit.ly/3iL1jzg 👁️‍🗨️ Retro PC ➞ https://bit.ly/2GFq1Ec ⚗️ Nate Labs ➞ https://bit.ly/30P6Grc  Redes Sociales: 📷 Instagram ➞ https://instagram.com/nategentile7 🐦 Twitter ➞ https://twitter.com/nategentile7 🔴 Twitch ➞ https://twitch.tv/nategentile7

Transcript

00:00Liang Weifeng era un estudiante de ingeniería en la universidad de Shenyang, en China.

00:04La ingeniería era algo que le apasionaba, pero en sus años de estudiante se dio cuenta de que si realmente quería hacer dinero tenía que

00:10empezar a explorar otros temas. Ahí fue donde se empezó a interesar por las finanzas y formó un grupo de estudiantes dentro de su universidad

00:16para hablar y aprender sobre mercados financieros, la bolsa.

00:19Aplicando los conocimientos de ingeniería a la bolsa empezó a hacer sus primeras inmersiones en el mundo del

00:25Quant Trading. El Quant Trading es cuando la acción de comprar y vender activos las hace un ordenador, o sea, en lugar de tener a una

00:31persona que está ahí comprando y vendiendo acciones a mano, tenemos un modelo matemático, tenemos un ordenador con un software

00:37que está ahí haciendo análisis de todos los datos y decidiendo cuándo hay que comprar y cuándo hay que vender. No es el típico bot

00:42de bolsa que te deja el link de descarga a tu youtuber de inversiones favorito, sino que estamos hablando de modelos matemáticos

00:47avanzados. Pero la idea de Liang iba más allá de simplemente hacer un bot de bolsa. Su idea era usar Machine Learning,

00:54aprendizaje automático, para poder tomar las decisiones, y dedicó gran parte de sus años universitarios a todo esto. Tanto es así que en

01:002016, tras terminar la universidad, funda Hi Flyer, una firma de inversión 100% basada en decisiones de compra

01:08automatizadas por ordenador. Y con los años se convirtió en la firma top 4 de China, manejando activos por 8.000 millones de dólares.

01:15Vamos, que mal no le fue. Pero uno de sus sueños desde el principio era usar inteligencia artificial

01:20aplicada a los mercados financieros.

01:21Tener una inteligencia artificial que fuese capaz de determinar con mucha precisión

01:25cuándo comprar y cuándo vender. El tema de la inteligencia artificial era tan interesante para Liang que en 2021 compró miles de tarjetas gráficas

01:33de Nvidia. Muchos lo vieron como un millonario excéntrico que compraba juguetes para quitarse el gusanillo de jugar con tecnologías que, de momento, no tenían

01:40ningún uso fuera de un proyecto universitario, y otros sabían que lo que se venía iba a ser una revolución.

01:45Dos años más tarde, el 17 de julio de 2023, funda la empresa

01:50Hanzhou DeepSeek Artificial Intelligence Basic Technology Research Corporation Limited,

01:56también conocida como DeepSeek. Una empresa con menos de 200 empleados que, a finales de 2024, lanzó un modelo de inteligencia artificial

02:03que hizo temblar a toda la industria tecnológica, la bolsa e incluso puso nerviosos a más de un gobierno.

02:10¿De qué iba este lanzamiento? Bueno, pues seguramente lo hayas visto en las noticias.

02:13DeepSeek es un modelo de inteligencia artificial creado con un presupuesto

02:16supuestamente bastante bajo y que aún así es mejor que algunos de los mejores modelos creados por las mejores empresas de Estados Unidos en

02:23algunos aspectos. ¿Pero por qué DeepSeek ha causado tanto revuelo? ¿Qué tiene de especial que una empresa china haya desarrollado un modelo así?

02:29Bueno, pues lo más probable es que leyendo las noticias no te hayas enterado de nada, porque a mí también me ha pasado, así que hoy te

02:35voy a contar exactamente y sin tonterías ni clickbaits, qué tiene de especial DeepSeek y por qué ha puesto el mundo patas arriba.

02:41Pero antes de continuar, un mensaje de nuestro sponsor.

02:44GVGMORE es tu tienda de claves de software de confianza, donde puedes encontrar, entre otras cosas, claves de Windows originales para Windows 10, Home,

02:51Professional y Windows 11, que de hecho es donde yo las suelo comprar para mí mismo. Estas claves son bastante más

02:56económicas que las que vende Microsoft, porque son claves OM, o sea, están pensadas para fabricantes de ordenadores que compran el por mayor

03:02para meter a sus distintos equipos y es perfectamente legal revenderlas, por mucho que Microsoft no le guste demasiado.

03:08Así que, pequeño hack para conseguir Windows original sin necesidad de instalar un crack en tu ordenador.

03:13Abajo te dejaré los enlaces para que puedas ir a la web a comprar las claves, pero no sólo eso, sino que también te dejaré un

03:19pequeño código de descuento para que puedas ahorrar algunos euros. Gracias a GVGMORE por patrocinar este vídeo y ahora sigamos con el contenido de hoy.

03:25Hay dos puntos muy importantes que tenemos que aclarar sobre DeepSeek. El primero es que es una empresa fundada con el capital de HiFlyer.

03:31HiFlyer es esta firma de Quant Trading que tiene Liang, que funda Liang al salir de la uni.

03:36Liang usó dinero de su firma de inversión para crear esta empresa, por lo que realmente, si bien el gobierno de China es verdad que está

03:42incentivando la inteligencia artificial,

03:44está incentivando la inteligencia artificial,

03:46está incentivando la inteligencia artificial,

03:48está incentivando la inteligencia artificial,

03:50está incentivando la inteligencia artificial,

03:52está incentivando la inteligencia artificial,

03:54está incentivando la inteligencia artificial,

03:56está incentivando la inteligencia artificial,

03:58está incentivando la inteligencia artificial,

04:00está incentivando la inteligencia artificial,

04:02está incentivando la inteligencia artificial,

04:04está incentivando la inteligencia artificial,

04:06está incentivando la inteligencia artificial,

04:08está incentivando la inteligencia artificial,

04:10está incentivando la inteligencia artificial,

04:12está incentivando la inteligencia artificial,

04:14está incentivando la inteligencia artificial,

04:16está incentivando la inteligencia artificial,

04:18está incentivando la inteligencia artificial,

04:20está incentivando la inteligencia artificial,

04:22está incentivando la inteligencia artificial,

04:24está incentivando la inteligencia artificial,

04:26está incentivando la inteligencia artificial,

04:28está incentivando la inteligencia artificial,

04:30está incentivando la inteligencia artificial,

04:32está incentivando la inteligencia artificial,

04:34está incentivando la inteligencia artificial,

04:36está incentivando la inteligencia artificial,

04:38está incentivando la inteligencia artificial,

04:40está incentivando la inteligencia artificial,

04:42está incentivando la inteligencia artificial,

04:44está incentivando la inteligencia artificial,

04:46está incentivando la inteligencia artificial,

04:48está incentivando la inteligencia artificial,

04:50está incentivando la inteligencia artificial,

04:52está incentivando la inteligencia artificial,

04:54está incentivando la inteligencia artificial,

04:56está incentivando la inteligencia artificial,

04:58está incentivando la inteligencia artificial,

05:00está incentivando la inteligencia artificial,

05:02está incentivando la inteligencia artificial,

05:04está incentivando la inteligencia artificial,

05:06está incentivando la inteligencia artificial,

05:08está incentivando la inteligencia artificial,

05:10está incentivando la inteligencia artificial,

05:12está incentivando la inteligencia artificial,

05:14está incentivando la inteligencia artificial,

05:16DeepSeek v3 ahora mismo es mejor

05:18que los mejores que teníamos hasta la fecha,

05:20superando a CLOT 3.5 y a GPT 4.0.

05:22superando a CLOT 3.5 y a GPT 4.0.

05:24Podemos ver aquí en la web oficial de DeepSeek

05:26que es mejor en pruebas de rendimiento como

05:28MMLU Redux, que incluye pruebas de

05:30conocimiento general, razonamiento lógico

05:32y comprensión avanzada en múltiples temas

05:34como matemáticas, historia, ciencias y más.

05:36Tenemos también, por ejemplo,

05:38AdDrop, que es

05:40Discrete Reasoning Over Paragraphs,

05:42que mide la capacidad de razonamiento sobre textos largos,

05:44donde las respuestas a veces requieren cálculos,

05:46combinaciones de datos o razonamientos lógicos.

05:48Otro ejemplo de prueba es

05:50Either Polyglot, que evalúa la capacidad del modelo

05:52para trabajar con múltiples lenguajes de programación,

05:54entendiendo y ejecutando tareas con distintas

05:56sintaxis. Bueno, pues esto para hacernos una idea

05:58lo que nos dice es que en algunas de estas pruebas

06:00no solo es muy parecido al retimiento

06:02que tienen otros modelos muy avanzados como el de

06:04ChatGPT, sino que en algunos es incluso

06:06mejor. Y esto es impresionante,

06:08porque en general no es tan fácil

06:10crear un modelo que sea tan bueno. O sea,

06:12pocas empresas en el mundo entero lo han conseguido.

06:14Y ese es el primer motivo por el que

06:16DeepSeek es tan impresionante. Pero,

06:18no se termina ahí. El segundo punto

06:20interesante es que las tarifas para usar este modelo

06:22son bastante más baratas que la competencia.

06:24La web para chatear con DeepSeek,

06:26la típica web rollo ChatGPT, bueno pues

06:28esto es incluso gratis como ChatGPT,

06:30pero la forma en la que realmente ganan

06:32dinero estas empresas es a través de la API.

06:34La API es la Application Programming

06:36Interface. Esto básicamente,

06:38en cristiano, es una forma de conectar

06:40sistemas entre ellos. Imagínate que tienes una app

06:42como por ejemplo, yo que sé, una app de fitness,

06:44de entrenamiento personal, y quieres que esta app

06:46tenga inteligencia artificial. Por ejemplo,

06:48pues un chat con un entrenador personal, que en realidad

06:50es una IA, y te dice recomendaciones,

06:52te dice cómo vas con los ejercicios,

06:54etc. Bueno, pues para esta empresa

06:56que tienes tú de aplicaciones de deporte,

06:58programar y ejecutar inteligencia artificial

07:00al nivel de ChatGPT, o Gemini,

07:02o DeepSeek, no está al alcance de tu mano.

07:04¿Vale? Es algo muy complejo.

07:06Que necesita mucho dinero de inversión y

07:08muchos servidores para poder ejecutar toda esa inteligencia.

07:10Así que tu mejor opción

07:12es conectar tu aplicación con una

07:14de estas inteligencias artificiales que ya

07:16existen. Y ese es el servicio que ellos proporcionan.

07:18Ellos tienen las inteligencias artificiales

07:20instaladas y ejecutadas en un centro

07:22de datos, de OpenAI, de Google,

07:24de lo que sea. Ellos pagan sus servidores,

07:26pagan la luz, pagan todo, y lo ejecutan ahí.

07:28Y tú lo que puedes hacer es que tu aplicación

07:30hable con esos servidores. ¿Y cómo

07:32se conectan? Bueno, pues utilizando esta API.

07:34La API lo que hace es que tu aplicación

07:36pueda interactuar directamente con una de estas

07:38inteligencias artificiales. Es una vía

07:40de comunicación entre dos aplicaciones.

07:42La app de deporte le daría una serie de datos tuyos,

07:44prompts, el historial de entrenamientos,

07:46datos biométricos, un montón de cosas, más tus

07:48consultas, y ChatGPT, o lo que

07:50tenga detrás, generaría una respuesta

07:52que sería, pues, válida para la aplicación en cuestión.

07:54O sea, que simularía a este entrenador personal.

07:56Bueno, pues usar esta API tiene un precio,

07:58evidentemente, no es gratis. ¿Vale? Y el precio

08:00se mide por token. Cada token es más o menos

08:02una palabra generada, un poquito menos.

08:04Bueno, explicamos esto en el vídeo sobre cómo funciona ChatGPT.

08:06Cuantas más palabras genera la IA, más

08:08se cobra al dueño de la aplicación. Este

08:10es uno de los modelos de negocio más

08:12importantes que existe en este tipo de servicios.

08:14¿No? Como ChatGPT, etc. ¿Vale?

08:16Se supone que es uno de los principales motores

08:18que va a hacer que toda esta industria funcione.

08:20Y que todos también podamos tener IA. Tanto es así

08:22que Apple, incluso este año, conectaría

08:24a Siri con ChatGPT para que

08:26pueda dar, por fin, respuestas inteligentes.

08:28A ver si es verdad. Mientras que los tokens

08:30de salida de ChatGPT cuestan 10 dólares

08:32por el millón de tokens en su modelo

08:34GPT 4.0, el estándar, digamos,

08:36DeepSeek con V3 cuesta

08:381,1 dólares por millón de

08:40tokens. Unas 10 veces

08:42más barato que ChatGPT. Pero no se termina

08:44ahí. ¿Vale? Esto no es lo más impactante.

08:46Mirad, estos modelos de IA, como

08:48decíamos antes, necesitan de super

08:50ordenadores con muchísimas gráficas

08:52para poder ejecutarse en centros de datos

08:54con millones de inversión. ¿Vale? Que sería

08:56algo muy difícil de tener en tu casa, o

08:58incluso en tu empresa, o que es algo en lo que

09:00quizás no te interesa invertir, ¿no? Por todos los

09:02costes que tiene de infraestructura, personal, etc.

09:04Por eso ChatGPT se ejecuta

09:06en los servidores de OpenAI. Ahora,

09:08si tú te quieres descargar ChatGPT,

09:10el modelo, ¿vale?, y correrlo en tus propios

09:12super ordenadores, tampoco

09:14podrías, porque OpenAI no te

09:16deja descargarlo, no te lo libera. Hay algunos

09:18modelos que sí te lo permiten, como por ejemplo Lama

09:20de Mark Zuckerberg y Meta, que de hecho

09:22es uno de los mejores para esto, y hay muchas versiones,

09:24incluso alguno que lo puedes correr en un portátil,

09:26o incluso otros que necesitan un centro

09:28de datos entero para ejecutarlo. Pero

09:30los mejores modelos del mundo rara vez

09:32te los puedes descargar y ejecutarlos en tu infraestructura,

09:34¿no? O sea, ChatGPT o Gemini de Google

09:36solo los puedes usar en los servidores

09:38de cada una de estas empresas. Y bueno, esto es

09:40algo que para la industria es normal. O sea,

09:42¿te imaginas que GPT fuese libre y

09:44gratis y te lo pudieras bajar y te lo ejecutases

09:46en tu servidor? O sea, le montarías literalmente la competencia

09:48de ChatGPT. Podrías modificarlo, hacer

09:50tu propia versión, tenerlo corriendo en tus servidores

09:52para tu empresa sin pagar nada más que la electricidad,

09:54sin tener que pagar el precio de la API

09:56y todas estas cosas. Bueno, pues

09:58agárrate, porque resulta que DeepSeek ha

10:00liberado de forma open source y totalmente

10:02gratuita su modelo DeepSeek

10:04V3 y R1. O sea, literalmente

10:06te los puedes bajar y ejecutarlos

10:08en tu centro de datos. Eso sí, para el modelo más

10:10grande de DeepSeek R1, por ejemplo, que tiene

10:12671 miles de millones de parámetros,

10:14necesitarías unas 16 gráficas

10:16A100 de NVIDIA, que tienen

10:18unos 80 GB de memoria cada una,

10:20sumando en total 1280

10:22GB de memoria. Montarte esto

10:24te costaría algo así como medio millón

10:26de dólares, pero bueno, podrías ejecutar DeepSeek

10:28R1 con todo su potencial.

10:30Y esto es una amenaza bastante

10:32grande contra la industria americana de la

10:34inteligencia artificial. No solo tenemos un modelo

10:36mucho más barato de usar, sino que te lo puedes

10:38bajar y usarlo por tu cuenta, incluso

10:40personalizarlo. ¿Y qué tal está funcionando

10:42a nivel de descargas? O sea, hay mucha gente que se lo está

10:44descargando. Bueno, pues la primera semana de lanzamiento

10:46ha tenido más de un millón de descargas.

10:48Esto no es gente que se haya bajado la app en el móvil

10:50o que se haya registrado en la web y haya hablado

10:52con la IA, ¿vale? Esto es gente

10:54que se ha bajado el modelo entero para

10:56ejecutarlo por su cuenta y probarlo.

10:58O sea, son gente ya técnica avanzada

11:00que tiene la infraestructura para poder hacerlo.

11:02En resumen, es una IA igual o

11:04mejor que ChatGPT, aunque ya veremos que tiene

11:06diferencias, no es tampoco igual ni mejor

11:08en todo, con la que puedes interactuar

11:10de forma más barata e incluso te la

11:12puedes descargar y ejecutarla tú mismo,

11:14cosa que con ChatGPT no puedes hacer.

11:16Esto por sí solo ya ha sido bastante

11:18revuelo dentro de la industria, pero no

11:20es todo. DeepSeek tiene algunas otras cosas que son

11:22muy impresionantes. Una de las cosas de las que más

11:24se habla es de que DeepSeek fue increíblemente

11:26barato de entrenar. Pero no solo

11:28de entrenar, sino que además es barato de ejecutar.

11:30No solo se hizo el entrenamiento con una cantidad de gráficas

11:32bastante pequeña y en un tiempo sorprendentemente

11:34corto, sino que también cuando

11:36hicieron R1, el modelo que razona,

11:38también gastaron muy poco dinero

11:40respecto a lo que la gente se esperaría, ¿no?

11:42En crear un modelo de ese tipo. Pero luego,

11:44es que además los propios costes de operación,

11:46o sea, lo que les cuesta correr ese modelo en el día a día

11:48y la cantidad de gráficas que se

11:50necesitan, es mucho menos de lo que estamos acostumbrados

11:52en otros modelos de inteligencia artificial

11:54parecidos. ¿Cómo hicieron esto? Bueno, pues

11:56con una serie de mejoras técnicas, evoluciones

11:58y optimizaciones, que son las que

12:00permiten que sea súper eficiente.

12:02El primer gran punto de DeepSeek es la

12:04arquitectura que tiene detrás.

12:06Los modelos a los que estamos acostumbrados,

12:08como Yama o GPT, se basan en una red

12:10neuronal generalista, que se entrena con

12:12un montón de conocimiento de todo tipo para

12:14generar texto sobre cualquier cosa, o cualquier

12:16área de conocimiento. ChazGPT sí que es verdad

12:18que, por ejemplo, tiene módulos que le ayudan a buscar

12:20cosas en Google, que le ayudan a hacer cálculos

12:22matemáticos, pero bueno, en general, cuando

12:24generan palabras, lo que tenemos es un

12:26gran cerebro que procesa cada uno de los

12:28prompts que pone el usuario. DeepSeek,

12:30por otra parte, se basa en una arquitectura que se llama

12:32Mixture of Experts, que se podría

12:34traducir como mezcla de expertos.

12:36Aquí la idea es que en lugar de tener un gran

12:38modelo que se ejecuta de forma completa

12:40cada vez que vamos a procesar el prompt que escribe

12:42el usuario, tenemos como varios modelos más

12:44pequeñitos que están especializados en distintos

12:46temas. Esto no es una idea original de

12:48DeepSeek, ¿vale? No se les ocurrió a ellos, sino que

12:50ya se implementó, por ejemplo, en un proyecto de Google

12:52que se llama GShard, o en el modelo Mixtral,

12:54e incluso viene de un paper de 2017,

12:56¿vale? No es una cosa nueva. Y es una forma de

12:58escalar modelos grandes, o sea, hacerlos más

13:00grandes. Llega un momento que al final, si quieres que una red

13:02neuronal sepa tantas cosas, la mejor

13:04manera es dividir este cerebro en varios

13:06cerebros expertos, como haríamos en la vida

13:08real, ¿no? O sea, si quisiéramos trabajar con muchos temas

13:10distintos, montaríamos un grupo de expertos

13:12en lugar de una sola persona que lo sabe

13:14todo. Bueno, pues resulta que DeepSeek, como os decía,

13:16está hecho de un montón de expertos distintos, un montón

13:18de redes, pero muchísimas, ¿vale?

13:20Entonces, lo que tenemos delante es un enrutador.

13:22El enrutador es el que va a elegir

13:24quién se encarga de resolver esa cuestión,

13:26¿vale? Entonces nosotros escribimos un prompt,

13:28le damos a Enter, el mensaje le llega a este enrutador,

13:30el enrutador se encarga de analizarlo

13:32y le pone una puntuación a cada uno

13:34de los expertos. Esa puntuación, básicamente, lo

13:36que dice es qué tan relacionada está la pregunta

13:38con el área de conocimiento que tiene, pues, ese

13:40experto en concreto, ¿no? Y en base a eso elige

13:42cuál es el mejor experto para contestar una pregunta

13:44en concreto. Normalmente es más de una red.

13:46Y aquí te preguntarás, ¿vale? Tenemos distintos expertos,

13:48¿cómo se decide en qué

13:50es experta cada red? ¿Quién lo decide esto?

13:52Bueno, pues, durante el entrenamiento del modelo,

13:54recordad siempre que tenemos como dos fases, una

13:56en la que el modelo aprende y otra en la que

13:58modelo aplica los conocimientos, ¿vale? El

14:00entrenamiento es donde está aprendiendo, pues, todo, ¿no?

14:02De cero. Pues durante el entrenamiento tenemos una red

14:04que va catalogando los distintos

14:06textos de los que está aprendiendo el modelo

14:08y le va diciendo, pues, mira, este es de un tema, este es de otro,

14:10este es de otro más. Y de esa manera, pues, de alguna forma, va

14:12agrupando los textos por temas distintos

14:14de forma totalmente automática, sin intervención humana

14:16y le va pasando esto a distintas redes.

14:18Y de esa manera va diciendo, pues, mira, tú te vas a encargar

14:20de todos los textos relacionados con esto, tú te vas a

14:22encargar de todos los textos relacionados con esto otro.

14:24De esa forma, por ejemplo, podemos tener un

14:26experto que sabe mucho de bioquímica, otro que

14:28sabe de política, otro de literatura,

14:30otro que sabe hablar como un niño pequeño, otro

14:32que sabe mucho de animales y, bueno, sería

14:34un poco esa la idea. Realmente las divisiones de

14:36conocimiento no son tan obvias, no son tan

14:38simples de entender, pero bueno, es para que

14:40nos hagamos una idea. Esto tiene un efecto brutal,

14:42¿vale? Porque estamos haciendo funcionar

14:44solo una parte concreta del modelo para contestar

14:46a temas muy concretos, en lugar de todo

14:48el modelo al mismo tiempo. En modelos muy grandes

14:50como GPT, cuando se generan palabras, se usa

14:52todo el modelo a la vez. Y dentro de todo

14:54ese modelo, pues, hay alguna parte que influye

14:56en la respuesta, que hace cosas, y otras, pues,

14:58no influyen porque directamente no se activan.

15:00Pero aún así, estamos usando todo el cerebro

15:02a la vez y eso necesita mucha

15:04potencia. Con el Mixture of Experts

15:06se selecciona de forma mucho más específica,

15:08¿no? Lo que se va a usar en concreto.

15:10Es como tener un cerebro que se usa todo el tiempo al

15:12100%, o que solo usa, pues, unas

15:14partes concretas para hacer tareas concretas.

15:16Y eso realmente lo que hace es ahorrar mucha energía

15:18al sistema, por lo cual necesitamos menos

15:20gráficas para ejecutar el modelo. Pero

15:22aquí realmente el gran mérito que tiene DeepSeek,

15:24porque ya os dije antes que no lo inventaron ellos esto,

15:26¿vale? Es que la arquitectura Mixture of

15:28Experts es muy difícil de implementar, o sea,

15:30es muy difícil que funcione bien. Nadie

15:32hasta ahora había conseguido hacer un buen modelo con este

15:34sistema, y ellos lo consiguieron haciendo que

15:36el modelo tenga, primero que nada, muchos más expertos

15:38de lo normal, de lo que se había usado hasta ahora,

15:40y además asegurándose que cada

15:42uno de los expertos no tenga conocimiento

15:44repetido con otros. Además de que

15:46cuando se detecta que hay conocimientos que son como

15:48intermedios entre varios temas, pues hay

15:50expertos especiales que son mixtos,

15:52¿vale? Que saben como distintos temas a la vez,

15:54y de esa forma, pues, pueden complementar el conocimiento de uno

15:56con otro. Y estos expertos mixtos

15:58siempre se activan a cada interacción.

16:00Y por eso mismo, un pequeño detalle, ¿vale?

16:02En la web de DeepSeek, cuando vamos a ver cuántos

16:04parámetros tiene el modelo, ellos dicen que tiene

16:06671.000.000 de

16:08millones de parámetros. Estos parámetros es

16:10el total entre todos los expertos, pero sólo

16:1237.000.000 están activados.

16:14Y esto es porque cuando se ejecuta

16:16la red, sólo activa 37.000.000,

16:18¿vale? No activa más.

16:20Porque selecciona esos expertos

16:22que corresponden con esa cantidad de parámetros.

16:24Esto es muy interesante, la verdad, ¿eh? Y es

16:26eso, ¿no? Al final es optimización pura y dura.

16:28Ahora, otra optimización que hicieron,

16:30que esta es un poco más difícil de entender, fue

16:32entrenar el modelo con una precisión más

16:34baja de lo normal. En concreto, con FP8.

16:36Esto ya lo expliqué en mi vídeo

16:38sobre cómo mejoro mi empresa con inteligencia

16:40artificial, donde os hablo de que

16:42cada parámetro tiene una precisión concreta.

16:44Recordad que los parámetros en un modelo

16:46son las partes que se van ajustando

16:48durante el entrenamiento, ¿vale? Sería como

16:50si un modelo es un cerebro genérico,

16:52cuando lo entrenamos, hay una serie de

16:54parámetros que se van ajustando, que podéis imaginarlos

16:56como pequeñas manivelas, pequeños

16:58potenciómetros, que se van modificando

17:00para configurar el modelo para

17:02que dé el resultado que nosotros queremos. Bueno, pues

17:04estos parámetros tienen una precisión, que podéis

17:06imaginarla como, pues, el número de cifras

17:08que tenemos después de la coma. Como estamos en

17:10un ordenador, estos números se representan

17:12en binario, que también, si quieres entender esto,

17:14tengo un vídeo sobre cómo funciona el binario y las

17:16puertas lógicas, que es muy interesante. Bueno,

17:18pues, FP8, o Floating Point

17:208, es un formato de binario

17:22que te permite representar un número decimal,

17:24o sea, un número con coma, con una precisión de

17:268 cifras binarias. Este binario

17:28es distinto del que os he explicado en el canal, ¿vale?

17:30Es un binario especial, que tiene un trozo que representa

17:32el número, otro que representa el signo,

17:34si es positivo o negativo, y otro que representa

17:36dónde estaría esa coma, un poco como la

17:38anotación científica, ¿vale? Entonces, tenemos

17:40una serie de cifras binarias, y con esto tenemos que

17:42representar los números. Cuantas más cifras binarias

17:44tenemos, más ocupa este número en memoria,

17:46pero también más precisión tiene,

17:48o sea, más numeritos después de la coma vamos a tener.

17:50Cuantas menos cifras binarias tenemos, pues

17:52ocupa menos en memoria, pero a la vez el número

17:54es mucho menos preciso. Por ejemplo, si representásemos

17:56el número pi en FP32,

17:58tendríamos suficientes cifras como para

18:00tener el número 3,14,15,

18:029,27. En FP16

18:04podríamos tener la precisión para representar

18:06sólo el 3,14, y en

18:08FP8 probablemente 3,1.

18:10O sea, como podéis ver, es muy impreciso.

18:12Pero el número ocupa menos en memoria. ¿Qué significa

18:14esto para el modelo de inteligencia artificial?

18:16Bueno, pues si tenemos este potenciómetro,

18:18si el número es más pequeño, sería como tener

18:20menos opciones, ¿vale? Tiene como menos

18:22ajustes. Con FP32 tendríamos

18:24un montón de ajustes bastante finos, con FP16

18:26tendríamos menos, y con FP8

18:28pues menos aún. Entonces, ¿el modelo

18:30es menos preciso? Pues sí, es menos preciso,

18:32pero han encontrado la forma de que

18:34usando en ciertas partes FP32

18:36el modelo sigue siendo muy preciso

18:38y ocupa menos espacio en memoria, y

18:40además, el tiempo de entrenamiento es mucho más rápido.

18:42Esto se conoce como Mixed Precision

18:44Framework, o marco de trabajo de precisión

18:46mixta, porque tenemos distintas precisiones

18:48en distintas partes. Vamos, que han buscado recortar

18:50de donde se podía, tanto en memoria

18:52como en tiempo, pero afectando lo mínimo posible

18:54al resultado, lo que viene a ser optimizar,

18:56lo que no hacen en los juegos de hoy en día.

18:58Otras dos cosas que hace el modelo, que son un poquito más

19:00complicadas, ¿vale? Es que, primero que nada,

19:02en la capa de atención, tiene múltiples cabezas,

19:04por lo que puede prestar atención a varios términos

19:06a la vez, y analizar la frase desde

19:08distintos ángulos. Esto ya, para entenderlo mejor,

19:10tendrías que mirarte mi vídeo de cómo funciona el chat

19:12GPT, que ahí te lo explico de forma estupenda.

19:14Y la otra cosa, es que puede generar múltiples

19:16tokens a cada pasada, mientras

19:18que modelos como GPT van generando un token

19:20a la vez, pues éste haría una predicción múltiple.

19:22O sea, sacaría varios tokens de una sola

19:24tirada, y esto se ha visto que no da

19:26peores resultados, y además, es más eficiente.

19:28O sea, ayuda a que el modelo se ejecute más rápido

19:30y con menos energía. Entonces,

19:32por estas cuatro cosas, el mixture

19:34of experts, el usar FP8,

19:36la capa de atención con múltiples cabezas

19:38y la generación múltiple de tokens,

19:40DeepSeek es mucho más rápido y

19:42barato que la competencia. Y ahora bien,

19:44hasta este punto, no han inventado nada

19:46realmente nuevo, pero hay que entender

19:48que esto, en el ámbito de la inteligencia artificial,

19:50es completamente normal, ¿vale?

19:52Así es como está evolucionando la tecnología hoy en día.

19:54La inteligencia artificial se creó en el mundo

19:56académico, o sea, en el mundo de las universidades.

19:58O sea, se basa en proyectos de investigación

20:00de universidades. Todo este conocimiento,

20:02investigación y pruebas, son

20:04básicamente públicos. O sea,

20:06puedes leer sobre ellos en muchas publicaciones

20:08y te explican exactamente

20:10cómo funcionan. Muchas de las tecnologías

20:12que utilizan modelos de difusión, transformers,

20:14redes neuronales, todo esto viene de software

20:16de código abierto que los investigadores

20:18y los programadores comparten de forma totalmente

20:20gratuita. A ver, las empresas evidentemente

20:22se aprovechan de esto para crear luego sus

20:24tecnologías privadas, como por ejemplo Google,

20:26pero el caso más extremo sería

20:28el de OpenAI, que es una empresa

20:30que empezó con la idea de investigar y liberar

20:32el conocimiento de forma abierta, libre

20:34y gratuita. Vamos, que la empresa se llama

20:36OpenAI por algo. Y lo que pasa es

20:38que con el tiempo han desarrollado algunos

20:40modelos más avanzados del mundo, que

20:42hacen cosas que muy pocos otros en el mundo

20:44pueden hacer, y esto pues lo han privatizado

20:46y no lo comparten con nadie. O sea,

20:48los detalles de cómo funciona eso por dentro no lo sabe nadie.

20:50Pero realmente la tecnología

20:52que tiene detrás, todo el conocimiento de cómo

20:54conseguirlo, es algo que de alguna forma

20:56es público, ¿no? Es algo que puedes llegar a leer,

20:58que puedes llegar a implementar, y si eres lo suficientemente bueno

21:00puedes llegar a montar un modelo como ChatGPT

21:02en tu casa. Bueno, en tu casa no, pero ya me

21:04entiendes. De todos modos, que DeepSeeker haya conseguido

21:06esto es bastante impresionante.

21:08Pero no se termina ahí. El segundo punto

21:10impresionante que ha conseguido DeepSeeker es el modelo

21:12R1. Esto sí que está a otro

21:14nivel. R1 es un modelo que

21:16razona. Mirad, con el tiempo las empresas

21:18como OpenAI se dieron cuenta de que los

21:20modelos no son buenos resolviendo cualquier tipo

21:22de problema. Como por ejemplo, hacer discos

21:24lógicos. Hay un vídeo muy bueno de Computer

21:26File, donde Mike Pound, de la Universidad

21:28de Nottingham, nos explica que por ejemplo

21:30si le decimos a ChatGPT que tenemos un

21:32recuadro rojo, con uno arriba de

21:34color azul y otro arriba de color amarillo

21:36y movemos el azul arriba de todo y además

21:38añadimos otro verde por encima,

21:40ChatGPT no es capaz de decirte el orden

21:42exacto final de estos cuadrados. Y esto

21:44es porque para resolver este problema hay que seguir

21:46una serie de pasos, imaginarte la escena

21:48y razonar cuál va a ser el orden final

21:50de los cuadrados. No puedes simplemente

21:52improvisar sobre la marcha. Este razonamiento

21:54cuando lo hace un humano, lo hace a través de una

21:56serie de pasos. Muevo este, luego cambio este, luego

21:58pongo este, ¿vale? Y este proceso se llama

22:00cadena de pensamiento. Chain of

22:02thought. Bueno, pues para eso

22:04OpenAI inventó ChatGPT

22:06O1, que justamente lo que hace es

22:08ir desarrollando cada uno de los pasos que

22:10necesita el problema para resolverse.

22:12Hasta este momento este era uno de los modelos más

22:14avanzados del mundo en muchas tareas complejas,

22:16en muchas de las pruebas de las que hablamos antes.

22:18Ahora DeepSeek con R1

22:20se acerca tanto a ChatGPT O1

22:22que vamos, o sea, da hasta miedo.

22:24Y además lo hicieron con muy poco dinero y muy poco

22:26poder de cálculo. ¿Cómo lo consiguieron?

22:28Bueno, pues realmente de una forma bastante sencilla

22:30y estúpida. Para entrenar un modelo de

22:32razonamiento como ChatGPT O1

22:34sabemos que OpenAI utiliza el método de

22:36Reinforcement Learning by Human

22:38Feedback. O sea, cogen ChatGPT 4

22:40¿vale? El que ya tienen, y empiezan a

22:42hacer lo que se llama Fine Tuning. Y de esta manera

22:44van ajustando y ajustando y ajustando el modelo

22:46hasta que acaba respondiendo de una

22:48forma concreta. En el caso del razonamiento

22:50justamente lo que quieren es que el modelo

22:52saque un texto muy largo a través del cual

22:54vaya razonando y vaya haciendo toda esta

22:56cadena de pensamiento. Y esto lo consiguen

22:58pues pasándole ejemplos a

23:00ChatGPT ¿vale? Hay humanos que

23:02hacen ejemplos de cómo razonan un problema

23:04y esto se lo pasan a ChatGPT para que

23:06aprenda a hacerlo de esta manera. El tema del

23:08RLHF ya lo vimos en el vídeo

23:10sobre cómo funciona ChatGPT. Pero bueno

23:12básicamente lo que consiste es que hay un gran

23:14grupo de humanos que evalúan los resultados

23:16del modelo. O sea, el modelo va generando cosas

23:18y luego tenemos una serie de humanos que le van

23:20diciendo qué respuestas son buenas, qué respuestas

23:22son malas, cuáles son más amigables,

23:24cuáles no, etcétera, etcétera. Entonces

23:26con un gran set de respuestas de calidad

23:28creado por el feedback de los humanos, se entrena

23:30otra red que es capaz de decir si una respuesta

23:32es buena o no es buena según el criterio

23:34del humano ¿no? Pero bueno, total, para que tengas una idea

23:36que hay seres humanos ahí que están

23:38interactuando con la guía, están generando resultados

23:40para que la guía aprenda de ellos ¿vale? Este sería

23:42un poco el sistema de OpenAI.

23:44Bueno, pues lo que ha hecho DeepSeek ha sido

23:46decir, esto es muy caro, esto no lo vamos a poder

23:48hacer. Así que vamos a hacerlo como se hacía

23:50de toda la vida. Vamos a usar el Reinforcement

23:52Learning. O sea, aprendizaje

23:54por refuerzo, pero

23:56sin humanos. O sea, todo automático.

23:58¿Cómo funciona esto? ¿Cómo lo hicieron?

24:00Bueno, pues para entrenar a R1

24:02primero que nada partieron de V3. O sea, ya tenían

24:04el DeepSeek V3 y dijeron, vamos a crear

24:06en base a esto un modelo que razone

24:08y pueda resolver problemas complejos.

24:10¿Cómo lo vamos a hacer? Bueno, pues vamos a elegir una serie de problemas

24:12complejos, de los cuales tenemos

24:14una respuesta que es determinista.

24:16O sea, podemos chequear fácilmente

24:18que la respuesta es correcta o no.

24:20Como por ejemplo un acertijo, un problema

24:22matemático, un código de programación

24:24que cuando lo ejecutas te da un resultado X.

24:26Y bueno, distintas áreas en las cuales podemos

24:28poner este modelo a prueba y

24:30podemos comprobar si ese resultado está bien

24:32o está mal. Entonces, básicamente lo que hacen

24:34es ponerle estas cuestiones a DeepSeek

24:36y DeepSeek tiene que generar respuestas

24:38por su cuenta, ¿vale? Tiene que contestar.

24:40Y existe un sistema que evalúa

24:42qué tan bien o qué tan mal está esa respuesta.

24:44O sea, si se acerca más al resultado que necesitamos

24:46o si se aleja mucho. Y a estas

24:48pues les pone un positivo, ¿no?

24:50Entonces el modelo recoge ese feedback

24:52y dice, vale, esta respuesta se acerca más

24:54a lo que tengo que decir. Y vuelve a generar otras respuestas.

24:56Pero condicionado con este feedback.

24:58Genera las nuevas respuestas

25:00y el software vuelve a evaluar. Pues mira,

25:02ahora esta se parece aún más a lo que yo espero.

25:04Y le pone pues una puntuación positiva.

25:06Entonces el modelo pues lo vuelve a hacer.

25:08Y así sucesivamente, muchas veces

25:10hasta que al final consigue contestar

25:12a la pregunta de forma correcta.

25:14Vamos, que no se le está explicando a DeepSeek

25:16cómo tiene que pensar o no se le está

25:18dando ejemplos de cómo resolver los problemas.

25:20Sino que simplemente cuando da una respuesta

25:22que más o menos está bien, que va en buena dirección,

25:24pues esto se le da

25:26un punto extra. Y en este proceso no hay

25:28ninguna intervención de ningún humano. Todo esto es automático.

25:30Y haciendo esto durante mucho tiempo, con muchos

25:32casos, al final el modelo aprendió

25:34a razonar. Y la parte impresionante de todo esto

25:36es que nadie se esperaba que eso funcionase.

25:38De hecho fueron viendo durante la fase de entrenamiento,

25:40durante la fase de fine tuning, que el modelo

25:42de repente iba haciendo respuestas cada vez más

25:44largas y más complejas. Lo cual se iba

25:46acercando cada vez más a un razonamiento.

25:48Y de esa manera totalmente automática,

25:50sin humanos, sin nada, con el modelo

25:52probando a ver si funcionan las respuestas,

25:54pues fue aprendiendo, aprendiendo, aprendiendo,

25:56hasta conseguir resultados que están al nivel

25:58de los de ChatGPT. O sea, es totalmente

26:00increíble esto. Tan increíble

26:02que incluso han acusado a DeepSeek

26:04de destilar el conocimiento de ChatGPT.

26:06¿Qué significa destilar? Bueno, pues básicamente

26:08preguntarle cosas a ChatGPT,

26:10que ChatGPT responda, y pasarle esas

26:12respuestas a DeepSeek para que aprenda a responder

26:14como ChatGPT. Pero esto no hay

26:16pruebas de que se haya hecho, ¿vale? O sea, en principio

26:18el sistema que han utilizado es este que os acabo

26:20de contar. El Reinforced Learning totalmente

26:22automatizado. Ahora una cosa

26:24importante, ¿vale? Y es que tanto V3 como R1

26:26no fueron entrenados con el refuerzo

26:28de humanos. Y por eso ChatGPT es mejor

26:30en cuanto a crear respuestas que son

26:32más agradables, suenan más humanas,

26:34son más creativas. Es mejor creando historias

26:36y en general para las tareas que necesitan una cierta

26:38creatividad. Mientras que DeepSeek,

26:40como tiene ese entrenamiento tan basado en problemas

26:42matemáticos y problemas lógicos, es mejor

26:44para tareas industriales, problemas lógicos

26:46y de carácter más científico.

26:48Aún así a mí me parece una locura que

26:50exista un modelo como DeepSeek R1

26:52hecho con este proceso y que tenga los resultados

26:54que tiene. Que haya sido tan barato

26:56de entrenar, pero sobre todo que seas

26:58gratis, ¿vale? Porque tú te puedes descargar

27:00R1 y correrlo en tu superordenador

27:02como decíamos antes. Cualquier universidad

27:04o cualquier empresa con la suficiente infraestructura

27:06puede ejecutarlo si quiere y

27:08modificarlo y entrenarlo para que haga

27:10lo que ellos quieren. Volvemos a la misma pregunta,

27:12¿cómo ganan dinero si lo dan todo gratis?

27:14Este es uno de los temas que tratamos largo y tendido

27:16en mi libro, en el capítulo sobre

27:18el software libre. Pero bueno, básicamente

27:20al liberar el modelo, lo que consiguen

27:22es que la comunidad les ayude a mejorar el producto,

27:24ganan mucha popularidad,

27:26porque vamos, esto ha hecho ruido por todas partes,

27:28pero la mayoría de gente a la hora

27:30de la verdad no va a querer bajárselo y ejecutarlo

27:32en su propio centro de datos, sino que

27:34directamente lo van a correr en sus servidores

27:36y van a pagar el servicio. Es que les sale más barato,

27:38básicamente. Otra cosa bastante astuta

27:40que ha hecho DeepSeek son los modelos

27:42destilados, que son modelos más pequeños,

27:44versiones más pequeñas que puedes correr en tu propio

27:46ordenador, y que en realidad no están basados

27:48en DeepSeek, sino que son otros modelos como por ejemplo

27:50Yama, y tienen un concepto muy distinto.

27:52Esto, por cierto, lo veremos en otro vídeo en el

27:54canal, ¿vale? Donde probaremos DeepSeek en

27:56mi ordenador, y en ese vídeo pues os lo explicaré

27:58más en detalle cómo funciona el tema. Pero

28:00ahora os quiero contar lo que para mí es lo más

28:02impresionante que ha hecho DeepSeek, lo más complicado

28:04de todo, y es entrenar este

28:06modelo en hardware que en teoría

28:08no tiene la potencia para hacerlo.

28:10En 2023 el gobierno de los Estados Unidos

28:12creó una serie de restricciones para que

28:14Nvidia no pudiese vender libremente

28:16tarjetas gráficas en China. No me

28:18refiero a la típica 4080 o 4090

28:20que con un poco de suerte tendréis dentro

28:22de vuestro PC de casa, sino que estoy hablando

28:24de gráficas especiales, las H100.

28:26Las H100 son gráficas que no

28:28puedes comprar así como así, ¿vale? Son gráficas

28:30para empresas y para organizaciones

28:32que necesitan un gran poder de cálculo.

28:34Están pensadas para cálculo científico avanzado,

28:36simulaciones, modelos e

28:38inteligencia artificial. Son la gama

28:40de producto más alto que tiene Nvidia, ¿vale?

28:42Para que te hagas una idea. Y en concreto estas

28:44H100 son las que se usan para entrenar modelos como

28:46Chad GPT. Bueno, pues estas restricciones

28:48lo que hacen es que estas gráficas

28:50se puedan vender en China, pero

28:52en una versión un poquito menos potente

28:54en cuanto a potencia de cálculo, pero

28:56tienen otra restricción que es bastante más grande

28:58y es la de la memoria. Para entrenar

29:00una inteligencia artificial necesitamos un montón de

29:02gráficas conectadas entre ellas. Esto se hace

29:04para combinar el poder de cálculo.

29:06Y para combinar este poder también necesitamos

29:08que compartan datos de lo que están trabajando

29:10en todo momento de la forma más rápida

29:12posible. Por ejemplo, en concreto la H100

29:14es una caja que dentro tiene ocho

29:16chips, o sea, ocho gráficas distintas

29:18y estas tienen que hablar muy rápido entre ellas.

29:20Bueno, pues resulta que la versión china tiene la

29:22velocidad de comunicación entre gráficas limitada.

29:24Mientras que la H100 puede

29:26mandar entre 600 y 900

29:28gigas de datos por segundo,

29:30la versión china solo puede mandar 300 gigas

29:32por segundo. Luego la lectura de la propia

29:34memoria por parte de la gráfica, la memoria que tiene

29:36cada una de las gráficas, pasa de

29:383,35 terabytes en la versión

29:40americana a 1,6 terabytes

29:42en la versión china. Por otra parte, la H100

29:44americana llega a más de 400

29:46teraflops de cálculo de FP16,

29:48mientras que la versión china tiene

29:50algo así como la mitad, unos 200

29:52teraflops. Aunque en FP8

29:54sigue siendo igual de potente. Ahora ya sabéis por qué

29:56lo han entrenado usando FP8.

29:58Esta versión china se llama H800

30:00y el objetivo de todo esto es que China no pueda

30:02crear proyectos de inteligencia artificial

30:04tan avanzados como los que se crean en el resto del

30:06mundo. Bueno, pues DeepSeek usó 2048

30:08gráficas H800

30:10para entrenar su modelo. ¿Cómo hicieron

30:12para conseguir estos resultados a pesar de no tener

30:14las H100 que se venden en Estados Unidos?

30:16Bueno, pues agárrate porque ahora es cuando viene

30:18lo más impresionante de toda esta

30:20historia. Como os decía antes, la velocidad

30:22con la que las gráficas hablan entre ellas

30:24es un problema. No son suficientemente

30:26rápidas como para conseguir un buen rendimiento.

30:28Así que le dieron unas cuantas vueltas al problema

30:30y pensaron ¿qué pasaría si creamos un

30:32sistema de comunicación en telegráficas

30:34programado desde cero por nosotros

30:36que intente aprovechar al máximo

30:38ese ancho de banda que tenemos? Podríamos

30:40por ejemplo comprimir los datos. Ya sabéis

30:42que el típico archivo zip o rar que está

30:44comprimido ocupa menos espacio en memoria

30:46respecto al archivo original. Bueno, pues esto

30:48sería un poco lo mismo. ¿Y si comprimimos los datos

30:50antes de mandarlos en telegráficas?

30:52¿Y qué más podemos hacer? Bueno, pues por ejemplo

30:54montar un sistema que en lugar de esperar a que

30:56terminen los cálculos, vaya mandando ya datos

30:58a otras gráficas para aprovechar

31:00el tiempo. Otra cosa que podríamos mirar es

31:02qué datos hay de la otra parte para sólo mandar

31:04lo que hace falta y no volver a enviar partes

31:06que ya se han enviado por error. Total, que se montaron

31:08un software bastante complejo,

31:10muy inteligente, que intenta aprovechar este

31:12ancho de banda al máximo, con estos 300

31:14GB por segundo. Y de esa manera

31:16consiguieron que comunique de forma mucho más rápido

31:18optimizándolo todo lo posible y consiguiendo

31:20resultados parecidos a la versión americana.

31:22Pero esto realmente no es fácil, ¿vale? O sea,

31:24para programar gráficas de NVIDIA normalmente

31:26se usa un sistema que se llama CUDA.

31:28CUDA es la forma estándar de hablar con la gráfica

31:30de NVIDIA para poder pedirle que haga cálculos.

31:32Pero claro, CUDA tiene, pues, una serie de

31:34limitaciones. No puedes pedirle a la gráfica

31:36cualquier, cualquier cosa, ¿vale? Para hacer

31:38cosas un poco raras, NVIDIA tiene un lenguaje

31:40de programación muy complicado, de bajo nivel,

31:42que necesita mucho conocimiento,

31:44no sólo del lenguaje, sino también de cómo funciona una

31:46gráfica en sí, y ese lenguaje se llama

31:48PTX. PTX no es

31:50para cualquiera, ¿vale? Complica mucho las cosas y

31:52necesita un equipo con mucho conocimiento para

31:54poder usarlo. Bueno, pues lo que hizo DeepSeek

31:56fue usar PTX para que una parte

31:58de la gráfica, ¿vale? Una parte de los núcleos,

32:0020 de los 132 SM que

32:02tiene la tarjeta gráfica, se usen exclusivamente

32:04para correr este código especial

32:06encargado de comprimir los datos y

32:08enviarlos a través de la memoria. Vamos,

32:10optimizar las comunicaciones. Esto es algo que, repito,

32:12es imposible hacer con CUDA, y no es

32:14para cualquiera tampoco, ¿vale? Realmente tienes que saber

32:16mucho para poder hacer algo por el estilo,

32:18y DeepSeek lo consiguió. Y esto realmente

32:20es algo muy polémico, porque mientras que las

32:22empresas están invirtiendo en mejorar las gráficas,

32:24comprar últimos modelos de NVIDIA que son

32:26un poco más rápidos, gráficas que son

32:28un poco más potentes, gráficas que hablan

32:30un poco más rápido entre ellas, y en general

32:32invertir en escalar el hardware, ¿vale? Tener

32:34mejor hardware para que los modelos sean mejores.

32:36Pues DeepSeek, al final, de forma forzada,

32:38nos está demostrando que, optimizando el software,

32:40optimizando las gráficas, aprovechando mejor

32:42lo que ya tenemos, podemos conseguir resultados

32:44increíbles. Y esto, en parte, hizo que

32:46los inversores pierdan un poco la fe en el

32:48conocimiento de NVIDIA, haciendo que también

32:50la empresa caiga en bolsa. Esta caída en bolsa hasta

32:52un cierto punto es normal, ¿no? Porque los mercados reaccionan

32:54súper rápido a este tipo de noticias.

32:56No significa que la empresa realmente haya bajado

32:58las ventas de forma directa, pero

33:00sí que nos da mucho que pensar. Y bueno,

33:02después de todo esto, yo creo que no cabe duda de que

33:04DeepSeek, para bien o para mal, es impresionante

33:06a muchos niveles. Es un antes y un

33:08después en el mundo de la IA, y es un

33:10modelo a seguir en muchos aspectos.

33:12¿Es impresionante que esto haya ocurrido en China?

33:14¿O sea, realmente es tan raro que haya pasado en

33:16China en concreto? Bueno, pues en mi opinión,

33:18no. O sea, China es un país donde hay mucha gente.

33:20Mucha gente muy preparada,

33:22con mucho talento. Hay universidades con muchos

33:24recursos, y hay empresas que tienen mucho dinero,

33:26mucho capital. Así que no me parece tan

33:28tan raro que esto pueda llegar a pasar.

33:30De hecho, China es una potencia en inteligencia

33:32artificial desde hace muchos años. Tienen

33:34centros de datos, tienen grandes empresas

33:36tecnológicas, y en general, en algunos aspectos,

33:38incluso están más avanzados

33:40respecto a lo que es Estados Unidos.

33:42Ahora, la gran desventaja que tiene China respecto a Estados Unidos,

33:44y esto es un punto clave, de hecho,

33:46voy a hacer un vídeo sobre este tema, es que no puede

33:48fabricar chips tan avanzados.

33:50Esto es porque las fábricas más avanzadas del

33:52mundo están en Taiwán, Estados Unidos,

33:54Corea del Sur, y algunos sitios más.

33:56Países que son aliados de Estados Unidos,

33:58a los cuales se les ha prohibido compartir

34:00conocimientos, maquinaria,

34:02y otro tipo de cosas con China.

34:04Si China quiere chips, tiene que pasar por caja,

34:06comprarlos, pagarlos, e incluso sufrir

34:08restricciones como la que tiene

34:10con Nvidia, ¿no? Que no puede comprar

34:12gráficas igual de potentes que las que se venden

34:14en el resto del mundo. Si no fuera por eso,

34:16si no fuera porque China no puede fabricar chips

34:18como los que fabrica AMD, Apple, Sony,

34:20Intel, Nvidia, y muchas más,

34:22pues es muy probable que las cosas fueran muy distintas.

34:24Y por eso Estados Unidos juega

34:26la carta que tiene, ¿vale? Que es poner

34:28restricciones comerciales. Están habiendo restricciones

34:30incluso en cuanto a

34:32intercambios de estudiantes en universidades,

34:34en cuanto a compartir conocimientos

34:36entre universidades de China y Estados Unidos,

34:38para evitar que China pueda tener acceso

34:40a esas tecnologías que tiene Estados Unidos.

34:42Porque, como os decía antes, la IA viene del mundo

34:44universitario. El mundo de la investigación,

34:46que es un mundo donde el conocimiento se comparte

34:48y se desarrolla en conjunto,

34:50independientemente del país donde estés. O sea,

34:52todos trabajan para avanzar a nivel global

34:54sin importar si estás en China, en Estados Unidos,

34:56en Taiwán o donde sea. Ahora, al ver

34:58que China es una amenaza para la industria de la inteligencia

35:00artificial, una industria que lidera

35:02Estados Unidos, el gobierno quiere poner

35:04todas las trabas que pueda. A mí, personalmente,

35:06y esta es mi opinión, ¿vale? La comparación que se está

35:08haciendo con la Guerra Fría, con la carrera

35:10espacial y todo esto, a mí, personalmente, no me gusta.

35:12No la veo tan parecida, realmente, ¿vale?

35:14Porque comparar a China con la Unión

35:16Soviética, creo que es un poco estúpido.

35:18A veces la gente llega a pensar que China está por

35:20detrás, cuando tienen empresas como Huawei,

35:22que hacen productos increíbles

35:24y que, literalmente, han tenido que bañarla

35:26porque prácticamente toda la infraestructura de redes

35:28era de Huawei, incluyendo Estados Unidos.

35:30O sea, Estados Unidos no podía

35:32competir literalmente con Huawei. O, por ejemplo,

35:34aplicaciones como TikTok, que tiene un algoritmo

35:36que, desde el principio, ha demostrado que engancha muchísimo

35:38y que está a la altura de las redes sociales

35:40americanas, como, por ejemplo, Instagram,

35:42como, por ejemplo, Facebook, y que también

35:44la han bañado. Aunque, bueno, ahora está como en un

35:46periodo de gracia, a ver qué pasa. O, incluso,

35:48los coches chinos a los cuales se les está poniendo aranceles

35:50y así con muchas otras cosas. Que sólo

35:52nos demuestran que China es igual o más

35:54competitiva a nivel de productos de tecnología

35:56que Estados Unidos. Y que la única forma

35:58de que no se quede con estos mercados es poniendo

36:00restricciones. Yo creo que Estados Unidos sigue

36:02siendo el líder en ciertas cosas de momento,

36:04pero que realmente se está aferrando a la única

36:06carta que puede jugar para mantener

36:08el dominio de las pocas áreas en las que

36:10todavía tiene cierto control

36:12del mercado. Y, por eso, todos estos baneos

36:14con la IA está pasando exactamente

36:16lo mismo. Pero, bueno, este es un tema que da para un

36:18debate muy largo. Yo también en este vídeo me quería

36:20centrar en los logros tecnológicos,

36:22en todo aquello que aporta a nivel tecnológico

36:24Deep Seek, y no tanto en un debate de China

36:26contra Estados Unidos. Pero sí que me gustaría

36:28hacer un vídeo hablando de los chips, porque realmente es el tema

36:30más caliente. Es una tecnología mucho

36:32más difícil de dominar y es realmente

36:34el punto de dolor que tiene China, mucho

36:36más allá de la IA. Lo que pasa

36:38es que es tan complejo que muchas veces

36:40no nos hablan de él, porque hace falta

36:42tener un conocimiento más profundo para entender

36:44realmente dónde está el problema a la hora de fabricar

36:46estos chips. Pero quiero hacer un vídeo sobre el tema,

36:48así que si te interesa este vídeo, dímelo abajo

36:50en los comentarios. En fin, y aquí nos quedamos.

36:52Si te ha gustado este vídeo, ya sabes, déjame un manito para arriba,

36:54suscríbete al canal y nos vemos en el próximo vídeo.

Categoría

Transcripción

Recomendada