• ayer
GVGmall 25% Cupón para ➞ NG20
Windows 11 Pro Key (€21): https://biitt.ly/NG11
Windows 10 Pro Key (€14): https://biitt.ly/NG10
Windows10home Key(€13):https://biitt.ly/NG10H
Windows11home Key(€19):https://biitt.ly/NG11H
Office 2016 Pro Key(€25): https://biitt.ly/NG2016
Compre la CLAVE OEM GLOBAL de MS Win 11 Pro en: https://www.gvgmall.com/

Mi libro ENTIENDE LA TECNOLOGÍA ➞ https://amzn.to/3Z2dcrP

Aprende todo sobre TECNOLOGÍA:
👨‍🎓 MASTERMIND ➞ https://mastermind.ac

Series de este canal:
🖥️ Montaje PCs ➞ https://bit.ly/30OCj3M
💾 Divulgación Informática ➞ https://bit.ly/3nx4Ch2
⚙️ Videos de Hardware ➞ https://bit.ly/3nxTGzE
🧰 PC Modding ➞ https://bit.ly/34DeY6o
⌨️ Guías Teclados Mecánicos ➞ https://bit.ly/2Gxz7Tz
🖱️ Guías Mouse de Gaming ➞ https://bit.ly/3nGFRzh
💻 Portátiles ➞ https://bit.ly/3jFUxvX
🎧 Auriculares para jugar ➞ https://bit.ly/3iL1jzg
👁️‍🗨️ Retro PC ➞ https://bit.ly/2GFq1Ec
⚗️ Nate Labs ➞ https://bit.ly/30P6Grc

Redes Sociales:
📷 Instagram ➞ https://instagram.com/nategentile7
🐦 Twitter ➞ https://twitter.com/nategentile7
🔴 Twitch ➞ https://twitch.tv/nategentile7

Categoría

🤖
Tecnología
Transcripción
00:00Liang Weifeng era un estudiante de ingeniería en la universidad de Shenyang, en China.
00:04La ingeniería era algo que le apasionaba, pero en sus años de estudiante se dio cuenta de que si realmente quería hacer dinero tenía que
00:10empezar a explorar otros temas. Ahí fue donde se empezó a interesar por las finanzas y formó un grupo de estudiantes dentro de su universidad
00:16para hablar y aprender sobre mercados financieros, la bolsa.
00:19Aplicando los conocimientos de ingeniería a la bolsa empezó a hacer sus primeras inmersiones en el mundo del
00:25Quant Trading. El Quant Trading es cuando la acción de comprar y vender activos las hace un ordenador, o sea, en lugar de tener a una
00:31persona que está ahí comprando y vendiendo acciones a mano, tenemos un modelo matemático, tenemos un ordenador con un software
00:37que está ahí haciendo análisis de todos los datos y decidiendo cuándo hay que comprar y cuándo hay que vender. No es el típico bot
00:42de bolsa que te deja el link de descarga a tu youtuber de inversiones favorito, sino que estamos hablando de modelos matemáticos
00:47avanzados. Pero la idea de Liang iba más allá de simplemente hacer un bot de bolsa. Su idea era usar Machine Learning,
00:54aprendizaje automático, para poder tomar las decisiones, y dedicó gran parte de sus años universitarios a todo esto. Tanto es así que en
01:002016, tras terminar la universidad, funda Hi Flyer, una firma de inversión 100% basada en decisiones de compra
01:08automatizadas por ordenador. Y con los años se convirtió en la firma top 4 de China, manejando activos por 8.000 millones de dólares.
01:15Vamos, que mal no le fue. Pero uno de sus sueños desde el principio era usar inteligencia artificial
01:20aplicada a los mercados financieros.
01:21Tener una inteligencia artificial que fuese capaz de determinar con mucha precisión
01:25cuándo comprar y cuándo vender. El tema de la inteligencia artificial era tan interesante para Liang que en 2021 compró miles de tarjetas gráficas
01:33de Nvidia. Muchos lo vieron como un millonario excéntrico que compraba juguetes para quitarse el gusanillo de jugar con tecnologías que, de momento, no tenían
01:40ningún uso fuera de un proyecto universitario, y otros sabían que lo que se venía iba a ser una revolución.
01:45Dos años más tarde, el 17 de julio de 2023, funda la empresa
01:50Hanzhou DeepSeek Artificial Intelligence Basic Technology Research Corporation Limited,
01:56también conocida como DeepSeek. Una empresa con menos de 200 empleados que, a finales de 2024, lanzó un modelo de inteligencia artificial
02:03que hizo temblar a toda la industria tecnológica, la bolsa e incluso puso nerviosos a más de un gobierno.
02:10¿De qué iba este lanzamiento? Bueno, pues seguramente lo hayas visto en las noticias.
02:13DeepSeek es un modelo de inteligencia artificial creado con un presupuesto
02:16supuestamente bastante bajo y que aún así es mejor que algunos de los mejores modelos creados por las mejores empresas de Estados Unidos en
02:23algunos aspectos. ¿Pero por qué DeepSeek ha causado tanto revuelo? ¿Qué tiene de especial que una empresa china haya desarrollado un modelo así?
02:29Bueno, pues lo más probable es que leyendo las noticias no te hayas enterado de nada, porque a mí también me ha pasado, así que hoy te
02:35voy a contar exactamente y sin tonterías ni clickbaits, qué tiene de especial DeepSeek y por qué ha puesto el mundo patas arriba.
02:41Pero antes de continuar, un mensaje de nuestro sponsor.
02:44GVGMORE es tu tienda de claves de software de confianza, donde puedes encontrar, entre otras cosas, claves de Windows originales para Windows 10, Home,
02:51Professional y Windows 11, que de hecho es donde yo las suelo comprar para mí mismo. Estas claves son bastante más
02:56económicas que las que vende Microsoft, porque son claves OM, o sea, están pensadas para fabricantes de ordenadores que compran el por mayor
03:02para meter a sus distintos equipos y es perfectamente legal revenderlas, por mucho que Microsoft no le guste demasiado.
03:08Así que, pequeño hack para conseguir Windows original sin necesidad de instalar un crack en tu ordenador.
03:13Abajo te dejaré los enlaces para que puedas ir a la web a comprar las claves, pero no sólo eso, sino que también te dejaré un
03:19pequeño código de descuento para que puedas ahorrar algunos euros. Gracias a GVGMORE por patrocinar este vídeo y ahora sigamos con el contenido de hoy.
03:25Hay dos puntos muy importantes que tenemos que aclarar sobre DeepSeek. El primero es que es una empresa fundada con el capital de HiFlyer.
03:31HiFlyer es esta firma de Quant Trading que tiene Liang, que funda Liang al salir de la uni.
03:36Liang usó dinero de su firma de inversión para crear esta empresa, por lo que realmente, si bien el gobierno de China es verdad que está
03:42incentivando la inteligencia artificial,
03:44está incentivando la inteligencia artificial,
03:46está incentivando la inteligencia artificial,
03:48está incentivando la inteligencia artificial,
03:50está incentivando la inteligencia artificial,
03:52está incentivando la inteligencia artificial,
03:54está incentivando la inteligencia artificial,
03:56está incentivando la inteligencia artificial,
03:58está incentivando la inteligencia artificial,
04:00está incentivando la inteligencia artificial,
04:02está incentivando la inteligencia artificial,
04:04está incentivando la inteligencia artificial,
04:06está incentivando la inteligencia artificial,
04:08está incentivando la inteligencia artificial,
04:10está incentivando la inteligencia artificial,
04:12está incentivando la inteligencia artificial,
04:14está incentivando la inteligencia artificial,
04:16está incentivando la inteligencia artificial,
04:18está incentivando la inteligencia artificial,
04:20está incentivando la inteligencia artificial,
04:22está incentivando la inteligencia artificial,
04:24está incentivando la inteligencia artificial,
04:26está incentivando la inteligencia artificial,
04:28está incentivando la inteligencia artificial,
04:30está incentivando la inteligencia artificial,
04:32está incentivando la inteligencia artificial,
04:34está incentivando la inteligencia artificial,
04:36está incentivando la inteligencia artificial,
04:38está incentivando la inteligencia artificial,
04:40está incentivando la inteligencia artificial,
04:42está incentivando la inteligencia artificial,
04:44está incentivando la inteligencia artificial,
04:46está incentivando la inteligencia artificial,
04:48está incentivando la inteligencia artificial,
04:50está incentivando la inteligencia artificial,
04:52está incentivando la inteligencia artificial,
04:54está incentivando la inteligencia artificial,
04:56está incentivando la inteligencia artificial,
04:58está incentivando la inteligencia artificial,
05:00está incentivando la inteligencia artificial,
05:02está incentivando la inteligencia artificial,
05:04está incentivando la inteligencia artificial,
05:06está incentivando la inteligencia artificial,
05:08está incentivando la inteligencia artificial,
05:10está incentivando la inteligencia artificial,
05:12está incentivando la inteligencia artificial,
05:14está incentivando la inteligencia artificial,
05:16DeepSeek v3 ahora mismo es mejor
05:18que los mejores que teníamos hasta la fecha,
05:20superando a CLOT 3.5 y a GPT 4.0.
05:22superando a CLOT 3.5 y a GPT 4.0.
05:24Podemos ver aquí en la web oficial de DeepSeek
05:26que es mejor en pruebas de rendimiento como
05:28MMLU Redux, que incluye pruebas de
05:30conocimiento general, razonamiento lógico
05:32y comprensión avanzada en múltiples temas
05:34como matemáticas, historia, ciencias y más.
05:36Tenemos también, por ejemplo,
05:38AdDrop, que es
05:40Discrete Reasoning Over Paragraphs,
05:42que mide la capacidad de razonamiento sobre textos largos,
05:44donde las respuestas a veces requieren cálculos,
05:46combinaciones de datos o razonamientos lógicos.
05:48Otro ejemplo de prueba es
05:50Either Polyglot, que evalúa la capacidad del modelo
05:52para trabajar con múltiples lenguajes de programación,
05:54entendiendo y ejecutando tareas con distintas
05:56sintaxis. Bueno, pues esto para hacernos una idea
05:58lo que nos dice es que en algunas de estas pruebas
06:00no solo es muy parecido al retimiento
06:02que tienen otros modelos muy avanzados como el de
06:04ChatGPT, sino que en algunos es incluso
06:06mejor. Y esto es impresionante,
06:08porque en general no es tan fácil
06:10crear un modelo que sea tan bueno. O sea,
06:12pocas empresas en el mundo entero lo han conseguido.
06:14Y ese es el primer motivo por el que
06:16DeepSeek es tan impresionante. Pero,
06:18no se termina ahí. El segundo punto
06:20interesante es que las tarifas para usar este modelo
06:22son bastante más baratas que la competencia.
06:24La web para chatear con DeepSeek,
06:26la típica web rollo ChatGPT, bueno pues
06:28esto es incluso gratis como ChatGPT,
06:30pero la forma en la que realmente ganan
06:32dinero estas empresas es a través de la API.
06:34La API es la Application Programming
06:36Interface. Esto básicamente,
06:38en cristiano, es una forma de conectar
06:40sistemas entre ellos. Imagínate que tienes una app
06:42como por ejemplo, yo que sé, una app de fitness,
06:44de entrenamiento personal, y quieres que esta app
06:46tenga inteligencia artificial. Por ejemplo,
06:48pues un chat con un entrenador personal, que en realidad
06:50es una IA, y te dice recomendaciones,
06:52te dice cómo vas con los ejercicios,
06:54etc. Bueno, pues para esta empresa
06:56que tienes tú de aplicaciones de deporte,
06:58programar y ejecutar inteligencia artificial
07:00al nivel de ChatGPT, o Gemini,
07:02o DeepSeek, no está al alcance de tu mano.
07:04¿Vale? Es algo muy complejo.
07:06Que necesita mucho dinero de inversión y
07:08muchos servidores para poder ejecutar toda esa inteligencia.
07:10Así que tu mejor opción
07:12es conectar tu aplicación con una
07:14de estas inteligencias artificiales que ya
07:16existen. Y ese es el servicio que ellos proporcionan.
07:18Ellos tienen las inteligencias artificiales
07:20instaladas y ejecutadas en un centro
07:22de datos, de OpenAI, de Google,
07:24de lo que sea. Ellos pagan sus servidores,
07:26pagan la luz, pagan todo, y lo ejecutan ahí.
07:28Y tú lo que puedes hacer es que tu aplicación
07:30hable con esos servidores. ¿Y cómo
07:32se conectan? Bueno, pues utilizando esta API.
07:34La API lo que hace es que tu aplicación
07:36pueda interactuar directamente con una de estas
07:38inteligencias artificiales. Es una vía
07:40de comunicación entre dos aplicaciones.
07:42La app de deporte le daría una serie de datos tuyos,
07:44prompts, el historial de entrenamientos,
07:46datos biométricos, un montón de cosas, más tus
07:48consultas, y ChatGPT, o lo que
07:50tenga detrás, generaría una respuesta
07:52que sería, pues, válida para la aplicación en cuestión.
07:54O sea, que simularía a este entrenador personal.
07:56Bueno, pues usar esta API tiene un precio,
07:58evidentemente, no es gratis. ¿Vale? Y el precio
08:00se mide por token. Cada token es más o menos
08:02una palabra generada, un poquito menos.
08:04Bueno, explicamos esto en el vídeo sobre cómo funciona ChatGPT.
08:06Cuantas más palabras genera la IA, más
08:08se cobra al dueño de la aplicación. Este
08:10es uno de los modelos de negocio más
08:12importantes que existe en este tipo de servicios.
08:14¿No? Como ChatGPT, etc. ¿Vale?
08:16Se supone que es uno de los principales motores
08:18que va a hacer que toda esta industria funcione.
08:20Y que todos también podamos tener IA. Tanto es así
08:22que Apple, incluso este año, conectaría
08:24a Siri con ChatGPT para que
08:26pueda dar, por fin, respuestas inteligentes.
08:28A ver si es verdad. Mientras que los tokens
08:30de salida de ChatGPT cuestan 10 dólares
08:32por el millón de tokens en su modelo
08:34GPT 4.0, el estándar, digamos,
08:36DeepSeek con V3 cuesta
08:381,1 dólares por millón de
08:40tokens. Unas 10 veces
08:42más barato que ChatGPT. Pero no se termina
08:44ahí. ¿Vale? Esto no es lo más impactante.
08:46Mirad, estos modelos de IA, como
08:48decíamos antes, necesitan de super
08:50ordenadores con muchísimas gráficas
08:52para poder ejecutarse en centros de datos
08:54con millones de inversión. ¿Vale? Que sería
08:56algo muy difícil de tener en tu casa, o
08:58incluso en tu empresa, o que es algo en lo que
09:00quizás no te interesa invertir, ¿no? Por todos los
09:02costes que tiene de infraestructura, personal, etc.
09:04Por eso ChatGPT se ejecuta
09:06en los servidores de OpenAI. Ahora,
09:08si tú te quieres descargar ChatGPT,
09:10el modelo, ¿vale?, y correrlo en tus propios
09:12super ordenadores, tampoco
09:14podrías, porque OpenAI no te
09:16deja descargarlo, no te lo libera. Hay algunos
09:18modelos que sí te lo permiten, como por ejemplo Lama
09:20de Mark Zuckerberg y Meta, que de hecho
09:22es uno de los mejores para esto, y hay muchas versiones,
09:24incluso alguno que lo puedes correr en un portátil,
09:26o incluso otros que necesitan un centro
09:28de datos entero para ejecutarlo. Pero
09:30los mejores modelos del mundo rara vez
09:32te los puedes descargar y ejecutarlos en tu infraestructura,
09:34¿no? O sea, ChatGPT o Gemini de Google
09:36solo los puedes usar en los servidores
09:38de cada una de estas empresas. Y bueno, esto es
09:40algo que para la industria es normal. O sea,
09:42¿te imaginas que GPT fuese libre y
09:44gratis y te lo pudieras bajar y te lo ejecutases
09:46en tu servidor? O sea, le montarías literalmente la competencia
09:48de ChatGPT. Podrías modificarlo, hacer
09:50tu propia versión, tenerlo corriendo en tus servidores
09:52para tu empresa sin pagar nada más que la electricidad,
09:54sin tener que pagar el precio de la API
09:56y todas estas cosas. Bueno, pues
09:58agárrate, porque resulta que DeepSeek ha
10:00liberado de forma open source y totalmente
10:02gratuita su modelo DeepSeek
10:04V3 y R1. O sea, literalmente
10:06te los puedes bajar y ejecutarlos
10:08en tu centro de datos. Eso sí, para el modelo más
10:10grande de DeepSeek R1, por ejemplo, que tiene
10:12671 miles de millones de parámetros,
10:14necesitarías unas 16 gráficas
10:16A100 de NVIDIA, que tienen
10:18unos 80 GB de memoria cada una,
10:20sumando en total 1280
10:22GB de memoria. Montarte esto
10:24te costaría algo así como medio millón
10:26de dólares, pero bueno, podrías ejecutar DeepSeek
10:28R1 con todo su potencial.
10:30Y esto es una amenaza bastante
10:32grande contra la industria americana de la
10:34inteligencia artificial. No solo tenemos un modelo
10:36mucho más barato de usar, sino que te lo puedes
10:38bajar y usarlo por tu cuenta, incluso
10:40personalizarlo. ¿Y qué tal está funcionando
10:42a nivel de descargas? O sea, hay mucha gente que se lo está
10:44descargando. Bueno, pues la primera semana de lanzamiento
10:46ha tenido más de un millón de descargas.
10:48Esto no es gente que se haya bajado la app en el móvil
10:50o que se haya registrado en la web y haya hablado
10:52con la IA, ¿vale? Esto es gente
10:54que se ha bajado el modelo entero para
10:56ejecutarlo por su cuenta y probarlo.
10:58O sea, son gente ya técnica avanzada
11:00que tiene la infraestructura para poder hacerlo.
11:02En resumen, es una IA igual o
11:04mejor que ChatGPT, aunque ya veremos que tiene
11:06diferencias, no es tampoco igual ni mejor
11:08en todo, con la que puedes interactuar
11:10de forma más barata e incluso te la
11:12puedes descargar y ejecutarla tú mismo,
11:14cosa que con ChatGPT no puedes hacer.
11:16Esto por sí solo ya ha sido bastante
11:18revuelo dentro de la industria, pero no
11:20es todo. DeepSeek tiene algunas otras cosas que son
11:22muy impresionantes. Una de las cosas de las que más
11:24se habla es de que DeepSeek fue increíblemente
11:26barato de entrenar. Pero no solo
11:28de entrenar, sino que además es barato de ejecutar.
11:30No solo se hizo el entrenamiento con una cantidad de gráficas
11:32bastante pequeña y en un tiempo sorprendentemente
11:34corto, sino que también cuando
11:36hicieron R1, el modelo que razona,
11:38también gastaron muy poco dinero
11:40respecto a lo que la gente se esperaría, ¿no?
11:42En crear un modelo de ese tipo. Pero luego,
11:44es que además los propios costes de operación,
11:46o sea, lo que les cuesta correr ese modelo en el día a día
11:48y la cantidad de gráficas que se
11:50necesitan, es mucho menos de lo que estamos acostumbrados
11:52en otros modelos de inteligencia artificial
11:54parecidos. ¿Cómo hicieron esto? Bueno, pues
11:56con una serie de mejoras técnicas, evoluciones
11:58y optimizaciones, que son las que
12:00permiten que sea súper eficiente.
12:02El primer gran punto de DeepSeek es la
12:04arquitectura que tiene detrás.
12:06Los modelos a los que estamos acostumbrados,
12:08como Yama o GPT, se basan en una red
12:10neuronal generalista, que se entrena con
12:12un montón de conocimiento de todo tipo para
12:14generar texto sobre cualquier cosa, o cualquier
12:16área de conocimiento. ChazGPT sí que es verdad
12:18que, por ejemplo, tiene módulos que le ayudan a buscar
12:20cosas en Google, que le ayudan a hacer cálculos
12:22matemáticos, pero bueno, en general, cuando
12:24generan palabras, lo que tenemos es un
12:26gran cerebro que procesa cada uno de los
12:28prompts que pone el usuario. DeepSeek,
12:30por otra parte, se basa en una arquitectura que se llama
12:32Mixture of Experts, que se podría
12:34traducir como mezcla de expertos.
12:36Aquí la idea es que en lugar de tener un gran
12:38modelo que se ejecuta de forma completa
12:40cada vez que vamos a procesar el prompt que escribe
12:42el usuario, tenemos como varios modelos más
12:44pequeñitos que están especializados en distintos
12:46temas. Esto no es una idea original de
12:48DeepSeek, ¿vale? No se les ocurrió a ellos, sino que
12:50ya se implementó, por ejemplo, en un proyecto de Google
12:52que se llama GShard, o en el modelo Mixtral,
12:54e incluso viene de un paper de 2017,
12:56¿vale? No es una cosa nueva. Y es una forma de
12:58escalar modelos grandes, o sea, hacerlos más
13:00grandes. Llega un momento que al final, si quieres que una red
13:02neuronal sepa tantas cosas, la mejor
13:04manera es dividir este cerebro en varios
13:06cerebros expertos, como haríamos en la vida
13:08real, ¿no? O sea, si quisiéramos trabajar con muchos temas
13:10distintos, montaríamos un grupo de expertos
13:12en lugar de una sola persona que lo sabe
13:14todo. Bueno, pues resulta que DeepSeek, como os decía,
13:16está hecho de un montón de expertos distintos, un montón
13:18de redes, pero muchísimas, ¿vale?
13:20Entonces, lo que tenemos delante es un enrutador.
13:22El enrutador es el que va a elegir
13:24quién se encarga de resolver esa cuestión,
13:26¿vale? Entonces nosotros escribimos un prompt,
13:28le damos a Enter, el mensaje le llega a este enrutador,
13:30el enrutador se encarga de analizarlo
13:32y le pone una puntuación a cada uno
13:34de los expertos. Esa puntuación, básicamente, lo
13:36que dice es qué tan relacionada está la pregunta
13:38con el área de conocimiento que tiene, pues, ese
13:40experto en concreto, ¿no? Y en base a eso elige
13:42cuál es el mejor experto para contestar una pregunta
13:44en concreto. Normalmente es más de una red.
13:46Y aquí te preguntarás, ¿vale? Tenemos distintos expertos,
13:48¿cómo se decide en qué
13:50es experta cada red? ¿Quién lo decide esto?
13:52Bueno, pues, durante el entrenamiento del modelo,
13:54recordad siempre que tenemos como dos fases, una
13:56en la que el modelo aprende y otra en la que
13:58modelo aplica los conocimientos, ¿vale? El
14:00entrenamiento es donde está aprendiendo, pues, todo, ¿no?
14:02De cero. Pues durante el entrenamiento tenemos una red
14:04que va catalogando los distintos
14:06textos de los que está aprendiendo el modelo
14:08y le va diciendo, pues, mira, este es de un tema, este es de otro,
14:10este es de otro más. Y de esa manera, pues, de alguna forma, va
14:12agrupando los textos por temas distintos
14:14de forma totalmente automática, sin intervención humana
14:16y le va pasando esto a distintas redes.
14:18Y de esa manera va diciendo, pues, mira, tú te vas a encargar
14:20de todos los textos relacionados con esto, tú te vas a
14:22encargar de todos los textos relacionados con esto otro.
14:24De esa forma, por ejemplo, podemos tener un
14:26experto que sabe mucho de bioquímica, otro que
14:28sabe de política, otro de literatura,
14:30otro que sabe hablar como un niño pequeño, otro
14:32que sabe mucho de animales y, bueno, sería
14:34un poco esa la idea. Realmente las divisiones de
14:36conocimiento no son tan obvias, no son tan
14:38simples de entender, pero bueno, es para que
14:40nos hagamos una idea. Esto tiene un efecto brutal,
14:42¿vale? Porque estamos haciendo funcionar
14:44solo una parte concreta del modelo para contestar
14:46a temas muy concretos, en lugar de todo
14:48el modelo al mismo tiempo. En modelos muy grandes
14:50como GPT, cuando se generan palabras, se usa
14:52todo el modelo a la vez. Y dentro de todo
14:54ese modelo, pues, hay alguna parte que influye
14:56en la respuesta, que hace cosas, y otras, pues,
14:58no influyen porque directamente no se activan.
15:00Pero aún así, estamos usando todo el cerebro
15:02a la vez y eso necesita mucha
15:04potencia. Con el Mixture of Experts
15:06se selecciona de forma mucho más específica,
15:08¿no? Lo que se va a usar en concreto.
15:10Es como tener un cerebro que se usa todo el tiempo al
15:12100%, o que solo usa, pues, unas
15:14partes concretas para hacer tareas concretas.
15:16Y eso realmente lo que hace es ahorrar mucha energía
15:18al sistema, por lo cual necesitamos menos
15:20gráficas para ejecutar el modelo. Pero
15:22aquí realmente el gran mérito que tiene DeepSeek,
15:24porque ya os dije antes que no lo inventaron ellos esto,
15:26¿vale? Es que la arquitectura Mixture of
15:28Experts es muy difícil de implementar, o sea,
15:30es muy difícil que funcione bien. Nadie
15:32hasta ahora había conseguido hacer un buen modelo con este
15:34sistema, y ellos lo consiguieron haciendo que
15:36el modelo tenga, primero que nada, muchos más expertos
15:38de lo normal, de lo que se había usado hasta ahora,
15:40y además asegurándose que cada
15:42uno de los expertos no tenga conocimiento
15:44repetido con otros. Además de que
15:46cuando se detecta que hay conocimientos que son como
15:48intermedios entre varios temas, pues hay
15:50expertos especiales que son mixtos,
15:52¿vale? Que saben como distintos temas a la vez,
15:54y de esa forma, pues, pueden complementar el conocimiento de uno
15:56con otro. Y estos expertos mixtos
15:58siempre se activan a cada interacción.
16:00Y por eso mismo, un pequeño detalle, ¿vale?
16:02En la web de DeepSeek, cuando vamos a ver cuántos
16:04parámetros tiene el modelo, ellos dicen que tiene
16:06671.000.000 de
16:08millones de parámetros. Estos parámetros es
16:10el total entre todos los expertos, pero sólo
16:1237.000.000 están activados.
16:14Y esto es porque cuando se ejecuta
16:16la red, sólo activa 37.000.000,
16:18¿vale? No activa más.
16:20Porque selecciona esos expertos
16:22que corresponden con esa cantidad de parámetros.
16:24Esto es muy interesante, la verdad, ¿eh? Y es
16:26eso, ¿no? Al final es optimización pura y dura.
16:28Ahora, otra optimización que hicieron,
16:30que esta es un poco más difícil de entender, fue
16:32entrenar el modelo con una precisión más
16:34baja de lo normal. En concreto, con FP8.
16:36Esto ya lo expliqué en mi vídeo
16:38sobre cómo mejoro mi empresa con inteligencia
16:40artificial, donde os hablo de que
16:42cada parámetro tiene una precisión concreta.
16:44Recordad que los parámetros en un modelo
16:46son las partes que se van ajustando
16:48durante el entrenamiento, ¿vale? Sería como
16:50si un modelo es un cerebro genérico,
16:52cuando lo entrenamos, hay una serie de
16:54parámetros que se van ajustando, que podéis imaginarlos
16:56como pequeñas manivelas, pequeños
16:58potenciómetros, que se van modificando
17:00para configurar el modelo para
17:02que dé el resultado que nosotros queremos. Bueno, pues
17:04estos parámetros tienen una precisión, que podéis
17:06imaginarla como, pues, el número de cifras
17:08que tenemos después de la coma. Como estamos en
17:10un ordenador, estos números se representan
17:12en binario, que también, si quieres entender esto,
17:14tengo un vídeo sobre cómo funciona el binario y las
17:16puertas lógicas, que es muy interesante. Bueno,
17:18pues, FP8, o Floating Point
17:208, es un formato de binario
17:22que te permite representar un número decimal,
17:24o sea, un número con coma, con una precisión de
17:268 cifras binarias. Este binario
17:28es distinto del que os he explicado en el canal, ¿vale?
17:30Es un binario especial, que tiene un trozo que representa
17:32el número, otro que representa el signo,
17:34si es positivo o negativo, y otro que representa
17:36dónde estaría esa coma, un poco como la
17:38anotación científica, ¿vale? Entonces, tenemos
17:40una serie de cifras binarias, y con esto tenemos que
17:42representar los números. Cuantas más cifras binarias
17:44tenemos, más ocupa este número en memoria,
17:46pero también más precisión tiene,
17:48o sea, más numeritos después de la coma vamos a tener.
17:50Cuantas menos cifras binarias tenemos, pues
17:52ocupa menos en memoria, pero a la vez el número
17:54es mucho menos preciso. Por ejemplo, si representásemos
17:56el número pi en FP32,
17:58tendríamos suficientes cifras como para
18:00tener el número 3,14,15,
18:029,27. En FP16
18:04podríamos tener la precisión para representar
18:06sólo el 3,14, y en
18:08FP8 probablemente 3,1.
18:10O sea, como podéis ver, es muy impreciso.
18:12Pero el número ocupa menos en memoria. ¿Qué significa
18:14esto para el modelo de inteligencia artificial?
18:16Bueno, pues si tenemos este potenciómetro,
18:18si el número es más pequeño, sería como tener
18:20menos opciones, ¿vale? Tiene como menos
18:22ajustes. Con FP32 tendríamos
18:24un montón de ajustes bastante finos, con FP16
18:26tendríamos menos, y con FP8
18:28pues menos aún. Entonces, ¿el modelo
18:30es menos preciso? Pues sí, es menos preciso,
18:32pero han encontrado la forma de que
18:34usando en ciertas partes FP32
18:36el modelo sigue siendo muy preciso
18:38y ocupa menos espacio en memoria, y
18:40además, el tiempo de entrenamiento es mucho más rápido.
18:42Esto se conoce como Mixed Precision
18:44Framework, o marco de trabajo de precisión
18:46mixta, porque tenemos distintas precisiones
18:48en distintas partes. Vamos, que han buscado recortar
18:50de donde se podía, tanto en memoria
18:52como en tiempo, pero afectando lo mínimo posible
18:54al resultado, lo que viene a ser optimizar,
18:56lo que no hacen en los juegos de hoy en día.
18:58Otras dos cosas que hace el modelo, que son un poquito más
19:00complicadas, ¿vale? Es que, primero que nada,
19:02en la capa de atención, tiene múltiples cabezas,
19:04por lo que puede prestar atención a varios términos
19:06a la vez, y analizar la frase desde
19:08distintos ángulos. Esto ya, para entenderlo mejor,
19:10tendrías que mirarte mi vídeo de cómo funciona el chat
19:12GPT, que ahí te lo explico de forma estupenda.
19:14Y la otra cosa, es que puede generar múltiples
19:16tokens a cada pasada, mientras
19:18que modelos como GPT van generando un token
19:20a la vez, pues éste haría una predicción múltiple.
19:22O sea, sacaría varios tokens de una sola
19:24tirada, y esto se ha visto que no da
19:26peores resultados, y además, es más eficiente.
19:28O sea, ayuda a que el modelo se ejecute más rápido
19:30y con menos energía. Entonces,
19:32por estas cuatro cosas, el mixture
19:34of experts, el usar FP8,
19:36la capa de atención con múltiples cabezas
19:38y la generación múltiple de tokens,
19:40DeepSeek es mucho más rápido y
19:42barato que la competencia. Y ahora bien,
19:44hasta este punto, no han inventado nada
19:46realmente nuevo, pero hay que entender
19:48que esto, en el ámbito de la inteligencia artificial,
19:50es completamente normal, ¿vale?
19:52Así es como está evolucionando la tecnología hoy en día.
19:54La inteligencia artificial se creó en el mundo
19:56académico, o sea, en el mundo de las universidades.
19:58O sea, se basa en proyectos de investigación
20:00de universidades. Todo este conocimiento,
20:02investigación y pruebas, son
20:04básicamente públicos. O sea,
20:06puedes leer sobre ellos en muchas publicaciones
20:08y te explican exactamente
20:10cómo funcionan. Muchas de las tecnologías
20:12que utilizan modelos de difusión, transformers,
20:14redes neuronales, todo esto viene de software
20:16de código abierto que los investigadores
20:18y los programadores comparten de forma totalmente
20:20gratuita. A ver, las empresas evidentemente
20:22se aprovechan de esto para crear luego sus
20:24tecnologías privadas, como por ejemplo Google,
20:26pero el caso más extremo sería
20:28el de OpenAI, que es una empresa
20:30que empezó con la idea de investigar y liberar
20:32el conocimiento de forma abierta, libre
20:34y gratuita. Vamos, que la empresa se llama
20:36OpenAI por algo. Y lo que pasa es
20:38que con el tiempo han desarrollado algunos
20:40modelos más avanzados del mundo, que
20:42hacen cosas que muy pocos otros en el mundo
20:44pueden hacer, y esto pues lo han privatizado
20:46y no lo comparten con nadie. O sea,
20:48los detalles de cómo funciona eso por dentro no lo sabe nadie.
20:50Pero realmente la tecnología
20:52que tiene detrás, todo el conocimiento de cómo
20:54conseguirlo, es algo que de alguna forma
20:56es público, ¿no? Es algo que puedes llegar a leer,
20:58que puedes llegar a implementar, y si eres lo suficientemente bueno
21:00puedes llegar a montar un modelo como ChatGPT
21:02en tu casa. Bueno, en tu casa no, pero ya me
21:04entiendes. De todos modos, que DeepSeeker haya conseguido
21:06esto es bastante impresionante.
21:08Pero no se termina ahí. El segundo punto
21:10impresionante que ha conseguido DeepSeeker es el modelo
21:12R1. Esto sí que está a otro
21:14nivel. R1 es un modelo que
21:16razona. Mirad, con el tiempo las empresas
21:18como OpenAI se dieron cuenta de que los
21:20modelos no son buenos resolviendo cualquier tipo
21:22de problema. Como por ejemplo, hacer discos
21:24lógicos. Hay un vídeo muy bueno de Computer
21:26File, donde Mike Pound, de la Universidad
21:28de Nottingham, nos explica que por ejemplo
21:30si le decimos a ChatGPT que tenemos un
21:32recuadro rojo, con uno arriba de
21:34color azul y otro arriba de color amarillo
21:36y movemos el azul arriba de todo y además
21:38añadimos otro verde por encima,
21:40ChatGPT no es capaz de decirte el orden
21:42exacto final de estos cuadrados. Y esto
21:44es porque para resolver este problema hay que seguir
21:46una serie de pasos, imaginarte la escena
21:48y razonar cuál va a ser el orden final
21:50de los cuadrados. No puedes simplemente
21:52improvisar sobre la marcha. Este razonamiento
21:54cuando lo hace un humano, lo hace a través de una
21:56serie de pasos. Muevo este, luego cambio este, luego
21:58pongo este, ¿vale? Y este proceso se llama
22:00cadena de pensamiento. Chain of
22:02thought. Bueno, pues para eso
22:04OpenAI inventó ChatGPT
22:06O1, que justamente lo que hace es
22:08ir desarrollando cada uno de los pasos que
22:10necesita el problema para resolverse.
22:12Hasta este momento este era uno de los modelos más
22:14avanzados del mundo en muchas tareas complejas,
22:16en muchas de las pruebas de las que hablamos antes.
22:18Ahora DeepSeek con R1
22:20se acerca tanto a ChatGPT O1
22:22que vamos, o sea, da hasta miedo.
22:24Y además lo hicieron con muy poco dinero y muy poco
22:26poder de cálculo. ¿Cómo lo consiguieron?
22:28Bueno, pues realmente de una forma bastante sencilla
22:30y estúpida. Para entrenar un modelo de
22:32razonamiento como ChatGPT O1
22:34sabemos que OpenAI utiliza el método de
22:36Reinforcement Learning by Human
22:38Feedback. O sea, cogen ChatGPT 4
22:40¿vale? El que ya tienen, y empiezan a
22:42hacer lo que se llama Fine Tuning. Y de esta manera
22:44van ajustando y ajustando y ajustando el modelo
22:46hasta que acaba respondiendo de una
22:48forma concreta. En el caso del razonamiento
22:50justamente lo que quieren es que el modelo
22:52saque un texto muy largo a través del cual
22:54vaya razonando y vaya haciendo toda esta
22:56cadena de pensamiento. Y esto lo consiguen
22:58pues pasándole ejemplos a
23:00ChatGPT ¿vale? Hay humanos que
23:02hacen ejemplos de cómo razonan un problema
23:04y esto se lo pasan a ChatGPT para que
23:06aprenda a hacerlo de esta manera. El tema del
23:08RLHF ya lo vimos en el vídeo
23:10sobre cómo funciona ChatGPT. Pero bueno
23:12básicamente lo que consiste es que hay un gran
23:14grupo de humanos que evalúan los resultados
23:16del modelo. O sea, el modelo va generando cosas
23:18y luego tenemos una serie de humanos que le van
23:20diciendo qué respuestas son buenas, qué respuestas
23:22son malas, cuáles son más amigables,
23:24cuáles no, etcétera, etcétera. Entonces
23:26con un gran set de respuestas de calidad
23:28creado por el feedback de los humanos, se entrena
23:30otra red que es capaz de decir si una respuesta
23:32es buena o no es buena según el criterio
23:34del humano ¿no? Pero bueno, total, para que tengas una idea
23:36que hay seres humanos ahí que están
23:38interactuando con la guía, están generando resultados
23:40para que la guía aprenda de ellos ¿vale? Este sería
23:42un poco el sistema de OpenAI.
23:44Bueno, pues lo que ha hecho DeepSeek ha sido
23:46decir, esto es muy caro, esto no lo vamos a poder
23:48hacer. Así que vamos a hacerlo como se hacía
23:50de toda la vida. Vamos a usar el Reinforcement
23:52Learning. O sea, aprendizaje
23:54por refuerzo, pero
23:56sin humanos. O sea, todo automático.
23:58¿Cómo funciona esto? ¿Cómo lo hicieron?
24:00Bueno, pues para entrenar a R1
24:02primero que nada partieron de V3. O sea, ya tenían
24:04el DeepSeek V3 y dijeron, vamos a crear
24:06en base a esto un modelo que razone
24:08y pueda resolver problemas complejos.
24:10¿Cómo lo vamos a hacer? Bueno, pues vamos a elegir una serie de problemas
24:12complejos, de los cuales tenemos
24:14una respuesta que es determinista.
24:16O sea, podemos chequear fácilmente
24:18que la respuesta es correcta o no.
24:20Como por ejemplo un acertijo, un problema
24:22matemático, un código de programación
24:24que cuando lo ejecutas te da un resultado X.
24:26Y bueno, distintas áreas en las cuales podemos
24:28poner este modelo a prueba y
24:30podemos comprobar si ese resultado está bien
24:32o está mal. Entonces, básicamente lo que hacen
24:34es ponerle estas cuestiones a DeepSeek
24:36y DeepSeek tiene que generar respuestas
24:38por su cuenta, ¿vale? Tiene que contestar.
24:40Y existe un sistema que evalúa
24:42qué tan bien o qué tan mal está esa respuesta.
24:44O sea, si se acerca más al resultado que necesitamos
24:46o si se aleja mucho. Y a estas
24:48pues les pone un positivo, ¿no?
24:50Entonces el modelo recoge ese feedback
24:52y dice, vale, esta respuesta se acerca más
24:54a lo que tengo que decir. Y vuelve a generar otras respuestas.
24:56Pero condicionado con este feedback.
24:58Genera las nuevas respuestas
25:00y el software vuelve a evaluar. Pues mira,
25:02ahora esta se parece aún más a lo que yo espero.
25:04Y le pone pues una puntuación positiva.
25:06Entonces el modelo pues lo vuelve a hacer.
25:08Y así sucesivamente, muchas veces
25:10hasta que al final consigue contestar
25:12a la pregunta de forma correcta.
25:14Vamos, que no se le está explicando a DeepSeek
25:16cómo tiene que pensar o no se le está
25:18dando ejemplos de cómo resolver los problemas.
25:20Sino que simplemente cuando da una respuesta
25:22que más o menos está bien, que va en buena dirección,
25:24pues esto se le da
25:26un punto extra. Y en este proceso no hay
25:28ninguna intervención de ningún humano. Todo esto es automático.
25:30Y haciendo esto durante mucho tiempo, con muchos
25:32casos, al final el modelo aprendió
25:34a razonar. Y la parte impresionante de todo esto
25:36es que nadie se esperaba que eso funcionase.
25:38De hecho fueron viendo durante la fase de entrenamiento,
25:40durante la fase de fine tuning, que el modelo
25:42de repente iba haciendo respuestas cada vez más
25:44largas y más complejas. Lo cual se iba
25:46acercando cada vez más a un razonamiento.
25:48Y de esa manera totalmente automática,
25:50sin humanos, sin nada, con el modelo
25:52probando a ver si funcionan las respuestas,
25:54pues fue aprendiendo, aprendiendo, aprendiendo,
25:56hasta conseguir resultados que están al nivel
25:58de los de ChatGPT. O sea, es totalmente
26:00increíble esto. Tan increíble
26:02que incluso han acusado a DeepSeek
26:04de destilar el conocimiento de ChatGPT.
26:06¿Qué significa destilar? Bueno, pues básicamente
26:08preguntarle cosas a ChatGPT,
26:10que ChatGPT responda, y pasarle esas
26:12respuestas a DeepSeek para que aprenda a responder
26:14como ChatGPT. Pero esto no hay
26:16pruebas de que se haya hecho, ¿vale? O sea, en principio
26:18el sistema que han utilizado es este que os acabo
26:20de contar. El Reinforced Learning totalmente
26:22automatizado. Ahora una cosa
26:24importante, ¿vale? Y es que tanto V3 como R1
26:26no fueron entrenados con el refuerzo
26:28de humanos. Y por eso ChatGPT es mejor
26:30en cuanto a crear respuestas que son
26:32más agradables, suenan más humanas,
26:34son más creativas. Es mejor creando historias
26:36y en general para las tareas que necesitan una cierta
26:38creatividad. Mientras que DeepSeek,
26:40como tiene ese entrenamiento tan basado en problemas
26:42matemáticos y problemas lógicos, es mejor
26:44para tareas industriales, problemas lógicos
26:46y de carácter más científico.
26:48Aún así a mí me parece una locura que
26:50exista un modelo como DeepSeek R1
26:52hecho con este proceso y que tenga los resultados
26:54que tiene. Que haya sido tan barato
26:56de entrenar, pero sobre todo que seas
26:58gratis, ¿vale? Porque tú te puedes descargar
27:00R1 y correrlo en tu superordenador
27:02como decíamos antes. Cualquier universidad
27:04o cualquier empresa con la suficiente infraestructura
27:06puede ejecutarlo si quiere y
27:08modificarlo y entrenarlo para que haga
27:10lo que ellos quieren. Volvemos a la misma pregunta,
27:12¿cómo ganan dinero si lo dan todo gratis?
27:14Este es uno de los temas que tratamos largo y tendido
27:16en mi libro, en el capítulo sobre
27:18el software libre. Pero bueno, básicamente
27:20al liberar el modelo, lo que consiguen
27:22es que la comunidad les ayude a mejorar el producto,
27:24ganan mucha popularidad,
27:26porque vamos, esto ha hecho ruido por todas partes,
27:28pero la mayoría de gente a la hora
27:30de la verdad no va a querer bajárselo y ejecutarlo
27:32en su propio centro de datos, sino que
27:34directamente lo van a correr en sus servidores
27:36y van a pagar el servicio. Es que les sale más barato,
27:38básicamente. Otra cosa bastante astuta
27:40que ha hecho DeepSeek son los modelos
27:42destilados, que son modelos más pequeños,
27:44versiones más pequeñas que puedes correr en tu propio
27:46ordenador, y que en realidad no están basados
27:48en DeepSeek, sino que son otros modelos como por ejemplo
27:50Yama, y tienen un concepto muy distinto.
27:52Esto, por cierto, lo veremos en otro vídeo en el
27:54canal, ¿vale? Donde probaremos DeepSeek en
27:56mi ordenador, y en ese vídeo pues os lo explicaré
27:58más en detalle cómo funciona el tema. Pero
28:00ahora os quiero contar lo que para mí es lo más
28:02impresionante que ha hecho DeepSeek, lo más complicado
28:04de todo, y es entrenar este
28:06modelo en hardware que en teoría
28:08no tiene la potencia para hacerlo.
28:10En 2023 el gobierno de los Estados Unidos
28:12creó una serie de restricciones para que
28:14Nvidia no pudiese vender libremente
28:16tarjetas gráficas en China. No me
28:18refiero a la típica 4080 o 4090
28:20que con un poco de suerte tendréis dentro
28:22de vuestro PC de casa, sino que estoy hablando
28:24de gráficas especiales, las H100.
28:26Las H100 son gráficas que no
28:28puedes comprar así como así, ¿vale? Son gráficas
28:30para empresas y para organizaciones
28:32que necesitan un gran poder de cálculo.
28:34Están pensadas para cálculo científico avanzado,
28:36simulaciones, modelos e
28:38inteligencia artificial. Son la gama
28:40de producto más alto que tiene Nvidia, ¿vale?
28:42Para que te hagas una idea. Y en concreto estas
28:44H100 son las que se usan para entrenar modelos como
28:46Chad GPT. Bueno, pues estas restricciones
28:48lo que hacen es que estas gráficas
28:50se puedan vender en China, pero
28:52en una versión un poquito menos potente
28:54en cuanto a potencia de cálculo, pero
28:56tienen otra restricción que es bastante más grande
28:58y es la de la memoria. Para entrenar
29:00una inteligencia artificial necesitamos un montón de
29:02gráficas conectadas entre ellas. Esto se hace
29:04para combinar el poder de cálculo.
29:06Y para combinar este poder también necesitamos
29:08que compartan datos de lo que están trabajando
29:10en todo momento de la forma más rápida
29:12posible. Por ejemplo, en concreto la H100
29:14es una caja que dentro tiene ocho
29:16chips, o sea, ocho gráficas distintas
29:18y estas tienen que hablar muy rápido entre ellas.
29:20Bueno, pues resulta que la versión china tiene la
29:22velocidad de comunicación entre gráficas limitada.
29:24Mientras que la H100 puede
29:26mandar entre 600 y 900
29:28gigas de datos por segundo,
29:30la versión china solo puede mandar 300 gigas
29:32por segundo. Luego la lectura de la propia
29:34memoria por parte de la gráfica, la memoria que tiene
29:36cada una de las gráficas, pasa de
29:383,35 terabytes en la versión
29:40americana a 1,6 terabytes
29:42en la versión china. Por otra parte, la H100
29:44americana llega a más de 400
29:46teraflops de cálculo de FP16,
29:48mientras que la versión china tiene
29:50algo así como la mitad, unos 200
29:52teraflops. Aunque en FP8
29:54sigue siendo igual de potente. Ahora ya sabéis por qué
29:56lo han entrenado usando FP8.
29:58Esta versión china se llama H800
30:00y el objetivo de todo esto es que China no pueda
30:02crear proyectos de inteligencia artificial
30:04tan avanzados como los que se crean en el resto del
30:06mundo. Bueno, pues DeepSeek usó 2048
30:08gráficas H800
30:10para entrenar su modelo. ¿Cómo hicieron
30:12para conseguir estos resultados a pesar de no tener
30:14las H100 que se venden en Estados Unidos?
30:16Bueno, pues agárrate porque ahora es cuando viene
30:18lo más impresionante de toda esta
30:20historia. Como os decía antes, la velocidad
30:22con la que las gráficas hablan entre ellas
30:24es un problema. No son suficientemente
30:26rápidas como para conseguir un buen rendimiento.
30:28Así que le dieron unas cuantas vueltas al problema
30:30y pensaron ¿qué pasaría si creamos un
30:32sistema de comunicación en telegráficas
30:34programado desde cero por nosotros
30:36que intente aprovechar al máximo
30:38ese ancho de banda que tenemos? Podríamos
30:40por ejemplo comprimir los datos. Ya sabéis
30:42que el típico archivo zip o rar que está
30:44comprimido ocupa menos espacio en memoria
30:46respecto al archivo original. Bueno, pues esto
30:48sería un poco lo mismo. ¿Y si comprimimos los datos
30:50antes de mandarlos en telegráficas?
30:52¿Y qué más podemos hacer? Bueno, pues por ejemplo
30:54montar un sistema que en lugar de esperar a que
30:56terminen los cálculos, vaya mandando ya datos
30:58a otras gráficas para aprovechar
31:00el tiempo. Otra cosa que podríamos mirar es
31:02qué datos hay de la otra parte para sólo mandar
31:04lo que hace falta y no volver a enviar partes
31:06que ya se han enviado por error. Total, que se montaron
31:08un software bastante complejo,
31:10muy inteligente, que intenta aprovechar este
31:12ancho de banda al máximo, con estos 300
31:14GB por segundo. Y de esa manera
31:16consiguieron que comunique de forma mucho más rápido
31:18optimizándolo todo lo posible y consiguiendo
31:20resultados parecidos a la versión americana.
31:22Pero esto realmente no es fácil, ¿vale? O sea,
31:24para programar gráficas de NVIDIA normalmente
31:26se usa un sistema que se llama CUDA.
31:28CUDA es la forma estándar de hablar con la gráfica
31:30de NVIDIA para poder pedirle que haga cálculos.
31:32Pero claro, CUDA tiene, pues, una serie de
31:34limitaciones. No puedes pedirle a la gráfica
31:36cualquier, cualquier cosa, ¿vale? Para hacer
31:38cosas un poco raras, NVIDIA tiene un lenguaje
31:40de programación muy complicado, de bajo nivel,
31:42que necesita mucho conocimiento,
31:44no sólo del lenguaje, sino también de cómo funciona una
31:46gráfica en sí, y ese lenguaje se llama
31:48PTX. PTX no es
31:50para cualquiera, ¿vale? Complica mucho las cosas y
31:52necesita un equipo con mucho conocimiento para
31:54poder usarlo. Bueno, pues lo que hizo DeepSeek
31:56fue usar PTX para que una parte
31:58de la gráfica, ¿vale? Una parte de los núcleos,
32:0020 de los 132 SM que
32:02tiene la tarjeta gráfica, se usen exclusivamente
32:04para correr este código especial
32:06encargado de comprimir los datos y
32:08enviarlos a través de la memoria. Vamos,
32:10optimizar las comunicaciones. Esto es algo que, repito,
32:12es imposible hacer con CUDA, y no es
32:14para cualquiera tampoco, ¿vale? Realmente tienes que saber
32:16mucho para poder hacer algo por el estilo,
32:18y DeepSeek lo consiguió. Y esto realmente
32:20es algo muy polémico, porque mientras que las
32:22empresas están invirtiendo en mejorar las gráficas,
32:24comprar últimos modelos de NVIDIA que son
32:26un poco más rápidos, gráficas que son
32:28un poco más potentes, gráficas que hablan
32:30un poco más rápido entre ellas, y en general
32:32invertir en escalar el hardware, ¿vale? Tener
32:34mejor hardware para que los modelos sean mejores.
32:36Pues DeepSeek, al final, de forma forzada,
32:38nos está demostrando que, optimizando el software,
32:40optimizando las gráficas, aprovechando mejor
32:42lo que ya tenemos, podemos conseguir resultados
32:44increíbles. Y esto, en parte, hizo que
32:46los inversores pierdan un poco la fe en el
32:48conocimiento de NVIDIA, haciendo que también
32:50la empresa caiga en bolsa. Esta caída en bolsa hasta
32:52un cierto punto es normal, ¿no? Porque los mercados reaccionan
32:54súper rápido a este tipo de noticias.
32:56No significa que la empresa realmente haya bajado
32:58las ventas de forma directa, pero
33:00sí que nos da mucho que pensar. Y bueno,
33:02después de todo esto, yo creo que no cabe duda de que
33:04DeepSeek, para bien o para mal, es impresionante
33:06a muchos niveles. Es un antes y un
33:08después en el mundo de la IA, y es un
33:10modelo a seguir en muchos aspectos.
33:12¿Es impresionante que esto haya ocurrido en China?
33:14¿O sea, realmente es tan raro que haya pasado en
33:16China en concreto? Bueno, pues en mi opinión,
33:18no. O sea, China es un país donde hay mucha gente.
33:20Mucha gente muy preparada,
33:22con mucho talento. Hay universidades con muchos
33:24recursos, y hay empresas que tienen mucho dinero,
33:26mucho capital. Así que no me parece tan
33:28tan raro que esto pueda llegar a pasar.
33:30De hecho, China es una potencia en inteligencia
33:32artificial desde hace muchos años. Tienen
33:34centros de datos, tienen grandes empresas
33:36tecnológicas, y en general, en algunos aspectos,
33:38incluso están más avanzados
33:40respecto a lo que es Estados Unidos.
33:42Ahora, la gran desventaja que tiene China respecto a Estados Unidos,
33:44y esto es un punto clave, de hecho,
33:46voy a hacer un vídeo sobre este tema, es que no puede
33:48fabricar chips tan avanzados.
33:50Esto es porque las fábricas más avanzadas del
33:52mundo están en Taiwán, Estados Unidos,
33:54Corea del Sur, y algunos sitios más.
33:56Países que son aliados de Estados Unidos,
33:58a los cuales se les ha prohibido compartir
34:00conocimientos, maquinaria,
34:02y otro tipo de cosas con China.
34:04Si China quiere chips, tiene que pasar por caja,
34:06comprarlos, pagarlos, e incluso sufrir
34:08restricciones como la que tiene
34:10con Nvidia, ¿no? Que no puede comprar
34:12gráficas igual de potentes que las que se venden
34:14en el resto del mundo. Si no fuera por eso,
34:16si no fuera porque China no puede fabricar chips
34:18como los que fabrica AMD, Apple, Sony,
34:20Intel, Nvidia, y muchas más,
34:22pues es muy probable que las cosas fueran muy distintas.
34:24Y por eso Estados Unidos juega
34:26la carta que tiene, ¿vale? Que es poner
34:28restricciones comerciales. Están habiendo restricciones
34:30incluso en cuanto a
34:32intercambios de estudiantes en universidades,
34:34en cuanto a compartir conocimientos
34:36entre universidades de China y Estados Unidos,
34:38para evitar que China pueda tener acceso
34:40a esas tecnologías que tiene Estados Unidos.
34:42Porque, como os decía antes, la IA viene del mundo
34:44universitario. El mundo de la investigación,
34:46que es un mundo donde el conocimiento se comparte
34:48y se desarrolla en conjunto,
34:50independientemente del país donde estés. O sea,
34:52todos trabajan para avanzar a nivel global
34:54sin importar si estás en China, en Estados Unidos,
34:56en Taiwán o donde sea. Ahora, al ver
34:58que China es una amenaza para la industria de la inteligencia
35:00artificial, una industria que lidera
35:02Estados Unidos, el gobierno quiere poner
35:04todas las trabas que pueda. A mí, personalmente,
35:06y esta es mi opinión, ¿vale? La comparación que se está
35:08haciendo con la Guerra Fría, con la carrera
35:10espacial y todo esto, a mí, personalmente, no me gusta.
35:12No la veo tan parecida, realmente, ¿vale?
35:14Porque comparar a China con la Unión
35:16Soviética, creo que es un poco estúpido.
35:18A veces la gente llega a pensar que China está por
35:20detrás, cuando tienen empresas como Huawei,
35:22que hacen productos increíbles
35:24y que, literalmente, han tenido que bañarla
35:26porque prácticamente toda la infraestructura de redes
35:28era de Huawei, incluyendo Estados Unidos.
35:30O sea, Estados Unidos no podía
35:32competir literalmente con Huawei. O, por ejemplo,
35:34aplicaciones como TikTok, que tiene un algoritmo
35:36que, desde el principio, ha demostrado que engancha muchísimo
35:38y que está a la altura de las redes sociales
35:40americanas, como, por ejemplo, Instagram,
35:42como, por ejemplo, Facebook, y que también
35:44la han bañado. Aunque, bueno, ahora está como en un
35:46periodo de gracia, a ver qué pasa. O, incluso,
35:48los coches chinos a los cuales se les está poniendo aranceles
35:50y así con muchas otras cosas. Que sólo
35:52nos demuestran que China es igual o más
35:54competitiva a nivel de productos de tecnología
35:56que Estados Unidos. Y que la única forma
35:58de que no se quede con estos mercados es poniendo
36:00restricciones. Yo creo que Estados Unidos sigue
36:02siendo el líder en ciertas cosas de momento,
36:04pero que realmente se está aferrando a la única
36:06carta que puede jugar para mantener
36:08el dominio de las pocas áreas en las que
36:10todavía tiene cierto control
36:12del mercado. Y, por eso, todos estos baneos
36:14con la IA está pasando exactamente
36:16lo mismo. Pero, bueno, este es un tema que da para un
36:18debate muy largo. Yo también en este vídeo me quería
36:20centrar en los logros tecnológicos,
36:22en todo aquello que aporta a nivel tecnológico
36:24Deep Seek, y no tanto en un debate de China
36:26contra Estados Unidos. Pero sí que me gustaría
36:28hacer un vídeo hablando de los chips, porque realmente es el tema
36:30más caliente. Es una tecnología mucho
36:32más difícil de dominar y es realmente
36:34el punto de dolor que tiene China, mucho
36:36más allá de la IA. Lo que pasa
36:38es que es tan complejo que muchas veces
36:40no nos hablan de él, porque hace falta
36:42tener un conocimiento más profundo para entender
36:44realmente dónde está el problema a la hora de fabricar
36:46estos chips. Pero quiero hacer un vídeo sobre el tema,
36:48así que si te interesa este vídeo, dímelo abajo
36:50en los comentarios. En fin, y aquí nos quedamos.
36:52Si te ha gustado este vídeo, ya sabes, déjame un manito para arriba,
36:54suscríbete al canal y nos vemos en el próximo vídeo.

Recomendada