

oldpan博客
-
和满血R1性能一样的推理QWQ-32B开源,部署成本拉低一大截
QWQ-32B开源了,性能与具备671B的DeepSeek-R1很接近,有点夸张,利好个人玩家和小公司。从年前deepseek开源r1模型,大家都在研究如何个人部署DeepSeek…
-
5090?Project DIGITS?Ryzen AI Max+ 395?有哪些想买的AI产品
快过年了!提前祝大家新年快乐!年前,也就前阵时间有不少有意思的发布会,有老黄NVIDIA的新显卡和ROG以及AMD的一些新产品。个人有一些想买的,不过买之前肯定要做好调研,趁这个机…
-
使用float8和FSDP2实现超级训练性能
FSDP(Fully Sharded Data Parallel) 是 PyTorch 中的一种分布式训练技术,用于高效地训练大规模模型。它的核心思想是通过对模型权重和梯…
-
利用Pytorch的C++前端(libtorch)读取预训练权重并进行预测
距离发布Pytorch-1.0-Preview版的发布已经有两个多月,Pytorch-1.0最瞩目的功能就是生产的大力支持,推出了C++版本的生态端(FB之前已经在D…
-
Pytorch的C++端(libtorch)在Windows中的使用
“OLDPAN博客”,侃侃而谈人工智能深度酝酿优质原创文! 阅读本文需要 5 分钟 前言 填一个之前的坑啊,本篇的姊妹篇——利用Pytorch的C++前端(libtorch)读取预…
-
利用TensorRT对深度学习进行加速
“OLDPAN博客”,侃侃而谈人工智能深度酝酿优质原创文! 阅读本文需要 5 分钟 前言 TensorRT是什么,TensorRT是英伟达公司出品的高性能的推断C++库,专门应用于…
-
利用TensorRT实现神经网络提速(读取ONNX模型并运行)
“OLDPAN博客”,侃侃而谈人工智能深度酝酿优质原创文! 阅读本文需要 5 分钟 前言 这篇文章接着上一篇继续讲解如何具体使用TensorRT。 在之前已经写到过一篇去介绍什么是…
-
Pytorch量化新方法TorchAO简单介绍
Pytorch的量化方法切换到了torchao,本篇基于官方教程简单介绍下torchao的量化使用教程。使用 TorchAO 实现 GPU 量化本篇对segment anythin…
-
一步一步解读神经网络编译器TVM(一)——一个简单的例子
“OLDPAN博客”,侃侃而谈人工智能深度酝酿优质原创文! 阅读本文需要 7 分钟 前言 这是一个TVM教程系列,计划从TVM的使用说明,再到TVM的内部源码,为大家大致解析一下T…
-
一步一步解读神经网络编译器TVM(二)——利用TVM完成C++端的部署
“OLDPAN博客”,侃侃而谈人工智能深度酝酿优质原创文! 阅读本文需要 8 分钟 前言 在上一篇文章中<一步一步解读神经网络编译器TVM(一)——一个简单的例子>,我…