oldpan博客
-
使用float8和FSDP2实现超级训练性能
FSDP(Fully Sharded Data Parallel) 是 PyTorch 中的一种分布式训练技术,用于高效地训练大规模模型。它的核心思想是通过对模型权重和梯…
-
利用Pytorch的C++前端(libtorch)读取预训练权重并进行预测
距离发布Pytorch-1.0-Preview版的发布已经有两个多月,Pytorch-1.0最瞩目的功能就是生产的大力支持,推出了C++版本的生态端(FB之前已经在D…
-
Pytorch的C++端(libtorch)在Windows中的使用
“OLDPAN博客”,侃侃而谈人工智能深度酝酿优质原创文! 阅读本文需要 5 分钟 前言 填一个之前的坑啊,本篇的姊妹篇——利用Pytorch的C++前端(libtorch)读取预…
-
利用TensorRT对深度学习进行加速
“OLDPAN博客”,侃侃而谈人工智能深度酝酿优质原创文! 阅读本文需要 5 分钟 前言 TensorRT是什么,TensorRT是英伟达公司出品的高性能的推断C++库,专门应用于…
-
利用TensorRT实现神经网络提速(读取ONNX模型并运行)
“OLDPAN博客”,侃侃而谈人工智能深度酝酿优质原创文! 阅读本文需要 5 分钟 前言 这篇文章接着上一篇继续讲解如何具体使用TensorRT。 在之前已经写到过一篇去介绍什么是…
-
Pytorch量化新方法TorchAO简单介绍
Pytorch的量化方法切换到了torchao,本篇基于官方教程简单介绍下torchao的量化使用教程。使用 TorchAO 实现 GPU 量化本篇对segment anythin…
-
一步一步解读神经网络编译器TVM(一)——一个简单的例子
“OLDPAN博客”,侃侃而谈人工智能深度酝酿优质原创文! 阅读本文需要 7 分钟 前言 这是一个TVM教程系列,计划从TVM的使用说明,再到TVM的内部源码,为大家大致解析一下T…
-
一步一步解读神经网络编译器TVM(二)——利用TVM完成C++端的部署
“OLDPAN博客”,侃侃而谈人工智能深度酝酿优质原创文! 阅读本文需要 8 分钟 前言 在上一篇文章中<一步一步解读神经网络编译器TVM(一)——一个简单的例子>,我…
-
好久不见!开启新篇章!
“OLDPAN博客”,侃侃而谈人工智能深度酝酿优质原创文! 哎,不过怎么说,生活还是要继续的,文章还是要更新的,东西还是要收拾的。这篇文章主要整理下疫情期间遇到的一些问题和感受之类…
-
Transformer推理结构简析(Decoder + MHA)
不涉及transformer原理,只看transform结构的具体运行过程,涉及到推理。关于原理细节可参考这篇或者查阅其他相关优秀文章。0x10 Transformer 基本结构T…