oldpan博客
-
工智能最不卷的岗位:文心大模型推理加速
随着深度学习模型商业化落地的同时,算法模型不断增加,对场景的实时性要求愈发高了,模型的推理与加速就尤为重要。比如安防、语音助手、推荐、搜索、环境感知等场景对模型响应的速度均有较高的…
-
算法、推理、部署,面了40多个大佬的感想
今年三月份到现在陆陆续续面了40来个人,有实习生,有校招生,也有来社招的大佬们。面了挺久,有些总结和感想,发出来和大家交流交流,也趁着这个机会为之后参与校招的同学提供一些学习方向。…
-
Pytorch 2.1版本发布拉,新变化
国庆啥也没干,无意间看了下,PyTorch 2.1竟然正式发布(发布说明[1])了,有些重磅功能终于完善的差不多了。对了,本文的标题图由DALL`E3创作~ 在PyTorch 2.…
-
CUDA C++编程指北-第二第三章,编程接口与硬件实现
接第一章 CUDA C++ 编程指北-第一章 入门以及编程模型 这里整理CUDA手册中的CUDA编程接口和GPU硬件实现部分。 CUDA的编程接口 CUDA C++为熟悉C++编程…
-
CUDA C++ 编程指北-第一章 入门以及编程模型
GPU的优势 为什么要用GPU呢,GPU相比CPU强在两点: GPU和CPU之间的能力差异存在,因为它们是根据不同的目标设计的。 CPU旨在以尽可能快的速度执行一系列操作(称为线程…
-
兼顾灵活性和性能以及调试的手搓TensorRT网络?!
用过TensorRT的基本都接触过trtexec[1],可以方便快捷地将你的ONNX模型转换为TensorRT的engine: 其中原理是啥,这就涉及到了另外一个库onnx-ten…
-
老潘的部署之路2.0.0
好久没更文了,每次偷懒一段时间再更文的时候,总会感慨技术发展太快了,之前写的东西又有点过时了。 尤其是AI领域,变动太快,大家的风向也一直在变,前两年还在VR/XR的搞,今年因为C…
-
TensorRT-9.0和TensorRT-LLM马上要发布了!
TensorRT-9.0和TensorRT-LLM马上要发布了,这里先汇总一下信息,之后会搞,需要注意这俩是两个不一样的东西,后者继承自fastertransformer,是大语言…
-
以LLAMA为例,快速入门NLP部署,然后搞Chatgpt
前段时间搞llama的部署,顺便学习了下transformer和nlp的一些基础知识和细节,记了一些笔记,这里总结一下。 因为搞的是llama,所以内容主要是和llama相关,不过…
-
实践torch.fx第二篇——基于FX的PTQ量化实操
好久不见各位,哈哈,又鸽了好久。本文紧接上一篇《实践torch.fx第一篇——基于Pytorch的模型优化量化神器》继续说,主要讲如何利用FX进行模型量化。 为什么这篇文章拖了这么…