oldpan博客

消息资讯

工智能最不卷的岗位：文心大模型推理加速

随着深度学习模型商业化落地的同时，算法模型不断增加，对场景的实时性要求愈发高了，模型的推理与加速就尤为重要。比如安防、语音助手、推荐、搜索、环境感知等场景对模型响应的速度均有较高的…

oldpan博客
2023年10月19日
消息资讯

算法、推理、部署，面了40多个大佬的感想

今年三月份到现在陆陆续续面了40来个人，有实习生，有校招生，也有来社招的大佬们。面了挺久，有些总结和感想，发出来和大家交流交流，也趁着这个机会为之后参与校招的同学提供一些学习方向。…

oldpan博客
2023年10月17日
文档

Pytorch 2.1版本发布拉，新变化

国庆啥也没干，无意间看了下，PyTorch 2.1竟然正式发布（发布说明[1]）了，有些重磅功能终于完善的差不多了。对了，本文的标题图由DALL`E3创作~ 在PyTorch 2.…

oldpan博客
2023年10月8日
经验教程

CUDA C++编程指北-第二第三章，编程接口与硬件实现

接第一章 CUDA C++ 编程指北-第一章入门以及编程模型这里整理CUDA手册中的CUDA编程接口和GPU硬件实现部分。 CUDA的编程接口 CUDA C++为熟悉C++编程…

oldpan博客
2023年9月21日
经验教程

CUDA C++ 编程指北-第一章入门以及编程模型

GPU的优势为什么要用GPU呢，GPU相比CPU强在两点： GPU和CPU之间的能力差异存在，因为它们是根据不同的目标设计的。 CPU旨在以尽可能快的速度执行一系列操作（称为线程…

oldpan博客
2023年9月15日
文档

兼顾灵活性和性能以及调试的手搓TensorRT网络？！

用过TensorRT的基本都接触过trtexec[1]，可以方便快捷地将你的ONNX模型转换为TensorRT的engine：其中原理是啥，这就涉及到了另外一个库onnx-ten…

oldpan博客
2023年9月14日
经验教程

老潘的部署之路2.0.0

好久没更文了，每次偷懒一段时间再更文的时候，总会感慨技术发展太快了，之前写的东西又有点过时了。尤其是AI领域，变动太快，大家的风向也一直在变，前两年还在VR/XR的搞，今年因为C…

oldpan博客
2023年8月24日
消息资讯

TensorRT-9.0和TensorRT-LLM马上要发布了！

TensorRT-9.0和TensorRT-LLM马上要发布了，这里先汇总一下信息，之后会搞，需要注意这俩是两个不一样的东西，后者继承自fastertransformer，是大语言…

oldpan博客
2023年8月18日
经验教程

以LLAMA为例，快速入门NLP部署，然后搞Chatgpt

前段时间搞llama的部署，顺便学习了下transformer和nlp的一些基础知识和细节，记了一些笔记，这里总结一下。因为搞的是llama，所以内容主要是和llama相关，不过…

oldpan博客
2023年7月14日
经验教程

实践torch.fx第二篇——基于FX的PTQ量化实操

好久不见各位，哈哈，又鸽了好久。本文紧接上一篇《实践torch.fx第一篇——基于Pytorch的模型优化量化神器》继续说，主要讲如何利用FX进行模型量化。为什么这篇文章拖了这么…

oldpan博客
2023年6月18日

联系我们

联系我们

返回顶部