oldpan博客
-
AI算法部署工程师的一些含泪经验(二)
Hello各位好久不见~ 继续老潘的含泪经验,紧接着AI算法工程师的一些含泪经验(一),除了训练模型阶段的注意点,这次更多的是一些部署方面的经验,希望能够对大家有帮助。依然是抛砖引…
-
部署必备—triton-inference-server的backend(一)——关于推理框架的一些讨论
本文接着上一篇 深度学习部署神器——triton-inference-server入门教程指北 的介绍,继续triton的讲解。 建议先看第一篇。对于部署的同学来说,或者之后想要不…
-
神器!终于把TensorRT的engine模型的结构图画出来了!
终于把TensorRT的engine模型的结构图画出来了! 大概长这样(截取了最终模型图的输入部分),仔细看看: 可以看到很多层被融合了,比如conv1.weight + Quan…
-
OpenAI开发者大会,Chatgpt4更牛逼了
以下由chatgpt4即兴创作,草稿为昨晚的发布会。 亲爱的网友们,你们是否还在为错过昨晚的OpenAI开发者大会而懊悔不已?别担心,我来给你们复盘一下。昨晚的大会,真是让人有种“…
-
量化番外篇——TensorRT-8的量化细节
好久不见各位~ 这篇文章很久之前写完一直没有整理,最近终于是整理差不多了,赶紧发出来。 本文接着《必看部署系列-神经网络量化教程:第一讲!》这一篇接着来说。上一篇主要说了量化的一些…
-
TensorRT-LLM初探(一)运行llama,以及triton tensorrt llm backend服务化
前文 TensorRT-LLM正式出来有半个月了,一直没有时间玩,周末趁着有时间跑一下。 之前玩内测版的时候就需要cuda-12.x,正式出来仍是需要cuda-12.x,主要是因为…
-
实践torch.fx第一篇——基于Pytorch的模型优化量化神器
今天聊一下比较重要的torch.fx,也趁着这次机会把之前的torch.fx笔记整理下,笔记大概拆成三份,分别对应三篇: 本文对应第一篇,主要介绍torch.fx和基本使用方法。废…
-
AI算法工程师的笔记本环境配置?老潘的!
还是爱折腾啊~ 前一阵子买了个新的笔记本电脑,幻13-3050TI-1T版本,全能本,CPU是8核心16线程的标压版AMD锐龙9-5900HS,显卡是NVIDIA-3050TI,重…
-
老潘的思考(AI部署、方向、就业)!
最近工作内容陷入了瓶颈,不知道自己想干啥了,总会有些重复性较强的工作。虽然也有些空闲时间看看其他东西,但发现看的东西越多,越发感到迷茫。不清楚自己该学什么,该看什么东西,或者说对自…
-
CUDA C++ 编程指北-第四章 性能提升指南
紧接着:CUDA C++编程指北-第二第三章,编程接口与硬件实现 Overall Performance Optimization Strategies 整体性能优化策略 性能优化…