👋
Welcome
to
Cuterwrite 's
Blog
本文介绍了如何在本地实现一个高效且直观的 Retrieval-Augmented Generation (RAG) 服务,通过 Docker 集成了 Open WebUI、Ollama 和 Qwen2.5 模型。步骤包括部署 Open WebUI、配置 Ollama 以使用 bge-m3 embedding 模型进行文档向量化处理、以及 Qwen2.5 生成模型回答用户查询。最终实现了一个可以进行文档检索和生成答案的本地化系统。该方法不仅简化了操作流程,还增强了数据隐私保护及生成式 AI 的应用能力。
本文介绍了 Arm 架构中的 Scalable Matrix Extension (SME),重点解析了其 Streaming SVE 模式下高效的矩阵运算能力,以及利用 ZA array 进行大规模数据存储和灵活访问的机制,为高性能计算应用提供了强大的硬件加速支持。
本文介绍了 Arm 推出的可伸缩向量扩展 (SVE) 及其增强版 SVE2。它们通过提供可变长度的向量寄存器、灵活的 per-lane predication 以及丰富的指令集,显著提升了数据密集型应用(如 HPC 和 ML)的性能,并通过软件二进制兼容性保证了跨不同硬件平台的可移植性。此外,SVE 提供了 ACLE (ARM C Language Extensions) 来帮助开发者进行编程,可以通过调用 arm_sve.h 头文件中的内部函数直接在 C/C++ 代码中使用 SVE 指令,实现高效的向量化运算。
构建一个完整的 LLM 应用,仅仅拥有强大的模型是不够的。一个繁荣的 LLM 生态系统,需要涵盖从模型训练、优化到部署和应用的各个环节。本文将带您一览 LLM 生态的各个方面,探索如何将 LLM 真正应用到实际场景中。
本文转载于知乎专栏:14. RDMA 之 Memory Window,作者:Savir。为了更灵活方便的控制内存访问权限,IB 协议设计了 MW。本文主要介绍 MW 的作用、和 MR 的关系、接口以及分类。另外相比 MR 一文,对 L_Key 和 R_Key 进行了更深入的介绍。