AI深度学习和AIGC大模型实战_数据-分析-人工智能_上海交大教育集团IT研究院-WAP手机版

掌握AI深度学习，开启大模型研发实战之旅！

课程特色

本课程深入讲解自然语言处理（NLP）的基础、技术和应用，同时特别关注人工智能生成内容（AIGC）和大模型的研发。课程内容从NLP的基本定义到其在现实世界的应用，探讨面临的挑战和限制，并详细介绍文本预处理和清洗技术。特别强调语言模型，如n-gram和神经网络语言模型，及其在文本分类、情感分析和文本生成等领域的应用。课程深入词嵌入技术，包括Word2Vec和GloVe算法，并探讨其应用。重点关注深度学习在NLP中的应用，尤其是卷积神经网络（CNN）、循环神经网络（RNN）、Transformer模型和BERT及其变体的研究和应用，强调这些技术在AIGC和大模型研发中的核心地位。此外，课程涵盖向量数据库技术和LangChain的先进应用，以及QLORA和RAG等模型的详细介绍，展示它们如何优化语言模型查询和检索性能，提高生成内容的质量和准确性。

通过结合理论学习和实战案例，本课程旨在培养学员使用最新NLP技术和深度学习框架开发和应用AIGC大模型的能力，为学员提供全面的知识结构，以解决实际问题并推动NLP和AIGC技术的发展。

学员对象

本课程适合对AI深度学习、自然语言处理（NLP）、大模型开发感兴趣的开发者、数据分析师等人群。本课程能为你提供全面的指导和帮助。通过本课程的学习，你将能够更好地应对实际工作中的挑战，提升自己的职业竞争力。

学员需要具备python编程能力，熟悉python核心语法，python数据分析的方法。学员同时需要具备统计学理论基础，对于机器学习、深度学习以及自然语言处理的基本概念有一定的了解。

课程安排：8天课程（64课时）

授课形式

小班精讲（面授/直播）、案例分析、操作演示、练习实践、课堂即时互动交流答疑；

课后服务（1年内）：课程答疑，课件资料升级分享，录播回看，免费重修

课程大纲

第一天

初识NLP

NLP定义

NLP在现实世界中的应用

NLP的挑战和限制

文本预处理

文本清洗

语言模型概述

n-gram语言模型

神经网络语言模型

语言模型的应用

词嵌入部分

词向量概述

Word2Vec算法

GloVe算法

词向量的应用

文本分类

文本分类概述

朴素贝叶斯分类器

第二天

深度学习与PyTorch简介

使用基于神经网络的机器学习技术，处理复杂数据。

PyTorch简介：深度学习框架，动态计算图。

卷积神经网络（CNN）简介

CNN简介：用于图像处理的神经网络，特点是能够捕捉空间特征。

一维卷积神经网络（CNN1D）简介

基本概念：1D CNN是一种专门处理序列数据的神经网络，类似于2D CNN处理图像数据。它在数据的一维序列上应用卷积。

主要用途：广泛应用于时间序列分析、自然语言处理等领域。

CNN1D的工作原理

卷积层：通过一维卷积核在输入数据上滑动，提取序列特征。

池化层：减少计算量，同时保持特征的重要信息。

全连接层：将卷积和池化层的输出转化为最终的输出（如分类结果）。

CNN1D的网络架构

层的堆叠：通常包括多个卷积层和池化层，可以根据任务需求调整深度和宽度。

激活函数：ReLU或其他非线性激活函数用于引入非线性。

PyTorch实现CNN1D

模型定义：使用PyTorch定义1D CNN的结构，包括卷积层（torch.nn.Conv1d）、池化层（如torch.nn.MaxPool1d）和全连接层（torch.nn.Linear）。

数据处理：将数据格式调整为1D CNN接受的形式，即[批大小, 通道数, 序列长度]。

训练和评估：定义损失函数和优化器，进行模型的训练和评估。

第三天

使用PyTorch创建和训练RNN，用于语言建模等任务。

PyTorch深度学习实战

实践应用：通过实际案例学习PyTorch，如自然语言处理。

PyTorch GPU安装：安装支持GPU的PyTorch版本。

单GPU环境配置

使用工具如nvidia-smi：监控GPU性能和健康状况。

深度学习在NLP中的应用介绍

使用深度学习框架（如Keras或PyTorch）实现文本分类和情感分析

文本生成Transformer和深度学习模型

文本生成概述

语言模型生成

基于神经网络的文本生成

文本生成的应用

机器翻译

Transformer模型详细知识点介绍

Transformer模型简介

在自然语言处理中的应用

与传统序列模型（如RNN、LSTM）的比较

输入表示

词嵌入

词嵌入的概念

词嵌入与one-hot编码的对比

位置编码器

位置编码的重要性

位置编码的实现方式

Transformer架构

编码器-解码器结构

编码器的作用和结构

解码器的作用和结构

自注意力机制

注意力机制的概念

自注意力的计算过程

第四天

注意力机制

多头注意力

多头注意力的定义和作用

多头注意力的实现细节

注意力算法

Q（Query）、K（Key）、V（Value）的概念

计算注意力权重的过程

Softmax函数在注意力机制中的作用

Softmax的定义

如何使用Softmax计算注意力分数

Transformer编码器

编码器层的组成

自注意力层和前馈神经网络层

层归一化和残差连接

Transformer解码器

解码器层的组成

掩码自注意力

编码器-解码器注意力

前馈网络、层归一化和残差连接

训练过程

损失函数的选择

优化器和学习率调整

正则化技术

Transformer的应用

机器翻译

文本生成

语言理解任务

BERT模型概览

BERT模型简介

BERT与传统Transformer的区别

BERT的双向特性

BERT的创新点

双向表示的重要性

如何实现真正的双向上下文

预训练任务

掩码语言模型（MLM）

下一句预测（NSP）

预训练过程详解

掩码语言模型（MLM）

MLM的原理和实现

MLM的训练过程

下一句预测（NSP）

NSP的原理

NSP在BERT中的作用

第五天

BERT的架构

BERT的网络结构

输入表示：词嵌入、片段嵌入和位置嵌入

输出层的设计

BERT的训练策略

预训练的概念

训练数据的选择和处理

训练过程中的技术细节

BERT在下游任务中的应用

文本分类、问答系统、命名实体识别等

Tune BERT以适应特定任务

实例分析和案例研究

BERT的变体和进展

如RoBERTa、ALBERT和DistilBERT

BERT在其他领域的应用

最新的研究和发展动态

实践练习和项目

BERT的实现和使用

实际数据集上的练习

在自然语言处理中的作用和应用场景

向量数据库简介

向量数据库的作用和重要性

常见的向量数据库技术概述

向量数据库详细介绍

Pinecone

特点和优势

应用场景

Chroma

功能和使用场景

其他向量数据库

如Weaviate, Milvus, 和Faiss

它们的特点和比较

第六天

LangChain概览

LangChain简介

LangChain的核心模块

LlamaIndex的提示词模板

结构化输出

LlamaIndex不同层次的多种模块

数据管理，提供了现成的非结构化文档摘要索引来增强检索。

与LangChain集成：LlamaIndex可以集成到LangChain中，以优化检索能力

评估模块评估文档检索和响应合成的质量，专注于生成响应与给定上下文的一致性

可定制存储,提供了一个用户友好的界面，用于摄取、索引和查询外部数据

回调特性,提供了一个回调功能，用于调试、跟踪和跟踪内部操作

LangChain整合

提示词工程实用工具

LangChain包括提示词模板、输出解析、记忆和检索模型集成的实用工具

代理和链开发

LangChain的agent代理和“链”开发跟上了LLM应用的最新改进

LlamaIndex与LangChain对比

检索和有效的数据结构化

Agently智能体开发框架介绍

1. 智能体/LLM应用的定义与作用

什么是智能体？智能体与大模型的关系是什么样的

智能体概念的演进过程，基本架构与功能

2. 智能体的决策和反思

如何让智能体进行决策与任务执行

实战：基于本地部署Deepseek模型开发一个能够进行决策与任务执行的智能体模块

如何让智能体进行反思

实战：翻译Agent的复现

3. 智能体的应用场景

探讨智能体在行业场景中的落地情况

探讨智能体系统/LLM应用的常见分类

进一步理解LLM应用的设计思想

讨论LLM应用的构成关键要素

梳理智能体概念和LLM应用之间的关系

进一步梳理工作流的设计思想

讨论为什么LLM应用需要工作流

讨论“使用工作流就会限制灵活度，就不智能了吗？”

实战：自规划

解读早期AutoGPT项目的核心工作原理

自规划应用的关键执行思路设计

动手做一个自规划方案

讨论自规划方案的能力扩展方式

QLORA优化模型数据

QLORA简介：

描述：QLORA（Query Language Optimized for Retrieval and Annotation）是一种用于增强语言模型查询和检索性能的方法。

实现细节：它通过优化查询的语言表示来提高检索系统的准确性和效率。

数据预处理：

描述：对原始数据集进行清洗和格式化，以适应QLORA模型。

实现细节：包括去除噪声，标准化文本格式，以及确保数据质量。

查询优化：

描述：对查询语句进行优化，使其更加符合模型的处理方式。

实现细节：使用自然语言处理技术，如同义词替换、关键词提取，优化查询表达。

模型训练与调整：

描述：使用优化后的数据训练QLORA模型。

实现细节：选择合适的训练参数，如学习率和批处理大小，进行模型训练。

性能评估：

描述：对优化后的模型进行性能评估。

实现细节：使用标准化的测试数据集，评估模型在各项指标上的表现。

RAG常见步骤过程

RAG简介：

描述：RAG结合了神经检索和生成模型，以提高回答生成的质量和准确性。

实现细节：它先从一个大型文档集合中检索相关信息，然后基于这些信息生成回答。

数据索引构建：

描述：为文档集合创建索引，以便高效检索。

实现细节：使用向量化方法将文档转换成向量，并建立索引，如使用Elasticsearch或FAISS。

检索相关文档：

描述：基于用户的查询，从索引中检索最相关的文档。

实现细节：计算查询向量与文档向量间的相似度，返回得分最高的文档，生成回答：

描述：使用检索到的文档作为上下文，生成回答。

实现细节：将检索到的文本与查询合并，输入到生成模型（如GPT），产生回答。

回答优化和校验：

描述：对生成的回答进行优化和校验，确保其准确性和可信度。

实现细节：运用后处理技术，如语句平滑和事实校验，提高回答的质量。

第七天：Huggingface库介绍与cursor开发工具介绍

与其他NLP工具和框架的集成Hugging Face生态系统概览

安装Hugging Face Transformers库

模型加载与分词器使用

加载预训练Transformer模型

使用Hugging Face Model Hub

安装和配置

如何安装Transformer类库

环境配置和依赖管理

使用在线Hub

Hugging Face Hub的介绍

如何浏览和查找模型

模型下载和使用方法

获取和使用API Key

API Key的作用和获取方法

如何在代码中配置和使用API Key

安全性和权限管理

Tokenization过程

Tokenizer的作用和原理

1. Cursor的安装与配置

安装Cursor编辑器

配置工作空间和扩展

基础快捷键

2. 小牛试刀：用Cursor写一个浏览器插件-划词翻译

需求定义：Prompt描述

用Cursor创建初始项目

用Chrome浏览器加载项目

通过Cursor完善项目细节和修复问题

打包分享自己的作品

3. Cursor高级技巧

代码库索引

AI审查和代码重构

隐私模式

模型选择

自定义Curosr Rules

将外部文档作为知识库进行问答

配置 MCP Servers

4. 综合实战：用Cursor写一个取名字的AI应用

Curosr Rules设置

项目Prompt描述

项目初始化

AI编程和调试

发布自己的应用

第八天：模型训练与实战案例分析

大语言模型微调训练（一）

掌握模型训练/微调/小参数量微调的操作过程

掌握模型微调/小参数量微调关键「超参」

掌握训练数据的选择、准备、清洗等方法与思路

训练一个垂直领域的大模型

大语言模型微调训练（二）

模型训练（Training）

预训练基本概念（Pre-Training）

微调（Fine-Tuning）

轻量化微调（注入参数训练）（Parameter Efficient Fine-Tuning, PEFT）

实战案例分析

基于Deepseek与AI知识库的智能营销推荐系统

基于QA问答知识库和多模态大模型的AI数字人陪练系统