近期有十几个学生在面试大模型产品经理(薪资还可以,详情见下图),根据他们面试(包括1-4面)中出现高频大于3次的问题汇总如下,一共32道题目(有答案)。
25.什么是多模态,多模态中常见的SOTA模型有哪些?
多模态是指涉及多种模态(如图像、文本、音频、视频等)的数据处理和分析。
多模态学习是一种利用多种模态的数据来进行机器学习的方法,它可以挖掘不同模态之间的关联性和互补性,提高数据的表达能力和理解能力。
多模态学习的应用场景非常广泛,例如图像描述、视觉问答、语音识别、跨模态检索等。
多模态学习的意义在于,它可以更好地模拟人类的认知和交互方式,提高机器的智能水平和用户体验。
多模态学习也可以克服单一模态数据的局限性和不足,例如缺失、噪声、歧义等,提高数据的完整性和可靠性。
多模态学习还可以挖掘不同模态数据之间的潜在联系和规律,提高数据的价值和意义。
1)Vision Transformer (ViT):这是一种将自注意力机制引入计算机视觉领域的模型,通过将图像划分为图像补丁并应用Transformer模型,实现了在图像分类和目标检测等任务上的出色表现。
2)CLIP (Contrastive Language-Image Pre-training):这是一种利用海量从网络上搜集的图像-文本对进行对比学习的模型,使用一个图像编码器和一个文本编码器分别对图像和文本编码,再以对比学习为优化目标训练模型。
CLIP模型在零样本图像分类任务,以及图文匹配和检索等问题上取得了非常好的效果。
3)CoCa (Contrastive Captioners): 这是一种融合了单编码器、双编码器和编码器-解码器三种结构的多模态模型,既能生成图像侧和文本侧的表示,又能进行更深层次的图像、文本信息融合以及文本生成。
CoCa在图像分类、图文检索、看图说话、VQA等多个任务上都取得了SOTA效果。
26.什么是stable diffusion?请你介绍一下diffusion模型的原理?
Diffusion模型是一种无监督的生成模型,它的基本思想是将一个真实的数据(如图像、文本、音频等)通过逐步添加高斯噪声的方式,转化为一个服从标准正态分布的随机变量。
然后,通过一个反向的去噪过程,从随机变量恢复出原始的数据。
diffusion模型可以用于各种生成任务,如文本到图像、图像到图像、图像修复、图像绘制等diffusion模型有以下几个特点:
1)它不需要对数据进行复杂的建模,只需要一个简单的高斯分布假设。
2)它可以利用自注意力机制和Transformer结构来提高生成质量和效率。
3)它可以利用对比学习和CLIP模型来提高与文本描述的匹配度。
4)它可以利用潜在空间的扩散来降低计算复杂度和内存消耗。
Stable diffusion是diffusion模型的一种改进版本,它主要解决了原始的Diffusion模型在反向去噪过程中需要输入完整尺寸的图像,导致速度慢和内存占用大的问题。
stable diffusion的方法是先将图像压缩到一个低维的潜在空间,然后在潜在空间进行扩散和去噪,最后再将潜在空间的向量映射回原始空间。
这样可以大大提高生成速度和节省内存。stable diffusion是一种生成模型,其原理基于Langevin动力学和扩散过程。其核心思想是通过多次迭代,逐渐将噪声信号演化为目标分布所对应的样本。
具体原理如下:
初始化噪声信号为服从高斯分布的随机向量。通过一系列的演化步骤,将噪声信号迭代地转化为目标分布的样本。
每一步中,将当前噪声信号与目标分布的梯度信息结合,通过Langevin动力学方程进行更新,使噪声信号逐渐接近目标分布。迭代的次数越多,噪声信号越接近目标分布,并最终生成目标分布的样本。
stable diffusion通过合理的选择演化步长和迭代次数,可以在生成样本的过程中平衡样本质量和生成速度。
27.instructGPT的原理,讲讲RLHF、SFT、和reward
instructGPT是一种基于强化学习的文本生成模型,其核心原理涉及两个概念:RLHF(Reinforcement Learning from Human Feedback)和reward shaping(奖励塑造)。
1)RLHF: 在训练instructGPT时,首先使用有人类生成的示例对模型进行预训练。
然后,通过与人类评估者进行交互,收集评估结果,以创建一个用于强化学习的数据集。
该数据集包含了人类评估者对生成结果的评分或反馈,用于指导模型的强化学习训练。
2)Reward shaping: 为了更好地引导模型的训练,reward shaping用于调整模型的奖励信号。
通过将人类评估者的反馈与模型生成的文本进行比较,可以计算出一个差异度量,用作奖励信号的一部分。
这样,模型可以根据这个奖励信号进行训练,并进行强化学习的训练。
模型根据当前的状态(对话历史)生成文本,并通过奖励信号来评估生成文本的质量。模型的目标是最大化预期累积奖励,从而生成更高质量的文本。
通过RLHF和reward shaping的结合,instructGPT能够通过人类评估者的反馈指导模型的生成过程,并逐步提升生成文本的质量和一致性。
监督微调(SFT) 和人类反馈强化学习(RLHF) 是两种用于微调大型语言模型的方法,它们的目的是使模型的输出更符合人类的偏好和价值观。
它们的基本思想和步骤如下:
监督微调(SFT): SFT是一种利用人工标注的数据来训练模型的方法,它可以使模型学习到一些基本的规则和约束,例如遵循人类的指令、避免有害或无用的输出等。SFT的步骤包括:
准备数据集: 收集一些包含人类指令和期望输出的数据,例如Helpful and Harmless数据集,它包含了一些常见的对话场景和相应的标签。
训练模型: 使用一个预训练好的语言模型,例如GPT-4,并在数据集上进行微调,使模型能够根据输入的指令生成合适的输出。
评估模型: 使用一些评价指标,例如准确率、BLEU分数、ROUGE分数等,来衡量模型的性能和质量。
人类反馈强化学习(RLHF): RLHF是一种利用人类对模型输出的评价来训练模型的方法,它可以使模型更好地适应人类的偏好和价值观,例如生成更有趣、更友好、更安全的输出等。
RLHF的步骤包括:
训练奖励模型: 收集一些包含人类对模型输出的评价或排名的数据,例如HumanEval数据集,它包含了一些由人类评价员对不同模型输出进行打分或排序的数据。
使用一个预训练好的语言模型,例如GPT-4,并在奖励模型上进行微调,使奖励模型能够根据输入和输出给出一个奖励值。
训练策略模型: 使用一个预训练好的语言模型,例如GPT-4,并使用一种强化学习算法,例如近端策略优化(Proximal Policy Optimization,PPO),来更新模型参数。PPO算法会根据奖励模型给出的奖励值来调整模型生成不同输出的概率。
评估模型: 使用一些评价指标,例如奖励值、人类标注、对话质量等,来衡量模型的性能和质量。
28.介绍一下lora的原理和ptuning的原理。
Lora方法的核心是在大型语言模型上对指定参数增加额外的低秩矩阵,也就是在原始PLM旁边增加一个旁路,做一个降维再升维的操作。
并在模型训练过程中,固定PLM的参数,只训练降维矩阵A与升维矩阵B。
ptuning方法的核心是使用可微的virtual token替换了原来的discrete tokens,且仅加入到输入层,并使用prompt encoder(BiLSTM+MLP)对virtual token进行编码学习。
另外,各位对AIGC求职感兴趣的小伙伴,可以多个关键词同时搜索:AIGC产品经理、AI产品经理、ChatGpt产品经理、大模型体验、大模型产品、AI数字人、AI机器人、对话机器人等等,本质上工作内容都是偏AIGC的工作内容。
👉获取方式:
😝文章篇幅有限,详细资料有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓