2023-03-22干活小计:
创始人
2025-06-01 14:09:02

transformer:

position-embedding:

残差:我也会了

addnorm:我也会了

class Position_Embedding(nn.Module):def __init__(self, max_len, embedding_dim):self.max_len = max_lenself.embedding_dim = embedding_dimresult = torch.ones(self.max_len, self.embedding_dim, requires_grad=False)pos = torch.arange(max_len)[:, None]i_even = torch.arange(0, embedding_dim, 2)[None, :]i_odd = torch.arange(1, embedding_dim, 2)[None, :]even_value = pos / (10000**(2*i_even/self.embedding_dim))odd_value = pos / (10000**(2*i_odd/self.embedding_dim))result[:, 0::2] = torch.sin(even_value)result[:, 1::2] = torch.cos(odd_value)self.position_embedding = resultdef forward(self, x):position_embedding = x + self.position_embeddingreturn position_embedding

self-attention以及mask-padding部分:

周末忙完了自己实现一遍,带进任务,看看效果。

attention组合位置信息,全连接组合特征信息

transformer中的masked loss:不要算pad部分的loss  tf中有对应的函数(也可以利用CROSSentropy的一个ignore参数)

 

相关内容

热门资讯

玛雅人的五大预言 玛雅人预言2... 曾经玛雅人预言2012年是世界末日,但当时好像没有发生什么。没想到10年后的2022年,疫情,战争,...
长白山自助游攻略 吉林长白山游... 昨天介绍了西坡的景点详细请看链接:一个人的旅行,据说能看到长白山天池全凭运气,您的运气如何?今日介绍...
cad打印线条粗细设置 cad... 004-线型(下)打印样式设置和线型文件使用一、线宽设置方法制图规范里边的线宽要求,我们已经定义好,...
阿西吧是什么意思 阿西吧相当于... 即使你没有受到过任何外语培训,你也懂四国语言。汉语:你好英语:Shit韩语:阿西吧(아,씨발! )日...
世界上最漂亮的人 世界上最漂亮... 此前在某网上,选出了全球265万颜值姣好的女性。从这些数量庞大的女性群体中,人们投票选出了心目中最美...