Entries Published On 4月, 2020
【Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned】
本文细致的探讨了Transformer之中的不同Head的作用,以及尝试了丢弃一些看起来没什么用的Head,看 …
Continue reading
本文细致的探讨了Transformer之中的不同Head的作用,以及尝试了丢弃一些看起来没什么用的Head,看 …