Gru RNN là gì

Trong bài viết cuối cùng của mình, tôi đã giới thiệu về Mạng thần kinh tái phát và những biến chứng mà nó mang lại. Để chống lại những hạn chế, chúng tôi sử dụng LSTM và GRU.

Mạng thần kinh tái diễn cho hình nộm

Trở ngại, Trí nhớ ngắn hạn

Mạng thần kinh tái diễn được giới hạn trong bộ nhớ ngắn hạn. Nếu một chuỗi dài được đưa vào mạng, họ sẽ gặp khó khăn trong việc ghi nhớ thông tin và cũng có thể bỏ qua thông tin quan trọng ngay từ đầu.

Bên cạnh đó, Recurrent Neural Networks phải đối mặt với Vấn đề Vanishing Gradient khi quá trình lan truyền ngược xuất hiện. Do xung đột, các gradient được cập nhật nhỏ hơn nhiều không để lại thay đổi trong mô hình của chúng tôi và do đó không đóng góp nhiều trong việc học.

“Khi chúng tôi thực hiện lan truyền ngược, chúng tôi tính toán trọng số và độ lệch cho mỗi nút. Tuy nhiên, nếu những cải tiến trong các lớp trước đây là ít thì sự điều chỉnh đối với lớp hiện tại sẽ nhỏ hơn nhiều. Điều này làm cho độ dốc giảm đi đáng kể và do đó dẫn đến những thay đổi gần như NULL trong mô hình của chúng tôi và do đó mô hình của chúng tôi không còn học hỏi và không còn cải tiến nữa. ”

Tại sao lại sử dụng LSTM và GRU?

Hãy để chúng tôi nói rằng, bạn đang xem các bài đánh giá trực tuyến cho Schitt's Creek để xác định xem bạn có thể xem nó hay không. Cách tiếp cận cơ bản sẽ là đọc đánh giá và xác định cảm xúc của nó.

Khi bạn tìm bài đánh giá, tiềm thức của bạn sẽ cố gắng ghi nhớ những từ khóa mang tính quyết định. Bạn sẽ cố gắng nhớ những từ có trọng lượng hơn như “Aaaaastonishing”, “vượt thời gian”, “đáng kinh ngạc”, “lập dị” và “thất thường” và sẽ không tập trung vào những từ thông thường như “nghĩ”, “chính xác”, “hầu hết”, v.v.

Lần tới khi bạn được yêu cầu nhắc lại bản đánh giá, có lẽ bạn sẽ gặp khó khăn, nhưng, tôi cá là bạn phải nhớ tình cảm và một số từ quan trọng và quyết định như đã đề cập ở trên.

Và đó chính xác là những gì LSTM và GRU dự định hoạt động.

Chỉ học và nhớ những thông tin quan trọng và quên mọi thứ khác.

LSTM [Trí nhớ ngắn hạn dài hạn]

LSTM là một dạng tiến bộ của RNN vani được giới thiệu để chống lại những thiếu sót của nó. Để thực hiện trực giác đã đề cập ở trên và quản lý thông tin quan trọng do vector trạng thái có kích thước hữu hạn trong RNN, chúng tôi sử dụng các cổng đọc, ghi và quên có chọn lọc.

Khái niệm trừu tượng xoay quanh các trạng thái tế bào và các cổng khác nhau. Trạng thái tế bào có thể chuyển thông tin tương đối sang chuỗi trình tự và có khả năng mang thông tin liên quan trong suốt quá trình tính toán, do đó giải quyết được vấn đề về trí nhớ ngắn hạn. Khi quá trình tiếp tục, càng nhiều thông tin liên quan được thêm vào và loại bỏ qua các cổng. Gates là loại mạng thần kinh đặc biệt giúp tìm hiểu thông tin liên quan trong quá trình đào tạo.

Viết có chọn lọc

Chúng ta hãy giả sử, trạng thái ẩn [ sₜ ], trạng thái ẩn trước đó [ sₜ₋₁ ], đầu vào hiện tại [ xₜ ] và thiên vị [ b ].

Bây giờ, chúng tôi đang tích lũy tất cả các kết quả đầu ra từ trạng thái trước đó sₜ₋₁ và sản lượng tính toán cho tình trạng hiện thời của

Sử dụng Ghi có chọn lọc, chúng tôi quan tâm đến việc chỉ chuyển thông tin liên quan đến trạng thái tiếp theo . Để thực hiện chiến lược, chúng ta có thể gán một giá trị từ 0 đến 1 cho mỗi đầu vào để xác định lượng thông tin sẽ được chuyển sang trạng thái ẩn tiếp theo.

Chúng ta có thể lưu trữ phần thông tin được truyền vào trong vector hₜ₋₁ t hat có thể được tính bằng cách nhân vectơ trạng thái trước đó sₜ₋₁oₜ₋₁ lưu trữ giá trị từ 0 đến 1 cho mỗi đầu vào.

Vấn đề tiếp theo mà chúng tôi gặp phải là, làm thế nào để có được oₜ₋₁?

Để tính toán oₜ₋₁ chúng ta phải tìm hiểu nó và các vectơ duy nhất mà chúng tôi có quyền kiểm soát trên, là các thông số của chúng tôi. Vì vậy, để tiếp tục tính toán, chúng ta cần biểu diễn oₜ₋₁ dưới dạng tham số.

Sau khi học Uo, WoBo bằng cách sử dụng Gradient Descent, chúng ta có thể mong đợi một dự đoán chính xác bằng cách sử dụng cổng đầu ra [ oₜ₋₁ ] của chúng tôi đang kiểm soát lượng thông tin sẽ được chuyển đến cổng tiếp theo.

Đọc có chọn lọc

Sau khi chuyển thông tin liên quan từ cổng trước, chúng tôi giới thiệu một vector trạng thái ẩn mới Šₜ [được đánh dấu màu xanh lá cây].

Šₜ nắm bắt tất cả thông tin từ trạng thái trước đó hₜ₋₁ và đầu vào hiện tại xₜ .

Tuy nhiên, mục tiêu của chúng tôi là loại bỏ càng nhiều nội dung không quan trọng càng tốt và để tiếp tục với ý tưởng của mình, chúng tôi sẽ đọc có chọn lọc từ Šₜ để xây dựng một giai đoạn ô mới.

Để lưu trữ tất cả các phần nội dung quan trọng, chúng tôi sẽ quay lại chiến lược 0–1 trong đó chúng tôi sẽ chỉ định giá trị từ 0–1 cho mỗi đầu vào xác định tỷ lệ mà chúng tôi muốn đọc.

Vector iₜ sẽ lưu trữ giá trị tỷ lệ cho mỗi đầu vào mà sau này sẽ được nhân với Šₜ để điều khiển thông tin chạy qua đầu vào hiện tại, được gọi là Cổng vào.

Để tính toán iₜ, chúng ta phải học nó và các vectơ duy nhất mà chúng ta có quyền kiểm soát là các tham số của chúng ta. Vì vậy, để tiếp tục tính toán, chúng ta cần biểu diễn iₜ dưới dạng tham số.

Sau khi tìm hiểu Ui, WiBi bằng cách sử dụng Gradient Descent, chúng ta có thể mong đợi một dự đoán chính xác bằng cách sử dụng cổng đầu vào [ iₜ ] đang kiểm soát lượng thông tin sẽ được cung cấp cho mô hình của chúng ta.

Tổng hợp các thông số đã học được đến giờ:

Quên có chọn lọc

Sau khi đọc và viết thông tin một cách có chọn lọc, bây giờ chúng ta đang cố gắng quên đi tất cả những thứ không liên quan có thể giúp chúng ta cắt bỏ sự lộn xộn.

Để loại bỏ tất cả thông tin lãng phí khỏi sₜ₋₁, chúng tôi sử dụng Quên cổng fₜ.

Tiếp theo truyền thống đã đề cập ở trên, chúng tôi sẽ giới thiệu cổng quên fₜ sẽ tạo thành một giá trị nằm trong khoảng từ 0 đến 1 sẽ được sử dụng để xác định tầm quan trọng của mỗi đầu vào.

Để tính fₜ, chúng ta phải học nó và các vectơ duy nhất mà chúng ta có quyền kiểm soát là các tham số của chúng ta. Vì vậy, để tiếp tục tính toán, chúng ta cần biểu diễn fₜ dưới dạng các tham số đã cho.

Sau khi học Uf, WfBf bằng Gradient Descent, chúng ta có thể mong đợi một dự đoán chính xác bằng cách sử dụng cổng quên [ fₜ ] đang kiểm soát lượng thông tin sẽ bị loại bỏ.

Tổng hợp thông tin từ việc quên cổng và cổng đầu vào sẽ truyền cho chúng tôi về thông tin trạng thái ẩn hiện tại.

Mô hình cuối cùng

Tập hợp đầy đủ của các phương trình trông giống như:

Các tham số được yêu cầu trong LSTM nhiều hơn so với yêu cầu trong vanilla RNN.

Do sự khác biệt lớn về số lượng cổng và cách sắp xếp của chúng, LSTM có thể có nhiều loại.

GRU [Đơn vị định kỳ được xác định]

Như đã đề cập trước đó, LSTM có thể có nhiều biến thể và GRU là một trong số đó. Không có khả năng LSTM, GRU cố gắng triển khai ít cổng hơn và do đó giúp giảm chi phí tính toán.

Trong Gated Recurrent Units, chúng ta có một cổng đầu ra kiểm soát tỷ lệ thông tin sẽ được chuyển sang trạng thái ẩn tiếp theo, bên cạnh đó, chúng ta có một cổng đầu vào kiểm soát luồng thông tin từ đầu vào hiện tại và không giống như RNN, chúng tôi không sử dụng cổng quên .

Để giảm thời gian tính toán, chúng tôi loại bỏ cổng quên và để loại bỏ thông tin, chúng tôi sử dụng lời khen của vector cổng đầu vào tức là [1- iₜ ].

Các phương trình được thực hiện cho GRU là:

Những điểm chính

  • LSTM & GRU được giới thiệu để tránh bộ nhớ ngắn hạn của RNN.
  • LSTM quên bằng cách sử dụng Forget Gates.
  • LSTM nhớ sử dụng Cổng vào.
  • LSTM giữ bộ nhớ dài hạn bằng cách sử dụng Trạng thái ô.
  • GRU nhanh và ít tốn kém hơn về mặt tính toán so với LSTM.
  • Các gradient trong LSTM vẫn có thể biến mất trong trường hợp lan truyền chuyển tiếp.
  • LSTM không giải quyết được vấn đề về gradient bùng nổ, do đó chúng tôi sử dụng gradient clipping.
  • Phân tích cảm xúc bằng RNN
  • Tạo nhạc AI bằng LSTM

Hy vọng rằng bài viết này sẽ giúp bạn hiểu về Bộ nhớ ngắn hạn dài [LSTM] và Đơn vị định kỳ [GRU] một cách tốt nhất có thể và cũng hỗ trợ bạn trong việc sử dụng nó trong thực tế.

Như mọi khi, cảm ơn bạn rất nhiều vì đã đọc, và hãy chia sẻ bài viết này nếu bạn thấy nó hữu ích!

Hãy kết nối:

LinkedIn ~ //www.linkedin.com/in/dakshtrehan/

Instagram ~ //www.instagram.com/_daksh_trehan_/

Github ~ //github.com/dakshtrehan

Theo dõi để biết thêm các blog về Học máy / Học sâu.

Trung bình ~ //medium.com/@dakshtrehan

Muốn tìm hiểu thêm?

Phát hiện COVID-19 bằng Học sâu

Thuật toán AI không thể tránh khỏi: TikTok

Hướng dẫn của người trong cuộc về hoạt hình bằng Máy học

Tại sao BẠN phải chịu trách nhiệm cho Vụ giết người của George Floyd và các cuộc bạo động ở Delhi?

Mạng thần kinh tái phát cho hình nộm

Mạng lưới thần kinh Convolution cho người giả

Đi sâu vào Học sâu

Tại sao lại chọn rừng ngẫu nhiên chứ không phải cây quyết định

Clustering: Nó là gì? Khi nào sử dụng nó?

Bắt đầu Hành trình ML của bạn với k-Những người hàng xóm gần nhất

Naive Bayes giải thích

Các chức năng kích hoạt được giải thích

Giải thích về tối ưu hóa tham số

Giải thích về Gradient Descent

Giải thích hồi quy logistic

Hồi quy tuyến tính được giải thích

Xác định sự phù hợp hoàn hảo cho mô hình ML của bạn

Chúc mừng!

Video liên quan

Chủ Đề