About

Giới thiệu trước tiên về xử lý NLP
Khóa học mới nhất của chúng tôi là phần giới thiệu đầu tiên về NLP, tuân theo triết lý giảng dạy fast.ai về chia sẻ triển khai mã thực tiễn và cho sinh viên cảm nhận về phần nhiều trò chơi, trước khi đi sâu vào chi tiết cấp rẻ hơn. những ứng dụng được kể bao gồm mô hình hóa chủ đề, phân chiếc (xác định liệu tình cảm của Đánh giá là theo định hướng hay tiêu cực), mô phỏng tiếng nói và dịch thuật. Khóa học dạy một sự pha trộn của những chủ đề NLP truyền thống (bao gồm regex, SVD, vịnh ngây thơ, mã thông báo) và các bí quyết mạng thần kinh mới đây (bao gồm RNNs, seq2seq, sự chú ý và kiến ​​trúc máy biến áp), cũng như giải quyết những vấn đề đạo đức nguy cấp, như thiên vị và thông báo sai lệch. những chủ đề có thể được xem theo quy trình bất kỳ.

Xem thêm: https://www.mindalife.vn/khoa-hoc-nlp/

gần như những mã đều bằng Python trong Jupyter Notebooks, sử dụng PyTorch và thư viện fastai . Bạn có thể sắm thấy toàn bộ mã cho các sổ ghi chép sở hữu sẵn trên GitHub và phần đông các video của những bài giảng đều với trong danh sách phát này .

Khóa học này ban sơ được giảng dạy trong chương trình kỹ thuật dữ liệu của Đại học San Francisco vào tháng 5 tháng 6 năm 2019. USF MSDS đã tồn tại được 7 năm (hơn 330 sinh viên đã phải chăng nghiệp và đi làm nhà kỹ thuật dữ liệu chỉ cần khoảng này!) và hiện được lưu trữ tại Viện dữ liệu ở trung tình thực phố SF. Trong các năm trước, Jeremy đã dạy khóa học máy và tôi đã dạy 1 môn đại số tuyến tính tính tự chọn như 1 phần của chương trình.

điểm thu hút NLP
một số điểm đặc sắc của khóa học mà tôi đặc thù hào hứng:

Chuyển giao việc học cho NLP
Mẹo làm việc với những tiếng nói khác ngoài tiếng Anh
Chú ý và máy biến áp
các thuật toán tạo văn bản (bao gồm cả việc thực hành 1 bài báo mới từ Viện Allen)
các vấn đề sai lệch và 1 số bước để khắc phục chúng
một bài giảng đặc thù của Nikhil Garg về phương pháp nhúng từ mã hóa những bản cái (và cách thức này đã đổi thay trong 100 năm qua)
khiến cho thế nào tiến bộ NLP đang nâng cao nguy cơ mất thông tin
Rủi ro nâng cao lên từ các mô phỏng tiếng nói mới như GPT-2
số đông các chủ đề sở hữu thể độc lập, vì thế không cần phải trải qua khóa học giả dụ bạn chỉ để ý tới các chủ đề cụ thể (mặc dù tôi hy vọng mọi người sẽ xem những video về thiên tính và thông báo lệch lạc , vì đây là những chủ đề quan trọng cho mọi người quan tâm đến máy học tập). Lưu ý rằng video với độ dài khác nhau từ từ 20-90 phút.

Đã sở hữu nhiều tiến bộ to trong NLP trong năm ngoái, và kết quả hiện đại mới đang đạt được mỗi tháng. NLP vẫn còn rất nhiều ngành nghề, mang các thực tiễn phải chăng nhất thay đổi và những tiêu chuẩn mới chưa được khắc phục. Điều này làm một thời gian thú vị để Nhận định NLP. Khóa học này bao gồm 1 sự pha trộn của các công nghệ truyền thống hơn, những cách tiếp cận mạng thần kinh mới hơn và những vấn đề thúc bách về sai lệch và không rõ ràng.

Xem thêm: https://www.mindalife.vn/

NLP là gì?
cách thức NLP truyền thống

Trong phần ba trước tiên của khóa học, chúng tôi bao gồm mô phỏng hóa chủ đề có SVD, phân mẫu tình cảm chuẩn y những vịnh thơ ngây và hồi quy logisitic và regex. trên phố đi, chúng tôi Đánh giá những công nghệ xử lý quan yếu như mã thông báo và số hóa.

nlp

Jeremy san sớt máy tính xách tay jupyter bước qua ULMFit , Dự án đột phá của anh mang Sebastian Ruder năm ngoái để áp dụng thành công việc học chuyển sang NLP. công nghệ này bao gồm tập huấn 1 mô hình ngôn ngữ trên một kho văn bản lớn, tinh chỉnh nó cho một kho văn bản khác và nhỏ hơn, sau đấy thêm 1 bộ phân cái vào cuối. công việc này đã được vun đắp dựa trên những bài báo mới đây hơn như BERT, GPT-2 và XLNet. Trong tài liệu mới (kèm theo những bản cập nhật cho thư viện fastai), Jeremy san sớt các mẹo và thủ thuật để làm cho việc sở hữu các tiếng nói khác ngoài tiếng Anh và xem qua những thí dụ triển khai ULMFit cho tiếng Việt và tiếng Thổ Nhĩ Kỳ.

Giới thiệu về mô phỏng hóa tiếng nói
Chúng tôi sẽ đi sâu vào một số chi tiết cơ bản về cách hoạt động của các RNN đơn thuần và sau đấy xem xét mô hình seq2seq để dịch. Chúng tôi xây dựng mô phỏng dịch thuật của mình, thêm các phương pháp như buộc giáo viên, chú ý và GRU để cải thiện hiệu suất. Sau đó chúng tôi đã sẵn sàng để chuyển sang Transformer, khám phá 1 khai triển.

Hiểu RNN

Dịch sở hữu Seq2Seq

Thuật toán tạo văn bản (Jeremy Howard)

thực hiện GRU

Giới thiệu về máy biến áp

Máy biến áp cho dịch tiếng nói

The Transformer for dịch tiếng nói

The Transformer for dịch ngôn ngữ

những vấn đề đạo đức trong NLP

NLP đặt ra các vấn đề đạo đức quan trọng, chả hạn như phương pháp những bản loại sở hữu thể được mã hóa trong các từ nhúng và phương pháp những từ của các nhóm bên lề thường với khả năng được phân loại là độc hại. ấy là 1 điều trị đặc thù để sinh viên tấn sĩ Stanford Nikhil Garg san sớt công tác của mình đã được xuất bản trên PNAS về chủ đề này. Chúng tôi cũng Tìm hiểu về 1 khuôn khổ để hiểu rõ hơn về duyên do của những mẫu sai lệch khác nhau, tầm quan trọng của việc đặt nghi vấn về công việc nào chúng ta nên hạn chế hoàn toàn và những bước để khắc phục sự tây vị, chả hạn như Báo cáo dữ liệu cho NLP .

Nikhil Garg đã thuyết trình cho khách mời về công việc của mình cho thấy cách thức các từ nhúng định lượng thành kiến ​​trong 100 năm qua

Nikhil Garg đã thuyết trình cho khách mời về công việc của mình cho thấy cách các từ nhúng định lượng định kiến ​​trong 100 năm qua

xu thế không hề là vấn đề đạo đức duy nhất trong NLP. các mô hình tiếng nói phức tạp hơn sở hữu thể tạo ra văn xuôi giả quyến rũ mang thể nhấn chìm con người thật hoặc thao túng dư luận. Chúng tôi nói tới tính năng động của thông tin sai lệch, rủi ro của văn bản tạo ra máy tính hấp dẫn, quyết định phát hành gây tranh cãi của OpenAI cho GPT-2 và một số bước được bắt buộc đối sở hữu các biện pháp, như hệ thống để xác minh hoặc chữ ký số.

các trong khoảng nhúng định lượng 100 năm định kiến ​​về giới và dân tộc (Nikhil Garg)
xu hướng thuật toán

các gì bạn cần biết về thông tin méo mó

Về lý do tại sao sự thiên vị thuật toán lại quan yếu, những loại khác nhau và những bước để khắc phục nó

Về lý do vì sao sự bẩm tính thuật toán lại quan trọng, những chiếc khác nhau và những bước để khắc phục nó

Chúng tôi hy vọng bạn sẽ kiểm tra khóa học! đa số mã cho sổ biên chép jupyter được tiêu dùng trong lớp mang thể được tìm thấy trên GitHub và danh sách phát của toàn bộ các video sở hữu sẵn trên YouTube .

(Cập nhật để thêm) khiến quen có việc khiến việc có dữ liệu trong Python, cũng như sở hữu những khái niệm học máy (như tập đào tạo và kiểm tra) là điều kiện tiên quyết nhu yếu. 1 số kinh nghiệm sở hữu PyTorch và màng lưới tâm thần là bổ ích.

Xem thêm: https://www.vingle.net/posts/2854189

Như mọi khi, tại fast.ai, chúng tôi khuyên bạn nên học trên cơ sở lúc cấp thiết (quá nhiều sinh viên cảm thấy cần phải dành hàng tháng hoặc thậm chí phổ biến năm cho tài liệu nền trước lúc họ mang thể sở hữu được các gì thực sự để ý tới họ, và quá thường xuyên, ấy là nguyên liệu nền chấm dứt thậm chí ko cần thiết). ví như bạn để ý đến khóa học này, nhưng ko cứng cáp liệu bạn sở hữu nền tảng phù hợp hay không, hãy tiếp diễn và thử khóa học! nếu như bạn tậu thấy những khái niệm cần yếu mà bạn ko thân thuộc, bạn luôn có thể tạm bợ ngừng và nghiên cứu về chúng. bên cạnh đó, hãy kiên cố kiểm tra những diễn đàn fast.ai như một nơi để đặt câu hỏi và san sớt tài nguyên.
Recent Activity