Mục lục bài viết

Kinh Nghiệm Hướng dẫn Thuộc tính nhãn cầu Dự kiến là gì Mới Nhất

Cập Nhật: 2022-01-18 00:45:04,You Cần kiến thức và kỹ năng về Thuộc tính nhãn cầu Dự kiến là gì. Quý quý khách trọn vẹn có thể lại Comment ở phía dưới để Admin đc tương hỗ.

527

Bài viết này được mình dịch từ nội dung bài viết: A Gentle Guide to Machine Learning

Tóm lược đại ý quan trọng trong bài

  • 1. Machine learning là gì?
  • 2. Machine learning trên thực tiễn
  • 2.1. Xử lý ảnh
  • 2.2. Phân tích văn bản
  • 2.3. Khai phá tài liệu
  • 2.4. Trò chơi điện tử & Robot
  • 3. Machine learning thao tác ra sao?
  • 3.1. Một số ví dụ thực tiễn
  • 3.2. Huấn luyện quy mô
  • 4. Phân loại thuật toán machine learning
  • 4.1. Học có giám sát
  • 4.2. Học không giám sát
  • 5. Các thuật toán Machine learning
  • 5.1. Một số thuật toán Machine learning
  • 6. Lưu ý quan trọng trong Machine learning
  • 6.1. Tôi nên sử dụng thuật toán học máy nào?
  • 6.2. Feature engineering
  • 6.3. Dữ liệu huấn luyện(Training data)
  • 6.4. Dữ liệu kiểm thử và những độ đo
  • 6.5. Hiệu suất
  • 7. Kết luận

1. Machine learning là gì?

Machine learning là gì? Machine learning là một nghành con của Trí tuệ tự tạo(Artificial Intelligence) sử dụng những thuật toán được cho phép máy tính trọn vẹn có thể học từ tài liệu để tiến hành những việc làm thay vì được lập trình một cách rõ ràng.

Bạn đã hiểu rồi chứ? Chúng ta trọn vẹn có thể làm cho máy tínhhọc để làm việc làm gì đó! Điều này nghe có vẻ như khá trừu tượng. Nó có nghĩa rằng, toàn bộ chúng ta trọn vẹn có thể lập trình cho những máy tính có kĩ năng tự học.

Khả năng học tập là một yếu tố then chốt của trí thông minh.

Nếu mang khái niệm này sang machine learning, có vẻ như đấy là một bước tiến lớn làm cho máy móc thông minh hơn. Trên thực tiễn, lúc bấy giờ Machine learning đang là nghành đã cho toàn bộ chúng ta biết sự tiến bộ trong tiến trình của Trí tuệ tự tạo. Nó đang là một chủ đề nóng và có kĩ năng làm cho máy móc trở nên thông minh hơn.

Bài viết này sẽ nỗ lực giúp mọi người hiểu machine learning là gì qua những khái niệm đơn thuần và giản dị nhất. Tôi sẽ trình diễn tổng quan về những khái niệm quan trọng, những ứng dụng và thử thách của Machine learning. Bài viết này sẽ không thể phục vụ nhu yếu toàn bộ mọi thứ về ML. Mà tôi sẽ đưa ra những khái niệm nền tảng để mọi người trọn vẹn có thể tiếp tục tìm hiểu.

Dành cho bạn nào đang tìm kiếm tài liệu machine learning: Tài liệu Machine Learning tổng hợp

2. Machine learning trên thực tiễn

Okay, chẳng có gì là hoàn hảo nhất hết. Machine learning cũng luôn có thể có những số lượng giới hạn của nó. Chúng ta không thể nào xây dựng một cỗ máy thông minh để học tài liệu từ cổ chí kim tới hiện tại. Tuy nhiên, đã có những ứng dụng thực tiễn mà machine learning làm rất tốt. Sau đấy là những nghành phổ cập mà machine learing góp mặt:

2.1. Xử lý ảnh

Bài toán xử lý ảnh(Image Processing) xử lý và xử lý những yếu tố phân tích thông tin từ hình ảnh hay tiến hành một số trong những phép biến hóa. Một số ví dụ là:

  • Gắn thẻ hình ảnh(Image Tagging), tựa như Facebook, một thuật toán tự động hóa phát hiện khuôn mặt của bạn và bạn hữu trên những tấm hình. Về cơ bản, thuật toán này học từ những tấm hình mà bạn tự gắn thẻ cho mình trước đó.
  • Nhận dạng ký tự(Optical Character Recognition), là một thuật toán chuyển tài liệu trên sách vở, văn bản thành tài liệu số hóa. Thuật toán phải học cách nhận ra ảnh chụp của một ký tự là ký tự nào.
  • Ô tô tự lái(Self-driving cars), một phần cơ chế sử dụng ở đấy là xử lý ảnh. Một thuật toán machine learning giúp phát hiện những mép đường, biển báo hay những chướng ngại vật bằng phương pháp xem xét từng khung hình video từ camera.

2.2. Phân tích văn bản

Phân tích văn bản(Text analysis) là việc làm trích xuất hoặc phân lọi thông tin từ văn bản. Các văn bản ở đây trọn vẹn có thể là những facebook posts, emails, những đoạn chats, tài liệu, Một số ví dụ phổ cập là:

  • Lọc spam(Spam filtering), là một trong những ứng dụng phân loại văn bản được biết và sử dụng nhiều nhất. Ở đây, phân loại văn bản là xác lập chủ đề cho một văn bản. Bộ lọc spam sẽ học cách phân loại một email có phải spam không dựa vào nội dung và tiêu đề của email.
  • Phân tích ngữ nghĩa(Sentiment Analysis), học cách phân loại một ý kiến là tích cực, trung tính hay xấu đi dựa vào nội dung văn bản của người viết.
  • Khai thác thông tin(Information Extraction), từ một văn bản, học phương pháp để trích xuất những thông tin hữu ích. Chẳng hạn như trích xuất địa chỉ, tên người, từ khóa,

2.3. Khai phá tài liệu

Khai phá tài liệu(Data mining) là quy trình mày mò ra những thông tin có mức giá trị hoặc đưa ra những Dự kiến từ tài liệu. Định nghĩa này còn có vẻ như bao quát, nhưng bạn hãy nghĩ về việc tìm kiếm thông tin hữu ích từ một bảng tài liệu rất rộng. Mỗi bản ghi sẽ là một đối tượng người tiêu dùng nên phải học, và mỗi cột là một đặc trưng. Chúng ta trọn vẹn có thể Dự kiến giá trị của một cột của bản ghi mới dựa vào những bản ghi đã học. Hoặc là phân nhóm những bản ghi của bản. Sau đấy là những ứng dụng của khai thác tài liệu:

  • Phát hiện không bình thường(Anomaly detection), phát hiện những ngoại lệ, ví như phát hiện gian lận thẻ tín dụng thanh toán. Bạn trọn vẹn có thể phát hiện một thanh toán thanh toán là khả nghi dựa vào những thanh toán thanh toán thường thì của người tiêu dùng đó.
  • Phát hiện những quy luật(Association rules), ví dụ, trong một siêu thị hay một trang thương mại điện tử. Bạn trọn vẹn có thể mày mò ra người tiêu dùng thường mua những món hàng nào cùng nhau. Dễ hiểu hơn, người tiêu dùng của bạn lúc mua món hàng A thường mua kèm món hàng nào? Các thông tin này rất hữu ích cho việc tiếp thị thành phầm.
  • Gom nhóm(Grouping), ví dụ, trong những nền tảng SaaS, người tiêu dùng được phân nhóm theo hành vi hoặc thông tin hồ sơ của mình.
  • Dự đoán(Predictions), những cột giá trị(của một bản ghi mới trong database). Ví dụ, bạn cũng trọn vẹn có thể Dự kiến giá của căn hộ hạng sang dựa vào những tài liệu về giá những căn hộ hạng sang bạn đã sở hữu.

2.4. Trò chơi điện tử & Robot

Trò chơi điện tử(Video games) và robot(Robotics) là nghành lớn có sự góp mặt của machine learning. Nếu ta có một nhân vật cần dịch chuyển và tránh những chướng ngại vật trong trò chơi. Machine learning trọn vẹn có thể học và xử lý và xử lý việc làm này thay bạn. Một kỹ thuật phổ cập được vận dụng trong trường hợp này là Học tăng cường(Reinforcement learning). Ở đó, máy sẽ học tăng cường với tiềm năng là xử lý và xử lý trách nhiệm trên. Học tăng cường là xấu đi nếu nó va phải chướng ngại vật, là tích cực nếu nó chạm tới đích.

Một thành tựu mới gần đây nhất là cỗ máy Alpha Go của Google DeepMind đã vượt mặt kỳ thủ cờ vậy số 1 toàn thế giới. Trong khi cờ vây là một trò chơi có không khí trạng thái cực kỳ lớn.

Okey, tôi đã hiểu machine learning là gì rồi. Tôi đã và đang thấy được những giá trị mà nó mang lại rồi. Nhưng làm thế nào machine learning làm được điều này?

3. Machine learning thao tác ra sao?

Một trong những cuốn sách thứ nhất tôi đọc hồi 10 năm trước đó làMachine Learningby Tom Mitchell. Cuốn sách này được viết năm 1997, nhưng kiến thức và kỹ năng trong này vẫn chuẩn xác cho tới ngày ngày hôm nay.

Trong cuốn sách đó, tôi thích định nghĩa của tác giá về machine learning:

A computer program is said to learn to perform atask Tfromexperience E, if its performance at task T, as measured by aperformance metric P, improves with experience E over time

Tạm dịch: Một chương trình máy tính được cho là học để tiến hành một trách nhiệm T từ kinh nghiệm tay nghề E, nếu hiệu suất tiến hành việc làm T của nó được đo bởi chỉ số hiệu suất P và được cải tổ bởi kinh nghiệm tay nghề E theo thời hạn.

Ví dụ: Một cỗ máy tiến hành chơi cờ(trách nhiệm T), trọn vẹn có thể học từ tài liệu những ván cờ trước đó hoặc chơi với một Chuyên Viên(kinh nghiệm tay nghề E). Khả năng chơi của cỗ máy là tỉ lệ số ván mà nó thắng lợi khi tập luyện với con người(hiệu suất P).

3.1. Một số ví dụ thực tiễn

Hãy cùng tưởng tượng trong một vài ví dụ khác:

  • VD1: Một khối mạng lưới hệ thống nhận vào một trong những hình ảnh, nó phải xác lập xem trong số đó có khuôn mặt của Ngọc Trinh hay là không. Điều này thấy rõ ràng nhất ở hiệu suất cao tự động hóa gắn thẻ khuôn mặt của Facebook.
  • VD2: Hệ thống nhận vào những reviews về một thành phầm món ăn. cần xác lập những reviews đó có nội dung tích cực hay xấu đi.
  • VD3: Một khối mạng lưới hệ thống nhận vào hình ảnh/ thông tin của một người. Đánh giá số điểm đo kĩ năng người này sẽ trả một khoản vay tín dụng thanh toán.

Trong VD1, trách nhiệm phát hiện khuôn mặt của người mẫu Ngọc Trinh trong một tấm hình. Kinh nghiệm trọn vẹn có thể là một tập hợp những ảnh có khuôn mặc Ngọc Trinh và một tập ảnh khác không tồn tại. Hiệu suất sẽ tiến hành tính bằng tỉ lệ đoán đúng chuẩn trên một tập ảnh mới.

Trong VD2, trách nhiệm của bài toán là là gán nhãn cho từng review. Kinh nghiệm ở đây trọn vẹn có thể là tập hợp những review và nhãn tương ứng của nó. Hiệu suất được đo bằng tỉ lệ Dự kiến nhãn đúng chuẩn trên những review mới.

Trong VD3, bài toán cần xử lý và xử lý là định hình và nhận định điểm tin cậy của người tiêu vốn để làm tiến hành cho vay vốn tín dụng thanh toán. Kinh nghiệm trọn vẹn có thể học được từ những tập hình ảnh/ thông tin của những người dân vay tín dụng thanh toán trước đi kèm theo thông tin họ có chi trả khoản vay tín dụng thanh toán đó không. Hiệu suất của quy mô sẽ tiến hành đo bằng tỉ lệ Dự kiến đúng trên tập người tiêu dùng mới.

3.2. Huấn luyện quy mô

Làm sao thuật toán trọn vẹn có thể thể đưa ra đầu ra mong ước từ tập tài liệu nguồn vào? Bạn cần một quy trình huấn luyện sử dụng những tài liệu huấn luyện. Nó đó là kinh nghiệm tay nghề E ở định nghĩa trên.

Một tập tài liệu huấn luyện gồm có nhiều mẫu huấn luyện. Mỗi mẫu huấn luyện sẽ là một thể hiện của bài toán(có nguồn vào và lời giải). Machine learning sẽ học từ những thể hiện đó để tìm ra lời giải phù thích phù hợp với từng nguồn vào mới. Nó tựa như thể bạn dạy 1 đứa trẻ cách ném 1 quả bóng; những bạn sẽ ném quả bóng vài lần cho đứa trẻ quan sát; Sau đó đứa trẻ sẽ khởi đầu học để tự ném quả bóng.

Các ví dụ trong tập huấn luyện thường có một tập thuộc tính/ đặc trưng cố định và thắt chặt. Đó là những thể hiện để mô tả về đối tượng người tiêu dùng đó. Như trong VD1, đặc trưng trọn vẹn có thể là tần suất những màu của mỗi tấm hình. Trong VD2, những đặc trưng một review sẽ là những từ tạo ra review đó. Còn VD3, những đặc trưng trọn vẹn có thể là tuổi tác, việc làm, mức lương của từng người,

Lựa chọn những đặc trưng thích hợp là một trách nhiệm quan trọng trong Machine learning. Chúng ta sẽ tiếp tục làm rõ điều này ở phần phía sau mục này.

4. Phân loại thuật toán machine learning

Mục này tôi sẽ nói về 2 thuật toán cơ bản của machine learning: Học có giám sát(Supervised learning) và Học không giám sát(Unsupervised learning). Sự rất khác nhau lớn số 1 giữa 2 thuật toán này là cách mà toàn bộ chúng ta phục vụ nhu yếu tập tài liệu huấn luyện cho quy mô; Cách thuật toán sử dụng tài liệu và loại yếu tố mà chúng xử lý và xử lý.

Phân loại những thuật toán machine learning

4.1. Học có giám sát

Trong học có giám sát, thuật toán machine learning tiến hành quy trình chuyển tài liệu nguồn vào thành đầu ra mong ước.

Trong ML, nguồn vào được gọi là input, đầu ra còn được gọi là label(nhãn). Tập tài liệu huấn luyện được gọi là training set; Mỗi mẫu tài liệu trong tập huấn luyện được gọi là training example.

Thuật toán machine learning cần học phương pháp để quy đổi mỗi input(nguồn vào) thành label(kết quả) tương ứng. Do vậy, mọi mẫu tài liệu huấn luyện trong tập tài liệu huấn luyện nên phải ghi nhận trước labelcủa nó.

Trong VD2 Xác định nhãn cho từng review: Đầu vào của tập tài liệu huấn luyện sẽ là những review về món ăn đó; Và mỗi review này đã được chỉ định rõ nội dung là tích cực hay xấu đi.

Tùy thuộc vào loại đầu ra mong ước, toàn bộ chúng ta tiếp tục chia nhỏ học có giám sát gồm:

4.1.1. Phân loại(Classification)

Khi đầu ra mong ước của toàn bộ chúng ta là một tập hữu hạn và rời rạc. Khi đó bài toán của toàn bộ chúng ta được gọi là bài toán phân loại. VD2 phía trên trọn vẹn có thể xếp vào bài toán phân loại; Các đầu ra mong ước của toàn bộ chúng ta là: tích cực, xấu đi và trung tính; Khi đó, tập tài liệu huấn luyện trọn vẹn có thể giống thế này:

Text
Label
Món này ngon phết, giá cả sinh viên nhưng phải chờ khá lâu vì đông quý khách.
Tích cực
Chờ lâu quá thể đáng.
Tiêu cực

4.1.2. Hồi quy(Regression)

Khi đầu ra mong ước là một dải giá trị liên tục. Chẳng hạn như giá trị xác suất, khi đó bài toán sẽ thuộc loại hồi quy. VD3 phía trên là một bài toán Dự kiến điểm tin cậy trong [0; 1]; Nó thể hiện xác suất một người sẽ trả những khoản vay của tớ. Khi đó, tài liệu sẽ tựa như sau:

Nghề nghiệp
Thu nhập
Tuổi
Điểm tin cậy
Lập trình viên
> 1000$
25
0.85
Sinh viên
< 200$
18
0.3

Học có giám sát là thuật toán phổ cập nhất trong những thuật toán machine learning. Hạn chế khi sử dụng thuật toán này là toàn bộ chúng ta cần phục vụ nhu yếu tài liệu có gán nhãn. Trong nhiều trường hợp, để sở hữu được tài liệu gán nhãn này rất tốn thật nhiều ngân sách. Chẳng hạn trong VD2, nếu ta cần 10.000 review có nhãn(tích cực, xấu đi, trung tính) để huấn luyện quy mô; Việc này sẽ cần con người đọc từng review và gán nhãn thủ công; Điều này rất tốn thời hạn và công sức của con người. Đây cũng là một rào cản của ML: xây dựng những tập tài liệu gán nhãn chất lượng.

4.2. Học không giám sát

Học không giám sát cũng là một nhánh trong machine learning. Các mẫu tài liệu trong học không giám sát chỉ việc input(nguồn vào) mà không cần label(đầu ra). Nó được sử dụng nhiều trong việc mày mò cấu trúc và quan hệ của tài liệu. Một thuật toán nổi bật nổi bật là bài toán phân cụm(clustering algorithm); Nó học phương pháp để tìm bộ sưu tập tài liệu tương tự nhau và nhóm vào thành những cụm(cluster). Một số thuật toán phân cụm như K-meanshọc cách phân cụm chỉ học từ tập tài liệu nguồn vào.

5. Các thuật toán Machine learning

Oke, hiện giờ toàn bộ chúng ta sẽ đi sâu hơn để làm rõ hơn cách machine learning thao tác. Để tiến hành quy đổi từ inputthành outputmong muốn, toàn bộ chúng ta trọn vẹn có thể sử dụng những quy mô rất khác nhau. Machine learning không phải là một loại thuật toán duy nhất; Có thể bạn đã nghe tới Support vector machine(SVM), Naive Bayes, Cây quyết định hành động(Decision Trees) hay Học sâu(Deep learning). Các thuật toán này đều nỗ lực xử lý và xử lý một bài toán: Học cách quy đổi mọi inputthành output đúng chuẩn của mà nó thuộc về.

Những thuật toán machine learning này sử dụng những quy mô/ kỹ thuật rất khác nhau để tiến hành quy trình học tập và thể hiện kiến thức và kỹ năng về những gì nó được học.

Nhưng trước lúc đi vào từng thuật toán, có một nguyên tắc chung: Các thuật toán machine learning nỗ lực khái quát hóa. Nghĩa là, nó sẽ tìm và lý giải Theo phong cách đơn thuần và giản dị nhất; Nguyên tắc này được nghe biết làOccams razor.

Mọi thuật toán machine learning đều nỗ lực đưa ra những giả thiết đơn thuần và giản dị nhất mà trọn vẹn có thể đúng với hầu hết bộ sưu tập trong tập tài liệu huấn luyện.

Có thật nhiều thuật toán machine learning rất khác nhau. Nhưng tôi sẽ trình diễn ngắn gọn về 3 thuật toán phổ cập nhất:

5.1. Một số thuật toán Machine learning

  • Support Vector Machines:Một thuật toán nỗ lực xây dựng một siêu mặt phẳng trong không khí nhiều chiều để phân biệt những đối tượng người tiêu dùng ở những lớp rất khác nhau; Làm sao cho khoảng chừng cách giữa 2 đối tượng người tiêu dùng khác labelgần nhau nhất có tầm khoảng chừng cách cực lớn. Ý tưởng của thuật toán cực kỳ đơn thuần và giản dị, nhưng quy mô nó lại rất phức tạp và có hiệu suất cao. Thực tế, ở một số trong những bài toán, SVM là một quy mô machine learning cho hiệu suất cao tốt nhất.
  • Mô hình xác suất(Probabilistic Models): Các quy mô này nỗ lực xử lý và xử lý bài toán bằng phân bổ xác suất. Một thuật toán phổ cập nhất là phân loại Naive Bayes; Nó sử dụng lý thuyết Bayes và giả thiết những đặc trưng là độc lập. Điểm mạnh mẽ của quy mô xác suất là đơn thuần và giản dị nhưng hiệu suất cao. Đầu ra của nó không riêng gì có là labelmà còn đi kèm theo xác suất thể hiện độ đúng đúng cho kết quả đó.
  • Học sâu(Deep learning): Hiện đang là Xu thế trong machine learning dựa vào những quy mô mạng nơ ron tự tạo(Artificial Neural Networks). Mạng nơ ron có cách tiếp cận liên kết và sử dụng ý tưởng Theo phong cách bộ não con người thao tác. Chúng gồm có số lượng lớn những nơ ron link với nhau; được tổ chức triển khai thành những lớp(layers). Học sâu liên tục được tăng trưởng với những cấu trúc mới sâu hơn; Nó không riêng gì có nỗ lực học mà còn xây dựng những cấu trúc màn biểu diễn những đặc trưng quan trọng một cách tự động hóa.

6. Lưu ý quan trọng trong Machine learning

Nhắc lại, Machine learning nghe có vẻ như rất thần thánh. Nhưng machine learning không tự động hóa làm toàn bộ mọi thứ cho bạn được. Thực tế, có nhiều bước thủ công cần làm để thiết kế ra một giải pháp. Tuy nhiên, chúng lại sở hữu tác động lớn tới kết quả của bài toán. Một số vấn đề cần lưu ý là:

6.1. Tôi nên sử dụng thuật toán học máy nào?

Lựa chọn thuật toán machine learning thích hợp
6.1.1. Học có giám sát hay học không giám sát?

Dữ liệu của bạn có nhãn(label) hay là không? Tức là, mỗi mẫu tài liệu huấn luyện có một đầu ra tương ứng hay là không? Nếu có, bạn hãy sử dụng học có giám sát để giải bài toán. Nếu không, học không giám sát là thuật toán bạn nên dùng.

6.1.2. Phân loại, hồi quy hay phân cụm?

Điều đó phụ thuộc đa phần vào vướng mắc: Bạn đang muốn xử lý và xử lý cái gì? Nếu bạn muốn muốn gắn thẻ cho một bài báo; phân loại trọn vẹn có thể là lựa chọn đúng đắn. Nhưng nếu người mua cần kết quả là một số lượng, ví dụ nổi bật nổi bật dự làm giá nhà đất, hồi quy là lựa chọn tốt nhất. Nếu bạn có một website bán thành phầm và muốn gợi ý thành phầm tương tự cho quý khách, lựa chọn hợp lý nhất trong trường hợp này là phân cụm.

6.1.3. Deep learning, SVM, Naive Bayes, Decision Trees thuật toán nào tốt nhất?

Câu vấn đáp là: Không có thuật toán nào là tốt nhất cho mọi bài toán. Có thể bạn thấy Deep learning và SVM đã chứng tỏ chúng mạnh mẽ và tự tin và hiệu suất cao trong nhiều ứng dụng rất khác nhau. Nhưng tùy vào từng bài toán rõ ràng và phân tích tài liệu, một vài thuật toán machine learning trọn vẹn có thể làm tốt hơn những thuật toán còn sót lại. Bạn nên phải ghi nhận ưu điểm của mỗi thuật toán và thử chúng để tìm kiếm được thuật toán tối ưu nhất!

6.2. Feature engineering

Feature engineering là quy trình toàn bộ chúng ta tiến hành trích xuất và trích chọn những đặc trưng(thuộc tính) quan trọng từ tài liệu thô để sử dụng làm đại diện thay mặt thay mặt cho bộ sưu tập tài liệu huấn luyện. Một tập tài liệu huấn luyện trọn vẹn có thể có thật nhiều thuộc tính, nhưng không phải cái nào thì cũng thiết yếu và quan trọng. Feature engineering là kỹ thuật giúp vô hiệu những thuộc tính dư thừa; làm đơn thuần và giản dị hóa quy trình màn biểu diễn tài liệu nhưng không làm tác động tới kết quả ở đầu cuối. Nếu không tồn tại bước này, quy mô học sẽ cực kỳ phức tạp và thậm chí còn còn giảm độ đúng chuẩn khi có những thuộc tính nhiễu.

Feature engineering là một bước quan trọng trong Machine learning(trừ khi tài liệu của bạn đã thật sạch hoặc là bài toán chưa đủ lớn).

Bạn nên để ý:Nếu bạn không tiến hành bước này, kết quả sẽ trọn vẹn có thể rất tệ, mặc dầu bạn có dùng một thuật toán tốt nhất đi nữa. Nó tựa như bạn nỗ lực đọc trong bóng tối vậy; bạn không thể đọc được mặc dầu bạn thông minh tới đâu đi nữa.

6.2.1. Trích xuất đặc trưng(Feature extraction)

Để nạp tài liệu huấn luyện vào quy mô học máy, bạn phải đưa tài liệu thô về cấu trúc nào này mà thuật toán trọn vẹn có thể hiểu. Công việc này được gọi là trích xuất đặc trưng. Thông dụng nhất, toàn bộ chúng ta sẽ chuyển tài liệu thô về tài liệu số là vector của những đặc trưng.

Trong VD1, làm thế nào ta trọn vẹn có thể truyền vào thuật toán machine learning một hình ảnh?

Một cách đơn thuần và giản dị là chuyển ảnh đó thành một vector; Mỗi thành phần trong vector đó tương ứng là giá trị màu xám của từng px trong ảnh. Khi đó, mỗi đặc trưng/thành phần sẽ là một giá trị số từ 0 255; 0 là màu đen, 255 là trắng và 1 254 là những giá trị mức độ xám.

Giải pháp trên trọn vẹn có thể cho kết quả, nhưng kết quả sẽ cải tổ hơn nếu ta phục vụ nhu yếu nhiều đặc trưng có mức giá trị hơn:

  • Hình ảnh đó có chứa ảnh khuông mặt người?
  • Màu da là gì?
  • Màu mắt là gì?
  • Khuôn mặt có tóc hay là không?

Đó là những đặc trưng ở tại mức cao hơn nữa. Những đặc trưng này còn có mức giá trị hơn nhiều so với đặc trưng màu của những px ảnh. Các đặc trưng này trọn vẹn có thể là kết quả của một thuật toán machine learning khác. Cung cấp những đặc trưng mức cao hơn nữa giúp quy mô học máy của ta học tập và đưa ra Dự kiến đúng chuẩn hơn.

Nếu toàn bộ chúng ta phục vụ nhu yếu những đặc trưng tốt hơn:

  • Thuật toán sẽ đã có được kĩ năng phục vụ nhu yếu những kết quả đúng chuẩn hơn.
  • Có thể sẽ cần ít tài liệu huấn luyện hơn
  • Có thể giảm đáng kể thời hạn huấn luyện quy mô.

6.2.2. Trích chọn đặc trưng(Feature selection)

Đôi khi, những đặc trưng toàn bộ chúng ta phục vụ nhu yếu cho thuật toán machine learning trọn vẹn có thể vô dụng. Chẳng hạn, với bài toán phân loại review, toàn bộ chúng ta phục vụ nhu yếu chiều dài của review, ngày tạo và người tạo review đó, chúng trọn vẹn có thể hữu ích hoặc không. Sẽ rất hữu ích nếu có phương pháp tự động hóa phát hiện điều này. Đó là trích chọn đặc trưng, thuật toán này sử dụng kỹ thuật đánh trọng số cho từng đặc trưng; Và chỉ lựa chọn những đặc trưng có trọng số cao.

Một lưu ý nữa: Cái gì nhiều quá cũng không tốt, tránh sử dụng số lượng đặc trưng quá rộng. Bạn trọn vẹn có thể bị cám dỗ và thêm toàn bộ những đặc trưng trọn vẹn có thể hữu ích. Nhưng đó không phải cách tốt, thêm đặc trưng cũng đồng nghĩa tương quan không khí bộ nhớ tăng thêm, làm cho tài liệu cách xa nhau hơn. Vấn đề phổ cập này được nghe biết với cái têncurse of dimensionality. Khi số lượng mẫu huấn luyện tăng theo cấp số nhân, đó thực sự là một yếu tố.

6.3. Dữ liệu huấn luyện(Training data)

Bạn cần truyền vào thuật toán machine learning bộ sưu tập tài liệu huấn luyện. Phụ thuộc vào bài toán bạn phải xử lý và xử lý, toàn bộ chúng ta trọn vẹn có thể cần vài trăm, vài nghìn, triệu hoặc hàng tỷ mẫu tài liệu huấn luyện. Cân nhắc, phục vụ nhu yếu bộ sưu tập huấn luyện tốt là rất quan trọng; Nếu bạn đưa vào bộ sưu tập tài liệu sai, thời cơ để sở hữu kết quả tốt sẽ giảm sút.

Thu thập một số trong những lượng lớn tài liệu liệu có chất lượng tốt để huấn luyện những quy mô học máy thường tốn nhiều ngân sách. Trừ khi toàn bộ chúng ta đã sở hữu sẵn tài liệu gán nhãn rồi. Bạn trọn vẹn có thể tiến hành việc làm này thủ công minh sức người. Một số công cụ tương hỗ tăng vận tốc gán nhãn trọn vẹn có thể hỗ trợ cho bạn.

Nguyên tắc chung về tài liệu huấn luyện là: Chất lượng của tài liệu huấn luyện của bạn càng tốt, kĩ năng bạn thu được kết quả tốt sẽ cao hơn nữa.

6.4. Dữ liệu kiểm thử và những độ đo

Sau khi toàn bộ chúng ta đào tạo và giảng dạy một thuật toán máy học, toàn bộ chúng ta cần kiểm tra hiệu suất cao của nó. Đây là một bước đặc biệt quan trọng quan trọng, nếu không những bạn sẽ không còn thể biết quy mô của tớ có học được gì hay là không!

6.4.1. Kiểm thử và độ đúng chuẩn

Ý tưởng tiến hành rất đơn thuần và giản dị, toàn bộ chúng ta sử dụng tài liệu kiểm thử(testing data); Dữ liệu này còn có cấu trúc giống với tài liệu huấn luyện; Nhưng là một tập tài liệu không tồn tại ở trong tập tài liệu huấn luyện. Chúng ta sẽ thử từng mẫu tài liệu kiểm thử, kiểm tra quy mô hoạt động giải trí và sinh hoạt có như mong đợi không. Nếu là bài toán học có giám sát, toàn bộ chúng ta quan sát bộ sưu tập quy mô cho ra kết quả đúng. Nếu độ đúng chuẩn trả ra là 90% trên tập kiểm thử, toàn bộ chúng ta kết luận quy mô này còn có độ đúng là 90%.

Điều quan trọng phải nhớ rằng tài liệu huấn luyện và kiểm thử phải tách biệt. Đây là cách duy nhất để kiểm tra hiệu suất của quy mô học máy. Bạn trọn vẹn có thể có kết quả tốt trên tập tài liệu huấn luyện, nhưng có kết quả tệ trên tập kiểm thử; việc này được gọi là overfiting; Mô hình học máy quá khớp với tài liệu huấn luyện và có một kết quả Dự kiến tệ. Cách thường vốn để làm tránh overfiting là sử dụng ít số lượng đặc trưng hơn; đơn thuần và giản dị hóa quy mô; sử dụng tập huấn luyện to nhiều hơn và không khí tài liệu bao quát hơn.

6.4.2. Một số độ đo khác

Độ đúng là độ đo cơ bản nhất, bạn cũng trọn vẹn có thể sử dụng độ đo khác ví như Precission vs Recall; Nó sẽ nói cho bạn thuật toán hoạt động giải trí và sinh hoạt tốt như nào trên từng nhãn. Confusion matrices là một công cụ tuyệt vời để xem thuật toán phân loại Dự kiến nhập nhằng trong trường hợp nào.

Đối với bài toán hồi quy và phân cụm, bạn nên phải có những độ đo khác để kiểm tra thuật toán của bạn có hoạt động giải trí và sinh hoạt tốt hay là không.

6.5. Hiệu suất

Trên thực tiễn, nếu người mua tăng trưởng giải pháp cho nhu yếu thực tiễn; Độ đúng chuẩn và vận tốc xử lý là những yếu tố bạn phải quan tâm. Ứng dụng của bạn dù có hiệu suất cao tốt nhưng xử lý chậm thì cũng chẳng sài được. Điều này còn có vẻ như trở ngại trong machine learning.

Việc thứ nhất là bạn phải lựa chọn một Machine learning Framework, những framework này thường có ở một số trong những ngôn từ lập trình nhất định. Python và thư viện Scikit-learn là một sự lựa chọn hoàn hảo nhất.

Tuy nhiên, yếu tố hiệu năng vẫn trọn vẹn có thể xẩy ra. Nó tùy từng số lượng tài liệu huấn luyện, độ phức tạp và thuật toán bạn sử dụng; Điều này trọn vẹn có thể mong ước những máy tính với bộ nhớ lớn và hiệu năng cao để huấn luyện. Có thể bạn phải huấn luyện nhiều lần để sở hữu được kết quả tốt. Bạn cũng trọn vẹn có thể đào tạo và giảng dạy lại quy mô để phủ hết những không khí tài liệu mới và tối ưu độ đúng chuẩn.

Nếu muốn huấn luyện tài liệu lớn với vận tốc nhanh, toàn bộ chúng ta sẽ mong ước những máy tính với thông số kỹ thuật kỹ thuật mạnh mẽ và tự tin; Chúng được cho phép chạy đa luồng tốt và tính toán tuy nhiên tuy nhiên.

Đây cũng là những yếu tố xẩy ra trên thực tiễn, nhưng những bạn sẽ cần xử lý và xử lý chúng nếu muốn xây dựng những ứng dụng machine learning thực tiễn.

7. Kết luận

Đó là một bức tranh tổng quan về về machine learning, machine learning là gì. Còn thật nhiều khái niệm, những ứng dụng thực tiễn, những thuật toán không được nhắc tới trong nội dung bài viết này. Tôi không thể trình diễn toàn bộ trong một nội dung bài viết.Nhưng, bạn cũng trọn vẹn có thể tự mày mò và tìm hiểu về chúng mà.

Machine learning cực kỳ mạnh mẽ và tự tin nhưng nó khó, nhưng yếu tố khó nêu trong nội dung bài viết này chỉ là phần ngọn mà thôi.

Thông thường, bạn nên phải có một nền tảng trong khoa học máy tính. Đặc biệt, ML yên cầu nên phải có kết quả tốt mới dùng được. Mọi người sẽ gặp phải thật nhiều trở ngại và vô vọng để xử lý và xử lý những bài toán trước lúc tìm ra hướng đi.

Hi vọng bạn thích nội dung bài viết này! Hãy để lại tại ô comment 1 ý kiến hoặc bất kỳ vướng mắc nào của bạn!

Reply
7
0
Chia sẻ

đoạn Clip hướng dẫn Share Link Download Thuộc tính nhãn cầu Dự kiến là gì ?

– Một số Keyword tìm kiếm nhiều : ” Video full hướng dẫn Thuộc tính nhãn cầu Dự kiến là gì tiên tiến và phát triển nhất , Chia Sẻ Link Down Thuộc tính nhãn cầu Dự kiến là gì “.

Thảo Luận vướng mắc về Thuộc tính nhãn cầu Dự kiến là gì

Bạn trọn vẹn có thể để lại phản hồi nếu gặp yếu tố chưa hiểu nha.
#Thuộc #tính #nhãn #cầu #dự #đoán #là #gì