topten top 100 machine learning interview questions

100 câu hỏi phỏng vấn về máy học hàng đầu năm 2022

Dưới đây là top 100 câu hỏi phỏng vấn tiếng anh hay gặp nhất trong các phỏng vấn việc làm yêu cầu ứng viên sử dụng tiếng Anh để trả lời, bao gồm nhiều câu hỏi liên quan đến cá nhân, bằng cấp, chuyên môn, điểm mạnh, lương, khả năng lãnh đạo, khả năng làm việc nhóm, tham chiếu và các câu hỏi mà bạn có thể hỏi lại nhà tuyển dụng.

Các câu hỏi phỏng vấn tiếng anh về cá nhân

1. Tell me about yourself.– Hãy giới thiệu về bản thân bạn.

2. What are your strengths? – Điểm mạnh của bạn là gì? - Câu hỏi này nhằm vào những gì bạn tự tin nhất với khả năng vượt trội của mình hơn những ứng viên khác.

3. What are your weaknesses? – Điểm yếu của bạn là gì?- Đừng vô tư trình bày tất cả các điểm yếu của mình cho nhà tuyển dụng biết, mà chỉ cần liệt kể một vài điểm yếu không ảnh hưởng nhiều đến vị trí ứng tuyển của bạn.

4. What do you see as a major success in your life? – Đâu là thành công lớn nhất trong cuộc đời bạn? – Hãy hướng câu trả lời của bạn đến những giá trị công việc tốt nhất mà thành công đó mang lại.

5. Describe a major disappointment in your life. – Điều gì khiến bạn thất vọng nhất trong cuộc đời mình?– Đừng mô tả quá nhiều vào thất vọng của bạn, mà hãy lái câu trả lời sang việc bạn đã làm thế nào vượt qua nỗi thất vọng đó.

6. What motivates you? – Đâu là động lực của bạn? – Đó có thể là gia đình, tương lai và tham vọng lớn của bạn.

7. What does success mean to you? – Theo bạn thành công là gì?

8. What are three of your greatest accomplishments? – Hãy liệt kê 3 thành công lớn nhất của bạn.

9. What are your plans for the future? – Kế hoạch cho tương lại của bạn là gì?

10. Have you done any volunteer work? – Bạn đã từng tham gia công việc tình nguyện nào chưa?

11. What are your hobbies? – Sở thích của bạn là gì?

12. What do you like to do in your spare time/free time? – Bạn làm gì khi rảnh rỗi?

13. Where do you see yourself five years from now? Ten years from now? Bạn có biết 5 năm nữa mình sẽ như thế nào? Và sau 10 năm tiếp theo thì sao?

14. Describe a time when you failed. – Hãy kể cho tôi biết một lần thất bại của bạn.

15. What is your favourite book/movie? – Bộ phim/cuốn sách yêu thích của bạn là gì?

16. What do you do for fun? – Bạn có phải là người vui tính?

17. What would you do if you won the lottery? – Bạn sẽ làm gì nếu trúng xổ số?

Các câu hỏi phỏng vấn tiếng anh về trình độ học vấn

18. Tell me about your educational background. – Hãy cho tôi biết về trình độ học vấn của bạn.

19. What academic courses did you like the most/the least? – Bạn thích nhất/ghét nhất khóa học nào?

20. Which academic course did you find most difficult? – Khóa học nào khó nhất đối với bạn?

21. Do you have plans for further education? – Bạn có kế hoạch gì cho việc học tập tiếp sau này không?

22. Why did you choose your major? – Tại sao bạn đã chọn chuyên ngành học này?

Các câu hỏi phỏng vấn tiếng anh về nghề nghiệp

23. Why do you want this job? – Tại sao bạn lại thích làm công việc này?

24. Why should we hire you? – Tại sao chúng tôi nên thuê bạn? – Đây là một dạng câu hỏi khác của mức độ phù hợp của bạn cho công việc này.

25. Why are you the best person for the job? – Tại sao bạn là người tốt nhất cho vị trí công việc này? – Nội dung câu hỏi này tương tự như câu hỏi thứ 23.

26. Explain how you would be an asset to this company. – Hãy giải thích tại sao bạn có thể đóng góp được nhiều cho công ty? – Câu hỏi này liên quan đến năng lực của bạn.

27. Why do you think you will be successful in this job? – Tại sao bạn nghĩ rằng bạn có thể thành công với công việc này? – Nội dung câu hỏi này tương tự như câu hỏi số 25.

28. What are your qualifications for this position? – Bạn có những chuyên môn gì phù hợp với vị trí này?– Câu hỏi này liên quan đến trình độ học vấn và kinh nghiệm làm việc phù hợp với công việc nhà tuyển dụng đang tìm ứng viên.

29. What can you offer our company? Bạn có thể cống hiến gì cho công ty của chúng tôi?

30. What do you know about this industry? – Bạn biết gì về công việc này?

31. What is your personal mission statement? – Quan điểm cá nhân của bạn [cho công việc này] là gì?

32. Why do you think you’re suited for this position? – Tại sao bạn nghĩ mình phù hợp với công việc này?– Tương tự như câu hỏi số 23 và 24.

33. Describe your work ethic. – Hãy mô tả về quan điểm của bạn về công việc và cách ứng xử ở chỗ làm việc.

34. Describe your management style. Hãy mô tả về phong cách quản lý của bạn. – Câu hỏi dành cho những vị trí ứng tuyển người lãnh đạo.

35. What are your short-term goals? – Mục tiêu ngắn hạn của bạn là gì?

36. What are your long-term goals? – Mục tiêu dài hạn của bạn là gì?

37. Why did you choose this field? – Tại sao bạn lại chọn lĩnh vực [công việc] này?

38. Please describe your work experience. – Hãy mô tả kinh nghiệm làm việc của bạn.

39. Why do you want to work for our company? – Tại sao bạn lại muốn làm việc ở công ty chúng tôi?

40. What do you know about our company? – Bạn biết gì về công ty chúng tôi?

41. What is most important to you in a job? – Điều gì quan trọng nhất đối với bạn khi làm việc?

42. Describe your previous jobs. – Hãy miêu tả về công việc trước của bạn.

43. Why did you leave your previous job? – Tại sao bạn lại nghỉ làm công việc trước đó?

44. What were your responsibilities in your previous position? – Trách nhiệm của bạn khi làm công việc cũ là gì?

45. What did you like the most about your last job? – Điều gì bạn thích nhất khi làm công việc cũ?

46. What did you like the least about your last job? – Điều gì bạn không thích nhất khi làm công việc cũ?

47. What did you learn in your previous job? – Bạn đã học được gì từ công việc trước đó của mình?

48. Do you work well under pressure? – Bạn có thể làm việc tốt dưới áp lực không?

49. Are you punctual? - Bạn có phải là người đúng giời không? – Đừng bao giờ trả lời là “Đúng”, trừ khi bạn muốn kết thúc cuộc phỏng vấn ngay.

50. How long do you plan to stay in this job? – Bạn muốn làm công việc này trong bao lâu? - Nếu nhà tuyển dụng chỉ tuyển bạn làm nhân viên dự án hay nhân viên tạm thời, bạn có thể chỉ ra thời gian như họ mong đợi.

51. Can you multi-task? – Bạn có thể làm nhiều việc cùng một lúc không? – Tốt nhất bạn nên khiêm tốn khi trả lời câu hỏi này.

52. Describe your ideal job. – Hãy miêu tả về công việc lý tưởng của bạn.

53. How would your co-workers describe you? Đồng nghiệp miêu tả thế nào về bạn?

54. How do you feel about learning new things? Bạn nghĩ thế nào về những thứ mới mẻ mà bạn học được [từ công việc]?

55. Have you ever had trouble with a boss? How did you handle it? – Bạn có gặp khó khăn gì với sếp của mình không? Bạn đã làm gì để giải quyết?

56. What major problems or challenges have you faced? – Những khó khăn hoặc thách thức lớn mà bạn đã phải đối mặt là gì?

57. Why did you resign? Tại sao bạn đã xin nghỉ làm?

58. Why were you fired? Tại sao bạn đã bị sa thải?

59. Are you a risk-taker? Bạn có phải là người thích mạo hiểm không? – Hãy hiểu rằng người tuyển dụng muốn hỏi liệu bạn có phải là người giám đương đầu với những cơ hội mới hay không?

60. What have you been doing since your last job? – Bạn đã làm gì sau khi nghỉ việc?

61. What’s the best movie you’ve seen in the past year? - Bộ phim hay nhất mà bạn đã xem vào năm ngoái là gì?

62. What’s the most interesting book you’ve read in the past year? – Đâu là cuốn sách lý thú nhất mà bạn đã đọc từ năm ngoái?

63. How soon can you start work? – Bạn cần bao lâu để có thể đi làm? – Nếu người tuyển dụng hỏi bạn câu này, bạn ăn chắc 90% cơ hội trúng tuyển.

64. Do you have any questions? - Bạn có câu hỏi nào cho chúng tôi [người tuyển dụng] không?

65. Are you looking for full- or part-time work? - Bạn đang cần công việc toàn thời gian hay bán thời gian?

66. Are you looking for a day or night job? - Bạn đang tìm công việc làm ban ngày hay ban tối?

67. Are you seeking a permanent or temporary position? - Bạn đang tìm công việc ổn định hay công việc tạm thời?

68. Can you work weekends? – Bạn có thể làm việc vào cuối tuần không?

69. Are you willing to work overtime? Bạn có muốn làm thêm ngoài giờ làm chính không?

70. Can you work nights? – Bạn có thể làm việc vào buổi tối không?

71. Are you willing to travel? – Bạn có muốn đi công tác [khi đảm nhiệm công việc này] không?

72. Are you willing to relocate? – Bạn có thể di chuyển nhiều chỗ khi làm công việc này không?

73. Do you have a driver’s licence? – Bạn có bằng lái xe không?

74. Do you like working with the public? – Bạn có thích làm việc với công chúng?

75. Do you like working with numbers? - Bạn có thích làm việc nhóm không?

76. How are your writing skills? - Kỹ năng viết của bạn như thế nào?

77. How’s your spelling? - Tên bạn phát âm như thế nào?

78. What computer programs are you familiar with? - Bạn đã quen sử dụng những chương trình máy tính nào?

79. Do you know any foreign languages? - Bạn biết bao nhiêu ngoại ngữ?

80. Have you worked in a multicultural environment before? – Bạn có từng làm việc trong môi trường đa văn hóa trước đó không?

81. How do you relate to people from diverse cultures? - Bạn có bà con họ hàng nào với người ở các nền văn hóa khác không?

Các câu hỏi về lương

82. What are your salary expectations? – Mức lương mong muốn của bạn là gì?

83. What salary do you want to earn? – Bạn muốn kiếm bao nhiêu tiền? – Tương tự này tương tự như câu hỏi số 81.

84. What kind of compensation are you looking for? - Bạn muốn nhận được những phúc lợi gì [từ công việc này]?

Các câu hỏi về người lãnh đạo

85. Do you consider yourself a leader? – Bạn có nghĩ rằng mình có thể làm một người lãnh đạo?

86. What leadership or managerial positions have you held? – Vị trí lãnh đạo hay quản lý nào bạn đã từng đảm nhiệm?

Các câu hỏi về tính làm việc độc lập
87. Do you like working alone? – Bạn có thích làm việc độc lập một mình?

88. How well do you work independently? Bạn làm việc độc lập một mình có tốt không?

89. How do you feel about working by yourself? Bạn nghĩ sao nếu bạn phải làm việc một mình?

Các câu hỏi về làm việc theo nhóm

90. Are you a team player? – Bạn có phải là người làm việc có tính đồng đội?

91. Do you work well with others? – Bạn có làm việc tốt với những người khác không? – Tương tự như câu hỏi số 89.

92. What strengths would you bring to a team? - Điểm mạnh của bạn khi làm việc theo nhóm là gì?

93. Do you prefer working on a team or by yourself? - Bạn thích làm việc theo nhóm hay làm việc độc lập?

Các câu hỏi về tham chiếu

94. May we contact your previous employers? – Chúng tôi có thể liên lạc với người chủ trước của bạn không?

95. Can we contact your references? – Chúng tôi có thể liên lạc với những người tham chiếu mà bạn cung cấp không?

Các câu hỏi bạn có thể hỏi người phỏng vấn bạn

96. If you were to offer me the job, how soon would you want me to start? – Nếu tôi có thể làm công việc này, bao giờ tôi có thể bắt đầu làm việc?

97. When could I expect to hear from you? – Khi nào tôi có thể biết kết quả của cuộc phỏng vấn này?

98. Are there any further steps in the interview process? – Sau cuộc phỏng vấn này liệu có thêm vòng phỏng vấn tiếp theo không?

99. What are the major responsibilities of this position? - Nhiệm vụ chính của tôi khi làm công việc này là gì?

100. Are there possibilities for advancement? – Tôi có cơ hội thăng tiến khi đảm nhiệm công việc này không?

Khoa học dữ liệu, còn được gọi là quyết định dựa trên dữ liệu, là một lĩnh vực liên ngành về các phương pháp khoa học, quy trình và hệ thống để trích xuất kiến thức từ dữ liệu dưới nhiều hình thức khác nhau và lấy sự hạ thấp dựa trên kiến thức này. Một nhà khoa học dữ liệu không chỉ được đánh giá về kiến thức của mình về học máy, mà anh ấy/cô ấy cũng nên có chuyên môn tốt về số liệu thống kê. Tôi sẽ cố gắng bắt đầu từ những điều cơ bản về khoa học dữ liệu và sau đó từ từ chuyển sang cấp độ chuyên gia. Vậy hãy bắt đầu.

1. Sự khác biệt giữa học máy được giám sát và không giám sát là gì?

Học máy được giám sát:

Học máy được giám sát đòi hỏi phải đào tạo dữ liệu có nhãn.

Học máy không giám sát:

Học máy không được giám sát không có dữ liệu được dán nhãn.

2. Bias là gì, giao dịch phương sai là gì?

Bias:

Bias là lỗi được giới thiệu trong mô hình của bạn do đơn giản hóa quá mức thuật toán học máy. Nó có thể dẫn đến thiếu hụt. Khi bạn đào tạo mô hình của mình tại mô hình thời điểm đó, các giả định đơn giản hóa để làm cho chức năng đích dễ hiểu hơn.

Thuật toán học máy thiên vị thấp - cây quyết định, K -NN và SVMHight Bias Machine Learning Alegorithms - Liear Regression, Logistic Repression

Variance:

Phương sai là lỗi được giới thiệu trong mô hình của bạn do thuật toán học máy phức tạp, mô hình của bạn cũng học tiếng ồn từ bộ dữ liệu đào tạo và thực hiện xấu trên bộ dữ liệu kiểm tra. Nó có thể dẫn đến độ nhạy cao và quá mức.

Thông thường, khi bạn tăng độ phức tạp của mô hình, bạn sẽ thấy giảm lỗi do sai lệch thấp hơn trong mô hình. Tuy nhiên, điều này chỉ xảy ra cho đến một điểm cụ thể. Khi bạn tiếp tục làm cho mô hình của mình trở nên phức tạp hơn, bạn cuối cùng phù hợp với mô hình của mình và do đó mô hình của bạn sẽ bắt đầu bị phương sai cao.

Xu hướng, giao dịch phương sai:

Mục tiêu của bất kỳ thuật toán học máy được giám sát nào là có độ lệch thấp và phương sai thấp để đạt được hiệu suất dự đoán tốt.

Thuật toán hàng xóm gần nhất K có độ lệch thấp và phương sai cao, nhưng sự đánh đổi có thể được thay đổi bằng cách tăng giá trị của K làm tăng số lượng hàng xóm góp phần dự đoán và lần lượt làm tăng độ lệch của mô hình.
Thuật toán máy vector hỗ trợ có độ lệch thấp và phương sai cao, nhưng sự đánh đổi có thể được thay đổi bằng cách tăng tham số C ảnh hưởng đến số lượng vi phạm của lề được phép trong dữ liệu đào tạo làm tăng độ lệch nhưng giảm phương sai.

Không có việc thoát khỏi mối quan hệ giữa sai lệch và phương sai trong học máy.

Tăng sự thiên vị sẽ làm giảm phương sai. Tăng phương sai sẽ làm giảm sự thiên vị.

3. Độ dốc bùng nổ là gì?

Độ dốc bùng nổ là một vấn đề trong đó độ dốc lỗi lớn tích lũy và dẫn đến các bản cập nhật rất lớn cho trọng số mô hình mạng thần kinh trong quá trình đào tạo. Ở một thái cực, các giá trị của trọng số có thể trở nên lớn đến mức tràn và dẫn đến các giá trị NAN.large error gradients accumulate and result in very large updates to neural network model weights during training.” At an extreme, the values of weights can become so large as to overflow and result in NaN values.

Điều này có tác dụng của mô hình của bạn không ổn định và không thể học hỏi từ dữ liệu đào tạo của bạn. Bây giờ hãy để hiểu về độ dốc là gì.

Gradient:

Độ dốc là hướng và cường độ được tính toán trong quá trình đào tạo mạng lưới thần kinh được sử dụng để cập nhật trọng số mạng theo đúng hướng và đúng số lượng.direction and magnitude calculated during training of a neural network that is used to update the network weights in the right direction and by the right amount.

4. Ma trận nhầm lẫn là gì?

Ma trận nhầm lẫn là bảng 2x2 chứa 4 đầu ra được cung cấp bởi trình phân loại nhị phân. Các biện pháp khác nhau, chẳng hạn như tỷ lệ lỗi, độ chính xác, độ đặc hiệu, độ nhạy, độ chính xác và thu hồi có nguồn gốc từ nó. Ma trận hỗn loạnbinary classifier. Various measures, such as error-rate, accuracy, specificity, sensitivity, precision and recall are derived from it. Confusion Matrix

Một bộ dữ liệu được sử dụng để đánh giá hiệu suất được gọi là tập dữ liệu thử nghiệm. Nó nên chứa các nhãn chính xác và nhãn dự đoán.

Các nhãn dự đoán sẽ chính xác như nhau nếu hiệu suất của một lớp học nhị phân là hoàn hảo.

Các nhãn dự đoán thường phù hợp với một phần của các nhãn quan sát trong các kịch bản thế giới thực.

Trình phân loại nhị phân dự đoán tất cả các trường hợp dữ liệu của bộ dữ liệu kiểm tra là dương hoặc âm. Điều này tạo ra bốn kết quả-

Đúng tích cực [TP] - Dự đoán tích cực chính xác
Sai dương [FP] - Dự đoán dương tính không chính xác
Đúng là âm [TN] - Dự đoán tiêu cực chính xác
Sai âm [FN] - Dự đoán âm không chính xác

Các biện pháp cơ bản có nguồn gốc từ ma trận nhầm lẫn

Tỷ lệ lỗi = [fp+fn]/[p+n]
Độ chính xác = [TP+TN]/[P+N]
Độ nhạy [thu hồi hoặc tỷ lệ dương tính thật] = tp/p
Tính đặc hiệu [tỷ lệ âm thực sự] = TN/N
Độ chính xác [giá trị dự đoán dương] = TP/[TP+FP]
F-score [trung bình hài hòa của độ chính xác và thu hồi] = [1+b] [pre.rec]/[b^2Prec+rec] trong đó b thường là 0,5, 1, 2.

6. Giải thích cách một đường cong ROC hoạt động?

Đường cong ROC là một biểu diễn đồ họa về độ tương phản giữa tỷ lệ dương thực sự và tỷ lệ dương tính giả ở các ngưỡng khác nhau. Nó thường được sử dụng như một proxy cho sự đánh đổi giữa độ nhạy [tỷ lệ dương tính thực] và tỷ lệ dương tính giả.ROC curve is a graphical representation of the contrast between true positive rates and false positive rates at various thresholds. It is often used as a proxy for the trade-off between the sensitivity[true positive rate] and false positive rate.

7. What is selection Bias ?

Selection bias occurs when sample obtained is not represantative of the population intended to be analyzed.

8. Explain SVM machine learning algorithm in detail.

SVM stands for support vector machine, it is a supervised machine learning algorithm which can be used for both Regression and Classification. If you have n features in your training dataset, SVM tries to plot it in n-dimentional space with the value of each feature being the value of a particular coordinate. SVM uses hyper planes to seperate out different classes based on the provided kernel function.

9. What are support vectors in SVM.

In the above diagram we see that the thinner lines mark the distance from the classifier to the closest data points called the support vectors [darkened data points]. The distance between the two thin lines is called the margin.

10. What are the different kernels functions in SVM ?

There are four types of kernels in SVM.

Linear Kernel
Polynomial kernel
Radial basis kernel
Sigmoid kernel

11. Explain Decision Tree algorithm in detail.

Decision tree is a supervised machine learning algorithm mainly used for the Regression and Classification.It breaks down a dataset into smaller and smaller subsets while at the same time an associated decision tree is incrementally developed. The final result is a tree with decision nodes and leaf nodes. Decision tree can handle both categorical and numerical data.

12. What is Entropy and Information gain in Decision tree algorithm ?

The core algorithm for building decision tree is called ID3. ID3 uses Enteropy and Information Gain to construct a decision tree.

Entropy

A decision tree is built top-down from a root node and involve partitioning of data into homogenious subsets. ID3 uses enteropy to check the homogeneity of a sample. If the sample is completely homogenious then entropy is zero and if the sample is an equally divided it has entropy of one.

Information Gain

The Information Gain is based on the decrease in entropy after a dataset is split on an attribute. Constructing a decision tree is all about finding attributes that returns the highest information gain.

13. What is pruning in Decision Tree ?

When we remove sub-nodes of a decision node, this procsss is called pruning or opposite process of splitting.

14. What is Ensemble Learning ?

Ensemble is the art of combining diverse set of learners[Individual models] togather to improvise on the stability and predictive power of the model. Ensemble learning has many types but two more popular ensemble learning techniques are mentioned below.

Bagging

Bagging tries to implement similar learners on small sample populations and then takes a mean of all the predictions. In generalized bagging, you can use different learners on different population. As you expect this helps us to reduce the variance error.

Boosting

Boosting is an iterative technique which adjust the weight of an observation based on the last classification. If an observation was classfied incorrectly, it tries to increase the weight of this observation and vice versa. Boosting in general decreases the bias error and builds strong predictive models. However, they may overfit on the training data.

15. What is Random Forest? How does it work ?

Random forest is a versatile machine learning method capable of performing both regression and classification tasks. It is also used for dimentionality reduction, treats missing values, outlier values. It is a type of ensemble learning method, where a group of weak models combine to form a powerful model.

In Random Forest, we grow multiple trees as opposed to a single tree. To classify a new object based on attributes, each tree gives a classification. The forest chooses the classification having the most votes[Over all the trees in the forest] and in case of regression, it takes the average of outputs by different trees.

16. What cross-validation technique would you use on a time series dataset.

Instead of using k-fold cross-validation, you should be aware to the fact that a time series is not randomly distributed data - It is inherently ordered by chronological order.

In case of time series data, you should use techniques like forward chaining – Where you will be model on past data then look at forward-facing data.

fold 1: training[1], test[2]

fold 1: training[1 2], test[3]

fold 1: training[1 2 3], test[4]

fold 1: training[1 2 3 4], test[5]

17. What is logistic regression? Or State an example when you have used logistic regression recently.

Logistic Regression often referred as logit model is a technique to predict the binary outcome from a linear combination of predictor variables. For example, if you want to predict whether a particular political leader will win the election or not. In this case, the outcome of prediction is binary i.e. 0 or 1 [Win/Lose]. The predictor variables here would be the amount of money spent for election campaigning of a particular candidate, the amount of time spent in campaigning, etc.

18. Bạn hiểu gì về thuật ngữ phân phối bình thường?

Dữ liệu thường được phân phối theo những cách khác nhau với độ lệch ở bên trái hoặc bên phải hoặc tất cả có thể bị lộn xộn. Tuy nhiên, có nhiều khả năng dữ liệu được phân phối xung quanh một giá trị trung tâm mà không có bất kỳ sai lệch nào ở bên trái hoặc bên phải và đạt đến phân phối bình thường dưới dạng đường cong hình chuông. Các biến ngẫu nhiên được phân phối dưới dạng đường cong hình chuông đối xứng.

19. Chuyển đổi Cox Box là gì?

Biến phụ thuộc cho phân tích hồi quy có thể không thỏa mãn một hoặc nhiều giả định của hồi quy bình phương tối thiểu thông thường. Phần dư có thể cong khi dự đoán tăng hoặc theo phân phối sai lệch. Trong các kịch bản như vậy, cần phải chuyển đổi biến phản hồi để dữ liệu đáp ứng các giả định cần thiết. Biến đổi Box Cox là một kỹ thuật thống kê để biến đổi các biến phụ thuộc không bình thường thành một hình dạng bình thường. Nếu dữ liệu đã cho không bình thường thì hầu hết các kỹ thuật thống kê đều có tính quy tắc. Áp dụng một phép biến đổi hộp Cox có nghĩa là bạn có thể chạy số lượng thử nghiệm rộng hơn.

Biến đổi Box Cox là một cách để biến các biến phụ thuộc không bình thường thành một hình dạng bình thường. Tính chuẩn là một giả định quan trọng đối với nhiều kỹ thuật thống kê, nếu dữ liệu của bạn không bình thường, áp dụng một hộp hộp có nghĩa là bạn có thể chạy số lượng thử nghiệm rộng hơn. Biến chuyển đổi Cox được đặt theo tên của các nhà thống kê George Box và Sir David Roxbee Cox, người đã hợp tác trên một bài báo năm 1964 và phát triển kỹ thuật này.George Box and Sir David Roxbee Cox who collaborated on a 1964 paper and developed the technique.

20. Làm thế nào bạn sẽ xác định số lượng cụm trong thuật toán phân cụm?

Mặc dù thuật toán phân cụm không được chỉ định, câu hỏi này chủ yếu sẽ được hỏi liên quan đến phân cụm K-MEAN trong đó, K K Kiêu định nghĩa số lượng cụm. Ví dụ, hình ảnh sau đây cho thấy ba nhóm khác nhau.

Trong tổng số bình phương thường được sử dụng để giải thích tính đồng nhất trong một cụm. Nếu bạn vẽ WSS cho một loạt các cụm, bạn sẽ nhận được cốt truyện được hiển thị bên dưới. Biểu đồ thường được gọi là đường cong khuỷu tay.

Điểm được khoanh tròn màu đỏ trong biểu đồ trên, tức là số cụm = 6 là điểm sau đó bạn không thấy bất kỳ sự giảm nào trong WSS. Điểm này được gọi là điểm uốn và được lấy là k trong k - có nghĩa là phương pháp được sử dụng rộng rãi nhưng một số nhà khoa học dữ liệu cũng sử dụng phân cụm phân cấp trước tiên để tạo ra các dendogram và xác định các nhóm khác biệt từ đó.

21. Học sâu là gì?

Học sâu là trường con của học máy lấy cảm hứng từ cấu trúc và chức năng của não được gọi là mạng lưới thần kinh nhân tạo. Chúng tôi có rất nhiều thuật toán dưới máy học như hồi quy tuyến tính, SVM, mạng thần kinh, v.v. và học sâu chỉ là một sự mở rộng của các mạng thần kinh. Trong lưới thần kinh, chúng tôi xem xét một số lượng nhỏ các lớp ẩn nhưng khi nói đến các thuật toán học sâu, chúng tôi xem xét một số lượng lớn các nhà vệ sinh ẩn để hiểu rõ hơn về mối quan hệ đầu ra đầu vào.

22. Mạng thần kinh tái phát [RNNS] là gì?

NET tái phát là loại mạng thần kinh nhân tạo được thiết kế để nhận ra mẫu từ chuỗi dữ liệu như chuỗi thời gian, thị trường chứng khoán và chính phủ, v.v. Cả hai mạng này RNN và FeedForward đều được đặt theo cách họ kênh thông tin phát triển một loạt các oprations toán học được thực hiện tại các nút của mạng. Một người cung cấp thông tin throgh thẳng [không bao giờ chạm vào cùng một nút hai lần], trong khi vòng kia, nó có vòng lặp và cái sau được gọi là tái phát.

Mặt khác, các mạng tái phát, lấy làm đầu vào của chúng không chỉ là ví dụ đầu vào hiện tại mà họ thấy, mà còn cả những gì họ đã đưa ra trước đây. BTSXPE ở dưới cùng của bản vẽ biểu thị ví dụ đầu vào trong thời điểm hiện tại và đơn vị ngữ cảnh biểu thị đầu ra của thời điểm trước. Quyết định một mạng lưới thần kinh tái phát đạt được tại thời điểm T-1 ảnh hưởng đến quyết định rằng nó sẽ đạt đến một lúc sau đó tại thời điểm t. Vì vậy, các mạng tái phát có hai nguồn đầu vào, hiện tại và quá khứ gần đây, kết hợp để xác định cách chúng phản hồi dữ liệu mới, giống như chúng ta làm trong cuộc sống.

Lỗi mà họ tạo sẽ trả về thông qua backpropagation và được sử dụng để điều chỉnh trọng số của chúng cho đến khi lỗi có thể đi xuống thấp hơn. Hãy nhớ rằng, mục đích của lưới tái phát là phân loại chính xác đầu vào tuần tự. Chúng tôi dựa vào quá trình ngược của lỗi và giảm độ dốc để làm như vậy.

Backpropagation trong các mạng cấp dữ liệu di chuyển lùi từ lỗi cuối cùng thông qua các đầu ra, trọng số và đầu vào của từng lớp ẩn, gán các trọng số đó có trách nhiệm đối với một phần lỗi bằng cách tính toán các công cụ phái sinh một phần của chúng - ∂e/W hoặc mối quan hệ giữa tỷ lệ giữa tỷ lệ của chúng của sự thay đổi. Những dẫn xuất đó sau đó được sử dụng bởi quy tắc học tập của chúng tôi, giảm độ dốc, để điều chỉnh các trọng số lên hoặc xuống, bất kỳ hướng nào làm giảm lỗi.

Các mạng tái phát dựa vào phần mở rộng của backpropagation được gọi là backpropagation qua thời gian, hoặc BPTT. Thời gian, trong trường hợp này, được thể hiện đơn giản bằng một loạt các tính toán được xác định rõ ràng, được đặt hàng liên kết từng lần tiếp theo, tất cả đều cần phải hoạt động.

23. Sự khác biệt giữa học máy và học sâu là gì?

Học máy:

Học máy là một lĩnh vực của khoa học máy tính cung cấp cho máy tính khả năng học mà không được lập trình rõ ràng. Học máy có thể được phân loại theo ba loại sau đây.

Học máy được giám sát,
Học máy không giám sát,
Học tăng cường

Học kĩ càng:

Học sâu là một trường con của học máy liên quan đến các thuật toán lấy cảm hứng từ cấu trúc và chức năng của bộ não được gọi là mạng lưới thần kinh nhân tạo.

24. Học củng cố là gì?

Học tăng cường

Học kĩ càng:

Học sâu là một trường con của học máy liên quan đến các thuật toán lấy cảm hứng từ cấu trúc và chức năng của bộ não được gọi là mạng lưới thần kinh nhân tạo.

24. Học củng cố là gì?

Học tập củng cố là học những gì cần làm và làm thế nào để ánh xạ các tình huống cho hành động. Kết quả cuối cùng là để tối đa hóa tín hiệu phần thưởng bằng số. Người học không được cho biết hành động nào sẽ thực hiện, mà thay vào đó phải khám phá hành động nào sẽ mang lại phần thưởng tối đa. Học tập được lấy cảm hứng từ việc học của con người, nó dựa trên cơ chế phần thưởng/bảng điều khiển.

25. Sự lựa chọn sai lệch là gì?

Lựa chọn sai lệch

Sự thiên vị lựa chọn là sự thiên vị được giới thiệu bởi việc lựa chọn các cá nhân, nhóm hoặc dữ liệu để phân tích theo cách không đạt được ngẫu nhiên phù hợp, do đó đảm bảo rằng mẫu thu được không đại diện cho dân số dự định sẽ được phân tích. Nó đôi khi được gọi là hiệu ứng lựa chọn. Cụm từ lựa chọn thiên vị, thường đề cập đến sự biến dạng của phân tích thống kê, do phương pháp thu thập các mẫu. Nếu sai lệch lựa chọn không được tính đến, thì một số kết luận của nghiên cứu có thể không chính xác.

26. Giải thích chính quy hóa là gì và tại sao nó hữu ích.

Chính quy

Chính quy hóa là quá trình thêm tham số điều chỉnh vào một mô hình để tạo ra độ mịn để ngăn chặn quá mức. Điều này thường được thực hiện bằng cách thêm một bội số không đổi vào một vectơ trọng lượng hiện có. Hằng số này thường là L1 [Lasso] hoặc L2 [sườn núi]. Các dự đoán mô hình sau đó nên giảm thiểu chức năng tổn thất được tính toán trên tập huấn luyện chính quy.

27. Vector hóa TF/IDF là gì?

TFTHER IDF ngắn về tần số tần số tần số tần số, là một thống kê số nhằm phản ánh mức độ quan trọng của một từ đối với một tài liệu trong bộ sưu tập hoặc kho văn bản. Nó thường được sử dụng như một yếu tố trọng số trong truy xuất thông tin và khai thác văn bản. Giá trị TF-IDF tăng tỷ lệ thuận với số lần một từ xuất hiện trong tài liệu, nhưng được bù bởi tần số của từ trong kho văn bản, giúp điều chỉnh thực tế là một số từ xuất hiện thường xuyên hơn nói chung.

28. Hệ thống đề xuất là gì?Supervised machine learning algorithms. In Supervised machine learning algorithm, we have to train the model using labeled dataset, While training we have to explicitly provide the correct labels and algorithm tries to learn the pattern from input to output. If our labels are discreate values then it will a classification problem, e.g A,B etc. but if our labels are continuous values then it will be a regression problem, e.g 1.23, 1.333 etc.

Một lớp con của các hệ thống lọc thông tin nhằm dự đoán các tùy chọn hoặc xếp hạng mà người dùng sẽ cung cấp cho sản phẩm. Các hệ thống đề xuất được sử dụng rộng rãi trong phim, tin tức, bài báo nghiên cứu, sản phẩm, thẻ xã hội, âm nhạc, v.v.

29. Sự khác biệt giữa hồi quy và kỹ thuật ML phân loại là gì.

Cả hồi quy và phân loại kỹ thuật học máy đều thuộc các thuật toán học máy được giám sát. Trong thuật toán học máy được giám sát, chúng tôi phải đào tạo mô hình bằng cách sử dụng bộ dữ liệu được dán nhãn, trong khi đào tạo, chúng tôi phải cung cấp rõ ràng các nhãn và thuật toán chính xác cố gắng tìm hiểu mô hình từ đầu vào đến đầu ra. Nếu các nhãn của chúng tôi là các giá trị riêng biệt thì nó sẽ là vấn đề phân loại, ví dụ A, B, v.v. Nhưng nếu nhãn của chúng tôi là các giá trị liên tục thì đó sẽ là vấn đề hồi quy, ví dụ 1.23, 1.333, v.v. Batch size with Numpy array will work.

Steps:

30. Nếu bạn đang có RAM 4GB trong máy của mình và bạn muốn đào tạo mô hình của mình trên bộ dữ liệu 10GB. Làm thế nào bạn sẽ đi về vấn đề này. Bạn đã bao giờ phải đối mặt với loại vấn đề này trong kinh nghiệm học máy/khoa học dữ liệu của bạn cho đến nay chưa?
Trước hết bạn phải hỏi mô hình ML nào bạn muốn đào tạo.
Đối với mạng lưới thần kinh: Kích thước hàng loạt với mảng numpy sẽ hoạt động.
Tải toàn bộ dữ liệu trong mảng numpy. Numpy Array có thuộc tính để tạo ánh xạ của bộ dữ liệu hoàn chỉnh, nó không tải tập dữ liệu hoàn chỉnh trong bộ nhớ.

Bạn có thể chuyển chỉ mục cho mảng numpy để lấy dữ liệu cần thiết. Partial fit will work

Steps:

Sử dụng dữ liệu này để truyền vào mạng thần kinh.
Có kích thước lô nhỏ.
Đối với SVM: Phù hợp một phần sẽ hoạt động

Chia một bộ dữ liệu lớn trong bộ dữ liệu kích thước nhỏ.

Sử dụng phương pháp PartialFit của SVM, nó yêu cầu tập hợp con của bộ dữ liệu hoàn chỉnh.

Giá trị p thấp [0,05] cho thấy sức mạnh chống lại giả thuyết null, điều đó có nghĩa là chúng ta có thể bác bỏ giả thuyết null. Giá trị p cao [≥ 0,05] cho thấy cường độ cho giả thuyết null, điều đó có nghĩa là chúng ta có thể chấp nhận giả thuyết null giá trị p là 0,05 cho thấy giả thuyết có thể đi theo bất kỳ cách nào. Để đặt nó theo một cách khác,

Giá trị p cao: Dữ liệu của bạn có khả năng với một null thực sự. Giá trị P thấp: Dữ liệu của bạn không có khả năng với một null thực sự.

32. ’ngây thơ trong một Bayes ngây thơ là gì?

Thuật toán Naive Bayes dựa trên Bayes Theoram. Bayes, lý thuyết mô tả sự kiện của một sự kiện, dựa trên kiến thức trước đây về các điều kiện có thể liên quan đến sự kiện này.

Nai là gì?

Thuật toán là ’ngây thơ vì nó đưa ra các giả định có thể hoặc không thể chính xác.

# Còn tiếp…

Những câu hỏi được hỏi trong học máy?

Hãy bắt đầu với một số câu hỏi và câu trả lời phỏng vấn máy học thường được hỏi ...

Các loại học máy khác nhau là gì? ....

Điều gì là quá mức, và làm thế nào bạn có thể tránh nó? ....

'Bộ đào tạo' và 'Bộ kiểm tra' trong mô hình học máy là gì? ....

Làm thế nào để bạn xử lý dữ liệu bị thiếu hoặc bị hỏng trong bộ dữ liệu ?.

Làm cách nào để chuẩn bị cho một cuộc phỏng vấn học máy?

Lời khuyên để giúp Ace Phỏng vấn máy học của bạn..

Áp dụng các khái niệm và làm việc trên các kỹ năng liên quan của bạn. ....

Tập trung vào những gì bạn biết. ....

Nghiên cứu công ty. ....

Hãy chắc chắn để viết rõ ràng. ....

Nếu bạn không chắc chắn về một câu trả lời, bạn có thể nói như vậy ..

3 loại nhiệm vụ học máy chính là gì?

Ba loại máy học được giám sát, không giám sát và học củng cố.supervised, unsupervised, and reinforcement learning.

Làm cách nào để xóa cuộc phỏng vấn học máy của tôi?

7 lời khuyên để bẻ khóa khoa học dữ liệu và phỏng vấn máy học!7 lời khuyên chi tiết để giúp bạn thực hiện tốt hơn trong các cuộc phỏng vấn khoa học dữ liệu và học máy.....

Trau dồi những điều cơ bản của bạn.....

Hãy tự tin.....

Sở hữu sơ yếu lý lịch của bạn.....

Thể hiện niềm đam mê của bạn.....

Tập trung vào chi tiết cụ thể.....

Thái độ trung thực mạnh mẽ.....

Làm cho nó một thói quen để ghi chú ngắn gọn ..

1. Sự khác biệt giữa học máy được giám sát và không giám sát là gì?

Học máy được giám sát:

Học máy không giám sát:

2. Bias là gì, giao dịch phương sai là gì?

Bias:

Variance:

Xu hướng, giao dịch phương sai:

3. Độ dốc bùng nổ là gì?

Gradient:

4. Ma trận nhầm lẫn là gì?

6. Giải thích cách một đường cong ROC hoạt động?

7. What is selection Bias ?

8. Explain SVM machine learning algorithm in detail.

9. What are support vectors in SVM.

10. What are the different kernels functions in SVM ?

11. Explain Decision Tree algorithm in detail.

12. What is Entropy and Information gain in Decision tree algorithm ?

13. What is pruning in Decision Tree ?

14. What is Ensemble Learning ?

15. What is Random Forest? How does it work ?

16. What cross-validation technique would you use on a time series dataset.

17. What is logistic regression? Or State an example when you have used logistic regression recently.

18. Bạn hiểu gì về thuật ngữ phân phối bình thường?

19. Chuyển đổi Cox Box là gì?

20. Làm thế nào bạn sẽ xác định số lượng cụm trong thuật toán phân cụm?

21. Học sâu là gì?

22. Mạng thần kinh tái phát [RNNS] là gì?

23. Sự khác biệt giữa học máy và học sâu là gì?

Học máy:

Học kĩ càng:

24. Học củng cố là gì?

Học sâu là một trường con của học máy liên quan đến các thuật toán lấy cảm hứng từ cấu trúc và chức năng của bộ não được gọi là mạng lưới thần kinh nhân tạo.

25. Sự lựa chọn sai lệch là gì?

26. Giải thích chính quy hóa là gì và tại sao nó hữu ích.

Chia một bộ dữ liệu lớn trong bộ dữ liệu kích thước nhỏ.

32. ’ngây thơ trong một Bayes ngây thơ là gì?

Những câu hỏi được hỏi trong học máy?

Làm cách nào để chuẩn bị cho một cuộc phỏng vấn học máy?

3 loại nhiệm vụ học máy chính là gì?

Làm cách nào để xóa cuộc phỏng vấn học máy của tôi?

Bài Viết Liên Quan

Toplist mới

Bài mới nhất

Chủ Đề