[Thảo Luận] Data Analysis, ML, DL, AI (All Levels vào đây chém gió nào) | theNEXTvoz…
thảo luận - [Thảo Luận] Data Analysis, ML, DL, AI (All Levels vào đây chém gió nào) | theNEXTvoz
Thích Màu Hường
Topic này lập ra để thảo luận các vấn đề về
Data Analysis, Machine Learning, Deep Learning, AI. Mặc dù biết mấy cái này lên Kaggle, Medium, Reddit… người ta bàn nát rồi nhưng cảm giác chém nhau, vật nhau ở Voz nó vui hơn, coi như là chổ để Vozer làm về mấy cái này hay ai có quan tâm, tò mò về nó "giao thông" (giao lưu), dood deed nhau nhé.
Cách hoạt động sẽ là thế này. Mọi người cứ việc đặt câu hỏi, nêu vấn đề, ai biết thì trả lời. Vấn đề nào thú vị, hấp dẫn sẽ lôi ra vật nhau, vật chán thì qua vấn đề khác. Đặc biệt, tất cả levels đều khuyến khích tham gia nên đừng ngại đặt câu hỏi từ đơn giản như
"Machine Learning là cái quái gì? Nó có ăn được không? Sao dạo này hot thế?". Tới các câu hỏi chuyên về các giải thuật phức tạp hay competitions trên Kaggle.
Tạm thời đặt gạch trước, để xem có ai quan tâm không.
and 32767 others
Uầy, em thì đang học khóa nhập môn ML của Andrew Ng, dường như ai cũng học khóa này. Học xong rồi bước tiếp theo là gì nhỉ? Em nghĩ học không không thế này cũng khó mà trở thành ML engineer được, mong các thím cho lời khuyên.
Uầy, em thì đang học khóa nhập môn ML của Andrew Ng, dường như ai cũng học khóa này. Học xong rồi bước tiếp theo là gì nhỉ? Em nghĩ học không không thế này cũng khó mà trở thành ML engineer được, mong các thím cho lời khuyên.
Mình chưa học khóa ML của Andrew Ng, mình toàn đọc sách thôi. Liếc sơ nội dung thì học khóa này xong có thể biết được overview hầu hết các mảng của ML.
Mấy khóa học ML hiện nay đa số nói về các giải thuật ML với cách build model nhưng cái theo mình là fundamental khi bước vào cái nghề này là
Statistics. Biết Statistics để giúp làm Data Exploration, Features Selection, Model Validation and Tuning. Build model chỉ chiếm khoảng 20% thôi mấy cái kia mới cần skills và thời gian. Nếu bạn chưa biết Statistics thì bước tiếp theo nên quay lại học Statistics.
Biết Statistics với ML rồi thì bắt đầu chọn 1 hướng trong ML. Ví dụ làm Data, Computer Vision, NLP, Speech Recognition, Automotive... mổi cái này có thể là 1 ngành học, mấy khóa học kia nó giới thiệu overview thôi chứ đi sâu vào là cả 1 bầu trời. =>
Chọn hướng muốn đi.
Cuối cùng, như bao thứ khác, chỉ có
practice thôi. Chưa làm dự án thật thì lên Kaggle join competitions.
Mình chưa học khóa ML của Andrew Ng, mình toàn đọc sách thôi. Liếc sơ nội dung thì học khóa này xong có thể biết được overview hầu hết các mảng của ML.
Mấy khóa học ML hiện nay đa số nói về các giải thuật ML với cách build model nhưng cái theo mình là fundamental khi bước vào cái nghề này là
Statistics. Biết Statistics để giúp làm Data Exploration, Features Selection, Model Validation and Tuning. Build model chỉ chiếm khoảng 20% thôi mấy cái kia mới cần skills và thời gian. Nếu bạn chưa biết Statistics thì bước tiếp theo nên quay lại học Statistics.
Biết Statistics với ML rồi thì bắt đầu chọn 1 hướng trong ML. Ví dụ làm Data, Computer Vision, NLP, Speech Recognition, Automotive... mổi cái này có thể là 1 ngành học, mấy khóa học kia nó giới thiệu overview thôi chứ đi sâu vào là cả 1 bầu trời. =>
Chọn hướng muốn đi.
Cuối cùng, như bao thứ khác, chỉ có
practice thôi. Chưa làm dự án thật thì lên Kaggle join competitions.
Nhân tiện thím giới thiệu em một khoá học hoặc sách để học statistics với.
Lúc học thì chú trọng các phần như distribution, samples, mean, median, variance, standard deviation, Z-Test, T-Test, Chi-square tests, Anova.
KoDoThey
Cũng có follow AndrewNg. Gạch hóng cao nhân.
Thích Màu Hường
Bài này mình reply 1 bạn bên thớt "Học khóa LẬP TRÌNH PYTHON CƠ BẢN", post lại bên đây cho ai muốn theo nghề Data:
Làm data thì cũng có nhiều loại, tạm chia làm 3 loại thế này:
1. Data Developer/Data Engineer: cái này làm việc như lập trình viên, nhiệm vụ là xử lý dữ liệu như đọc, ghi, load, transform, patching, làm report, một chút thiết kế database, viết tool ETL. Skills cần có tất nhiên là SQL, một ngôn ngữ lập trình hiện đại để viết tool ETL như C#, các tool làm report, ETL như SSRS, SSIS nếu theo công nghệ của Microsoft, cao hơn thì mấy cái xử lý big data như hadoop.
Nói chung cái này nặng về lập trình, thường là 1 hướng cho các bạn chuyên CNTT nhưng ko muốn làm software mà làm data. Tài liệu học mấy cái kể trên thì có rất nhiều, cái nào cũng được. Cái này dễ kiếm job hơn hai cái sau.
2. Data Anlysist: cái này là người phân tích dữ liệu, background ko nhất thiết phải là dân CNTT. Cái này nặng về phân tích.
Skill cần có và quan trọng nhất là Thống Kê. Tài liệu thì tìm khóa
Statistics Probability trên
khanacademy course này cực dễ hiểu. Lúc học thì chú trọng các phần như distribution, samples, mean, median, variance, standard deviation, Z-Test, T-Test, Chi-square tests, Anova. Học khóa này xong có thể thi chứng chỉ AP Statistics để làm đẹp CV.
https://www.khanacademy.org/math/statistics-probability
Một khái niệm nữa là Data Weighting cái này cực kỳ quan trọng ai làm phân tích cũng nên biết.
Về tool: SPSS Statsitics, đây là phần mềm chuyên phân tích dữ liệu, ít nhất cũng nên làm quen với nó rồi chạy được các phân tích cơ bản như Descriptive Statistics, Frequencies, Cross-Tab, mấy cái test đã kể trên, Data Weighting. Cái thứ hai là Excel, Excel là tool phân tích dữ liệu cực mạnh mà ít người để ý, ngoài các hàm cơ bản thì phải biết được Pivot Table.
Ngôn ngữ lập trình và các tool visualize: SQL, Python, R, Tableau, Power BI. Về Tableau với Power BI thì mình prefer Tableau vì performance tốt hơn, tài liệu thì vào trang chủ của nó có Tutorial làm rất dễ.
Job nhóm này ít hơn nhóm 1 nhưng thiên về phân tích, ít lập trình hơn. Đa số các bạn học kinh tế, toán thống kê làm được.
3. ML Engineer/Data Scientist: cái này làm về Machine Learning, AI. Skill cần có thì bao gồm tất cả skill của nhóm 1 và 2, đặc biệt là nhóm 2 vì nếu ko biết thống kê thì làm như cái máy mà chẳng hiểu model mình build ra nó tốt xấu chổ nào. Có nhiều mảng khá đặc thù như Computer Vision, Natural language processing, speech recognition, nó là hướng khác mình ko nói ở đây, còn hướng gần gũi hơn mà anh em Data Analyst có thể đi lên là làm các model dự doán cho các ngành đặc thù như doanh số sales, giá bất động sản. v..v..
Học về cái này thì nên tiếp cận theo hướng top-down trước để hiểu overview xem ML, AI nó là cái gì, có các mảng nào, cần những kiến thúc gì rồi pick up 1 mảng mà học thì tiếp cận theo hướng bottom-up, học những cái cơ bản trước rồi nâng cao.
Ngoài ra còn có course này
Machine Learning A-Z™: Hands-On Python & R In Data Science trên Udemy và
Machine Learning Andrew Ng trên Coursera
Về toán cho ML, AI: cái quan trọng nhất vẫn là thống kê như đã nói ở nhóm 2. Cái này lúc làm về nó vận dụng nhiều nhất. Cái quan trọng thứ 2 là đại số tuyến tính, bạn lên Khan Acedamy tìm khóa này
https://www.khanacademy.org/math/linear-algebra cái này học để hiểu bên trong các thuật toán làm gì. Cái thứ 3 là giải tích, xem lại đạo hàm, tích phân, vi phân học để hiểu bên trong các thuật toán làm gì luôn.
Vd thiết kế hệ thông với opp nó thế nào với xem khác với fp thế nào
OT rồi fen, ở đây chưa tới mức implementation đâu.
Neuroscience
30 tủi, có kinh nghiệm kế toán, tư vấn, kinh doanh, quản lý đang có ý định chuyển ngành sang DA, kỹ năng tư duy mô hình hóa, phản biện, phân tích thì hồi vừa ra trường thuộc dạng dơ bét giờ đi làm không dùng não nhiều nên hơi chậm - theo thớt nên di sẹt qua ngành mới này không?
30 tủi, có kinh nghiệm kế toán, tư vấn, kinh doanh, quản lý đang có ý định chuyển ngành sang DA, kỹ năng tư duy mô hình hóa, phản biện, phân tích thì hồi vừa ra trường thuộc dạng dơ bét giờ đi làm không dùng não nhiều nên hơi chậm - theo thớt nên di sẹt qua ngành mới này không?
Cái này khó nói lắm vì DA là thiên về kỹ thuật, vì làm với data nếu không thích thì công việc sẽ rất tẻ nhạt, còn chán hơn lập trình phần mềm ấy. Mấy skill của thím thì support dc phần domain knowledge. Không biết thím biết gì về DA chưa?
htvny
Học cái này phải GIỎI toán, nhiều ông bạn tôi từ code cũng nhảy qua xong đều lắc đầu về hết đây
Cái này khó nói lắm vì DA là thiên về kỹ thuật, vì làm với data nếu không thích thì công việc sẽ rất tẻ nhạt, còn chán hơn lập trình phần mềm ấy. Mấy skill của thím thì support dc phần domain knowledge. Không biết thím biết gì về DA chưa?
mình đang học dở khóa ibm data science tren cousera có 9 môn mình còn 2 môn cuối ML vs capstone nữa là hoàn thành mà phần toán ML hơi ngộp đầu chắc do chục năm rồi không học mấy cái ký hiệu toán cũng không nhớ chứ hồi xưa toán thi ĐH các năm thì bài nào cũng làm được hết tính ra cũng không dốt toán, phần code của thư viện sklearn cũng không tưởng tượng rõ được hết những gì vừa diễn ra đối với dữ liệu làm mình cũng khó chịu. Mình chủ yếu ban đầu học muốn học thử NLP phần phân tích cảm tình mới mò mẫm học DS trên thôi mà NLP chưa học được mấy cả.
SQL học xem hoa, python mình học cũng được cơ bản (Dr. Chuck) + re, chưa học class&object
Học cái này phải GIỎI toán, nhiều ông bạn tôi từ code cũng nhảy qua xong đều lắc đầu về hết đây
Không cần phải giỏi toán, toán ở đây thì thống kê là vận dụng nhiều nhất. Cái thứ 2 là đại số tuyến tính với giải tích. Mấy cái này tại học lâu rồi nên quên hết chứ thời lớp 12 chuẩn bị thi đại học thì nó là chuyện nhỏ thôi. Mất thời gian học lại chút.
Nói về học toán thì lên Khan Academy học cực dễ hiểu, cách người ta trình bày vấn đề rất dễ hiểu, mạch lạc và ko hề hù dọa nên mình cực thích trang này.
mình đang học dở khóa ibm data science tren cousera có 9 môn mình còn 2 môn cuối ML vs capstone nữa là hoàn thành mà phần toán ML hơi ngộp đầu chắc do chục năm rồi không học mấy cái ký hiệu toán cũng không nhớ chứ hồi xưa toán thi ĐH các năm thì bài nào cũng làm được hết tính ra cũng không dốt toán, phần code của thư viện sklearn cũng không tưởng tượng rõ được hết những gì vừa diễn ra đối với dữ liệu làm mình cũng khó chịu. Mình chủ yếu ban đầu học muốn học thử NLP phần phân tích cảm tình mới mò mẫm học DS trên thôi mà NLP chưa học được mấy cả.
SQL học xem hoa, python mình học cũng được cơ bản (Dr. Chuck) + re, chưa học class&object
Vậy là thím có kiến thức rồi, bỏ công học vậy thì chắc muốn theo thật. Cái nào thím ko rõ cứ post lên đây.
thím cho mình hỏi là mảng sentiment analysis có nhiều cty tuyển và yêu cầu cao không thím
mình học đang vì sở thích là chính
Cái này thì mình ko rõ. Bạn nào rõ sẽ trời lời bạn. Nhưng có 1 dạo, cách đây mấy năm mình thấy có cty làm về Market Research, Social Listening nó đăng tuyển, nói chung ngành này cũng còn mới, số cty làm về mấy cái này cũng ít, yêu cầu thì nhiều khi nó để trên trời chứ bản thân người tuyển cũng non kinh nghiệm, muốn đú trend nên muốn tuyển được expert về gầy dựng team luôn. Tất nhiên mấy cty có số mà thật sự như Vin AI thì ko nói.
Học cái này phải GIỎI toán, nhiều ông bạn tôi từ code cũng nhảy qua xong đều lắc đầu về hết đây
Dev nhảy qua xong lắc đầu là vì lười thôi fen, làm SE vẫn vui khỏe có ích hơn. Trình độ tư duy của dev dư sức học món này, cơ mà... lười, mình cũng thấy vậy.
sup3rm3n
, có ios giờ bắt đầu lại dengineer hoặc dscientist bao lâu thím , cái nào ngon trong 5 năm nữa
mình đang học dở khóa ibm data science tren cousera có 9 môn mình còn 2 môn cuối ML vs capstone nữa là hoàn thành mà phần toán ML hơi ngộp đầu chắc do chục năm rồi không học mấy cái ký hiệu toán cũng không nhớ chứ hồi xưa toán thi ĐH các năm thì bài nào cũng làm được hết tính ra cũng không dốt toán, phần code của thư viện sklearn cũng không tưởng tượng rõ được hết những gì vừa diễn ra đối với dữ liệu làm mình cũng khó chịu. Mình chủ yếu ban đầu học muốn học thử NLP phần phân tích cảm tình mới mò mẫm học DS trên thôi mà NLP chưa học được mấy cả.
SQL học xem hoa, python mình học cũng được cơ bản (Dr. Chuck) + re, chưa học class&object
Mình cũng đang học free khoá này. Thím học free hay mua vậy? Em tò mò muốn xem mấy cái graded quiz để thực hành ấy mà.
Deo_hieu_kieu_gi
Bao giờ machine reasoning lên ngôi nhỉ các thím
nguyenluc900
Đang làm DE và dự tính mình sẽ nhảy sang làm DS.
Stack thì SQL, Python.
Ở đây mấy thím dùng Python code để ETL data build theo OOP hay FP nhỉ (Tuổi thơ mình gắn liền với OOP C#)
Về AI/ML mình có từng làm thử vài model về ML như Clustering Customer dùng K/Means.
Mấy bác code model thì xài theo thư viện hay tự code nhỉ.
À, cho mình xin list book của chủ thớt để mình đọc nha.
Last edited:
dxdiag0203
Hiện tại e đang làm Sql developer, có kinh nghiệm về Excel và VBA, sử dụng tốt Power BI. Đủ để sang DA chiến chưa các bác? Tại background bên kinh tế nên muốn sang DA cho hợp chuyên ngành
Mình chưa học khóa ML của Andrew Ng, mình toàn đọc sách thôi. Liếc sơ nội dung thì học khóa này xong có thể biết được overview hầu hết các mảng của ML.
Mấy khóa học ML hiện nay đa số nói về các giải thuật ML với cách build model nhưng cái theo mình là fundamental khi bước vào cái nghề này là
Statistics. Biết Statistics để giúp làm Data Exploration, Features Selection, Model Validation and Tuning. Build model chỉ chiếm khoảng 20% thôi mấy cái kia mới cần skills và thời gian. Nếu bạn chưa biết Statistics thì bước tiếp theo nên quay lại học Statistics.
Biết Statistics với ML rồi thì bắt đầu chọn 1 hướng trong ML. Ví dụ làm Data, Computer Vision, NLP, Speech Recognition, Automotive... mổi cái này có thể là 1 ngành học, mấy khóa học kia nó giới thiệu overview thôi chứ đi sâu vào là cả 1 bầu trời. =>
Chọn hướng muốn đi.
Cuối cùng, như bao thứ khác, chỉ có
practice thôi. Chưa làm dự án thật thì lên Kaggle join competitions.
Statistics không biết thì đừng học ML làm gì
, mình cũng đang tìm hiểu môn này nhưng giờ học lại XSTK trước đã.
Mình chưa học khóa ML của Andrew Ng, mình toàn đọc sách thôi. Liếc sơ nội dung thì học khóa này xong có thể biết được overview hầu hết các mảng của ML.
Mấy khóa học ML hiện nay đa số nói về các giải thuật ML với cách build model nhưng cái theo mình là fundamental khi bước vào cái nghề này là
Statistics. Biết Statistics để giúp làm Data Exploration, Features Selection, Model Validation and Tuning. Build model chỉ chiếm khoảng 20% thôi mấy cái kia mới cần skills và thời gian. Nếu bạn chưa biết Statistics thì bước tiếp theo nên quay lại học Statistics.
Biết Statistics với ML rồi thì bắt đầu chọn 1 hướng trong ML. Ví dụ làm Data, Computer Vision, NLP, Speech Recognition, Automotive... mổi cái này có thể là 1 ngành học, mấy khóa học kia nó giới thiệu overview thôi chứ đi sâu vào là cả 1 bầu trời. =>
Chọn hướng muốn đi.
Cuối cùng, như bao thứ khác, chỉ có
practice thôi. Chưa làm dự án thật thì lên Kaggle join competitions.
Theo thím thì kỹ năng nên có trước rồi đi tìm bài toán để giải quyết hay bài toán có trước rồi mới học kỹ năng để giải quyết nó?
, có ios giờ bắt đầu lại dengineer hoặc dscientist bao lâu thím , cái nào ngon trong 5 năm nữa
Kỹ năng làm software sẽ giúp học tech với code nhanh hơn nhưng cái nghề này đòi hỏi học lý thuyết nhiều, muốn có kiến thức cho tươm tất thì mất khoảng 2 năm. Cài nào ngon thì tùy skills, giống như hỏi làm web hay mobile ngon hơn thì anh nào skills tốt thì anh đó ngon thôi.
Đang làm DE và dự tính mình sẽ nhảy sang làm DS.
Stack thì SQL, Python.
Ở đây mấy thím dùng Python code để ETL data build theo OOP hay FP nhỉ (Tuổi thơ mình gắn liền với OOP C#)
Về AI/ML mình có từng làm thử vài model về ML như Clustering Customer dùng K/Means.
Mấy bác code model thì xài theo thư viện hay tự code nhỉ.
À, cho mình xin list book của chủ thớt để mình đọc nha.
Dùng cái nào thì tùy vào yêu cầu bài toán, nhưng theo mình vẫn là dùng những cái cơ bản, đơn giản nhất, khi ko đáp ứng dc thì mới lên phức tạp. ETL thì đôi khi ko cần viết tool mà chỉ cần viết 1 số script, batch jobs cũng được. Ngày xưa thì mình dùng C# code tool, hiện tại dùng python vì muốn đồng bộ tech stack thôi, và nói chính xác thì mình code theo hướng procedural.
Code model đa số xài thư viện: sklearn, tensorflow, pytorch... build model cái chính là feature engineering, feature selection, model tuning and validation. Các giải thuật ML người ta đã code sẵn hết rồi. Còn muốn tạo ra cái các thư viện mới, custom mấy cái mà ví dụ thằng tensorflow nó ko đáp ứng được thì đây là công việc của ML Researcher.
Nói tới đây thế nào chắc cũng vài anh nhảy vào khoe kiến thức giải thuật đao to búa lớn các kiểu blah blah.
Hiện tại e đang làm Sql developer, có kinh nghiệm về Excel và VBA, sử dụng tốt Power BI. Đủ để sang DA chiến chưa các bác? Tại background bên kinh tế nên muốn sang DA cho hợp chuyên ngành
Học lại XSTK, Học thêm 1 công cụ chuyên làm data analysis như SPSS Statistics, 1 ngôn ngữ lập trình như Python. Phần còn lại là practice thôi.
Theo thím thì kỹ năng nên có trước rồi đi tìm bài toán để giải quyết hay bài toán có trước rồi mới học kỹ năng để giải quyết nó?
Ý kiến cá nhân là bài toán có trước rồi đi học các kỹ năng để giải quyết nó. Vì minh phải biết mục tiêu của mình là gì thì mới đi đúng hướng được. Còn nếu ko biết mục tiêu, bài toán muốn giải quyết là gì luôn thì học kỹ năng để có overview tất cả các mảng nhưng đừng đi sâu quá để tránh lan man.
Câu hỏi về vấn đề nằm ở đâu quan trọng hơn câu hỏi làm thế nào để giải quyết vấn đề.
Kỹ năng làm software sẽ giúp học tech với code nhanh hơn nhưng cái nghề này đòi hỏi học lý thuyết nhiều, muốn có kiến thức cho tươm tất thì mất khoảng 2 năm. Cài nào ngon thì tùy skills, giống như hỏi làm web hay mobile ngon hơn thì anh nào skills tốt thì anh đó ngon thôi.
Còn lâu lắm vì cái này đụng tới bài toán về General Purpose AI.
Dùng cái nào thì tùy vào yêu cầu bài toán, nhưng theo mình vẫn là dùng những cái cơ bản, đơn giản nhất, khi ko đáp ứng dc thì mới lên phức tạp. ETL thì đôi khi ko cần viết tool mà chỉ cần viết 1 số script, batch jobs cũng được. Ngày xưa thì mình dùng C# code tool, hiện tại dùng python vì muốn đồng bộ tech stack thôi, và nói chính xác thì mình code theo hướng procedural.
Code model đa số xài thư viện: sklearn, tensorflow, pytorch... build model cái chính là feature engineering, feature selection, model tuning and validation. Các giải thuật ML người ta đã code sẵn hết rồi. Còn muốn tạo ra cái các thư viện mới, custom mấy cái mà ví dụ thằng tensorflow nó ko đáp ứng được thì đây là công việc của ML Researcher.
Nói tới đây thế nào chắc cũng vài anh nhảy vào khoe kiến thức giải thuật đao to búa lớn các kiểu blah blah.
Học lại XSTK, Học thêm 1 công cụ chuyên làm data analysis như SPSS Statistics, 1 ngôn ngữ lập trình như Python. Phần còn lại là practice thôi.
Ý kiến cá nhân là bài toán có trước rồi đi học các kỹ năng để giải quyết nó. Vì minh phải biết mục tiêu của mình là gì thì mới đi đúng hướng được. Còn nếu ko biết mục tiêu, bài toán muốn giải quyết là gì luôn thì học kỹ năng để có overview tất cả các mảng nhưng đừng đi sâu quá để tránh lan man.
Câu hỏi về vấn đề nằm ở đâu quan trọng hơn câu hỏi làm thế nào để giải quyết vấn đề.
nếu 3 - 6 tháng làm analyst rồi lên engineer được không thím, không biết gì từ đầu học analyst
Cái này thì mình ko rõ. Bạn nào rõ sẽ trời lời bạn. Nhưng có 1 dạo, cách đây mấy năm mình thấy có cty làm về Market Research, Social Listening nó đăng tuyển, nói chung ngành này cũng còn mới, số cty làm về mấy cái này cũng ít, yêu cầu thì nhiều khi nó để trên trời chứ bản thân người tuyển cũng non kinh nghiệm, muốn đú trend nên muốn tuyển được expert về gầy dựng team luôn. Tất nhiên mấy cty có số mà thật sự như Vin AI thì ko nói.
cảm ơn thím, mình nghĩ NLP đòi hỏi kiến thức đa ngành nhất là sentiment analyst, theo mình thấy hiện tại vẫn còn sơ khai lắm, mình enroll vào khóa NLP của deeplearning.ai trên coursera học được w1 thấy giảng cũng dễ hiểu mà bài tập cũng khó nên tạm dừng để học lại math & ML. Như bọn Vin thì chịu già không đú lại với mấy trẻ, tầm tuổi mình chắc chỉ tuyển phd
Mình cũng đang học free khoá này. Thím học free hay mua vậy? Em tò mò muốn xem mấy cái graded quiz để thực hành ấy mà.
Giám đốc điện lực mà cũng lăn tăn học phí à, thím cứ viết đơn xin hỗ trợ tài chính kêu: sinh viên, thất nghiệp, hoặc đi làm nhưng lương thấp không trả nổi muốn học để đổi đời là coursera nó ok free thôi bên này nó dễ với mấy nước đang phát triển lắm, edx thì nó chỉ hỗ trợ đâu 90%, tra gg vụ này nhé
So sánh thì nên là R vs Python, R là ngôn ngữ chuyên tính toán thống kê. Python thì general purpose. Khác nhau cơ bản thì nếu ko phải background là coder thì học R dễ hơn. Cả 2 thằng đều là công cụ hỗ trợ phân tích data. Python thì có thể vừa làm Analysis vừa làm development và production.
SPSS, SAS, thậm chí Excel là tool phân tích cho nhanh thôi. Thay vì viết code R, Python để ra các thống kê mình muốn thì dùng mấy cái software này chạy các thống kê cho tiện. Nói chung biết thì tốt ko biết thì lúc cần code python, R cũng dc.
không có bằng đặc thù ngành này có được tuyển k thím
Ngành này bây giờ mới nổi thôi, kiến thức, kinh nghiệm, có cert mấy khoá học cũng dc rồi. Mấy ng tốt nghiệp đại học cách đây chục năm làm software chuyển qua có ai chuyên ngành này đâu.
không có bằng đặc thù ngành này có được tuyển k thím
Ngành này không cần bằng cấp lắm. Nhưng cần kỹ năng và kinh nghiệm, cần kiến thức ngành - hay còn gọi là domain knowledge.
Không có thì không thể làm.
ez-aqua
Mình đang có vấn đề này trong việc hiểu cách mà LSTM hay nói rộng hơn la các mô hình RNN hoạt động. Hi vọng có bạn nào hiểu giải thích lại vấn đề này cho mình.
Theo những gì mình đọc, thì mô hình sẽ nhớ "memory" qua mỗi bước thời gian. Khi mình đọc cái này, mình nghĩ mô hình sẽ tự động nhớ tìm các mốc thời gian trước đó trong dataset.
Nhưng khi mình làm thử, thì mình thấy các giá trị trước đó lại được truyền vào model như 1 feature, kiểu như thế này. Cột t thậm chí chỉ có giá trị để sort, chứ thực sự cũng ko truyền vào model.
t (x0)
y tại t-1 (x1)
y tại t-2 (x2)
y
2020-01-01
9
8
10
2020-01-02
10
9
11
2020-01-03
11
10
12
Hiện tại thì mình ko thấy nó khác gì với regression cả. Vậy thực sự cái gọi là "memory" ở trong LSTM hay bao quát hơn là trong RNN nó nằm ở đâu? Ý là lúc dựng regression thì nó sẽ ưu tiên các giá trị ở cuối train dataset hơn là ở đầu chăng.
Hiện giờ mình có khá nhiều vấn đề trong việc hiểu cách hoạt động các model deel learning này. Công việc của mình thì ko phải là data scientist, không phải là người implement trực tiếp, nhưng lại cần hiểu tất cả vấn đề ở tầm khái quát. Hi vọng có bác nào rành giải thích giúp mình.
snapdragon0221
Mình có background về lập trình C/C++.
Giờ tính học thêm chuyên về Computer vision.
Ngày trước trong trường có làm đề tài nhỏ dùng openCv nhưng lâu rồi không dùng nên quên hết (cả Toán luôn).
Vì vậy, mấy bác cho mình hỏi hiện tại nên bắt đầu lại từ đâu, học khóa học nào, nếu có certificate thì càng tốt cho sau này nhưng hiện tại chắc học mấy khóa free để lấy lại nền tảng trước.
Mình đang có vấn đề này trong việc hiểu cách mà LSTM hay nói rộng hơn la các mô hình RNN hoạt động. Hi vọng có bạn nào hiểu giải thích lại vấn đề này cho mình.
Theo những gì mình đọc, thì mô hình sẽ nhớ "memory" qua mỗi bước thời gian. Khi mình đọc cái này, mình nghĩ mô hình sẽ tự động nhớ tìm các mốc thời gian trước đó trong dataset.
Nhưng khi mình làm thử, thì mình thấy các giá trị trước đó lại được truyền vào model như 1 feature, kiểu như thế này. Cột t thậm chí chỉ có giá trị để sort, chứ thực sự cũng ko truyền vào model.
t (x0)
y tại t-1 (x1)
y tại t-2 (x2)
y
2020-01-01
9
8
10
2020-01-02
10
9
11
2020-01-03
11
10
12
Hiện tại thì mình ko thấy nó khác gì với regression cả. Vậy thực sự cái gọi là "memory" ở trong LSTM hay bao quát hơn là trong RNN nó nằm ở đâu? Ý là lúc dựng regression thì nó sẽ ưu tiên các giá trị ở cuối train dataset hơn là ở đầu chăng.
Hiện giờ mình có khá nhiều vấn đề trong việc hiểu cách hoạt động các model deel learning này. Công việc của mình thì ko phải là data scientist, không phải là người implement trực tiếp, nhưng lại cần hiểu tất cả vấn đề ở tầm khái quát. Hi vọng có bác nào rành giải thích giúp mình.
Short answer: bạn hiểu đúng rồi đó "memory" trong RNN chỉ là lấy cái ouput của thời điểm t - 1 trước đó đưa vào làm input thêm với cái input đang xử lý ở thời điểm t. Cái memory này chỉ có tác dụng trong 1 lần loop cho 1 sequence, khi qua sequence khác nó sẽ reset.
Khác nhau với các giải thuật "không nhớ" khác là cách mình input data point. Ví dụ với RandomForest hay simple ANN, để xử lý data dạng time series bạn phải flat data ở các thời điểm t vào 1 input rồi đưa vào model xử lý 1 lần.
Ví dụ trên thì X = [y tại t-1, y tại t-2]
Còn RNN thì sẽ có thêm 1 chiều là time nên lúc đưa vào thì đưa theo 1 sequence các data point. Lúc đưa vào model RNN nó sẽ xử lý mổi sequence bằng cách loop qua từng sequence element (data point từng thời điểm t) để ra ouput cuối cùng. Ví dụ trên thì input là 1 sequence:
X:
[[y tại t-2], <~~~ sequence element
[y tại t-1]] <~~~ sequence element
Long answer: Simple RNN bản chất cũng là chính cái model ANN "không nhớ", nhưng thay vì xử lý 1 đường thẳng từ input -> hidden layers -> ouput thì RNN sẽ có 1 cái vòng lặp để đem cái ouput này (thời điểm t-1) đưa ngược lại (recurrent) làm cái input thêm vào cái sequence element (thời điểm t) đang xử lý để cho cái state ở thời điểm t-1 "có tham gia" vào quá trình quyết định ouput của thời điểm t.
Ý tưởng của RNN bắt nguồn từ cách xử lý thông tin của não người. Ví dụ bài toán phân loại 1 cái comment review sản phẩm là tốt hay xấu. Các model không nhớ như Random Forest, ANN thì phải convert toàn bộ đoạn comment này thành 1 vector rồi xử lý 1 lần. Trong khi não người khi đọc comment sẽ đọc từng từ, từng câu và khi đọc não người sẽ nhớ những từ, câu đã đọc trước đó và lấy nó làm dữ kiện để hiểu các từ, câu tiếp theo.
Hình này mình lấy trong sách Deep Learning with Python của François Chollet, François Chollet là tác giả tạo ra Keras. Hình bên phải minh họa khi loop qua từng sequence element thì output sinh ra được đem vào input để xử lý sequence element tiếp theo.
LSTM thì bản chất vẫn là RNN chỉ khác 1 chổ là ouput sinh ra được mang đi xuyên suốt các sequence element tiếp theo thay vì chỉ đem vào input của sequence element liền sau nó. Giống như đọc comment review có 5 dòng thì mình đọc tới dòng thứ 4 vẫn nhớ được dòng 1, 2, 3 nói gì. Simple RNN vẫn có khả năng này nhưng thông tin bị mất mát do nó bị biến đổi thành ouput qua các lần loop chứ ko truyền trực tiếp như LSTM.
Mình có background về lập trình C/C++.
Giờ tính học thêm chuyên về Computer vision.
Ngày trước trong trường có làm đề tài nhỏ dùng openCv nhưng lâu rồi không dùng nên quên hết (cả Toán luôn).
Vì vậy, mấy bác cho mình hỏi hiện tại nên bắt đầu lại từ đâu, học khóa học nào, nếu có certificate thì càng tốt cho sau này nhưng hiện tại chắc học mấy khóa free để lấy lại nền tảng trước.
Ko chuyên về Computer Vision nên chỉ có vài lời thế này thôi:
1. Ôn lại những gì đã học và làm được trước đó. Học thêm Python.
2. Học Deep Learning vì đây là giải thuật cốt lõi bên Computer Vision.
Ko chuyên về Computer Vision nên chỉ có vài lời thế này thôi:
1. Ôn lại những gì đã học và làm được trước đó. Học thêm Python.
2. Học Deep Learning vì đây là giải thuật cốt lõi bên Computer Vision.
Phiền bác giới thiệu cho mình khóa học hay sách về Deep Learning.
Cám ơn bác!
Phiền bác giới thiệu cho mình khóa học hay sách về Deep Learning.
Cám ơn bác!
Deep Learning thì có vài cuốn như sau:
Neural Networks and Deep Learning của Michael Nielsen. Ai đọc được cuốn này sẽ hiểu rất rõ về ANN. Cuốn này chỉ cách implement ANN từ đầu tới cuối mà
không dùng thư viện để nhận dạng số viết tay. Đọc cuốn này xong tha hồ chém gió, hù dọa với những ai làm Deep Learning mà chỉ biết xài tensorflow.
http://neuralnetworksanddeeplearning.com/index.html
Dive into Deep Learning: nội dung khá đầy đủ, bao trùm nhiều mảng
https://d2l.ai/
Không đi làm thì không có kinh nghiệm, không có kinh nghiệm thì không xin được việc. Cái vòng luẩn quẩn này thì phải làm sao
)
Một sự thật phũ phàng là ngành này việc tìm khó vì k phải chỗ nào cũng cần như SE. Nhu cầu ít, các cty nhiều khi chỉ cho chữ AI vào để chém gió sản phẩm. Nếu hám danh vào cty chém gió thì lương lậu cũng được, sau vài năm trào lưu qua đi thì k có hướng đi tiếp.
Chỗ tuyển nghiêm túc thì prefer là có Master, PhD.
Việc các opensource hiện nay đã hạ thấp độ khó của ngành này xuống, việc từ học đi đến một cái output đơn giản thì rất nhanh, nhưng các bạn làm được thì người khác cũng làm được. Mấy cái LSTM, Transformer cũng k phải là khó để hiểu trong thời điểm hiện tại, sách vở rất nhiều, cái khó là kinh nghiệm để train data, cho bạn data không chuẩn,unbalanced , nhiều noise, làm sao bạn train được thì cái đó chả sách nào dạy được cả.
Học theo phong trào thì học xong cũng k có chỗ ứng dụng đâu các thím ơi, khuyên thật các thím, học SE cho chắc chắn đi.
Ngành này nó yêu cầu khá nhiều kiến thức nên em nghĩ mấy người học theo phong trào không có cửa làm ăn gì với ngành này và tự bị đào thải cả thôi.
Neural Networks and Deep Learning của Michael Nielsen. Ai đọc được cuốn này sẽ hiểu rất rõ về ANN. Cuốn này chỉ cách implement ANN từ đầu tới cuối mà
không dùng thư viện để nhận dạng số viết tay. Đọc cuốn này xong tha hồ chém gió, hù dọa với những ai làm Deep Learning mà chỉ biết xài tensorflow.
http://neuralnetworksanddeeplearning.com/index.html
Dive into Deep Learning: nội dung khá đầy đủ, bao trùm nhiều mảng
https://d2l.ai/
nếu 3 - 6 tháng làm analyst rồi lên engineer được không thím, không biết gì từ đầu học analyst
Tôi trả lời thím rồi, học để cho có kiến thức tươm tất mất khoảng 2 năm... muốn biết thì lấy 1 trong những cuốn sách trên đọc thử xem vào ko, nếu thấy thú vị thì tiếp, thấy chán thì biết rồi, nên theo hướng khác ko phải mất thời gian.
Tôi trả lời thím rồi, học để cho có kiến thức tươm tất mất khoảng 2 năm... muốn biết thì lấy 1 trong những cuốn sách trên đọc thử xem vào ko, nếu thấy thú vị thì tiếp, thấy chán thì biết rồi, nên theo hướng khác ko phải mất thời gian.
There is only one way to find out...
ios tôi học 21 ngày là có basic làm 2013 dĩ nhiên có nền lâp trình c rồi
thì cái này bao lâu thím
sup3rm3n
sẵn cho hỏi thím đọc 1 cuốn 300pages chuyên ngành mất bao lâu
sẵn cho hỏi thím đọc 1 cuốn 300pages chuyên ngành mất bao lâu
Mình làm 1 thử nghiệm nhỏ nhé. Tôi cho bạn 7 ngày (1/3 thời gian học iOS) để bạn tìm hiểu khái niệm
Kernel density estimation bạn phải hiểu tường tận và code lại được (visualize cái curve của nó). Nếu bạn làm được và show code lên đây thì 3-6 tháng là có thể, ngược lại bạn mất 2 năm.
Và trong ngành này, đây chỉ là 1 trong rất nhiều khái niệm cơ bản mà bạn phải nắm.
Mình làm 1 thử nghiệm nhỏ nhé. Tôi cho bạn 7 ngày (1/3 thời gian học iOS) để bạn tìm hiểu khái niệm
Kernel density estimation bạn phải hiểu tường tận và code lại được (visualize cái cure của nó). Nếu bạn làm được và show code lên đây thì 3-6 tháng là có thể, ngược lại bạn mất 2 năm.
Và trong ngành này, đây chỉ là 1 trong rất nhiều khái niệm cơ bản mà bạn phải nắm.
mình mới coi sơ mặc dù chưa biết 1 cái gì nhưng khả năng dễ đó thớt ko tới 7 ngày và mình cam đoan luôn nếu học tầm 2.5 tháng là ok
ps mình từng phát minh cách ghi nhớ riêng vì mình đã nghiên cứu qua critical-thinking và psychoanalytic , 1 tí Neuroscience rồi
Short answer: bạn hiểu đúng rồi đó "memory" trong RNN chỉ là lấy cái ouput của thời điểm t - 1 trước đó đưa vào làm input thêm với cái input đang xử lý ở thời điểm t. Cái memory này chỉ có tác dụng trong 1 lần loop cho 1 sequence, khi qua sequence khác nó sẽ reset.
Khác nhau với các giải thuật "không nhớ" khác là cách mình input data point. Ví dụ với RandomForest hay simple ANN, để xử lý data dạng time series bạn phải flat data ở các thời điểm t vào 1 input rồi đưa vào model xử lý 1 lần.
Ví dụ trên thì X = [y tại t-1, y tại t-2]
Còn RNN thì sẽ có thêm 1 chiều là time nên lúc đưa vào thì đưa theo 1 sequence các data point. Lúc đưa vào model RNN nó sẽ xử lý mổi sequence bằng cách loop qua từng sequence element (data point từng thời điểm t) để ra ouput cuối cùng. Ví dụ trên thì input là 1 sequence:
X:
[[y tại t-2], <~~~ sequence element
[y tại t-1]] <~~~ sequence element
Như vậy là, cái mà truyền lần lượt và liên tục các feature trên 1 dòng à, VD 1 row trong train data set có:
X1(Y tại t-3)
X2(Y tại t-2)
X3(Y tại t-1)
Y
1
2
3
4
Thì khi evaluate 1 row, thì nó vẽ lần lượt cái (có thể là linear) regression cho từng cặp X với Y, VD X1(Y tại t-3) với Y, x2(Y tại t-2) với Y, x3(Y tại t-1) với Y, rồi những cái cặp bị evalute lúc sau thì sẽ bị chịu tác động bởi các cặp được evaluate phía trước nhỉ.
Lúc trước mình cứ nghĩ là nó sẽ evaluate theo chiều dọc (theo row) cơ, hóa ra là tác động theo chiều ngang (theo column).
Nhưng chuyện gì sẽ xảy ra nếu features không phải chỉ có (Y tại t-x) mà còn có các X khác tại t-x?
VD mình có dataset
Date
Số thuê bao lớn
Số lượng sử dụng
2020-01-01
10
100
Chuyện gì sẽ xảy ra nếu mình muốn feature ngoài số lượng sử dụng của 1, 2, 3 tháng trước, còn có số thuê bao lớn của 1,2,3 tháng trước làm feature? train data set sẽ trông thế nào, có phải là thế này ko nhỉ
Date
Số thuê bao lớn (tại -3, -2, -1 tháng trước)
Số lượng sử dụng (tại -3,-2, -1) tháng trước
Số lượng sử dụng
2020-01-01
[7, 8, 9]
[70, 80, 90]
100
2020-01-02
[8, 9, 10]
[80, 90, 100]
110
2020-01-03
[, 1, 11]09
[90, 100, 110]
120
Mà feature của 1 row của mấy cái mô hình LSTM này có phải đảm bảo đúng thứ tự gì không (như thời gian xa hơn đặt trược, gần hơn đặt sau), rồi có được mix time step ko nhỉ (VD cái thì -3_-2_-1 nhưng cái thì -2_-1_0)
Như vậy là, cái mà truyền lần lượt và liên tục các feature trên 1 dòng à, VD 1 row trong train data set có:
X1(Y tại t-3)
X2(Y tại t-2)
X3(Y tại t-1)
Y
1
2
3
4
Thì khi evaluate 1 row, thì nó vẽ lần lượt cái (có thể là linear) regression cho từng cặp X với Y, VD X1(Y tại t-3) với Y, x2(Y tại t-2) với Y, x3(Y tại t-1) với Y, rồi những cái cặp bị evalute lúc sau thì sẽ bị chịu tác động bởi các cặp được evaluate phía trước nhỉ.
Lúc trước mình cứ nghĩ là nó sẽ evaluate theo chiều dọc (theo row) cơ, hóa ra là tác động theo chiều ngang (theo column).
Nhưng chuyện gì sẽ xảy ra nếu features không phải chỉ có (Y tại t-x) mà còn có các X khác tại t-x?
VD mình có dataset
Date
Số thuê bao lớn
Số lượng sử dụng
2020-01-01
10
100
Chuyện gì sẽ xảy ra nếu mình muốn feature ngoài số lượng sử dụng của 1, 2, 3 tháng trước, còn có số thuê bao lớn của 1,2,3 tháng trước làm feature? train data set sẽ trông thế nào, có phải là thế này ko nhỉ
Date
Số thuê bao lớn (tại -3, -2, -1 tháng trước)
Số lượng sử dụng (tại -3,-2, -1) tháng trước
Số lượng sử dụng
2020-01-01
[7, 8, 9]
[70, 80, 90]
100
2020-01-02
[8, 9, 10]
[80, 90, 100]
110
2020-01-03
[, 1, 11]09
[90, 100, 110]
120
Mà feature của 1 row của mấy cái mô hình LSTM này có phải đảm bảo đúng thứ tự gì không (như thời gian xa hơn đặt trược, gần hơn đặt sau), rồi có được mix time step ko nhỉ (VD cái thì -3_-2_-1 nhưng cái thì -2_-1_0)
Bạn đang hỏi cách input của RNN hay đang hỏi cách input của các giải thuật không nhớ như ANN, Random Forest?
RNN thì evaluate theo không gian
3 chiều nha bạn, cái mình nói ở trên là cho 1 sequence. Ví dụ có 2 features, lookback=3, 100 samples thì input shape sẽ là (100, 3, 2), cái (3, 2) là 1 sample (sequence), 3 dòng 2 cột và khi nó evaluate sẽ loop cho 3 dòng này thôi, và 3 dòng này phải đảm bảo đúng thứ tự thời gian, làm xong sẽ đi tiếp cho 99 samples còn lại.
Còn cái kia thì tùy thuộc lookback bao nhiêu ngày mà sẽ xếp các cột lên hết, ví dụ lookback = 3
X = x1_t1, x2_t1, x1_t2, x2_t2, x1_t3, x2_t3. Input shape sẽ là (100, 6), 6 ở đây là nó phải flat 3 dòng 2 cột vì phải xử lý 1 lần chứ ko có loop như RNN. ML model sẽ nhìn vào 6 cái features đó (2 features cho mổi ngày, lookback 3 ngày) rồi dự đoán cái predicted_y, so sánh cái predicted_y với y thật trong training set được truyền vào rồi update weight matrix. Nó cứ làm vậy cho tới khi loop hết các 99 samples còn lại.
Như vậy là, cái mà truyền lần lượt và liên tục các feature trên 1 dòng à, VD 1 row trong train data set có:
X1(Y tại t-3)
X2(Y tại t-2)
X3(Y tại t-1)
Y
1
2
3
4
Thì khi evaluate 1 row, thì nó vẽ lần lượt cái (có thể là linear) regression cho từng cặp X với Y, VD X1(Y tại t-3) với Y, x2(Y tại t-2) với Y, x3(Y tại t-1) với Y, rồi những cái cặp bị evalute lúc sau thì sẽ bị chịu tác động bởi các cặp được evaluate phía trước nhỉ.
Đây là input của các giải thuật không nhớ,
không phải của RNN. Và cách nó evaluate là thế này:
nhận vào input = X1(Y tại t-3), X2(Y tại t-2), X3(Y tại t-1) ===> predicted_Y (Y tại t) ví dụ ra 3.5. Rồi nó so sánh predicted_Y này với Y thật là 4, thấy có sự chênh lêch, nó sẽ update weight matrix. Nó evaluate 1 lần 3 features để ra predicted_Y nhé. Cái này hoàn toàn không tính tới sự tác động X1 lên X2, X2 lên X3, X3 lên Y.
Cho nên RNN nó mới phải loop qua X1, X2, X3 để ra được predicted_Y. Nói cho đơn giản thì thế này, (outcome_of_predicted_Y0, X1) => (outcome_of_predicted_Y1, X2) => (outcome_of_predicted_Y2, X3) => predicted_Y
Lưu ý cái X1, X2, X3 ở đây có thể có nhiều features như ví dụ bạn đưa ra: X1(x1_a, x1_b), X2(x2_a, x2_b).
Last edited:
buiduchanh1995
mình làm AI đến nay cũng được khoảng 3 năm rồi, làm chính là về computer vision. Theo kinh nghiệm của mình thì làm cái này mà kiểu cầu bất cầu bơ thì cũng chả có gì là quá khó nhưng nếu muốn làm nghiêm túc thì tương đối là khoai. Vấn đề ngành này nó lại yêu cầu cao ở rât nhiều mảng, nghĩa là bạn làm model giỏi, kiến thức tốt nhưng vẫn cần có kĩ năng SE cứng. Vì sao ? vì bh ngta luôn làm product, mấy cái research mấy cty bth chả bh chuyên làm cả, thường là vừa làm AI vừa là SE luôn
Một điểm lưu ý là bh tài liệu rất nhiều, free cũng có, open source cũng nhiều nhưng đã học cái gì thì phải hiểu cái đó :v đừng như cái trend Mì AI bỏ mẹ gì đó
đào tạo ra một lứa chả hiểu cái gì chỉ biết git clone rồi python train.py
)
Chốt lại ngành này là ngành có tiềm năng phát triển nữa chứ cũng k phải là trend ngắn hạn. Tuy nhiên cần suy nghĩ kĩ vì ngành này yêu cầu tương đối là cao, cần sự chăm chỉ và tìm tòi nhất định
muốn ăn xổi thì cũng được nhưng rồi sẽ đến lúc nhận ra mình k có chỗ đứng nữa thì lúc đấy tất cả cũng đã muốn :v dù gì thì ưu điểm cũng là đang trend + yêu cầu cao nên lương lậu cũng tương xứng.
Một góc chia sẻ nhỏ cho bác nào muốn đâm lao nhé :v
L.V.Gaal
Thớt hay, đánh dấu cái, biết đâu sau này nhảy xuồng
nickdabiband
chưa thấy chửi nhau như thớt FP and OOP, chán đi ra
God Lives Matter
lương trong 3 thằng thì de ổn không thím nếu so với ds như thế nào ?
Mình có background về lập trình C/C++.
Giờ tính học thêm chuyên về Computer vision.
Ngày trước trong trường có làm đề tài nhỏ dùng openCv nhưng lâu rồi không dùng nên quên hết (cả Toán luôn).
Vì vậy, mấy bác cho mình hỏi hiện tại nên bắt đầu lại từ đâu, học khóa học nào, nếu có certificate thì càng tốt cho sau này nhưng hiện tại chắc học mấy khóa free để lấy lại nền tảng trước.
Còn tuỳ xem frence muốn tiếp cận theo hướng nào, thuần OpenCV hay theo hướng dùng DL. Về khoản CV thì có 2 phần:
1 là tiền xử lý ảnh, cái này thường dùng openCV và dựa vào kinh nghiệm nhiều.
2 là model DL. Cái khoản model này thì hầu hết cũng ko phải động quá nhiều vào architect của nó trừ khi kết quả ra quá tệ. Cái chính là làm sao tìm được model phù hợp với bài toán cần giải quyết nhất. Thời gian nhiều nhất cho phần này là làm dữ liệu thôi. Càng nhiều càng đa dạng càng tốt.
Mình làm theo hướng engineering nên vs mình cả 2 cái trên thì chỉ có thực hành nhiều và làm dự án thật thì dễ lên hơn. Vì dự án thật nó có yêu cầu về độ chính xác. Lúc đó ms phát sinh vấn đề làm sao để đẩy độ chính xác.
Còn về bắt đầu thì mình nghĩ nên bắt đầu bằng 1 project đơn giản với bài toán phổ biến nhất bây giờ là ObjectDetection. Nếu muốn làm nhiều về tiền xử lý thì sẽ làm bài toán tương tự là TextDetection.
Còn khoá học thì mình ko rõ lắm mình cũng lười học mấy khoá mình đọc paper liên quan với cứ chỗ nào có khái niệm gì ko hiểu là mình gg search đọc về nó.
Mình đang có vấn đề này trong việc hiểu cách mà LSTM hay nói rộng hơn la các mô hình RNN hoạt động. Hi vọng có bạn nào hiểu giải thích lại vấn đề này cho mình.
Theo những gì mình đọc, thì mô hình sẽ nhớ "memory" qua mỗi bước thời gian. Khi mình đọc cái này, mình nghĩ mô hình sẽ tự động nhớ tìm các mốc thời gian trước đó trong dataset.
Nhưng khi mình làm thử, thì mình thấy các giá trị trước đó lại được truyền vào model như 1 feature, kiểu như thế này. Cột t thậm chí chỉ có giá trị để sort, chứ thực sự cũng ko truyền vào model.
t (x0)
y tại t-1 (x1)
y tại t-2 (x2)
y
2020-01-01
9
8
10
2020-01-02
10
9
11
2020-01-03
11
10
12
Hiện tại thì mình ko thấy nó khác gì với regression cả. Vậy thực sự cái gọi là "memory" ở trong LSTM hay bao quát hơn là trong RNN nó nằm ở đâu? Ý là lúc dựng regression thì nó sẽ ưu tiên các giá trị ở cuối train dataset hơn là ở đầu chăng.
Hiện giờ mình có khá nhiều vấn đề trong việc hiểu cách hoạt động các model deel learning này. Công việc của mình thì ko phải là data scientist, không phải là người implement trực tiếp, nhưng lại cần hiểu tất cả vấn đề ở tầm khái quát. Hi vọng có bác nào rành giải thích giúp mình.
Đúng rồi, qua mỗi bước thì output đằng trước sẽ là input hoặc 1 phần input cho đằng sau. Đấy là RNN. nhưng RNN nó bị cái là vì chỉ có output node trước mới cho vào node sau dẫn tới nếu input lớn thì khả năng RNN đoán fail rất cao nên LSTM ra đời. LSTM nó là 1 chain(mình hay gọi thế) và chain đó chạy xuyên suốt các node, chain đó có các cổng in out forget. Dẫn tới thông tin được lưu dài hơn.
Có thể hiểu đơn giản là:
RNN như phương trình:
y = aX + b
LSTM như phương trình:
y = aX + bY + cZ +d
Vì RNN nó chỉ dùng có output node trước vào cho input node sau, còn LSTM thì nó dùng output của các node trước vào input cho node sau. Tất nhiên nó cũng ko thể quá dài nên nó sinh ra cơ chế forget. Chính vì cái nó lưu lại được thông tin output của CÁC node trước để dùng nên nó gọi là memory đó.
Không
)) Nhiều job DA giờ range 2k-3k (mà chả phải lead DA) thì cũng không thấp, mà làm DA cửa phát triển cũng hay, hướng thì khác DS. Mà DA thì không có áp lực học nhiều như DS
))
Nếu không phải không (chưa) chuyển được thì mình cũng gắng chuyển rồi
)) Có ông làm cùng hồi xưa chuyển sang làm nhánh này từ năm trước ngon choét :<
chào mọi người, hiện tại em đang làm bài toán trích xuất thông tin từ CV/Resume, phần tách layout có ai có hướng gì không ạ?
Theo em hiểu, thím dùng từ layout nghĩa là dữ liệu của thím cùng 1 loại form và thím cần tìm vị trí các field ở đâu để có thể lấy thông tin đúng trường mong muốn.
Nếu đúng ý thím thế thì có 3 cách.
1. Thuần rulebase
Cái này có thể áp dụng cho các loại form dạng scan, fax vì và input cố định ít xê dịch. Đơn thuần thím định ra các toạ độ(x,y) các field theo fax mẫu và lấy thông tin thôi
Ưu: nhanh gọn nhẹ, giảm time cần xử lý
Nhược: form cần vị trí đẹp và ổn định
2. DL + rule base
Thím sẽ dùng 1 model để làm
bài toán textdetection. Thì input thím đưa vào sẽ là annotations các field thím cần. sau đó train model chỉ nhận diện các field đó. Có thể train fit đoạn này. Sau đó định ra các rule. ví dụ thím có form gồm
Tên
Tuổi
Ngày sinh
thì data train là các box khoanh chữ "Tên"."Tuổi","Ngày sinh". Khi model detect ra được 3 box đó thì thím cần định ra rule cho nó, short 3 box theo Y và box thứ 1 sẽ là Tên thứ 2 là tuổi thứ 3 là ngày sinh.
Ưu điểm là có thể form xê dịch được vì thực thế fax hay scan có thể vẫn bị lệch mà
Ưu: đa dụng hơn, input có thể ko cần quá đẹp
Nhược: tăng thời gian xử lý vì cần thêm 1 model detection. Tăng cả mem nữa. Nếu dùng rtx3090 thì chắc ko cần quan tâm mem
3. Thuần DL
Thì cái này khó, thím cần làm bài toán recognition cho cả form và trích xuất thông tin thôi.
Ưu: với mọi loại form đều dùng được
Nhược: chưa thấy ai làm mà dùng được
Ngoài ra còn 1 kiểu nữa là Form detection. Nghĩa là phải phân biệt được các loại form khác nhau. Kiểu input data gồm hoá đơn điẹn nước, hoá đơn vinmart, hoá đơn karaoke ..vv.. thì cần phân loại được ra loại nào với loại nào. Rồi từ đó mới ra thành layout làm như bên trên mình trình bày được. Cái này cũng ko nhiều người làm nhưng cũng chưa thấy cái nào ưu tú lắm.
lương trong 3 thằng thì de ổn không thím nếu so với ds như thế nào ?
DE sao so với DS được.
Làm DS thì bèo bèo cũng phải du học master về, có những cty DS phải phD trở lên mới dc tính là DS.
Ng ta bỏ công sức đi du học 6-7 năm về thì lương tất nhiên phải khác mấy ông DE học CS thông thường.
Còn dạng đi làm DS mà chưa đi du học thì mình ko tính! Mấy bạn như vầy thì lương cũng chỉ cỡ DE thôi.
Với mình, và nhiều người, thì chưa phD, chưa tính là DS!
DE sao so với DS được.
Làm DS thì bèo bèo cũng phải du học master về, có những cty DS phải phD trở lên mới dc tính là DS.
Ng ta bỏ công sức đi du học 6-7 năm về thì lương tất nhiên phải khác mấy ông DE học CS thông thường.
Còn dạng đi làm DS mà chưa đi du học thì mình ko tính! Mấy bạn như vầy thì lương cũng chỉ cỡ DE thôi.
Với mình, và nhiều người, thì chưa phD, chưa tính là DS!
Ý bác làm DS “thượng đẳng” hơn DE?
DE cũng có job cần PhD nhé. Những cty lớn như Google, Amazon thì Data Engineer nó thiết kế Data Center, làm các thể loại bùa chú với Big Data chứ ko phải như mấy a làm data như thợ gõ đâu.
DS và DE là 2 role khác nhau. Tuỳ yêu cầu công việc mà đòi hỏi skill tương ứng. Nếu so thì phải so công bằng, trường hợp cả 2 có Phd hết.
DE cũng có job cần PhD nhé. Những cty lớn như Google, Amazon thì Data Engineer nó thiết kế Data Center, làm các thể loại bùa chú với Big Data chứ ko phải như mấy a làm data như thợ gõ đâu.
DS và DE là 2 role khác nhau. Tuỳ yêu cầu công việc mà đòi hỏi skill tương ứng. Nếu so thì phải so công bằng, trường hợp cả 2 có Phd hết.
Bạn có đọc kỹ cái mình nói ko vậy? Ở chỗ nào mình bảo thượng đẳng?
Bạn chụp mũ người khác thế!
Ở VN, mình xin nhắc lại là ở VN nhé, kiếm phD đã khó rồi còn đòi phD làm Data Engineer? Còn cái link bạn đưa mình vào ko dc, nhưng đoán là 1 job ở nước ngoài, cincinati gì đấy!
Bạn nói ko sai là tùy công việc có skill tương ứng, vậy làm DS thì đòi skill như nào mà đa phần người ta yêu cầu phải có Ms hay phd trở lên? Và với những skill như vậy thì mức lương cao hơn DE có hợp lý ko?
Mình thấy cái bạn nói ko đúng trọng tâm vấn đề và ngữ cảnh ở cái đất nước này.
Cứ thích mang những cái trường hợp thiểu số hay ở nước ngoài ra nói chuyện là thế nào nhỉ?
Thử thống kê thử bao nhiêu ông học phD xong đi làm DE!
Này là khoá luận tốt nghiệp, dùng dialogflow đồ ăn sẵn rồi liệu có ổn không thím. Với dữ liệu thì kiếm ở đâu vậy
Ổn hay không thì bạn phải hỏi giáo viên. Cái cục nợ dialogflow train nó cũng không dễ đâu. Muốn có dữ liệu thì bạn phải tự nghĩ ra rồi tự test từng case. Chỉ việc chuẩn bị dữ liệu mẫu không thôi chắc cũng chiếm gần 50% thời gian rồi
The_Luc_Thu_Dit
Cho mình hỏi nếu như data thô của mình khi nhập tay vào phát sinh thêm 1 số label không mong muốn (gõ sai chính tả khi nhập liệu):
thì cách xử lý nhanh nhất là gì. (hiện tại mình chỉ biết cách filter bằng excel xong sửa thôi). Có cách nào để group lại rồi chỉnh sửa luôn 1 lần không. VD: chọn Td, Tdd, TĐ sửa thành TD
pls help
PS: mình có biết dùng sơ sơ tableau, và có thể dùng pandas/
thì cách xử lý nhanh nhất là gì. (hiện tại mình chỉ biết cách filter bằng excel xong sửa thôi). Có cách nào để group lại rồi chỉnh sửa luôn 1 lần không. VD: chọn Td, Tdd, TĐ sửa thành TD
pls help
PS: mình có biết dùng sơ sơ tableau, và có thể dùng pandas/
Ko hiểu câu hỏi. Bạn filter được những trường hợp sai chính tả thì bạn đã group rồi đó.
Còn muốn ko tốn công mò filter các trường hợp sai thì vlookup với cái list đúng, anh nào ko có trong list đúng thì lòi ra thôi.
mình muốn sửa lại những trường hợp sai chính tả đó bằng cách nhanh nhất. Hiện tại mình dùng excel filter ra Td, Tdd, TĐ xong gõ vào TD rồi kéo xuống hết. Nhưng nếu data có 1 triệu dòng thì ko dùng excel được vì nó chậm quá, mình muốn hỏi xem có cách nào nhanh hơn
Cho mình hỏi trong tableau có cách nào để insert VLOOKUP vào không
VD: mình có 1 file data thô: sheet1 có 1 cột mã sản phẩm AB001 AB002 và sheet 2 là bảng quy đổi mã sản phẩm = tên sản phẩm
Nếu dùng excel thì mình sẽ insert thêm 1 cột "Tên sản phẩm" kế bên cột mã sản phẩm trong sheet 1 rồi vlookup sang sheet2.
Nhưng 1 triệu dòng thì dùng excel quá chậm
Thêm 1 điều nữa là giả sử mình có thêm 1 cột mã vùng địa chỉ trong file data thô, nhưng lúc đầu chưa phát sinh việc phân tích địa chỉ khách hàng, 1 tháng sau bắt làm phân tích địa chỉ thì mình phải VLOOKUP thêm cột địa chỉ = mã địa chỉ vào trong file data thô. Như vậy cực quá
Có cách nào dùng python hay tableau bổ sung vô luôn được không
Cho mình hỏi trong tableau có cách nào để insert VLOOKUP vào không
VD: mình có 1 file data thô: sheet1 có 1 cột mã sản phẩm AB001 AB002 và sheet 2 là bảng quy đổi mã sản phẩm = tên sản phẩm
Nếu dùng excel thì mình sẽ insert thêm 1 cột "Tên sản phẩm" kế bên cột mã sản phẩm trong sheet 1 rồi vlookup sang sheet2.
Nhưng 1 triệu dòng thì dùng excel quá chậm
Thêm 1 điều nữa là giả sử mình có thêm 1 cột mã vùng địa chỉ trong file data thô, nhưng lúc đầu chưa phát sinh việc phân tích địa chỉ khách hàng, 1 tháng sau bắt làm phân tích địa chỉ thì mình phải VLOOKUP thêm cột địa chỉ = mã địa chỉ vào trong file data thô. Như vậy cực quá
Có cách nào dùng python hay tableau bổ sung vô luôn được không
Cách thích hợp nhất là import vào database rồi dùng SQL filter, join, update cái mình cần.
Dùng python cũng được nếu thím biết lập trình, nhưng tôi vẫn prefer database hơn vì lookup dữ liệu lớn với join table dễ hơn.
Tableau chỉ là tool để Visualize Data, thường người ta sẽ chuẩn bị các data đầy đủ hết ở Data Source, nếu cần thì build thêm Caculated Field từ các field có sẵn. Những cái như clean data, merge, join table thì nên xử lý ở ngoài trước khi đem vào tableu.
Cách thích hợp nhất là import vào database rồi dùng SQL filter, join, update cái mình cần.
Dùng python cũng được nếu thím biết lập trình, nhưng tôi vẫn prefer database hơn vì lookup dữ liệu lớn với join table dễ hơn.
Tableau chỉ là tool để Visualize Data, thường người ta sẽ chuẩn bị các data đầy đủ hết ở Data Source, nếu cần thì build thêm Caculated Field từ các field có sẵn. Những cái như clean data, merge, join table thì nên xử lý ở ngoài trước khi đem vào tableu.
hiện tại data source mình dùng là excel chứ ko import lên SLQ (chưa học)
hiện tại data source mình dùng là excel chứ ko import lên SLQ (chưa học)
Vậy thì học, làm việc với file data lớn cỡ vài triệu dòng thì nên biết SQL. Vấn đề của thím tôi chỉ cần viết 1 câu SQL update 1 phát rồi export ra Excel lại là xong. Mình chỉ lợi dụng Database để xử lý thôi, xong rồi vẫn xuất ra Excel làm data source mà. Còn xử lý data trên Excel hay Python thì thời gian mở, load file, vlookup, filter, update các kiểu mất cả tiếng.
Vậy thì học, làm việc với file data lớn cỡ vài triệu dòng thì nên biết SQL. Vấn đề của thím tôi chỉ cần viết 1 câu SQL update 1 phát rồi export ra Excel lại là xong. Mình chỉ lợi dụng Database để xử lý thôi, xong rồi vẫn xuất ra Excel làm data source mà. Còn xử lý data trên Excel hay Python thì thời gian mở, load file, vlookup, filter, update các kiểu mất cả tiếng.
Vậy thì học, làm việc với file data lớn cỡ vài triệu dòng thì nên biết SQL. Vấn đề của thím tôi chỉ cần viết 1 câu SQL update 1 phát rồi export ra Excel lại là xong. Mình chỉ lợi dụng Database để xử lý thôi, xong rồi vẫn xuất ra Excel làm data source mà. Còn xử lý data trên Excel hay Python thì thời gian mở, load file, vlookup, filter, update các kiểu mất cả tiếng.
nếu đã sử dụng SQL để xử lý data rồi sao không dùng nó làm source phân tích luôn mà xuất trả về excel chi vậy fence
nếu đã sử dụng SQL để xử lý data rồi sao không dùng nó làm source phân tích luôn mà xuất trả về excel chi vậy fence
Thì fence muốn làm trên database luôn cũng được tuỳ fence thôi. Tại ban đầu fence nói đang xài data source là Excel, muốn clean data thôi thì clean xong export lại cho đúng ý.
Bạn có đọc kỹ cái mình nói ko vậy? Ở chỗ nào mình bảo thượng đẳng?
Bạn chụp mũ người khác thế!
Ở VN, mình xin nhắc lại là ở VN nhé, kiếm phD đã khó rồi còn đòi phD làm Data Engineer? Còn cái link bạn đưa mình vào ko dc, nhưng đoán là 1 job ở nước ngoài, cincinati gì đấy!
Bạn nói ko sai là tùy công việc có skill tương ứng, vậy làm DS thì đòi skill như nào mà đa phần người ta yêu cầu phải có Ms hay phd trở lên? Và với những skill như vậy thì mức lương cao hơn DE có hợp lý ko?
Mình thấy cái bạn nói ko đúng trọng tâm vấn đề và ngữ cảnh ở cái đất nước này.
Cứ thích mang những cái trường hợp thiểu số hay ở nước ngoài ra nói chuyện là thế nào nhỉ?
Thử thống kê thử bao nhiêu ông học phD xong đi làm DE!
Thực ra cũng có thể nói DS đang "thượng đẳng" hơn là DE
nói vậy về cơ bản nó cũng k sai
Tựu chung có 3 loại DS, DE và DA
DA (chân loanh quanh) : đóng vai trò chỉ là tìm hiểu thêm một số khía cạnh của dữ liệu, cần domain và các công cụ phân tích cơ bản, nhìn chung đóng góp không quá nhiều
DE (thợ xây mũ vàng) : tech tốt, có tầm nhìn thường đóng vai trò sử dụng code, tool để tối ưu hóa cái pipeline của data.
DS ( quản lý mũ trắng ) : Đủ mọi tác vụ nhưng khác biệt so với 2 cái trên chính là việc DS luôn hiểu các vấn đề doanh nghiệp , ngoài ra còn có kĩ năng phân tích, kiểm tra, tối ưu hóa dữ liệu ( kĩ năng về thống kê, toán là cực tốt ) . Nói chung là cấp bậc cao nhất, đấy chính là lí do mấy ông MS, PhD toàn là làm DS.
Ncl trong 2 ông DE và DS thì không thiếu ông nào được nhưng ncl DS vẫn được đánh giá cao hơn DE vì khi nhắc đến DE thì chỉ là vấn đề về Tech thôi
Còn cái job kia là của P&G tận Mẽo, mà ngành nào cũng có PhD cả nên khó so sánh kiểu vậy lắm :v
Cho mình hỏi trong tableau có cách nào để insert VLOOKUP vào không
VD: mình có 1 file data thô: sheet1 có 1 cột mã sản phẩm AB001 AB002 và sheet 2 là bảng quy đổi mã sản phẩm = tên sản phẩm
Nếu dùng excel thì mình sẽ insert thêm 1 cột "Tên sản phẩm" kế bên cột mã sản phẩm trong sheet 1 rồi vlookup sang sheet2.
Nhưng 1 triệu dòng thì dùng excel quá chậm
Thêm 1 điều nữa là giả sử mình có thêm 1 cột mã vùng địa chỉ trong file data thô, nhưng lúc đầu chưa phát sinh việc phân tích địa chỉ khách hàng, 1 tháng sau bắt làm phân tích địa chỉ thì mình phải VLOOKUP thêm cột địa chỉ = mã địa chỉ vào trong file data thô. Như vậy cực quá
Có cách nào dùng python hay tableau bổ sung vô luôn được không
Cơ hội việc làm đang là ngang nhau. Tuy nhiên CV sẽ nhỉnh hơn về số lượng công việc, vì mấy task dùng NLP đa phần là dùng ở các cty lớn mới có đủ dữ liệu để làm trong khi CV thì thoải mái hơn và cũng nhiếu startup hơn
Còn lương lậu thì ngang nhau nhé
cứ giỏi đi là thu nhập tự động cao
Thực ra cũng có thể nói DS đang "thượng đẳng" hơn là DE
nói vậy về cơ bản nó cũng k sai
Tựu chung có 3 loại DS, DE và DA
DA (chân loanh quanh) : đóng vai trò chỉ là tìm hiểu thêm một số khía cạnh của dữ liệu, cần domain và các công cụ phân tích cơ bản, nhìn chung đóng góp không quá nhiều
DE (thợ xây mũ vàng) : tech tốt, có tầm nhìn thường đóng vai trò sử dụng code, tool để tối ưu hóa cái pipeline của data.
DS ( quản lý mũ trắng ) : Đủ mọi tác vụ nhưng khác biệt so với 2 cái trên chính là việc DS luôn hiểu các vấn đề doanh nghiệp , ngoài ra còn có kĩ năng phân tích, kiểm tra, tối ưu hóa dữ liệu ( kĩ năng về thống kê, toán là cực tốt ) . Nói chung là cấp bậc cao nhất, đấy chính là lí do mấy ông MS, PhD toàn là làm DS.
Ncl trong 2 ông DE và DS thì không thiếu ông nào được nhưng ncl DS vẫn được đánh giá cao hơn DE vì khi nhắc đến DE thì chỉ là vấn đề về Tech thôi
Còn cái job kia là của P&G tận Mẽo, mà ngành nào cũng có PhD cả nên khó so sánh kiểu vậy lắm :v
Thượng đẳng hay ko thì tùy cách nhìn mỗi người thôi.
Nhưng DS rõ ràng là khó theo hơn, hiếm hơn, lương cao hơn, người ít hơn. Thì ít nhất về mặt nhân sự là đã thấy DS khó tuyển rồi.
Mấy ông DS đi du học về, ko phải cứ lương cao là mời về dc đâu. Người ta dựa vào network nhiều hơn ấy. Còn DE, dễ tuyển hơn nhiều.
Vì cũng đi từ software engineer cả!
123laca
đá lên phát, thím nào học khóa Data science ở ĐHKHTN cho mình xin giáo trình để tự vọc được không. Mình gửi ít phí uống cafe ạ
Taydua1232000
Mình cũng trên beginner được tí. Đang làm bài phân loại ung thư vú bằng ảnh y tế mà khoai vãi. Public Dataset có mỗi 1300 nên overfit vc
ếu hiểu sao trên paper bọn nó ra được kết quả
Mình cũng trên beginner được tí. Đang làm bài phân loại ung thư vú bằng ảnh y tế mà khoai vãi. Public Dataset có mỗi 1300 nên overfit vc
ếu hiểu sao trên paper bọn nó ra được kết quả
thì cách xử lý nhanh nhất là gì. (hiện tại mình chỉ biết cách filter bằng excel xong sửa thôi). Có cách nào để group lại rồi chỉnh sửa luôn 1 lần không. VD: chọn Td, Tdd, TĐ sửa thành TD
pls help
PS: mình có biết dùng sơ sơ tableau, và có thể dùng pandas/
có thể check bằng spelling trên excel nếu ngôn ngữ thường, còn nếu thím dùng tên riêng ký hiệu riêng thì rất khó auto do chỉ thím mới hiểu là nó sai thôi
thì cách xử lý nhanh nhất là gì. (hiện tại mình chỉ biết cách filter bằng excel xong sửa thôi). Có cách nào để group lại rồi chỉnh sửa luôn 1 lần không. VD: chọn Td, Tdd, TĐ sửa thành TD
pls help
PS: mình có biết dùng sơ sơ tableau, và có thể dùng pandas/
xử lý bằng fuzzy look trên excel google là thấy, còn python thì xử lý bằng fuzzywuzzy
Mình cũng trên beginner được tí. Đang làm bài phân loại ung thư vú bằng ảnh y tế mà khoai vãi. Public Dataset có mỗi 1300 nên overfit vc
ếu hiểu sao trên paper bọn nó ra được kết quả
Có thể trong lúc phân tập train/val/test không đồng đều về tính chất đặc trưng (feature vector) dẫn đến khi train nó học khác khi test thì lại một kiểu thì Overfit thôi
Thử lại việc phân chia data train/test xem, rồi data augmentation tạo thêm data ...
Chứ tụi nó làm dc thì chắc kg phải ít dữ liệu đâu
Dev nhảy qua xong lắc đầu là vì lười thôi fen, làm SE vẫn vui khỏe có ích hơn. Trình độ tư duy của dev dư sức học món này, cơ mà... lười, mình cũng thấy vậy.
mình đang tìm hiểu mà thấy giải tích lười thật thím ạ
hellpoethero
Cá nhân mình thì nghĩ DS với DE nó là hai cái đường đi tương đối khác nhau chứ nhỉ? Việc của DE là xây hệ thống dữ liệu, còn việc của ông DS là phân tích cái đống dữ liệu đó và xây dựng các mô hình phân tích, xử lý dữ liệu. Dĩ nhiên ở đây có 1 số skill set trùng lặp, một số người có thể có skill của cả 2 mảng, nhưng cơ bản là mục tiêu của 2 cái nó tương đối khác nhau.
DE không nhất thiết phải học Master, PhD, những cái như chứng chỉ của các tổ chức, tập đoàn mới là cái cần hơn; còn DS hiện tại thì Master, PhD vẫn là hướng đi phổ biến vì một trong những yêu cầu của ông DS là có khả năng hiểu và áp dụng mô hình, chưa nói đến việc xây mô hình mới. Một số cty ở nước ngoài thì minimum requirement cho DS là PhD with experience luôn.
Nếu buộc phải so sánh, ông DA là cấp thấp hơn của DS mới phải. Ông DS (theo mình) là ngang DE, nhưng media thì đang thích DS hơn. Dĩ nhiên DS thường yêu cầu các cái thứ nó không phổ thông(Master/PhD/Toán/Statisitic/...), nên về mặt nào đó DS cảm giác cũng fancy hơn DE.
Cá nhân mình thì nghĩ DS với DE nó là hai cái đường đi tương đối khác nhau chứ nhỉ? Việc của DE là xây hệ thống dữ liệu, còn việc của ông DS là phân tích cái đống dữ liệu đó và xây dựng các mô hình phân tích, xử lý dữ liệu. Dĩ nhiên ở đây có 1 số skill set trùng lặp, một số người có thể có skill của cả 2 mảng, nhưng cơ bản là mục tiêu của 2 cái nó tương đối khác nhau.
DE không nhất thiết phải học Master, PhD, những cái như chứng chỉ của các tổ chức, tập đoàn mới là cái cần hơn; còn DS hiện tại thì Master, PhD vẫn là hướng đi phổ biến vì một trong những yêu cầu của ông DS là có khả năng hiểu và áp dụng mô hình, chưa nói đến việc xây mô hình mới. Một số cty ở nước ngoài thì minimum requirement cho DS là PhD with experience luôn.
Nếu buộc phải so sánh, ông DA là cấp thấp hơn của DS mới phải. Ông DS (theo mình) là ngang DE, nhưng media thì đang thích DS hơn. Dĩ nhiên DS thường yêu cầu các cái thứ nó không phổ thông(Master/PhD/Toán/Statisitic/...), nên về mặt nào đó DS cảm giác cũng fancy hơn DE.
ngành này là nghề mới nên tuyển master,PhD các ngành khác qua thì hấp thụ làm việc nhanh hơn vì khi đám nàylàm luận văn ở trình độ master trở lên hàu như các ngành đều phải có kiến thức thống kê, kinh nghiệm nghiên cứu làm việc với dữ liệu hết. Mình đọc tài liệu hơn tháng qua thì thấy DS khuynh hướng nghiên cứu nặng. Theo mình sau này nếu các trường ĐH lớn mở ngành DS này thì các cty lớn vẫn tuyển bình thường
kulboy_vn
Chào các pro.
Em là dev web, hiện nay muốn học và tìm hiểu về system recommended dựa vào hành vi người dùng hoặc ví dụ như mỗi ngày người dùng truy cập vào thì tùy theo thời điểm, có thể tạo ra 1 câu để chăm sóc kh tốt hơn ấy ạ, kiểu :" chúc anh abc một ngày tốt lành, xyz có thể giúp gì cho anh?... Kiểu kiểu vậy.
Nhưng mà em còn mông lung quá.
Mong đc các pro chỉ cho em bắt đầu học từ đâu, có book hay website nào có các khóa học không, thì xin đc nhận chỉ giáo từ các thím.
Cảm ơn các pro trc ạ!
Mình cũng trên beginner được tí. Đang làm bài phân loại ung thư vú bằng ảnh y tế mà khoai vãi. Public Dataset có mỗi 1300 nên overfit vc
ếu hiểu sao trên paper bọn nó ra được kết quả
Paper của bọn nào? Paper rất khó đọc, thường thì nên đọc những paper mà người đi trước khuyên đọc hoặc đã được review kĩ từ các hội nghị/tạp chí top 1-2, đọc lung tung chả được gì đâu, phải đến hơn 3/4 paper chỉ có mỗi cái idea, không thể re- implement nó được, kể cả bọn cty lớn, Mozilla, Nvidia, Phds ... có rất nhiều người re-implement từ ý tưởng của Paper gốc nhưng kết quả cũng như
** Thậm chí Paper đưa ra cả kiến trúc của mạng + hyperparam nhưng implement y chang thì kết quả vẫn như **
Chào các pro.
Em là dev web, hiện nay muốn học và tìm hiểu về system recommended dựa vào hành vi người dùng hoặc ví dụ như mỗi ngày người dùng truy cập vào thì tùy theo thời điểm, có thể tạo ra 1 câu để chăm sóc kh tốt hơn ấy ạ, kiểu :" chúc anh abc một ngày tốt lành, xyz có thể giúp gì cho anh?... Kiểu kiểu vậy.
Nhưng mà em còn mông lung quá.
Mong đc các pro chỉ cho em bắt đầu học từ đâu, có book hay website nào có các khóa học không, thì xin đc nhận chỉ giáo từ các thím.
Cảm ơn các pro trc ạ!
Gửi từ OnePlus HD1900 bằng vozFApp
Làm kiểu pattern matching thì nhanh, khoảng 1-2 tháng với case system của bạn là Active (luôn nắm quyền chủ động trong hội thoại), còn passive thì thua (chờ người dùng open conservation = input data bất kì rồi trả lời dựa trên data đó)
. Mấy cái này nó liên quan đến Language Understading, bạn có thể học 1 khóa về Natural language processing để hiểu thêm
http://web.stanford.edu/class/cs224n/
Làm kiểu pattern matching thì nhanh, khoảng 1-2 tháng với case system của bạn là Active (luôn nắm quyền chủ động trong hội thoại), còn passive thì thua (chờ người dùng open conservation = input data bất kì rồi trả lời dựa trên data đó)
. Mấy cái này nó liên quan đến Language Understading, bạn có thể học 1 khóa về Natural language processing để hiểu thêm
http://web.stanford.edu/class/cs224n/
Bạn đang hỏi cách input của RNN hay đang hỏi cách input của các giải thuật không nhớ như ANN, Random Forest?
RNN thì evaluate theo không gian
3 chiều nha bạn, cái mình nói ở trên là cho 1 sequence. Ví dụ có 2 features, lookback=3, 100 samples thì input shape sẽ là (100, 3, 2), cái (3, 2) là 1 sample (sequence), 3 dòng 2 cột và khi nó evaluate sẽ loop cho 3 dòng này thôi, và 3 dòng này phải đảm bảo đúng thứ tự thời gian, làm xong sẽ đi tiếp cho 99 samples còn lại.
Còn cái kia thì tùy thuộc lookback bao nhiêu ngày mà sẽ xếp các cột lên hết, ví dụ lookback = 3
X = x1_t1, x2_t1, x1_t2, x2_t2, x1_t3, x2_t3. Input shape sẽ là (100, 6), 6 ở đây là nó phải flat 3 dòng 2 cột vì phải xử lý 1 lần chứ ko có loop như RNN. ML model sẽ nhìn vào 6 cái features đó (2 features cho mổi ngày, lookback 3 ngày) rồi dự đoán cái predicted_y, so sánh cái predicted_y với y thật trong training set được truyền vào rồi update weight matrix. Nó cứ làm vậy cho tới khi loop hết các 99 samples còn lại.
Như vậy, mình hiểu là đối với các giải thuật có nhớ thì.
Ví dụ có 2 features, lookback=3, 100 samples thì:
Dòng 1 nó sẽ evaluate bộ 2 feature của lookback xa nhất (vd t-3), để đoán ra Y của lookback đó, nhưng Y này ko có tác dụng gì (Vì theo diễn giải của hình minh họa thì state mới là thứ được gửi tiếp đi loop tiếp theo, chứ output thì ko có ý nghĩa), mà nó sẽ cố gắng tính ra state của lookback của thời điểm này, rồi nhảy sang lookback tiếp theo (t-2), bằng bộ 2 feature, đồng thời cân nhắc cả state của bước trước đó, rồi tính ra state mới, rồi tiếp tục nhảy sang lookback tiếp theo, lại tính ra Y dựa trên bộ 2 feature, và state của bước trước. Lúc này đã hết lookback và output của bước này chính là predicted y cuối cùng.
Tiếp tục làm vậy với các dòng sample còn lại.
so sánh cái predicted_y với y thật trong training set được truyền vào rồi update weight matrix. Nó cứ làm vậy cho tới khi loop hết các 99 samples còn lại.
Mình nghĩ là phải evaluate hết 99 sample, rồi mới update weight matrix rồi mới thử lại 100 sample, rồi lại so với kết quả thực để sửa lại weight tiếp, cho đến khi nào hết số bước học thì mới thôi chứ. Bởi nếu mỗi dòng update weight matrix 1 lần thì mỗi dòng sẽ có 1 weight khác nhau, trong khi mình nghĩ weight phải giống nhau, khác là cái biến số thôi.
Mà với mấy cái RNN này thì mình ko biết là lookback có phải liên tục ko, hay sao cũng được, VD có thể lookback là (-100, -50, -10, -5, -1) hay bắt buộc phải là (-5, -4, -3, -2, -1) liên tục với nhau.
_______________
Mà mình hiểu là neural network có nghĩa những phương pháp giải thuật:
Chọn ngẫu nhiên weight bias
Thử weight và bias hiện tại với biến, ra được kết quả, sau đó so với kết quả tính được bằng weight và bias trên với kết quả thực,
Nếu sai thì sửa lại weight và bias theo hướng có thể khiến kết quả gần với thật hơn.
Lặp lại
Nói tóm lại là thử sai - sửa, khác với những giải thuật kiểu linear regression hay tree thì nó có phương pháp tính chính xác luôn chứ ko phải là giải thuật mò.
Còn deep learning là:
- Cũng giống như cái neural network trên, nhưng thay vì chỉ có 1 lớp thì nó có n lớp.
Những phát biểu trên của mình có đúng không, nhờ các bạn giải đáp.
HellFire1907
Đang đi học và muốn theo hướng này thì có thể xin thực tập/fresher ở đâu các bác? Bác nào có kinh nghiệm chia sẻ thêm được không ạ? (e ở SG)
Đang đi học và muốn theo hướng này thì có thể xin thực tập/fresher ở đâu các bác? Bác nào có kinh nghiệm chia sẻ thêm được không ạ? (e ở SG)
Chợ Tốt đang tuyển AI Engineer Intern, bạn xem thử. Mình từng làm vị trí này nhưng vì gia đình có chuyện nên phải nghỉ giữa chừng. Công ty về mọi mặt ok lắm
Mà mình hiểu là neural network có nghĩa những phương pháp giải thuật:
Chọn ngẫu nhiên weight bias
Thử weight và bias hiện tại với biến, ra được kết quả, sau đó so với kết quả tính được bằng weight và bias trên với kết quả thực,
Nếu sai thì sửa lại weight và bias theo hướng có thể khiến kết quả gần với thật hơn.
Lặp lại
Nói tóm lại là thử sai - sửa, khác với những giải thuật kiểu linear regression hay tree thì nó có phương pháp tính chính xác luôn chứ ko phải là giải thuật mò.
Còn deep learning là:
- Cũng giống như cái neural network trên, nhưng thay vì chỉ có 1 lớp thì nó có n lớp.
Những phát biểu trên của mình có đúng không, nhờ các bạn giải đáp.
Cho em hỏi background bác là gì, nếu bác chưa nắm rõ về toán linear algebra và statistics thì có thể củng cố lại 2 môn này nếu có thời gian, sẽ giúp hiểu được kĩ hơn những vấn đề về bản chất.
Em cảm giác như bác không nắm rõ lắm về statistical learning. Bác nên hiểu là về bản chất, vấn đề nó là function approximation.
Còn chuyện linear regression nó closed form solution, deep learning xài gradient descent, là tập trung vào chi tiết rồi
Cho em hỏi background bác là gì, nếu bác chưa nắm rõ về toán linear algebra và statistics thì có thể củng cố lại 2 môn này nếu có thời gian, sẽ giúp hiểu được kĩ hơn những vấn đề về bản chất.
Em cảm giác như bác không nắm rõ lắm về statistical learning. Bác nên hiểu là về bản chất, vấn đề nó là function approximation.
Còn chuyện linear regression nó closed form solution, deep learning xài gradient descent, là tập trung vào chi tiết rồi
Background mình ghi ở các trang trước đó, mình là data engineer của 1 team làm BI ở 1 công ty (nhỏ thôi, cả mẹ lẫn con chắc chừng 90 người), mình ko phải là người trực tiếp làm mấy cái predictive analysis này, cũng không định hướng đi theo mấy cái này, nhưng mình cần hiểu tất cả mấy cái này ở tầm khái niệm. Mục đích chủ yếu là định hướng lên cho lãnh đạo, cho team, VD nếu cần giải quyết được việc A, việc B này thì cần phải làm hướng X hướng Y, thuê thằng Z có khả năng làm việc này việc nọ....
Chợ Tốt đang tuyển AI Engineer Intern, bạn xem thử. Mình từng làm vị trí này nhưng vì gia đình có chuyện nên phải nghỉ giữa chừng. Công ty về mọi mặt ok lắm
Xin lỗi do em không nói rõ. Em đang học computer science năm thứ 2 thôi. Với em theo Data chứ không phải AI (não không đủ to cho ngành này
). Mà data thấy ít nơi tuyển thực tập/fresher. Nên thấy hơi lo lo.
Background mình ghi ở các trang trước đó, mình là data engineer của 1 team làm BI ở 1 công ty, mình ko phải là người trực tiếp làm mấy cái data science này, cũng không định hướng đi theo mấy cái này, nhưng mình cần hiểu tất cả mấy cái này ở tầm khái niệm.
Cái thử-sai-sửa nó là gradient descent, là một cách để update parameters của một model. Dùng gradient descent để tính weights cho linear regression cũng được, chứ phương pháp này không phải là riêng của neural network.
Xin lỗi do em không nói rõ. Em đang học computer science năm thứ 2 thôi. Với em theo Data chứ không phải AI (não không đủ to cho ngành này
). Mà data thấy ít nơi tuyển thực tập/fresher. Nên thấy hơi lo lo.
Thế em ví dụ supervised learning đi: ta có 1 bộ dataset gồm features và target. Người ta sẽ giả sử là đống dữ liệu này được sinh ra từ 1 cái quy tắc (tạm gọi là hàm). Nhưng quy tắc này không có cách nào biết được, chỉ có nước xấp xỉ nó dựa vào dữ liệu. Như vậy, cái model sau khi học từ dữ liệu nó sẽ cố gắng xấp xỉ cái hàm "thực sự" kia.
Những thứ như linear regression, deep learning chẳng qua là những thuật toán khác nhau để ta đi tìm cái hàm xấp xỉ. Còn chuyện nó có công thức cụ thể, hay là xài gradient descent chẳng qua là mô tả nó đi tìm như thế nào
Việc tính ra target dựa vào function được ước lượng, mình hiểu mà. Nhưng mình đang muốn tìm hiểu thêm là nó tính ra weight, bias dựa trên bằng cách nào, không cần biết quá chính xác, quá chi tiết (vì cuối cùng mình ko phải là người trực tiếp làm), nhưng càng nắm được càng nhiều càng tốt, nhất là ý tưởng đi tìm (vì mình cần hiểu để đi định hướng lại cho lãnh đạo, cho team). Mình có đọc nhiều tài liệu, nhưng ko biết có hiểu đúng không, nên mới phải đi tìm người có thể hướng dẫn, xác nhận cho mình.
Việc tính ra target dựa vào function được ước lượng, mình hiểu mà. Nhưng mình đang muốn tìm hiểu thêm là nó tính ra weight, bias dựa trên bằng cách nào, không cần biết quá chính xác, quá chi tiết (vì cuối cùng mình ko phải là người trực tiếp làm), nhưng càng nắm được càng nhiều càng tốt, nhất là ý tưởng đi tìm (vì mình cần để đi định hướng lại). Mình có đọc nhiều tài liệu, nhưng ko biết có hiểu đúng không, nên mới phải đi tìm người có thể hướng dẫn, xác nhận cho mình.
thế bác đã đọc gradient descent, backpropagation, loss function trong deep learning chưa, đọc là hiểu à.
Mà thực ra gradient descent là trong bài toán optimization nói chung, chứ không phải là của riêng deep learning. Dùng gradient descent để tính weights cho linear regression cũng được
thế bác đã đọc gradient descent, backpropagation, loss function trong deep learning chưa, đọc là hiểu à.
Mà thực ra gradient descent là trong bài toán optimization nói chung, chứ không phải là của riêng deep learning. Dùng gradient descent để tính weights cho linear regression cũng được
Vậy cho mình hỏi theo bác, cái sự khác biệt giữa giải thuật neural network với các giải thuật classic nằm ở đâu.
Rồi cái gọi là deep learning nó khác với neural network thường ở chỗ nào.
Cái câu hỏi của mình ở comment trước đó là những thứ mình hiểu sau khi đọc và làm thử, hoàn toàn ko biết đúng hay sai, rất cần người giải đáp. Mục tiêu của topic ngay từ đầu là vậy mà:
Đặc biệt, tất cả levels đều khuyến khích tham gia nên đừng ngại đặt câu hỏi từ đơn giản như
"Machine Learning là cái quái gì? Nó có ăn được không? Sao dạo này hot thế?"
Vậy cho mình hỏi theo bác, cái sự khác biệt giữa giải thuật neural network với các giải thuật classic nằm ở đâu.
Rồi cái gọi là deep learning nó khác với neural network thường ở chỗ nào.
Cái câu hỏi của mình ở comment trước đó là những thứ mình hiểu sau khi đọc và làm thử, hoàn toàn ko biết đúng hay sai, rất cần người giải đáp, nếu bác hay bạn nào biết và có lòng giải thích cho mình, chỉ ra cụ thể mình sai ở đâu, thì mình rất vui. Mục tiêu của topic ngay từ đầu là vậy mà:
Deep learning so với các thuật toán ML khác có kha khá vấn đề để nói. Mà gõ thì thực sự nó dài lắm, nói miệng mới nhanh được, nên chắc em chỉ ghi keyword thôi. Với lại bác có thể google "advantages of deep learning over machine learning" chẳng hạn để đọc. Một vài thứ em học được:
1. DL giúp rất nhiều cho phần feature engineering (đấy, ví dụ bác chưa biết feature engineering thì phải tự google thôi, chứ em ghi trong này thì lại thành cái sớ mất)
2. DL kết quả rất cao cho dữ liệu unstructured (ảnh, âm thanh, văn bản)
3. DL cần rất nhiều dữ liệu
4. Model từ deep learning có thể biểu diễn được những hàm rất phức tạp -> điểm thứ 2 ở trên. Bù lại cũng dẫn đến điểm thứ 3, đó là dễ overfit
5. Features mà DL extract được ở các hidden layer rất khó giải thích, đây vẫn đang là một hướng nghiên cứu mới. Keyword như explainable, interpretable deep learning
Và còn rất nhiều điều khác. Thực sự thì em thấy bác mà đọc tài liệu introduction về lĩnh vực này thì sẽ đỡ tốn thời gian hỏi trên này rất nhiều. Tuy nhiên bác đang đi làm rồi thì cũng khó thật, không có nhiều thời gian.
Bác hiện tại giống như là quăng vào 1 cái game, chơi tới đâu biết tới đó. Còn người khác là đọc wiki, xem stat của item, nhân vật xong qua một lượt rồi mới vào chơi
Deep learning so với các thuật toán ML khác có kha khá vấn đề để nói. Mà gõ thì thực sự nó dài lắm, nói miệng mới nhanh được, nên chắc em chỉ ghi keyword thôi. Với lại bác có thể google "advantages of deep learning over machine learning" chẳng hạn để đọc. Một vài thứ em học được:
1. DL giúp rất nhiều cho phần feature engineering (đấy, ví dụ bác chưa biết feature engineering thì phải tự google thôi, chứ em ghi trong này thì lại thành cái sớ mất)
2. DL kết quả rất cao cho dữ liệu unstructured (ảnh, âm thanh, văn bản)
3. DL cần rất nhiều dữ liệu
4. Model từ deep learning có thể biểu diễn được những hàm rất phức tạp -> điểm thứ 2 ở trên. Bù lại cũng dẫn đến điểm thứ 3, đó là dễ overfit
5. Features và DL extract được ở các hidden layer rất khó giải thích, đây vẫn đang là một hướng nghiên cứu mới. Nôm na là người ta vẫn đang cố gắng để hiểu rõ nhất cụ thể là về mặt lý thuyết thì cái network nó làm cái gì
Và còn rất nhiều điều khác. Thực sự thì em thấy bác mà đọc tài liệu introduction về lĩnh vực này thì sẽ đỡ tốn thời gian hỏi trên này rất nhiều. Tuy nhiên bác đang đi làm rồi thì cũng khó thật, không có nhiều thời gian.
Bác hiện tại giống như là quăng vào 1 cái game, chơi tới đâu biết tới đó. Còn người khác là đọc wiki, xem stat đồ, nhân vật xong qua một lượt rồi mới vào chơi
Mình đã hoàn thành hết các khóa machine learning, deep learning trên Kaggle, có từng chơi cuộc thi trên Kaggle luôn, mấy cái khái niệm cơ bản, kiểu như feature engineering là gì, nhìn chung là hiểu, biết tạo ra model chạy được, chứ ko đến mức hoàn toàn mù tịt.
Cái vấn đề là những cái hiểu, nhất là về deep learning, mình ko thực sự hiểu rõ. Nhất là cái khóa deep learning trên kaggle ấy, tạo ra cái model rồi tiên đoán, ra kết quả thì cứ copy code là được, nhưng tại sao nó làm được thế thì mình xem lại khá nhiều lần rồi, chỉ hiểu rất mơ hồ. Mấy cái recurrent neural network cũng vậy, may nhờ bạn chủ topic giải thích mình cũng lờ mờ hiểu ra thêm được 1 chút.
Mình đã hoàn thành hết các khóa machine learning, deep learning trên Kaggle, có từng chơi cuộc thi trên Kaggle luôn, mấy cái khái niệm cơ bản, kiểu như feature engineering là gì, nhìn chung là hiểu, biết tạo ra model chạy được, chứ ko đến mức hoàn toàn mù tịt.
Cái vấn đề là những cái hiểu, nhất là về deep learning, mình ko thực sự hiểu rõ. Nhất là cái khóa deep learning trên kaggle ấy, tạo ra cái model rồi tiên đoán, ra kết quả thì cứ copy code là được, nhưng tại sao nó làm được thế thì mình xem lại khá nhiều lần rồi, vẫn ko hiểu. Mấy cái recurrent neural network cũng vậy, may nhờ bạn chủ topic giải thích mình cũng lờ mờ hiểu ra thêm được 1 chút.
Bác đọc sách, hoặc kẹt thời gian lắm thì đọc mấy bài viết trên những web như medium, towardsdatascience, machinelearningmastery thì sẽ nắm hết những thứ cơ bản.
Sách thì bác có thể đọc những cuốn này, không nặng về lý thuyết:
Còn bài viết trên mấy web kia thì bác cứ google keyword cần tìm hiểu.
Nếu bác xác định sẽ làm mấy công việc này, em nghĩ bác nên đọc mấy cuốn sách trên, nhất là 2 cuốn đầu vì vừa có ML vừa có DL. Đọc sách nó giống như chậm mà lại nhanh, hơi tốn thời gian lúc đầu nhưng sẽ nắm được tổng quan, hiểu cách mọi thứ kết nối với nhau
Bác đọc sách, hoặc kẹt thời gian lắm thì đọc mấy bài viết trên những web như medium, towardsdatascience, machinelearningmastery thì sẽ nắm hết những thứ cơ bản.
Sách thì bác có thể đọc những cuốn này, không nặng về lý thuyết:
Còn bài viết trên mấy web kia thì bác cứ google keyword cần tìm hiểu.
Nếu bác xác định sẽ làm mấy công việc này, em nghĩ bác nên đọc mấy cuốn sách trên, nhất là 2 cuốn đầu vì vừa có ML vừa có DL. Đọc sách nó giống như chậm mà lại nhanh, hơi tốn thời gian lúc đầu nhưng sẽ nắm được tổng quan, hiểu cách mọi thứ kết nối với nhau
Mình đồng ý về chuyện đọc sách để nắm rõ vấn đề, nhưng mà mình còn đang tìm kiếm sự tương tác nữa. Chứ đọc không rồi cũng chẳng ai xác nhận cho mình là mình hiểu đúng không. Chứ về thời gian đọc thì số giờ mình bỏ ra đọc trên Kaggle, medium, towardsdatascience thực sự ko phải quá ít. Với lại mình cũng xác định là mình chủ yếu đọc để hiểu ý tưởng, chứ mình ko trực tiếp làm.
Không biết ở doanh nghiệp các bạn ra sao, chứ ở bên mình (công ty EU), tư duy ăn xổi là chủ đạo. Nếu một thứ gì hơi tốn thời gian một chút nhưng ko ra được các kết quả bước đầu mà các cấp lãnh đạo nhìn thấy được, chắc chắn sẽ bị hủy luôn project. Khi bạn giải thích vấn đề cho lãnh đạo (team BI của mình thường làm việc trực tiếp với các C-level), phải luôn tìm cách giải thích vấn đề và trả lời câu hỏi tại sao bằng ví dụ thực tế, người thường hiểu được, bằng các ví dụ có liên quan đến công ty, chứ ko là bị chửi vào mặt là nói nhảm ngay. Nên là tư duy của mình khi tiếp cận mấy vấn đề cao siêu kiểu này là cố gắng đào sâu hết khả năng của bản thân, nhưng phải có từng giai đoạn một, hiểu từ chung chung cho đến chi tiết dần.
Mình đồng ý về chuyện đọc sách để nắm rõ vấn đề, nhưng mà mình còn đang tìm kiếm sự tương tác nữa. Chứ đọc không rồi cũng chẳng ai xác nhận cho mình là mình hiểu đúng không. Chứ về thời gian đọc thì số giờ mình bỏ ra đọc trên Kaggle, medium, towardsdatascience thực sự ko phải quá ít. Với lại mình cũng xác định là mình chủ yếu đọc để hiểu ý tưởng, chứ mình ko trực tiếp làm.
Không biết ở doanh nghiệp các bạn ra sao, chứ ở bên mình (công ty EU), tư duy ăn xổi là chủ đạo. Nếu một thứ gì hơi tốn thời gian một chút nhưng ko ra được các kết quả bước đầu mà các cấp lãnh đạo nhìn thấy được, chắc chắn sẽ bị hủy luôn project. Khi bạn giải thích vấn đề cho lãnh đạo (team BI của mình thường làm việc trực tiếp với các C-level), phải luôn tìm cách giải thích vấn đề và trả lời câu hỏi tại sao bằng ví dụ thực tế, người thường hiểu được, bằng các ví dụ có liên quan đến công ty, chứ ko là bị chửi vào mặt là nói nhảm ngay. Nên là tư duy của mình khi tiếp cận mấy vấn đề cao siêu kiểu này là cố gắng đào sâu hết khả năng của bản thân, nhưng phải có từng giai đoạn một, hiểu từ chung chung cho đến chi tiết dần.
Nói chung là bác bị ràng buộc về thời gian, nghề nghiệp nên đang phải học theo kiểu top down
Mà thực ra bác cũng nên cân nhắc kĩ, ở thực tế không phải cứ dùng ML là hay mà phải xem từng hoàn cảnh. Rồi Deep Learning cũng vậy, nhìn hay đấy nhưng nếu không phù hợp thì dùng ML truyền thống sẽ tốt hơn rất nhiều
Như vậy, mình hiểu là đối với các giải thuật có nhớ thì.
Ví dụ có 2 features, lookback=3, 100 samples thì:
Dòng 1 nó sẽ evaluate bộ 2 feature của lookback xa nhất (vd t-3), để đoán ra Y của lookback đó, nhưng Y này ko có tác dụng gì (Vì theo diễn giải của hình minh họa thì state mới là thứ được gửi tiếp đi loop tiếp theo, chứ output thì ko có ý nghĩa), mà nó sẽ cố gắng tính ra state của lookback của thời điểm này, rồi nhảy sang lookback tiếp theo (t-2), bằng bộ 2 feature, đồng thời cân nhắc cả state của bước trước đó, rồi tính ra state mới, rồi tiếp tục nhảy sang lookback tiếp theo, lại tính ra Y dựa trên bộ 2 feature, và state của bước trước. Lúc này đã hết lookback và output của bước này chính là predicted y cuối cùng.
Tiếp tục làm vậy với các dòng sample còn lại.
State được sử dụng nhưng để tính ra State phải dựa vào ouput predicted Y. Trên hình cũng thấy rõ State t nó xuất phát từ Output t-1 đó thôi.
Cái không được sử dụng là actual Y của từng time step, cái actual Y chỉ được sử dụng ở time step cuối cùng khi so sánh với predicted Y cuối cùng để update weight matrix.
Nhưng, một số RNN model được custom có thể sử dụng cả actual Y của từng time step để update weight matrix luôn, cái này là custom ko nói.
Mình nghĩ là phải evaluate hết 99 sample, rồi mới update weight matrix rồi mới thử lại 100 sample, rồi lại so với kết quả thực để sửa lại weight tiếp, cho đến khi nào hết số bước học thì mới thôi chứ. Bởi nếu mỗi dòng update weight matrix 1 lần thì mỗi dòng sẽ có 1 weight khác nhau, trong khi mình nghĩ weight phải giống nhau, khác là cái biến số thôi.
Có 2 dạng:
Dạng 1 là evaluate từng sample rồi update weight matrix cho mổi 1 dòng.
Dạng 2 là evaluate cho từng mini batch (ví dụ 10 dòng mổi lần) rồi update weight matrix sau mổi mini batch.
Weight values chắc chắn sẽ khác nhau cho mổi lần update (mổi 1 dòng hoặc 1 mini batch như trên). Còn việc làm lại tất cả các bước cho toàn dataset (100 samples) là chạy lại nhiều
epoch.
Mà với mấy cái RNN này thì mình ko biết là lookback có phải liên tục ko, hay sao cũng được, VD có thể lookback là (-100, -50, -10, -5, -1) hay bắt buộc phải là (-5, -4, -3, -2, -1) liên tục với nhau.
Thông thường các time step sẽ liên tục. Ví dụ dự đoán stock price ngày mai bằng cách nhìn vào 5 ngày trước đó. Tuy nhiên, ko bắt buộc nếu data của mình phân tích thấy rằng nếu input cách ngày ví dụ thứ 2, 4, 6 sẽ dự đoán tốt hơn thì time step cách nhau 2 ngày thôi.
Mà mình hiểu là neural network có nghĩa những phương pháp giải thuật:
Chọn ngẫu nhiên weight bias
Thử weight và bias hiện tại với biến, ra được kết quả, sau đó so với kết quả tính được bằng weight và bias trên với kết quả thực,
Nếu sai thì sửa lại weight và bias theo hướng có thể khiến kết quả gần với thật hơn.
Lặp lại
Nói tóm lại là thử sai - sửa, khác với những giải thuật kiểu linear regression hay tree thì nó có phương pháp tính chính xác luôn chứ ko phải là giải thuật mò.
Còn deep learning là:
- Cũng giống như cái neural network trên, nhưng thay vì chỉ có 1 lớp thì nó có n lớp.
Những phát biểu trên của mình có đúng không, nhờ các bạn giải đáp.
Deep Learning là tên gọi chung cho các giải thuật Machine Learning sử dụng Neural Network, nó là tập con của Machine Learning.
Một hay nhiều layer hay không là do người làm model đó thiết kế. Thông thường các model thường có nhiều layer nên mới gọi là "Deep".
Hiểu đơn giản thay vì nói:
"Hãy sử dụng giải thuật Machine Learning như ANN, RNN, LSTM để giải quyết vấn đề ABC." Có thể nói:
"Hãy sư dụng Deep Learning để giải quyết vấn đề ABC."
Khác biệt cơ bản của các giải thuật Deep Learning với Machine Learning khác là Deep Learning sử dụng Neuron Network
, còn các khái niệm khác như gradient descent, statistics, approximate function được sử dụng ở mọi nơi.
Deep Learning là tên gọi chung cho các giải thuật Machine Learning sử dụng Neural Network, nó là tập con của Machine Learning.
Một hay nhiều layer hay không là do người làm model đó thiết kế. Thông thường các model thường
có nhiều layer nên mới gọi là "Deep".
Hiểu đơn giản thay vì nói:
"Hãy sử dụng giải thuật Machine Learning như ANN, RNN, LSTM để giải quyết vấn đề ABC." Có thể nói:
"Hãy sư dụng Deep Learning để giải quyết vấn đề ABC."
Khác biệt cơ bản của các giải thuật Deep Learning với Machine Learning khác là Deep Learning sử dụng Neuron Network
, còn các khái niệm khác như gradient descent, statistics, approximate function được sử dụng ở mọi nơi.
Theo như mình biết thì đây là 1 single neural network, các biến cũng đi vào 1 cái hàm kiểu (x1.w1+x2.w2+b) rồi sau đó là có 1 activation function (để biến nó thành true false). Nghĩa là function sẽ là kiểu a(x1.w1+x2.w2+...+b)
Không biết mình có nhầm lẫn gì không, nhưng mình thấy đâu có khác gì logistic regression đâu. Với những gì mà mình xem qua, thì mình thấy khác nhau của chúng là cách tìm weight, nên mới nghĩ là sự phân biệt của chúng là cách tìm weight.
Vậy để tìm hàm xấp xỉ này như thế nào thì có 2 việc bạn phải làm:
->
Xác định độ phức tạp của hàm, (chưa quan tâm đến weights). Nếu bạn xấp xỉ hàm F bằng những hàm số đơn giản như linear regression, thì chưa cần biết bạn update weights như thế nào chắc chắn model của bạn sẽ hoạt động rất tệ, bởi vì model của bạn quá đơn giản.
Vậy
Deep learning là gì,
nó cũng chỉ là 1 hàm số, nhưng phức tạp hơn linear regression, trong thực tế kiểm tra thì thấy model này hoạt động tốt hơn những model cổ điển. Số lượng biến số lớn nên không thể giải được bằng công thức nghiệm
Vậy theo bác thì cái để phân biệt của chúng là độ phức tạp của hàm số à.
Mình đọc thì thấy nhiều nơi nói là để coi là "deep" thì phải có nhiều lớp.
Thấy rối quá
Bên mình trả 15-17 triệu cho fresher AI engineer.
Thích thì có thể thử apply. Mình có refer 3-4 bạn vozer vào mà nay mới dc 1 thanh niên pass vị trí fresher DA ^^
Bên mình trả 15-17 triệu cho fresher AI engineer.
Thích thì có thể thử apply. Mình có refer 3-4 bạn vozer vào mà nay mới dc 1 thanh niên pass vị trí fresher DA ^^
Bên mình trả 15-17 triệu cho fresher AI engineer.
Thích thì có thể thử apply. Mình có refer 3-4 bạn vozer vào mà nay mới dc 1 thanh niên pass vị trí fresher DA ^^
Python thì mình ước lượng được, do chưa làm gì liên quan đến database nên SQL không rõ ràng lắm mức độ nắm vững là làm được những gì, thím nói rõ thêm được không
Vậy cho mình hỏi theo bác, cái sự khác biệt giữa giải thuật neural network với các giải thuật classic nằm ở đâu.
Rồi cái gọi là deep learning nó khác với neural network thường ở chỗ nào.
Cái câu hỏi của mình ở comment trước đó là những thứ mình hiểu sau khi đọc và làm thử, hoàn toàn ko biết đúng hay sai, rất cần người giải đáp. Mục tiêu của topic ngay từ đầu là vậy mà:
DL là ML sử dụng giải thuật neural network. Ở NN mỗi lớp hiden layer có các nút làm nhiệm vụ như 1 tế bào thần kinh tức là nó nhận 1 loại tín hiệu và nhớ những tín hiệu đấy là gì và khi có tín hiệu mới truyền vào nó sẽ nhận ra khả năng có phải không. Tưởng tượng đơn giản bằng cách truyền ngược từ đầu ra qua các hiden layer chắc hạn, đầu ra lớp gần nhất bị băm nhỏ thành các thành phần đặc trưng, rồi qua lớp nữa lại bị chia tiếp cho đến lớp đầu vào - chia ở đây không phải là chia theo kiểu băm nhỏ dần qua mỗi lớp nhé thím. Từ đầu vào qua mỗi lớp như vậy sẽ dùng thuật toán của ML để biết nút ở lớp này xác xuất tiếp theo nó sẽ rơi vào nút nào ở lớp sau
Theo như mình biết thì đây là 1 single neural network, các biến cũng đi vào 1 cái hàm kiểu (x1.w1+x2.w2+b) rồi sau đó là có 1 activation function (để biến nó thành true false). Nghĩa là function sẽ là kiểu a(x1.w1+x2.w2+...+b)
Không biết mình có nhầm lẫn gì không, nhưng mình thấy đâu có khác gì logistic regression đâu. Với những gì mà mình xem qua, thì mình thấy khác nhau của chúng là cách tìm weight, nên mới nghĩ là sự phân biệt của chúng là cách tìm weight.
Vậy theo bác thì cái để phân biệt của chúng là độ phức tạp của hàm số à.
Mình đọc thì thấy nhiều nơi nói là để coi là "deep" thì phải có nhiều lớp.
Thấy rối quá
Các hidden units ở hidden layer có vai trò biến đổi phi tuyến vector đầu vào. Bác đã làm kaggle thì biết việc học cách biến đổi đặc trưng này quan trọng ntn rồi. Các output units ở output layer mới có vai trò tạo ra phân phối xs của điểm dữ liệu rơi vào các lớp khác nhau (giống logistic hay softmax regression).
Cái khác của MLP là nó có khả năng tự học cách biểu diễn đặc trưng phù hợp với tác vụ cần giải quyết ở đầu ra. (Đây là intuition thôi nha!). Còn học bộ tham số thì logistic regression tìm MLE (ước lượng khả năng cực đại) thông qua negative log likelihood loss, ở đây cũng vậy thôi. Bác hiểu rõ các tham số của logistic regression được học ntn thì với MLP cũng thế (là dùng SGD hay minibatch GD để tối ưu NLL loss).
Thích Màu Hường
MLP = Multilayer Perceptron
MLE = Maximum Likelihood Estimation
NLL loss = Negative log likelihood loss
SGD = Stochastic gradient descent
minibatch GD = Mini-batch gradient descent
Theo như mình biết thì đây là 1 single neural network, các biến cũng đi vào 1 cái hàm kiểu (x1.w1+x2.w2+b) rồi sau đó là có 1 activation function (để biến nó thành true false). Nghĩa là function sẽ là kiểu a(x1.w1+x2.w2+...+b)
Không biết mình có nhầm lẫn gì không, nhưng mình thấy đâu có khác gì logistic regression đâu. Với những gì mà mình xem qua, thì mình thấy khác nhau của chúng là cách tìm weight, nên mới nghĩ là sự phân biệt của chúng là cách tìm weight.
MLP = Multilayer Perceptron
MLE = Maximum Likelihood Estimation
NLL loss = Negative log likelihood loss
SGD = Stochastic gradient descent
minibatch GD = Mini-batch gradient descent
Cứ thích tỏ ra nguy hiểm.
Tôi không thích nguy hiểm mà là tôi thích viết tắt. Cảm ơn bác đã viết rõ ra dùm.
nhoxhung163
Giờ mới thấy có topic này. Ngày xưa đi học thì một đánh giá được cho là ưu điểm của DL là có khả năng feature extraction thay vì mình phải đi extract từ data (Ví dụ như xử lý ảnh thì ngày trước em có học về LBP (Local Binary Pattern) ) nhưng bị một cái là nhiều người mô tả Deep Learning như "black box" thì không biết mấy thím đánh giá sao về điều này?
Với lại hỏi nhẹ mấy thím mấy câu là:
1/ Làm bên ML Engineer hoặc DS có cần quá nhiều hiểu biết về Big Data không? Em chỉ biết tạm tạm về Hadoop và Spark
2/ Với mấy thím đã làm việc trong 2 title trên xuất thân từ CS mà thiếu domain knowledge thì ta có thể phần nào dùng kiến thức toán (mà đặc biệt là XSTK) và AI để bù đắp không? (Tại em đang học một môn gọi là Phân tích dữ liệu thông minh nhưng nội dung thì khá là trùng lặp các môn đã học)
Còn điều em muốn than thở là GPA hơi thấp (tầm 7.3) nên kiếm việc Intern hơi khó, muốn lòi mắt
ttattl
voz dạo này có kênh hay quá.... ngành này cũng hot nhưng làm thực sự thì cũng ko được nhiều đâu. Nhiều nơi đặc biệt là các khóa học ở VN toàn bán concept dụ gà thôi
Python thì mình ước lượng được, do chưa làm gì liên quan đến database nên SQL không rõ ràng lắm mức độ nắm vững là làm được những gì, thím nói rõ thêm được không
Bác hỏi cho vị trí DA à :-?
Nếu là làm DA thì chỉ cần thông thạo query thôi. Biết cách optimize query, biết index là gì, cách dùng index là được.
DA thì cần biết thêm về xstk. Nãy ở trên mình cũng nói thiếu đấy. Do bạn kia hỏi fresher, nhưng nếu nắm thêm về xstk là 1 lợi thế!
Giờ mới thấy có topic này. Ngày xưa đi học thì một đánh giá được cho là ưu điểm của DL là có khả năng feature extraction thay vì mình phải đi extract từ data (Ví dụ như xử lý ảnh thì ngày trước em có học về LBP (Local Binary Pattern) ) nhưng bị một cái là nhiều người mô tả Deep Learning như "black box" thì không biết mấy thím đánh giá sao về điều này?
Với lại hỏi nhẹ mấy thím mấy câu là:
1/ Làm bên ML Engineer hoặc DS có cần quá nhiều hiểu biết về Big Data không? Em chỉ biết tạm tạm về Hadoop và Spark
2/ Với mấy thím đã làm việc trong 2 title trên xuất thân từ CS mà thiếu domain knowledge thì ta có thể phần nào dùng kiến thức toán (mà đặc biệt là XSTK) và AI để bù đắp không? (Tại em đang học một môn gọi là Phân tích dữ liệu thông minh nhưng nội dung thì khá là trùng lặp các môn đã học)
Còn điều em muốn than thở là GPA hơi thấp (tầm 7.3) nên kiếm việc Intern hơi khó, muốn lòi mắt
Chợ Tốt đang tuyển AI Engineer Intern đó bạn, công ty ok lắm
GPA 7.3 thì không quá tệ, bạn có thêm project hay gì đó vào nữa là được, quan trọng nhất vẫn là khả năng thực sự.
Last edited:
huyhoangle86
Các thím ơii, chỗ nào HN tuyển
Computer Vision các thím bảo e với, thất nghiệp mấy tháng rầu huhu
Nếu là làm DA thì chỉ cần thông thạo query thôi. Biết cách optimize query, biết index là gì, cách dùng index là được.
DA thì cần biết thêm về xstk. Nãy ở trên mình cũng nói thiếu đấy. Do bạn kia hỏi fresher, nhưng nếu nắm thêm về xstk là 1 lợi thế!
Data analyst bên bác đặc thù vậy, yêu cầu phải biết optimize query với dùng index.
Cho mình hỏi cái "dùng index ở đây là gì", chỉ đơn giản là biết tạo cái index, rồi seek key, hay là phải biết đến tận vụ dùng index để phục vụ cho các operation như sort-merge join, window partition, loop-seek, rồi tận dụng filtered index, include, nonclustered columnstore để thao túng IO, hot warm data.... Mấy cái này thì mình nghĩ ko dành cho data analyst đâu.
Với lại cho mình hỏi bên bác, đánh giá data engineer thì quan tâm mảng nào: data modeling, system architecture, hay là kĩ năng lập trình điều khiển các component. Mình hỏi vì muốn biết bên ngoài người ta đang làm thế nào, chứ cái team mình hơi bị đóng cửa với thế giới bên ngoài, ko rõ bên ngoài họ làm ra sao.
Data analyst bên bác đặc thù vậy, yêu cầu phải biết optimize query với dùng index.
Cho mình hỏi cái "dùng index ở đây là gì", chỉ đơn giản là biết tạo cái index, rồi seek key, hay là phải biết đến tận vụ dùng index để phục vụ cho các operation như sort-merge join, window partition, loop-seek, rồi tận dụng filtered index, include, nonclustered columnstore để thao túng IO, hot warm data.... Mấy cái này thì mình nghĩ ko dành cho data analyst đâu.
Với lại cho mình hỏi bên bác, đánh giá data engineer thì quan tâm mảng nào: data modeling, system architecture, hay là kĩ năng lập trình điều khiển các component. Mình hỏi vì muốn biết bên ngoài người ta đang làm thế nào, chứ cái team mình hơi bị đóng cửa với thế giới bên ngoài, ko rõ bên ngoài họ làm ra sao.
À thực ra thì cũng ko tới mức sâu thế đâu. Hỏi xem ứng viên có biết, có nắm dc các kiến thức basic ko thôi.
Rồi đưa 1 table + hỏi vài câu query liên quan + xác suất thống kê các kiểu.
Còn về DE thì bên mình cần thiên về system hơn. Do DE bên mình công việc là build pipeline xử lý các flow data. Bên mình đang monitoring data trên Grafana + InfluxDB. Mà cũng chưa tận dụng dc hết sức mạnh cuẩ 2 thằng này ^^
Bên mình thì làm về fintech, stack chủ yếu là Spark/Hadoop/Airflow/Python
Bác rảnh thì hôm nào cafe giao lưu
Bên bác có xài spark3 chưa, có tận dụng dc cái gì mới ko?
Cái đó coi như hỏi advance thôi bác. Bác cứ nắm vững cách query, join các kiểu là okay rồi.
yp, bác có thể giới thiệu giúp một project trên github nào đấy đủ tiêu chuẩn thực tế làm việc được không, tự học mà không biết tiêu chuẩn thực tế đến đâu nó bằng mức độ mình học hay cao hơn thấp hơn nữa
yp, bác có thể giới thiệu giúp một project trên github nào đấy đủ tiêu chuẩn thực tế làm việc được không, tự học mà không biết tiêu chuẩn thực tế đến đâu nó bằng mức độ mình học hay cao hơn thấp hơn nữa
À thực ra thì cũng ko tới mức sâu thế đâu. Hỏi xem ứng viên có biết, có nắm dc các kiến thức basic ko thôi.
Rồi đưa 1 table + hỏi vài câu query liên quan + xác suất thống kê các kiểu.
Còn về DE thì bên mình cần thiên về system hơn. Do DE bên mình công việc là build pipeline xử lý các flow data. Bên mình đang monitoring data trên Grafana + InfluxDB. Mà cũng chưa tận dụng dc hết sức mạnh cuẩ 2 thằng này ^^
Bên mình thì làm về fintech, stack chủ yếu là Spark/Hadoop/Airflow/Python
Bác rảnh thì hôm nào cafe giao lưu
Bên bác có xài spark3 chưa, có tận dụng dc cái gì mới ko?
Databricks runtime mới nó có Spark 3, mình có xài qua nhưng chưa có cảm nhận được gì. Cơ bản là cũng chả có xài Spark mấy, toàn xài để parse với đọc web log không, mà lâu lâu cần mới đọc. Còn gắn luôn vào pipeline chạy thường xuyên thì trước có cái request của 1 module trong công ty, cần nó để integrate 1 đống các loại web server log với history log với structured data trong database, rồi đưa data đó cho analyst phân tích insights gì đó, nhưng làm được nửa chừng thì phải dẹp vì phát hiện ra là vi phạm quy định về data của khách hàng.
(Họ yêu cầu ko được mang data ra khỏi mấy cái server của họ)
Nhưng mà đọc quảng cáo thì thấy khá nhiều cái hay. Adaptive query thấy nói cái broadcast tính chính xác hơn, rồi operation kích ra shuffle nó sẽ dùng số lượng partition phù hợp hơn thay vì trước auto là 200.... Rồi còn cái partition pruning, không biết có phải giống mấy cái operation "bitmap" trong sql server ko. Đọc mô tả mấy lần đều nghĩ đến bitmap, dù cái tên là "partition pruning" rất lạ.....
Giao lưu thì ok luôn bác, bác rảnh tối hay là cuối tuần.
wall[e]
Power BI bây giờ có vẻ là xu hướng nhĩ, thấy trên facebook hay chạy ads về nó vs power query, ae chia sẻ về việc học nó và ứng dụng trong công việc đi, sử dụng dc 2 thằng này thì lương khá ko vs nhu cầu hiện tại và sắp tới của thị trường lao động...
Databricks runtime mới nó có Spark 3, mình có xài qua nhưng chưa có cảm nhận được gì. Cơ bản là cũng chả có xài Spark mấy, toàn xài để parse với đọc web log không, mà lâu lâu cần mới đọc. Còn gắn luôn vào pipeline chạy thường xuyên thì trước có cái request của 1 module trong công ty, cần nó để integrate 1 đống các loại web server log với history log với structured data trong database, rồi đưa data đó cho analyst phân tích insights gì đó, nhưng làm được nửa chừng thì phải dẹp vì phát hiện ra là vi phạm quy định về data của khách hàng.
(Họ yêu cầu ko được mang data ra khỏi mấy cái server của họ)
Nhưng mà đọc quảng cáo thì thấy khá nhiều cái hay. Adaptive query thấy nói cái broadcast tính chính xác hơn, rồi operation kích ra shuffle nó sẽ dùng số lượng partition phù hợp hơn thay vì trước auto là 200.... Rồi còn cái partition pruning, không biết có phải giống mấy cái operation "bitmap" trong sql server ko. Đọc mô tả mấy lần đều nghĩ đến bitmap, dù cái tên là "partition pruning" rất lạ.....
Giao lưu thì ok luôn bác, bác rảnh tối hay là cuối tuần.
Uh bên mình cũng mới upgrade lên spark 3, delta lake các kiểu opensource thôi nhưng mình thấy khá ổn. Tiết kiệm dc khá nhiều công sức, data gọn gàng hơn.
Bên mình cũng làm khá đặc thù nên ko dc mang data ra khỏi server của khách. Có khi nào bác với mình làm chung 1 mảng ko nhỉ
))
Mình thường rảnh cuối tuần
Cái này mình chịu bác ạ.
Chắc cứ học mấy course trên mạng là đủ
mhieuvt99
Theo Data Science quan trọng bằng cấp lắm không mấy bác? Hay cần kĩ năng là chính nhỉ? Làm outsource được không? Mình chuẩn bị học khoá DS bên Funix, background thì master Viễn thông của BK mà lại chán ngành VT
. Giờ em nên làm gì tiếp nhỉ, có cần phải học lên master DS để đi làm không?
Uh bên mình cũng mới upgrade lên spark 3, delta lake các kiểu opensource thôi nhưng mình thấy khá ổn. Tiết kiệm dc khá nhiều công sức, data gọn gàng hơn.
Bên mình cũng làm khá đặc thù nên ko dc mang data ra khỏi server của khách. Có khi nào bác với mình làm chung 1 mảng ko nhỉ
))
Mình thường rảnh cuối tuần
Spark thì bác tự cài trên máy local hay setup trên cloud ?
Theo Data Science quan trọng bằng cấp lắm không mấy bác? Hay cần kĩ năng là chính nhỉ? Làm outsource được không? Mình chuẩn bị học khoá DS bên Funix, background thì master Viễn thông của BK mà lại chán ngành VT
. Giờ em nên làm gì tiếp nhỉ, có cần phải học lên master DS để đi làm không?
Tùy công ty, chủ yếu vẫn là kĩ năng, có bằng mà không có kĩ năng thì cũng vất, chém gió không thằng nghe (trừ phi DS thuần lý thuyết)
Giờ kiếm công ty thực tập thôi, tầm này funix fu nủng gì nữa
Tùy công ty, chủ yếu vẫn là kĩ năng, có bằng mà không có kĩ năng thì cũng vất, chém gió không thằng nghe (trừ phi DS thuần lý thuyết)
Giờ kiếm công ty thực tập thôi, tầm này funix fu nủng gì nữa
Em h mới học DS bác ạ, muốn học làm chuyển ngành ấy, chứ viễn thông kiến thức liên quan ít lắm
kissofdragon1211
Mình đang làm cái việc dễ hơn mà đang bị các bạn trẻ hắt hủi là làm DataWarehouse bằng các tool của Oracle. Ai đang làm ở HN không nhỉ, mình giới thiệu cho job >= 1.5K$ tùy trình độ.
thôi thím ơi, em nghĩ thím nên dừng lại trước khi quá muộn....
DS về nhu cầu của doanh nghiệp cũng ít hơn SE.
Bọn SE có kiến thức đại cương tốt(xác suất, toán), nó đánh qua DS cũng nhiều, ngoài ra để phân tích tốt thì bác còn phải nắm kiến thức SE như nguyên lý hoạt động của DBMS, B-tree vv , nếu dùng Spark thì phải hiểu được Map-Reduce, các loại join hoạt động như thế nào , data trao đổi như nào trong từng node, khi nào thì tăng số node thì tăng hiệu năng, lúc nào không.
Nhu cầu ít, yêu cầu khó, đường dễ k đi, bác chui vào bụi rậm làm gì. Nếu tay ngang, thì làm SE đi, đầu tư tìm hiểu về DBMS, distributed system trong quá trình làm việc, sau đấy nhảy quá DS thì dễ hơn.
Chứ nghe tên fancy rồi ngồi học thì chả dc gì đâu
Còn trẻ thấy thích nên muốn thử á bác, toán, xstk, cấu trúc dữ liệu và giải thuật, binary tree, oop, cơ sở dữ liệu thì mình cũng có học qua trong trường rồi á
. Cá nhân có tìm hiểu nhưng lại hứng thú làm việc với data, ML và điểm khác với tụi thuần IT là làm quen với thuật toán còn ít và viết code còn kém. Chủ yếu mình muốn hỏi các cty tuyển, phát triển sự nghiệp thì cần bằng cấp trình độ thạc sĩ chính quy trở lên không? Hay mình cứ tự học, chú trọng vào kĩ năng là chính?
Còn trẻ thấy thích nên muốn thử á bác, toán, xstk, cấu trúc dữ liệu và giải thuật, binary tree, oop, cơ sở dữ liệu thì mình cũng có học qua trong trường rồi á
. Cá nhân có tìm hiểu nhưng lại hứng thú làm việc với data, ML và điểm khác với tụi thuần IT là làm quen với thuật toán còn ít và viết code còn kém. Chủ yếu mình muốn hỏi các cty tuyển, phát triển sự nghiệp thì cần bằng cấp trình độ thạc sĩ chính quy trở lên không? Hay mình cứ tự học, chú trọng vào kĩ năng là chính?
Mấy cái bạn nói là mấy cái 1 ông sinh viên năm 2 nào cũng học qua hết.
Còn để theo nghiệp Data Scientist thì nó cần nhiều hơn rất nhiều. Ng ta học master/phd thì cũng chỉ mới gọi là bắt đầu sự nghiệp thôi.
Nếu bạn có bằng master Computer Science ở mấy trường top của VN như KHTN/BK v.v... thì có thể coi là qua được round CV, có thể thử apply mấy vị trí "Junior/Fresher". Còn nếu bạn là tay ngang thì bạn nên làm mấy job về DA/DE trước.
Mà chắc gì đã pass dc DE. Nếu thích làm data thì thử DA xem sao. Làm DA chắc chỉ cần thêm mỗi SQL.
À thực ra thì cũng ko tới mức sâu thế đâu. Hỏi xem ứng viên có biết, có nắm dc các kiến thức basic ko thôi.
Rồi đưa 1 table + hỏi vài câu query liên quan + xác suất thống kê các kiểu.
Còn về DE thì bên mình cần thiên về system hơn. Do DE bên mình công việc là build pipeline xử lý các flow data. Bên mình đang monitoring data trên Grafana + InfluxDB. Mà cũng chưa tận dụng dc hết sức mạnh cuẩ 2 thằng này ^^
Bên mình thì làm về fintech, stack chủ yếu là Spark/Hadoop/Airflow/Python
Bác rảnh thì hôm nào cafe giao lưu
Bên bác có xài spark3 chưa, có tận dụng dc cái gì mới ko?
Ồ mình cũng đang dùng Grafana + influxdb mà dùng để monitoring IoT data.
Grafana xài khá là ngon, biết React thì tự viết custom plugin cho nó luôn
Về tài chính có thể dùng một số dữ liệu telco, cic, trusting social, dữ liệu mua sắm, thông tin cá nhân... để dự báo các nhu cầu hàng hoá dịch vụ để làm đầu vào cho các đơn vị chạy chiến dịch, hoặc đánh giá mức độ ổn định thu nhập và công việc để xác định mức độ tín nhiệm trong vòng 1 năm tới để cho vay hoặc cho mua chịu chẳng hạn.
Giả sử bài toán là build model để phân loại mức độ tín nhiệm người đi vay dựa vào hàng loạt thông tin như ví dụ trên: "telco, cic, trusting social, dữ liệu mua sắm, thông tin cá nhân... ".
Mình có câu hỏi về
Feature Selection: thông thường mấy bạn làm Data Analysis, ML dùng các kỹ thuật nào để chọn ra các trường thông tin có ý nghĩa nhất trong việc phân loại giữa hàng trăm trường thông tin như trên?
Còn trẻ thấy thích nên muốn thử á bác, toán, xstk, cấu trúc dữ liệu và giải thuật, binary tree, oop, cơ sở dữ liệu thì mình cũng có học qua trong trường rồi á
. Cá nhân có tìm hiểu nhưng lại hứng thú làm việc với data, ML và điểm khác với tụi thuần IT là làm quen với thuật toán còn ít và viết code còn kém. Chủ yếu mình muốn hỏi các cty tuyển, phát triển sự nghiệp thì cần bằng cấp trình độ thạc sĩ chính quy trở lên không? Hay mình cứ tự học, chú trọng vào kĩ năng là chính?
Nếu trước đây bác có hứng thú với toán thì việc học rất hay, nếu 99 thì ngại gì học. Tui thì chả tin việc giảng dạy ở VN, tự học tốt hơn. Tui có 1 đứa bạn mới học xong ở JVN, kêu ca dạy không hay lắm.
Power BI bây giờ có vẻ là xu hướng nhĩ, thấy trên facebook hay chạy ads về nó vs power query, ae chia sẻ về việc học nó và ứng dụng trong công việc đi, sử dụng dc 2 thằng này thì lương khá ko vs nhu cầu hiện tại và sắp tới của thị trường lao động...
Power Bi nó không phải là power query nhá power query nó chỉ là thành phần ETL của Power Bi thôi
Nevermore_1998
Em đang định hướng theo DE, thấy topic toàn pro trong này nên muốn vào hỏi để định hướng chút. Sơ qua thì em đang học nước ngoài năm sau năm cuối, có kiến thức cơ bản về algo ok(em vẫn luyện bài trên leetcode thường xuyên tuần giải khoảng 4-5 bài), kiến thức về database(SQL và NoSQL), ngôn ngữ nắm vững thì python, C/C++. Vì định hướng theo DE nên mấy kì tới đăng kí course liên quan DE, ví dụ kì tới có môn data engineer dạy về dựng data pipeline, ETL...hay có môn distributed system kì tới cũng học. Đáng lẽ có 1 course nữa về big data dạy về hadoop và spark nhưng lão thầy dính covid nghỉ rồi mà trường không kiếm ai thay được nên drop luôn course. Sắp tới em cũng rảnh nên muốn tìm 1 project để tự làm với muốn học thêm về hadoop nhưng tài liệu về mấy cái này khó tìm quá, ví dụ như hadoop tìm trên mạng thì tài liệu toàn nói chung chung. Bác nào có tài liệu hay project nào thì chỉ em với, và với định hướng như em thì nên học thêm cái gì nữa nhỉ
Power Bi nó không phải là power query nhá power query nó chỉ là thành phần ETL của Power Bi thôi
í mình là thấy trên mạng hay quảng cáo Power BI vs Power Query, nên mún hỏi các công việc liên quan đến nó và lương khá ko, chứ mình có nói Power BI là Power Query đâu...
í mình là thấy trên mạng hay quảng cáo Power BI vs Power Query, nên mún hỏi các công việc liên quan đến nó và lương khá ko, chứ mình có nói Power BI là Power Query đâu...
nếu giỏi thì lương khá thôi fence nhưng chắc không đạt chuẩn vozer đâu
vấn đề quan trọng là bạn phải có 1 cái tập data mẫu nào ngon ngon để thực hành, bạn có kiếm được data nào không? vd sales data của 1 cty, database sản xuất, database crm... => Mình dùng bộ AdventureWork và goole thêm bộ ContosoSales, cũng vọc thêm youtube nào là tính tăng trưởng so vs cùng kỳ, MTD, YTD....
bạn xem thử mấy cái dashboard của MS bạn tự làm được không? => Mình làm dc 1 số dashboard như youtube hướng dẫn
bạn có hiểu tại sao phải dùng power bi pro không? => nó có tính năng share ak
theo bạn thì khi nào dùng power pivot khi nào dùng power bi? 1.Theo mình để để hiểu DAX thì học - hiểu dc hàm excel và dùng dc pivot table => chuyển sang power pivot sẽ dễ hiểu hơn.
2. Power BI thì nó thiên về visual hơn, có nhiều chart mà excel ko có và có tính năng share dashboard trên workspace. Sử dụng linh hoạt các hàm DAX trong power pivot thì sang Power BI dễ hơn, hiện tại giữa các DAX mình đang học trong Power BI vs Power Pivot mình thấy ko khác
ngoại trừ việc dùng := và =
3. Nếu chỉ nhu cầu thông thường ko cần share thì dùng power pivot ( gửi nguyên file excel) còn mún share dashboard thì dùng Power BI
vấn đề quan trọng là bạn phải có 1 cái tập data mẫu nào ngon ngon để thực hành, bạn có kiếm được data nào không? vd sales data của 1 cty, database sản xuất, database crm... => Mình dùng bộ AdventureWork và goole thêm bộ ContosoSales, cũng vọc thêm youtube nào là tính tăng trưởng so vs cùng kỳ, MTD, YTD....
bạn xem thử mấy cái dashboard của MS bạn tự làm được không? => Mình làm dc 1 số dashboard như youtube hướng dẫn
bạn có hiểu tại sao phải dùng power bi pro không? => nó có tính năng share ak
theo bạn thì khi nào dùng power pivot khi nào dùng power bi? 1.Theo mình để để hiểu DAX thì học - hiểu dc hàm excel và dùng dc pivot table => chuyển sang power pivot sẽ dễ hiểu hơn.
2. Power BI thì nó thiên về visual hơn, có nhiều chart mà excel ko có và có tính năng share dashboard trên workspace. Sử dụng linh hoạt các hàm DAX trong power pivot thì sang Power BI dễ hơn, hiện tại giữa các DAX mình đang học trong Power BI vs Power Pivot mình thấy ko khác
ngoại trừ việc dùng := và =
3. Nếu chỉ nhu cầu thông thường ko cần share thì dùng power pivot ( gửi nguyên file excel) còn mún share dashboard thì dùng Power BI
Hai da, mình nêu câu hỏi khơi gợi để bạn tự tìm hiểu thêm và có câu trả lời cho bản thân, chứ không phải thử thách bạn, ban thụ động quá
Link cần quyền truy cập thì bạn nhập gmail vào mình sẽ cấp quyền vì sách có bản quyền mình không có muốn share lung tung
Hai da, mình nêu câu hỏi khơi gợi để bạn tự tìm hiểu thêm và có câu trả lời cho bản thân, chứ không phải thử thách bạn, ban thụ động quá
Link cần quyền truy cập thì bạn nhập gmail vào mình sẽ cấp quyền vì sách có bản quyền mình không có muốn share lung tung
Em đang định hướng theo DE, thấy topic toàn pro trong này nên muốn vào hỏi để định hướng chút. Sơ qua thì em đang học nước ngoài năm sau năm cuối, có kiến thức cơ bản về algo ok(em vẫn luyện bài trên leetcode thường xuyên tuần giải khoảng 4-5 bài), kiến thức về database(SQL và NoSQL), ngôn ngữ nắm vững thì python, C/C++. Vì định hướng theo DE nên mấy kì tới đăng kí course liên quan DE, ví dụ kì tới có môn data engineer dạy về dựng data pipeline, ETL...hay có môn distributed system kì tới cũng học. Đáng lẽ có 1 course nữa về big data dạy về hadoop và spark nhưng lão thầy dính covid nghỉ rồi mà trường không kiếm ai thay được nên drop luôn course. Sắp tới em cũng rảnh nên muốn tìm 1 project để tự làm với muốn học thêm về hadoop nhưng tài liệu về mấy cái này khó tìm quá, ví dụ như hadoop tìm trên mạng thì tài liệu toàn nói chung chung. Bác nào có tài liệu hay project nào thì chỉ em với, và với định hướng như em thì nên học thêm cái gì nữa nhỉ
SV giờ dc học hành bài bản quá
a3.phantom.vn
Sau khi đọc những cuốn textbook được recommend nhiều nhất trên reddit + thực sự tập trung và suy nghĩ khi học chứ không lướt như lần học đầu thì em đã bắt đầu "hiểu" toán, và hiểu được tại sao những bạn chuyên toán lại đam mê nó tới vậy
Thực ra thì trước giờ môn toán em không tệ, nhưng vì nhiều lí do nên thành ra hồi phổ thông học chuyên tiếng Anh. Kể ra cũng bù trừ cho nhau, nhờ vậy mà tiếp cận được tài liệu nước ngoài, mới thấy rằng môn toán thực sự rất cần những tài liệu hay và thầy cô giáo giỏi, không thì nhìn chỉ thấy công thức với ký hiệu thôi, không hiểu gì hết
Tính ra cũng khá trễ và bỏ phí vài năm qua nhưng giờ em đang học lại toán và quyết tâm theo đuổi con đường AI Research. Nếu sau này thành công thì nói không ngoa tháng vừa rồi chính điểm khởi đầu cho cuộc hành trình
P/s: Thật lòng thì phải cảm ơn trang tải sách lậu, nhờ vậy mà lâu nay em đọc được biết bao nhiêu thứ hay chứ không chỉ là sách toán. Biết tiếng Anh nó thực sự mở ra một thế giới mới theo đúng nghĩa luôn
Hoang_tu_ai_cap
Các bác cho em xin thêm thông tin về hướng học cũng như cơ hội tương lai của NLP với
Các bác cho em xin thêm thông tin về hướng học cũng như cơ hội tương lai của NLP với
Hiện tại em cũng đang theo hướng NLP một tí. Bác có thể xem về các kĩ thuật và từ ngữ trong NLP như tokenize hay stemming sau đó thử áp một vài model vào như Naive Bayes hay Neural Network (sau đó tìm hiểu về các mạng deep learning như RNN và LSTM) và các Transformer cũng được. Bên em có học thêm một số kiến thức về ngôn ngữ phoneme hay morpheme
Bây giờ độ khó khi xin việc càng ngày càng cao mà bác
. Thấy mấy ông anh bảo hồi trước đâu có hỏi leet code nhiều đâu chỉ học trên giải thuật trên trường mà ra trả lời pv được rồi. Giờ còn phải luyện đống thứ nữa chứ.
shinigami1997
Có bác nào có tài liệu về phương pháp phân tích thiết kế csdl cho học máy và khai phá dữ liệu cho em xin với.
có sự giao thoa gì giữa ngành Hệ thống thông tin (Information systems) với Khoa học dữ liệu (Data Science) ko các bác. Em đang học HTTT và thấy DS quá là hay luôn
Theo feature important hoặc theo business sense là chia thành các nhóm.
Rồi coi thêm predictive power. Nếu cắt feature mà ko giảm thì là tốt.
Nói chung có nhiều cách. Mình biết sơ thế thôi
Hiện tại mình chỉ biết một số cách sau:
1. Cách dùng statistics:
Numerical variable vs numerical variable: tính correlation của 2 biến (pearson correlation để kiểm tra linear relationship, spearman correlation để kiểm tra monotonic relationship).
Categorical variable vs categorical variable: dùng Chi-Square test để làm hypothesis test, tính p-value < 0.05 coi như 2 biến không độc lập, có liên quan nhau.
Numerical variable vs categorical variable: dùng one-way ANOVA làm hypothesis test tính ra F-Statistics với p-value < 0.05 thì xem như có relationship.
Cách này thì chỉ biết được quan hệ 2 chiều x => y hay y => x là như nhau.
3. Plotting: visualize 2 biến lên xem nó có liên quan sơ múi gì nhau ko.
Ko biết còn cách nào khác ko.
nguyenluc900
Mình đang tính phân nhóm Customer (R-Recency, F-Frequency, M -Moneytary).
Mình đang tính xài giải thuật K-Means để phâm cụm Customer. Tuy nhiên sếp mình ko đồng ý vs việc phân nhóm bằng K-means
Ko biết là ae Phân nhóm Customer theo phương pháp nào ?
Mình đang tính phân nhóm Customer (R-Recency, F-Frequency, M -Moneytary).
Mình đang tính xài giải thuật K-Means để phâm cụm Customer. Tuy nhiên sếp mình ko đồng ý vs việc phân nhóm bằng K-means
Ko biết là ae Phân nhóm Customer theo phương pháp nào ?
Bác có thể nói lí do tại sao sếp không đồng ý kmeans không? Kmeans đơn giản nên cứ chạy thử trước lấy baseline. Bác đã chạy chưa, và vì kết quả thấp hay là vấn đề gì khác mà sếp lại không đồng ý?
Bác có thể nói lí do tại sao sếp không đồng ý kmeans không? Kmeans đơn giản nên cứ chạy thử trước lấy baseline. Bác đã chạy chưa, và vì kết quả thấp hay là vấn đề gì khác mà sếp lại không đồng ý?
Ông sếp mình người nước ngoài. Mình chạy + visualize luôn nhưng sếp nhìn vào kêu không hợp lý. Rồi ông đưa ra đống logic if else kiểu phân loại Customer bằng scoring
Thì ban đầu chả có tiêu chí gì nên mình mới dùng K-means ấy chứ.
Theo mình vậy là sếp bạn có tiêu chí phân loại riêng dựa vào kinh nghiệm của ổng rồi, một là bây giờ bạn phân loại dạng của ổng muốn kiểu như KH A: bao nhiểu tuổi, thu nhập bao nhiêu là phân loại vô A gì đó, 2 là bạn chứng minh cho sếp thấy là phương pháp k-mean tương đối giống với cái tiêu chí phân loại của sếp bạn mà cái này bạn xuất thẳng ra file kết quả chứ khỏi visualization làm gì, tại như vậy dễ nhìn rõ cái tiêu chí (feature) để đánh giá hơn, rồi pivot cái phân loại của bạn theo các feature và phần trăm của nó. Kiểu sếp bạn chắc kiểu cổ điển mỗi feature có các thang điểm đánh giá riêng, cộng hết lại rồi lấy điểm đó để phân loại customer thui
Theo mình vậy là sếp bạn có tiêu chí phân loại riêng dựa vào kinh nghiệm của ổng rồi, một là bây giờ bạn phân loại dạng của ổng muốn kiểu như KH A: bao nhiểu tuổi, thu nhập bao nhiêu là phân loại vô A gì đó, 2 là bạn chứng minh cho sếp thấy là phương pháp k-mean tương đối giống với cái tiêu chí phân loại của sếp bạn mà cái này bạn xuất thẳng ra file kết quả chứ khỏi visualization làm gì, tại như vậy dễ nhìn rõ cái tiêu chí (feature) để đánh giá hơn, rồi pivot cái phân loại của bạn theo các feature và phần trăm của nó. Kiểu sếp bạn chắc kiểu cổ điển mỗi feature có các thang điểm đánh giá riêng, cộng hết lại rồi lấy điểm đó để phân loại customer thui
Thì đúng là sếp mình phân loại kiểu scoring từng thuộc tính của customer sau đó + các điểm của thuộc tính lại rồi mới sắp xếp thành VIP, normal, ...
Thì đúng là sếp mình phân loại kiểu scoring từng thuộc tính của customer sau đó + các điểm của thuộc tính lại rồi mới sắp xếp thành VIP, normal, ...
Nên mình mới nói bạn cần là chứng minh model bạn chạy cluster giống với tiêu chí của ổng thì ổng sẽ ok ah, kiểu chứng minh hiệu quả của model trong thực tế luôn, quan trọng kết quả giống tương đối đã thì sếp mới theo chứ ông không biết thuật toán này nọ đâu
Mình đang tính phân nhóm Customer (R-Recency, F-Frequency, M -Moneytary).
Mình đang tính xài giải thuật K-Means để phâm cụm Customer. Tuy nhiên sếp mình ko đồng ý vs việc phân nhóm bằng K-means
Ko biết là ae Phân nhóm Customer theo phương pháp nào ?
Search thấy thì phân tích RFM là bài toán thường gặp trong Market Research. Đây là trường hợp phải vận dụng domain knowlegde. Tốt nhất là thím nên google RFM Analysis để biết các kỹ thuật người ta thường xài rồi sau đó mới áp dụng Machine Learning vào đây để bổ trợ thôi. Vì đây là bài toán phổ biến nên có thể có best practice rồi.
Customer purchases may be represented by a table with columns for the customer name, date of purchase and purchase value. One approach to RFM is to assign a score for each dimension on a scale from 1 to 10. The maximum score represents the preferred behavior and a formula could be used to calculate the three scores for each customer. For example, a service-based business could use these calculations:
Recency = the maximum of "10 – the number of months that have passed since the customer last purchased" and 1
Frequency = the maximum of "the number of purchases by the customer in the last 12 months (with a limit of 10)" and 1
Monetary = the highest value of all purchases by the customer expressed as a multiple of some benchmark value
Chắc bác cũng biết cuộc thi credit scoring do Kalapa tổ chức
Thằng bạn em chỉ đơn giản là đưa hết features vào model nó dùng (XGBoost) sau đó nhân tuyến tinh với 1 hằng số nào đó (?) mà đứng được top 2
Nghe có vẻ ko make sense lắm nhưng model work
Còn trong banking chắc chắn họ không làm như vậy được vì không giải thích được tại sao nó work
Trong deep learning thì features selection model cũng tự học được, đơn giản là cái nào không quan trọng thì đánh trọng số thấp đi.
Ờ Machine Learning, Deep Learning là "chiếc hộp thần kỳ", cứ quăng 1 đống data vào cái hộp này là tự nó giải quyết hết, đầu ra sẽ đẹp đẽ thôi phải ko fen?
Các bác có thể gợi ý e một số github (hoặc hướng dẫn làm) chia âm thanh ra thành từng chữ rồi nhận dạng được k ạ - sound separation and recognition, em k chắc keyword ạ.
Các bác có thể gợi ý e một số github (hoặc hướng dẫn làm) chia âm thanh ra thành từng chữ rồi nhận dạng được k ạ - sound separation and recognition, em k chắc keyword ạ.
Speech to Text recoginition? Ko làm về mảng này nhưng có vài câu hỏi cần làm rõ để ng nào biết trả lời:
Ngôn ngữ cần nhận dạng là gi? English, Vietnamese, Cambodian...?
Nhận dạng giọng nói của người bình thường ra text hay các nhóm đặc biệt ví dụ tiếng trẻ em, người già, đàn ông, đàn bà, bê đê... Nếu chỉ là Speech to Text bình thường thì đã có sẵn 3rd library làm khá tốt cho các ngôn ngữ phổ biến rồi.
Bạn dùng 3rd library hay muốn train model từ đầu, pre-trained model mảng này cũng khá nhiều. Nên lấy từ pre-trained model rồi train tiếp.
Các bác có thể gợi ý e một số github (hoặc hướng dẫn làm) chia âm thanh ra thành từng chữ rồi nhận dạng được k ạ - sound separation and recognition, em k chắc keyword ạ.
Có vẻ như task này bao gồm tokenizing (chia thành từng chữ) + nhận dạng
Em không rành audio nhưng trong text cái đơn giản nhất là split theo dấu cách/ khoảng trắng, bác thử split theo "dấu cách" trong audio thử
rác vãi
1. Kiến thức : admin k có kiến thức nhưng k muốn bị góp ý nặng nề. Suốt ngày loanh quanh YOLO, Facenet, virtualenv, sử dụng colab trong khi thời gian từ khi thành lập đến h là cũng phải hơn 1 năm rồi. Mà nói đơn cử như làm với yolo nhưng k biết anchors là gì với để làm gì
2. Phương pháp : git clone , python train.py, python test.py tạo thanh 1 thế hệ chả biết cái mẹ gì :v cứ nghĩ git clone xong là ez thành AI Engineer.
Nói chung theo em là làm theo thì sẽ được 2 thứ là hỏng luôn về cả kiến thức lẫn tư duy
Chắc bác cũng biết cuộc thi credit scoring do Kalapa tổ chức
Thằng bạn em chỉ đơn giản là đưa hết features vào model nó dùng (XGBoost) sau đó nhân tuyến tinh với 1 hằng số nào đó (?) mà đứng được top 2
Nghe có vẻ ko make sense lắm nhưng model work
Còn trong banking chắc chắn họ không làm như vậy được vì không giải thích được tại sao nó work
Trong deep learning thì features selection model cũng tự học được, đơn giản là cái nào không quan trọng thì đánh trọng số thấp đi.
XGBoost ngon thế còn gì
chuyện đấy cũng là hết sức bình thường k ccos gì lạ cả
Features selection thì có thể chọn dựa theo statistic hoặc theo domain knowledge tuỳ hoàn cảnh hoặc kết hợp cả 2.
Chu Cong Canh
Có fence nào làm mảng ORC (không cần đến ICR) không cho mình học hỏi thêm nhé.
Hoang_tu_ai_cap
Các bác thấy VietAI như thế nào???
Young Piccolo
Hi các fence các thím. Bên mình sếp giao một dự án là dùng ML để dự đoán sản lượng nông sản dựa vào dữ liệu đầu vào là: thời tiết trong quá khứ + sản lượng trong quá khứ + dự báo thời tiết trong tương lai. Bọn mình toàn dân truyền thống làm Database, ERP, thu thập dữ liệu... nên chả biết mẹ gì về ML
Giờ sếp cho phép tuyển 1 bạn chuyên về Toán/ML/AI gì cũng được cho dự án này, cũng có nhiều CV rồi, mai gặp phỏng vấn, mà mình không biết nên hỏi cái gì. Sợ tuyển vô mà không làm được thì băng mình cũng đi theo nó luôn
Theo các thím thì nên hỏi những gì để phân biệt được bạn nào làm được bạn nào chỉ võ mồm? Cảm ơn các thím nhiều
Hi các fence các thím. Bên mình sếp giao một dự án là dùng ML để dự đoán sản lượng nông sản dựa vào dữ liệu đầu vào là: thời tiết trong quá khứ + sản lượng trong quá khứ + dự báo thời tiết trong tương lai. Bọn mình toàn dân truyền thống làm Database, ERP, thu thập dữ liệu... nên chả biết mẹ gì về ML
Giờ sếp cho phép tuyển 1 bạn chuyên về Toán/ML/AI gì cũng được cho dự án này, cũng có nhiều CV rồi, mai gặp phỏng vấn, mà mình không biết nên hỏi cái gì. Sợ tuyển vô mà không làm được thì băng mình cũng đi theo nó luôn
Theo các thím thì nên hỏi những gì để phân biệt được bạn nào làm được bạn nào chỉ võ mồm? Cảm ơn các thím nhiều
Nghe cũng căng nhỉ, pv tính chất kĩ thuật mà người pv lại không có chuyên môn về nội dung phỏng vấn
Hi các fence các thím. Bên mình sếp giao một dự án là dùng ML để dự đoán sản lượng nông sản dựa vào dữ liệu đầu vào là: thời tiết trong quá khứ + sản lượng trong quá khứ + dự báo thời tiết trong tương lai. Bọn mình toàn dân truyền thống làm Database, ERP, thu thập dữ liệu... nên chả biết mẹ gì về ML
Giờ sếp cho phép tuyển 1 bạn chuyên về Toán/ML/AI gì cũng được cho dự án này, cũng có nhiều CV rồi, mai gặp phỏng vấn, mà mình không biết nên hỏi cái gì. Sợ tuyển vô mà không làm được thì băng mình cũng đi theo nó luôn
Theo các thím thì nên hỏi những gì để phân biệt được bạn nào làm được bạn nào chỉ võ mồm? Cảm ơn các thím nhiều
Dự án bản thân nó đã khó rồi. Tốt nhất là ko nên dự báo, hậu quả nặng nề quá.
Hi các fence các thím. Bên mình sếp giao một dự án là dùng ML để dự đoán sản lượng nông sản dựa vào dữ liệu đầu vào là: thời tiết trong quá khứ + sản lượng trong quá khứ + dự báo thời tiết trong tương lai. Bọn mình toàn dân truyền thống làm Database, ERP, thu thập dữ liệu... nên chả biết mẹ gì về ML
Giờ sếp cho phép tuyển 1 bạn chuyên về Toán/ML/AI gì cũng được cho dự án này, cũng có nhiều CV rồi, mai gặp phỏng vấn, mà mình không biết nên hỏi cái gì. Sợ tuyển vô mà không làm được thì băng mình cũng đi theo nó luôn
Theo các thím thì nên hỏi những gì để phân biệt được bạn nào làm được bạn nào chỉ võ mồm? Cảm ơn các thím nhiều
team không có ông nào quen anh em làm ML nhờ hoặc thuê qua pv giúp à thím, không thì nhờ thím
@Thích Màu Hường pv giúp cho team chỉ cần chịu đau deed 1 2 bữa thôi mà yên tâm
...Batman...
Trong đây có ai đang hứng thú với RL ko nhỉ
Các bác đánh giá triển vọng của RL trong bối cảnh VN như thế nào
Em muốn đi sâu vào cái này để tạo lợi thế khác biệt, với cả cái này có vẻ kén người
Hi các fence các thím. Bên mình sếp giao một dự án là dùng ML để dự đoán sản lượng nông sản dựa vào dữ liệu đầu vào là: thời tiết trong quá khứ + sản lượng trong quá khứ + dự báo thời tiết trong tương lai. Bọn mình toàn dân truyền thống làm Database, ERP, thu thập dữ liệu... nên chả biết mẹ gì về ML
Giờ sếp cho phép tuyển 1 bạn chuyên về Toán/ML/AI gì cũng được cho dự án này, cũng có nhiều CV rồi, mai gặp phỏng vấn, mà mình không biết nên hỏi cái gì. Sợ tuyển vô mà không làm được thì băng mình cũng đi theo nó luôn
Theo các thím thì nên hỏi những gì để phân biệt được bạn nào làm được bạn nào chỉ võ mồm? Cảm ơn các thím nhiều
Phỏng vấn muốn biết được thì chỉ có cách hỏi sâu vào những cái ứng viên đã làm, yêu cầu trình bày bài toán như input là gì, output là gì, mô hình sử dụng là gì, giải thích lại mô hình đó. Nếu ai mà thực sự làm thì sẽ có khả năng giải thích được cái mình đã làm cho người không chuyên về lĩnh vực đó hiểu tương đối. Còn với mấy bạn chưa có kinh nghiệm thì chắc thím phải ôm thêm quyển sách ML bên cạnh mà hỏi thôi cho chắc.
Các bác đánh giá triển vọng của RL trong bối cảnh VN như thế nào
Em muốn đi sâu vào cái này để tạo lợi thế khác biệt, với cả cái này có vẻ kén người
RL ngon mà, tương lai đó.
Nhưng để train đc RL cũng cần đầu tư rất nhiều. Không ai cho cánh tay robot gắp đi gặp lại 10000 lần mà phải simulate môi trường. Chính vì vậy RL mới phát huy ở những mảng kiểu như game. Nhưng chắc sẽ tập trung cho robot công nghiệp thôi.
Autonomous Vehicle cũng đang là điểm nhấn nhưng chắc chưa dám đưa ra thương mại hóa vì tính an toàn
TESLA là Computer Vision + Rule based thì phải, e cũng ko rõ nữa
Hi các fence các thím. Bên mình sếp giao một dự án là dùng ML để dự đoán sản lượng nông sản dựa vào dữ liệu đầu vào là: thời tiết trong quá khứ + sản lượng trong quá khứ + dự báo thời tiết trong tương lai. Bọn mình toàn dân truyền thống làm Database, ERP, thu thập dữ liệu... nên chả biết mẹ gì về ML
Giờ sếp cho phép tuyển 1 bạn chuyên về Toán/ML/AI gì cũng được cho dự án này, cũng có nhiều CV rồi, mai gặp phỏng vấn, mà mình không biết nên hỏi cái gì. Sợ tuyển vô mà không làm được thì băng mình cũng đi theo nó luôn
Theo các thím thì nên hỏi những gì để phân biệt được bạn nào làm được bạn nào chỉ võ mồm? Cảm ơn các thím nhiều
RL ngon mà, tương lai đó.
Nhưng để train đc RL cũng cần đầu tư rất nhiều. Không ai cho cánh tay robot gắp đi gặp lại 10000 lần mà phải simulate môi trường. Chính vì vậy RL mới phát huy ở những mảng kiểu như game. Nhưng chắc sẽ tập trung cho robot công nghiệp thôi.
Autonomous Vehicle cũng đang là điểm nhấn nhưng chắc chưa dám đưa ra thương mại hóa vì tính an toàn
TESLA là Computer Vision + Rule based thì phải, e cũng ko rõ nữa
RL giờ chơi mô phỏng sau đó đưa ra thực tế. Giờ nó vẫn sơ khai lắm, tương tự DL độ 5 năm trước.
Em nghĩ đầu tư hướng đó là rất ổn.
JigSaw ^^
Đang làm DE ở VN công việc còn thú vị. Qua Sing cũng làm role DE mà toàn giao task crawl data.
Lụi cmn nghề của tui :<
haieric96
Em là Dev Mobile/Web thuần, giờ muốn đá sang AI để nhúng vào mấy ứng dụng thì nên học những gì các thím nhỉ ? Tensor Flow ?
Chứ giờ để quay lại nghiên cứu Toán vs Thống Kê thì chắc chớt quá
Em là Dev Mobile/Web thuần, giờ muốn đá sang AI để nhúng vào mấy ứng dụng thì nên học những gì các thím nhỉ ? Tensor Flow ?
Chứ giờ để quay lại nghiên cứu Toán vs Thống Kê thì chắc chớt quá
Bác muốn lấy sẵn những model của bọn khác bỏ vào web/mobile hay là tự làm model. AI/ML mà không tốt thì thà không có còn hơn, thật sự là vậy.
Nếu e muốn tự làm model thì sao bác nhỉ ? tất nhiên là đi từ những cái đơn giản thôi, bác có course nào phù hợp không bác ?
Tự làm thì cũng đc nhưng cũng khó để dùng đc. Chủ yếu là turning model nhiều hơn, với có thì là sửa 1 vài layer cuối. Mình ko học cao nên ko rõ nhiều về vụ lý thuyết này. Nhưng ngày trước thì là có 1 vài lý thuyết + thử sai. Còn bây giờ thì dùng RL để dò thay người. Con người defind cấu trúc rồi quăng cho máy tìm. Nhưng mà máy phải lớn ms chơi đx chứ vài card thì ăn thua gì. Còn để hình dung khó khăn thì dễ mà, thím train 1 model từ đầu là biết thôi, với dữ liệu nhiều chuyện model ko hội tụ là thường xuyên và chỉ có ngồi khấn cho nó xong 1 epoc đầu để lấy làm pretrain
) Course thì ko có nhưng paper thì nhiều. Từ khoá là Network Architect Search.
khangpham
Chào mọi người, mình đang làm về CV nhưng nay dc giao nhiệm vụ tìm hiểu về bài toán tối tưu lộ trình (route optimize), dùng ML/DL để làm việc tối ưu đó, mình chưa biết nên bắt đầu từ đâu cho bài toán này, trong nhóm này có ai có kinh nghiệm về bài toán này không, cho mình xin ít kinh nghiệm và vài từ khóa liên quan với
Cảm ơn mọi người
Chào mọi người, mình đang làm về CV nhưng nay dc giao nhiệm vụ tìm hiểu về bài toán tối tưu lộ trình (route optimize), dùng ML/DL để làm việc tối ưu đó, mình chưa biết nên bắt đầu từ đâu cho bài toán này, trong nhóm này có ai có kinh nghiệm về bài toán này không, cho mình xin ít kinh nghiệm và vài từ khóa liên quan với
Cảm ơn mọi người
Bạn đọc thử vài papers của cô Nguyễn Phi Lê, giảng viên HUST. Cô dùng Reinforcement learning để tối ưu lộ trình đấy (nhưng bài toán hơi đặc thù).
Có nên đâm lao DA hay Computer Vision ko các anh?
Em đang năm 3 mà thấy nohope (2 năm đầu lơ là quá, ko phải học kém, cũng do chẳng có hứng, toàn học ngoại ngữ với tà tà 7. 8.các môn). Giờ đám bạn bên SE bắt đầu tìm mối thực tập, nhìn lại mình chả có cái gì hết!
Có nên đâm lao DA hay Computer Vision ko các anh?
Em đang năm 3 mà thấy nohope (2 năm đầu lơ là quá, ko phải học kém, cũng do chẳng có hứng, toàn học ngoại ngữ với tà tà 7. 8.các môn). Giờ đám bạn bên SE bắt đầu tìm mối thực tập, nhìn lại mình chả có cái gì hết!
Đâm hay không là một vấn đề rất phức tạp, không ai quyết định cho bạn được.
Chỉ có cách là bạn tìm hiểu và tự đưa ra quyết định. Ví dụ tìm hiểu xem DA hay Computer Vision là làm những công việc gì, những công việc đó cần kiến thức gì, bản thân có thích học và làm những thứ như thế hay không,.... Từ đó bạn chọn con đường cho mình thôi
Chào mọi người, mình đang làm về CV nhưng nay dc giao nhiệm vụ tìm hiểu về bài toán tối tưu lộ trình (route optimize), dùng ML/DL để làm việc tối ưu đó, mình chưa biết nên bắt đầu từ đâu cho bài toán này, trong nhóm này có ai có kinh nghiệm về bài toán này không, cho mình xin ít kinh nghiệm và vài từ khóa liên quan với
Cảm ơn mọi người
Bạn cho case cụ thể đi, route optimize có rất nhiều hướng để giải, đôi khi chỉ cần các giải thuật greedy algorithm cũng đủ
Cảm ơn 2 thím
Thực ra bài toán của mình cũng kg biết bắt đầu từ đâu nữa, mình là tay ngang đang làm tay ngang về Computer Vison, nay các sếp muốn tìm hiểu thêm về Route Optimize, mình cũng kg chắc nên tìm hiểu cái gì trước, AI hay các thuật toán nữa, nhờ mọi người tư vấn.
Bài toán của mình là bài toán giống như chia tuyến bán hàng thôi, đại ý nó như thế này
Có một tập n điểm (cửa hàng, ví dụ 210 điểm), có khoảng cách giữa các điểm và một điểm xuất phát chung X
Một nhân viên bán hàng sẽ phụ trách một nhóm cửa hàng, gọi là t, t thuộc n, ví dụ t =30, thì sẽ có 7 nhân viên phụ trách cho 210 cửa hàng.
Nhiệm vụ hàng ngày là các nhân viên phải đi hết các cửa hàng mình phụ trách
Mục tiêu đầu tiên của bài toán mình cần tìm hiểu là
Làm sao tự động chia tập cửa hàng (210) thành 7 tập con cho 7 nhân viên thỏa mãn các điều kiện sau
Khoảng cách di chuyển của mỗi nhân viên được tối ưu, tức là khoảng cách di chuyển không có độ lệch lớn giữa các nhân viên
Khoảng cách di chuyển giữa các điểm được tối ưu, giống như là sắp xếp sao cho đường đi giữa các điểm(trong một nhóm) là ngắn nhất (Sắp xếp thứ tự các điểm từ 1 đến 30 như ví dụ )
Tạm thời như thế
, mình đang muốn tìm hiểu nên nhờ mấy chuyên gia tư vấn cho vài từ khóa liên quan
Cảm ơn nhiều
Cảm ơn 2 thím
Thực ra bài toán của mình cũng kg biết bắt đầu từ đâu nữa, mình là tay ngang đang làm tay ngang về Computer Vison, nay các sếp muốn tìm hiểu thêm về Route Optimize, mình cũng kg chắc nên tìm hiểu cái gì trước, AI hay các thuật toán nữa, nhờ mọi người tư vấn.
Bài toán của mình là bài toán giống như chia tuyến bán hàng thôi, đại ý nó như thế này
Có một tập n điểm (cửa hàng, ví dụ 210 điểm), có khoảng cách giữa các điểm và một điểm xuất phát chung X
Một nhân viên bán hàng sẽ phụ trách một nhóm cửa hàng, gọi là t, t thuộc n, ví dụ t =30, thì sẽ có 7 nhân viên phụ trách cho 210 cửa hàng.
Nhiệm vụ hàng ngày là các nhân viên phải đi hết các cửa hàng mình phụ trách
Mục tiêu đầu tiên của bài toán mình cần tìm hiểu là
Làm sao tự động chia tập cửa hàng (210) thành 7 tập con cho 7 nhân viên thỏa mãn các điều kiện sau
Khoảng cách di chuyển của mỗi nhân viên được tối ưu, tức là khoảng cách di chuyển không có độ lệch lớn giữa các nhân viên
Khoảng cách di chuyển giữa các điểm được tối ưu, giống như là sắp xếp sao cho đường đi giữa các điểm(trong một nhóm) là ngắn nhất (Sắp xếp thứ tự các điểm từ 1 đến 30 như ví dụ )
Tạm thời như thế
, mình đang muốn tìm hiểu nên nhờ mấy chuyên gia tư vấn cho vài từ khóa liên quan
Cảm ơn nhiều
Keywords:
Vehicle routing problem (VRP) Travelling salesman problem (TSP)
Cảm ơn 2 thím
Thực ra bài toán của mình cũng kg biết bắt đầu từ đâu nữa, mình là tay ngang đang làm tay ngang về Computer Vison, nay các sếp muốn tìm hiểu thêm về Route Optimize, mình cũng kg chắc nên tìm hiểu cái gì trước, AI hay các thuật toán nữa, nhờ mọi người tư vấn.
Bài toán của mình là bài toán giống như chia tuyến bán hàng thôi, đại ý nó như thế này
Có một tập n điểm (cửa hàng, ví dụ 210 điểm), có khoảng cách giữa các điểm và một điểm xuất phát chung X
Một nhân viên bán hàng sẽ phụ trách một nhóm cửa hàng, gọi là t, t thuộc n, ví dụ t =30, thì sẽ có 7 nhân viên phụ trách cho 210 cửa hàng.
Nhiệm vụ hàng ngày là các nhân viên phải đi hết các cửa hàng mình phụ trách
Mục tiêu đầu tiên của bài toán mình cần tìm hiểu là
Làm sao tự động chia tập cửa hàng (210) thành 7 tập con cho 7 nhân viên thỏa mãn các điều kiện sau
Khoảng cách di chuyển của mỗi nhân viên được tối ưu, tức là khoảng cách di chuyển không có độ lệch lớn giữa các nhân viên
Khoảng cách di chuyển giữa các điểm được tối ưu, giống như là sắp xếp sao cho đường đi giữa các điểm(trong một nhóm) là ngắn nhất (Sắp xếp thứ tự các điểm từ 1 đến 30 như ví dụ )
Tạm thời như thế
, mình đang muốn tìm hiểu nên nhờ mấy chuyên gia tư vấn cho vài từ khóa liên quan
Cảm ơn nhiều
Giải pháp dễ nhất cho thím là dùng ortools phát triển bởi google. Nhóm operation research của google rất mạnh. ortools này viết bằng C++ nữa nên performance tốt, có Python API nên gọi solvers dễ.
Giải pháp dễ nhất cho thím là dùng ortools phát triển bởi google. Nhóm operation research của google rất mạnh. ortools này viết bằng C++ nữa nên performance tốt, có Python API nên gọi solvers dễ.
Cảm ơn 2 thím
Thực ra bài toán của mình cũng kg biết bắt đầu từ đâu nữa, mình là tay ngang đang làm tay ngang về Computer Vison, nay các sếp muốn tìm hiểu thêm về Route Optimize, mình cũng kg chắc nên tìm hiểu cái gì trước, AI hay các thuật toán nữa, nhờ mọi người tư vấn.
Bài toán của mình là bài toán giống như chia tuyến bán hàng thôi, đại ý nó như thế này
Có một tập n điểm (cửa hàng, ví dụ 210 điểm), có khoảng cách giữa các điểm và một điểm xuất phát chung X
Một nhân viên bán hàng sẽ phụ trách một nhóm cửa hàng, gọi là t, t thuộc n, ví dụ t =30, thì sẽ có 7 nhân viên phụ trách cho 210 cửa hàng.
Nhiệm vụ hàng ngày là các nhân viên phải đi hết các cửa hàng mình phụ trách
Mục tiêu đầu tiên của bài toán mình cần tìm hiểu là
Làm sao tự động chia tập cửa hàng (210) thành 7 tập con cho 7 nhân viên thỏa mãn các điều kiện sau
Khoảng cách di chuyển của mỗi nhân viên được tối ưu, tức là khoảng cách di chuyển không có độ lệch lớn giữa các nhân viên
Khoảng cách di chuyển giữa các điểm được tối ưu, giống như là sắp xếp sao cho đường đi giữa các điểm(trong một nhóm) là ngắn nhất (Sắp xếp thứ tự các điểm từ 1 đến 30 như ví dụ )
Tạm thời như thế
, mình đang muốn tìm hiểu nên nhờ mấy chuyên gia tư vấn cho vài từ khóa liên quan
Cảm ơn nhiều
Bài này N-P hard rồi thím, thím phải thêm điều kiện gì đó nữa, chứ để không như vậy thì không có cách tối ưu toàn cục đâu
Thìm tìm hiểu về Travelling Sales man hay còn gọi là bài toán người bán hàng. Thím có thể đọc thêm bài giảng của giáo sư đầu ngành về lĩnh vực này William J. Cook
khangpham
Cảm ơn mọi người để mình tìm hiểu xem có gì sẽ hỏi tiếp ahihi
Thím Hường cho mình hỏi chút.
Bên công ty mình có 1 bài toán như thế này.
Input: giấy tờ chứng minh tài chính của khách hàng (sổ đỏ, sổ tiết kiệm,
payslip) + CMND
Output: phân loại khách vip / khách thường chia theo khu vực.
Công nghệ mong muốn: OCR, table extraction, ML.
Mình đang được giao task tìm hiểu về pipepline và nền tảng database để sử dụng model nào phù hợp.
Đang tham khảo được cái link này:
https://www.lenovonetapp.com/pdf/wp-7299.pdf Thank thím.
MH0602
Không biết ở đây có ai làm về Deep Learning mà rành về deploy bằng C++ không, em từng cố tránh mà có vẻ không chạy dc rồi
Không biết ở đây có ai làm về Deep Learning mà rành về deploy bằng C++ không, em từng cố tránh mà có vẻ không chạy dc rồi
thực ra bác hỏi em thấy hơi lạ :v hầu hết ML muốn deploy sẽ deploy dạng micro hết, mà mấy cái dạng đó thì các framework đều có hỗ trợ hết rồi. Deploy bằng C++ là kiểu gì nhỉ ? Mình cũng đang k hiểu ý bác lắm.
thực ra bác hỏi em thấy hơi lạ :v hầu hết ML muốn deploy sẽ deploy dạng micro hết, mà mấy cái dạng đó thì các framework đều có hỗ trợ hết rồi. Deploy bằng C++ là kiểu gì nhỉ ? Mình cũng đang k hiểu ý bác lắm.
Chắc em ko nói rõ ý, trước giờ bên em toàn dùng python hoặc cython để chạy inference các model rồi evaluate rồi quăng cho outsource để họ viết code production, thường là C++. Giờ em cũng đang muốn phải viết được inference code kiểu thế, trên nên TF Lite hoặc TensorRT mà thấy code mẫu để mình đi theo hơi ít. Giờ hỏi xem mọi người có nguồn tài liệu nào hay ho ko
Chắc em ko nói rõ ý, trước giờ bên em toàn dùng python hoặc cython để chạy inference các model rồi evaluate rồi quăng cho outsource để họ viết code production, thường là C++. Giờ em cũng đang muốn phải viết được inference code kiểu thế, trên nên TF Lite hoặc TensorRT mà thấy code mẫu để mình đi theo hơi ít. Giờ hỏi xem mọi người có nguồn tài liệu nào hay ho ko
Thím Hường cho mình hỏi chút.
Bên công ty mình có 1 bài toán như thế này.
Input: giấy tờ chứng minh tài chính của khách hàng (sổ đỏ, sổ tiết kiệm,
payslip) + CMND
Output: phân loại khách vip / khách thường chia theo khu vực.
Công nghệ mong muốn: OCR, table extraction, ML.
Mình đang được giao task tìm hiểu về pipepline và nền tảng database để sử dụng model nào phù hợp.
Đang tham khảo được cái link này:
https://www.lenovonetapp.com/pdf/wp-7299.pdf Thank thím.
Mình nghĩ pipeline có thể như sau (bài toán cũ bên mình có làm với bill của một thằng chain of convenience stores).
Ở đây chỉ nói tới phần OCR để ra được số liệu thôi nhé. Còn cái
phân loại khách vip / khách thường chia theo khu vực. nó là đặc thù của bên bạn rồi
(maybe random forest???)
Step 1: Collect data
Step 2: Store Data.
Tùy vào lượng data (ở đây chắc toàn ảnh) mình nghĩ có thể cân nhắc dùng S3/ GCS/ HDFS (on-premise) hoặc nếu ít thì ngay cả RDBMS vẫn chơi được.
Step 3: Pre-process
Crop, cân chỉnh, ....
Cái này có thể human hoặc chơi một vài thằng ví dụ như: pan_pp hoặc tùy mấy bố scientist lựa chọn (data của bạn có thể đặc thù mình không chắc lắm)
Tùy vào lựa chọn thằng nào mà chọn stack cho phù hợp
Stack cũng tùy vào lựa chọn theo phương thức nào, re-build hay phang luôn model sẵn có.
Step 6: Deploy
Có thể cân nhắc tới: Triton Inference
Store dữ liệu thì có thể chơi RDBMS bình thường. Mình thấy không vấn đề gì lắm
Pipeline:
Mình thì hay dùng Airflow để làm việc này.
Cân nhắc việc run re-modeling hoặc kệ mịa nó (theo ngày/ giờ - cái này tùy dạng model nữa)
Bên bạnchắc có data sẵn rồi nên là một lợi thế quá lớn.
Sorry bạnvì em là DE chứ không phải DS nên nhiều cái cũng không chuyên sâu cho lắm. Nhưng như bên mình trước thì thằng OCR để ra data là thằng khó chơi nhất. Ra được text data thì được 80% việc rồi.
Mình nghĩ pipeline có thể như sau (bài toán cũ bên mình có làm với bill của một thằng chain of convenience stores).
Ở đây chỉ nói tới phần OCR để ra được số liệu thôi nhé. Còn cái
phân loại khách vip / khách thường chia theo khu vực. nó là đặc thù của bên bạn rồi
(maybe random forest???)
Step 1: Collect data
Step 2: Store Data.
Tùy vào lượng data (ở đây chắc toàn ảnh) mình nghĩ có thể cân nhắc dùng S3/ GCS/ HDFS (on-premise) hoặc nếu ít thì ngay cả RDBMS vẫn chơi được.
Step 3: Pre-process
Crop, cân chỉnh, ....
Cái này có thể human hoặc chơi một vài thằng ví dụ như: pan_pp hoặc tùy mấy bố scientist lựa chọn (data của bạn có thể đặc thù mình không chắc lắm)
Tùy vào lựa chọn thằng nào mà chọn stack cho phù hợp
Stack cũng tùy vào lựa chọn theo phương thức nào, re-build hay phang luôn model sẵn có.
Step 6: Deploy
Có thể cân nhắc tới: Triton Inference
Store dữ liệu thì có thể chơi RDBMS bình thường. Mình thấy không vấn đề gì lắm
Pipeline:
Mình thì hay dùng Airflow để làm việc này.
Cân nhắc việc run re-modeling hoặc kệ mịa nó (theo ngày/ giờ - cái này tùy dạng model nữa)
Bên bạnchắc có data sẵn rồi nên là một lợi thế quá lớn. Sorry bạnvì em là DE chứ không phải DS nên nhiều cái cũng không chuyên sâu cho lắm. Nhưng như bên mình trước thì thằng OCR để ra data là thằng khó chơi nhất. Ra được text data thì được 80% việc rồi.
Thank thism rất nhiều. Để mình nghiên cứu.
May mắn là bên mình data cực nhiều và có nguồn lực lớn làm label nên rút ngắn công sức đáng kể.
snapdragon0221
Em đá topic lên một chút.
Bác nào có kinh nghiệm làm về mảng Computer Vision thì cho em hỏi 1 xíu.
Công ty các bác có dùng những framework có sẵn như : OpenCV, TensorFlow hay CUDA gì không. Nếu có thì dùng nhiều nhất loại nào.
Em đá topic lên một chút.
Bác nào có kinh nghiệm làm về mảng Computer Vision thì cho em hỏi 1 xíu.
Công ty các bác có dùng những framework có sẵn như : OpenCV, TensorFlow hay CUDA gì không. Nếu có thì dùng nhiều nhất loại nào.
dùng chứ, ko dùng sao được, dùng cả 3 luôn, nhiều hay ít thì tùy dự án, nhưng ko dùng CUDA thì gần như ko được nếu có dính tới Deep Learning, còn tensorflow thì tùy thuộc cái đang có, cái hướng tới như nào
Bên mình trả 15-17 triệu cho fresher AI engineer.
Thích thì có thể thử apply. Mình có refer 3-4 bạn vozer vào mà nay mới dc 1 thanh niên pass vị trí fresher DA ^^
Bác cho e xin mail gửi cv của em được k ạ, e cũng đang tìm kiếm vị trí DA
Cảm ơn 2 thím
Thực ra bài toán của mình cũng kg biết bắt đầu từ đâu nữa, mình là tay ngang đang làm tay ngang về Computer Vison, nay các sếp muốn tìm hiểu thêm về Route Optimize, mình cũng kg chắc nên tìm hiểu cái gì trước, AI hay các thuật toán nữa, nhờ mọi người tư vấn.
Bài toán của mình là bài toán giống như chia tuyến bán hàng thôi, đại ý nó như thế này
Có một tập n điểm (cửa hàng, ví dụ 210 điểm), có khoảng cách giữa các điểm và một điểm xuất phát chung X
Một nhân viên bán hàng sẽ phụ trách một nhóm cửa hàng, gọi là t, t thuộc n, ví dụ t =30, thì sẽ có 7 nhân viên phụ trách cho 210 cửa hàng.
Nhiệm vụ hàng ngày là các nhân viên phải đi hết các cửa hàng mình phụ trách
Mục tiêu đầu tiên của bài toán mình cần tìm hiểu là
Làm sao tự động chia tập cửa hàng (210) thành 7 tập con cho 7 nhân viên thỏa mãn các điều kiện sau
Khoảng cách di chuyển của mỗi nhân viên được tối ưu, tức là khoảng cách di chuyển không có độ lệch lớn giữa các nhân viên
Khoảng cách di chuyển giữa các điểm được tối ưu, giống như là sắp xếp sao cho đường đi giữa các điểm(trong một nhóm) là ngắn nhất (Sắp xếp thứ tự các điểm từ 1 đến 30 như ví dụ )
Tạm thời như thế
, mình đang muốn tìm hiểu nên nhờ mấy chuyên gia tư vấn cho vài từ khóa liên quan
Cảm ơn nhiều
Vào muộn nhưng theo mình hình dung. có thể tìm minimum spanning tree xuất phát từ X phủ hết các điểm trong N. Sau đó tìm cách partitioning cây này thành g cây con có kích thước tối thiểu t.
=> dùng prism algorithm để tính MST => xoá g-1 cạnh dài nhất trong MST?
thiensau ver1
Em muốn làm về nhận diện khuôn mặt thì dùng những gì vậy các bác, detect khuôn mặt đó có là người trong công ty hay không, em đã có tập data rồi mà chưa biết bắt đầu từ đâu.
Em cũng mới qua học về Computer Vision, thấy ngợp quá
Với lại cho em hỏi về cái CUDA, theo như em đọc thì nó không support cái toolkits của nó trên Mac nữa, các bác xài nó thì đang xài Win với Linux hay mình install version cũ hơn vậy nhỉ.
ashvsmay00
Mình nghe nói ngành Data Science, ML này, tay ngang không có bằng CNTT thì auto rớt từ vòng CV phải không ạ?
Nếu bạn thể hiện được bạn đủ ngon trong CV thì vẫn có cơ hội.
Data cũng có mảng Data Analystic. Thường sẽ tuyển các bạn có background kinh tế hoặc background về domain của data đó.
Còn thông thường lọc CV tất nhiên sẽ loại các bạn tay ngang rồi. 4,5 năm đại học không phải chỉ có chơi bời
Em muốn làm về nhận diện khuôn mặt thì dùng những gì vậy các bác, detect khuôn mặt đó có là người trong công ty hay không, em đã có tập data rồi mà chưa biết bắt đầu từ đâu.
Em cũng mới qua học về Computer Vision, thấy ngợp quá
Với lại cho em hỏi về cái CUDA, theo như em đọc thì nó không support cái toolkits của nó trên Mac nữa, các bác xài nó thì đang xài Win với Linux hay mình install version cũ hơn vậy nhỉ.
Xài MAC thì quên CUDA đi, Mac có nvidia đâu mà đòi support.
Cài linux cho tiện install các lib khác luôn.
Face thì xài tạm OpenFace, FaceNet cho quen trước, sau đó xài các khác sau
Xài MAC thì quên CUDA đi, Mac có nvidia đâu mà đòi support.
Cài linux cho tiện install các lib khác luôn.
Face thì xài tạm OpenFace, FaceNet cho quen trước, sau đó xài các khác sau
Vậy hả bác, vậy chắc phải xin cái laptop cài Linux quá
Cái FaceNet này nó có sẵn trong PyToch đúng không bác
Vậy hả bác, vậy chắc phải xin cái laptop cài Linux quá
Cái FaceNet này nó có sẵn trong PyToch đúng không bác
Xin con server xịn, không thì xin tiền mua colab Pro chạy cho ngon.
Không rõ có trong Pytorch không vì lâu rồi mình k xài Pytorch, mà chạy thử thì quan trọng gì, step by step theo tutorial là ổn mà
Xin con server xịn, không thì xin tiền mua colab Pro chạy cho ngon.
Không rõ có trong Pytorch không vì lâu rồi mình k xài Pytorch, mà chạy thử thì quan trọng gì, step by step theo tutorial là ổn mà
Em muốn làm về nhận diện khuôn mặt thì dùng những gì vậy các bác, detect khuôn mặt đó có là người trong công ty hay không, em đã có tập data rồi mà chưa biết bắt đầu từ đâu.
Em cũng mới qua học về Computer Vision, thấy ngợp quá
Với lại cho em hỏi về cái CUDA, theo như em đọc thì nó không support cái toolkits của nó trên Mac nữa, các bác xài nó thì đang xài Win với Linux hay mình install version cũ hơn vậy nhỉ.
Có ai dùng Google Colab ở đây ko nhỉ?
Em ko thể đọc file trong Google Drive được, mặc dù dùng %ls hay %cd vẫn được.
Bạn nên đặt câu hỏi rõ ràng ra, tham khảo cách hướng dẫn đặt câu hỏi trên stackoverflow chẳng hạn
Chứ hỏi thế này người khác không biết được "đọc" file cụ thể là đọc gì, file định dạng nào, output hiện tại là gì,....
Bạn nên đặt câu hỏi rõ ràng ra, tham khảo cách hướng dẫn đặt câu hỏi trên stackoverflow chẳng hạn
Chứ hỏi thế này người khác không biết được "đọc" file cụ thể là đọc gì, file định dạng nào, output hiện tại là gì,....
Vậy để em bổ sung.
Em có 1 file zip chứa dữ liệu đặt trong Google Drive, đã mount vào Colab ở thư mục: /content/gdrive
Giờ em muốn giải nén file đó bằng code bên trong colab nhưng nó luôn báo file ko tồn tại.
moonlight.shine
Mình làm đang dev backend 5 năm rồi cộng với giờ học sắp xong thạc sĩ khoa học dữ liệu, hướng đi nào tiếp theo cho mình, mong các bác tư vấn giúp
thật, mình học tò mò cộng với đam mê toán., nghĩ lại giờ xin việc sang mảng mới chắc lương thấp hơn quá.
Mình đang tự học mảng này cơ bản là nghiên cứu là chính vì không phải CS tự định nghĩa ra rồi tối ưu với nhau nên nó có tài liệu rõ ràng gặp là chiến thôi. Chứ cái này như toán mô tả thế giới bằng con số nên nghiên cứu là chính. Thim có đam mê thì dành ra học thêm đi tự tin rồi chiến chứ không vào công ty lớn nuôi ăn nghiên cứu thì không có việc đâu.
mình học master học các môn "học máy cơ bản","xử lý ảnh","xử lý ngôn ngữ tự nhiên", hiểu được cơ chế của các thuật toán học máy, chưa có nhiều kinh nghiệm trong dự án thực tế
mình học master học các môn "học máy cơ bản","xử lý ảnh","xử lý ngôn ngữ tự nhiên", hiểu được cơ chế của các thuật toán học máy, chưa có nhiều kinh nghiệm trong dự án thực tế
Bác có background 5 năm backend mà. Lại thích toán và có master rồi thì ngon quá còn gì. Bác có thể nhảy qua AI Engineer trước. Lên linkedin mình chắc chắn sẽ có job ngay. Không cần kinh nghiệm thực chiến mảng đó đâu.
Team mình đang xài DL để làm segmentation (localization) tức là tìm điểm ảnh nào thuộc class nào mà IOU nó cứ trầy trật 50%. Vấn đề là ít sample quá, thay đổi trong môi trường quá nhiều: ánh sáng, góc độ,.. label thì mệt bở hơi tai. Đã xài augmentation tè le rồi vẫn không lên mấy, mấy thím có tuyệt kỹ gì không?
Team mình đang xài DL để làm segmentation (localization) tức là tìm điểm ảnh nào thuộc class nào mà IOU nó cứ trầy trật 50%. Vấn đề là ít sample quá, thay đổi trong môi trường quá nhiều: ánh sáng, góc độ,.. label thì mệt bở hơi tai. Đã xài augmentation tè le rồi vẫn không lên mấy, mấy thím có tuyệt kỹ gì không?
Mỗi bài một đặc thì bảo tuyệt kỹ thì khó vì có thể khác chế phái này nhưng không hiệu quả với phái khác. Còn vấn đề về nhiễu, sáng góc độ thì có thể có một số giải pháp: xoay ảnh, cắt ảnh, lật ảnh, thêm nhiễu cân bằng sáng v.v... sẽ giúp có thêm dữ liệu và phân bố đều dữ liệu tăng kích thươc lô để chánh khớp và cuối cùng là tìm thêm dữ liệu.
P/S Các bài này thường có kiểu dùng mạng tách đặc trưng có sẵn thím thử xem.
Mỗi bài một đặc thì bảo tuyệt kỹ thì khó vì có thể khác chế phái này nhưng không hiệu quả với phái khác. Còn vấn đề về nhiễu, sáng góc độ thì có thể có một số giải pháp: xoay ảnh, cắt ảnh, lật ảnh, thêm nhiễu cân bằng sáng v.v... sẽ giúp có thêm dữ liệu và phân bố đều dữ liệu tăng kích thươc lô để chánh khớp và cuối cùng là tìm thêm dữ liệu.
P/S Các bài này thường có kiểu dùng mạng tách đặc trưng có sẵn thím thử xem.
Là các mạng tích chập đã huấn luyện sẵn. Vì đặc trưng ảnh được chích xuất đều dựa trên đường màu sắc nên có kiểu lấy một mạng phân loại anh (thường là mạng phân loại 1000 lớp) sau đó huấn luyện lại nguyên phần kết nối đầy đủ ở cuối theo số lớp của mình sẽ được kết quá tương đối tốt (vector đặc trưng 1000 chiều là đủ) sau đó huấn luyện lại một lần nữa toàn mạng để tối ưu tiếp.
Là các mạng tích chập đã huấn luyện sẵn. Vì đặc trưng ảnh được chích xuất đều dựa trên đường màu sắc nên có kiểu lấy một mạng phân loại anh (thường là mạng phân loại 1000 lớp) sau đó huấn luyện lại nguyên phần kết nối đầy đủ ở cuối theo số lớp của mình sẽ được kết quá tương đối tốt (vector đặc trưng 1000 chiều là đủ) sau đó huấn luyện lại một lần nữa toàn mạng để tối ưu tiếp.
Thím làm cái gì thế nếu không ngạu bảo mật chia sẻ anh em/chị em cùng thảo luận như huấn luyện mạng luôn học hỏi.
Machine vision thím à, kiểm tra sản phẩm nó hỏng hóc chỗ nào. Mà vì mẫu bị hư không thể nhiều nên training set không bao nhiêu, augmentation rồi vẫn chưa đủ.
TK_Ngu
Dữ liệu chụp là ảnh sản phẩm à ? Trắng đen hay mầu, có theo khuôn mẫu nào không ? (kiểu mạch điện tử ý) làm product hay thuê ngoài.
trunglq
Mình cũng đang làm 1 project tương tự, có 11 classes, data thì vừa ít vừa imbalance, xong rồi chụp linh tinh, thì mình tách ra mỗi model chỉ detect 1 class sau đó transfer. Bên thuê mình cũng vật vã ko xong nên mới đi outsource ra ngoài, giờ lên 75% rồi
Team mình đang xài DL để làm segmentation (localization) tức là tìm điểm ảnh nào thuộc class nào mà IOU nó cứ trầy trật 50%. Vấn đề là ít sample quá, thay đổi trong môi trường quá nhiều: ánh sáng, góc độ,.. label thì mệt bở hơi tai. Đã xài augmentation tè le rồi vẫn không lên mấy, mấy thím có tuyệt kỹ gì không?
Mình không chắc cách này có thể giúp được gì không vì mình cũng không làm nhiều về segmentation. Nếu vấn đề nằm ở ánh sáng thì cần augment cả training time và testing time. Đầu tiên có thể thử bằng gamma correction cho đơn giản, sau đó nếu không ổn thì chuyển sang dùng unpaired GAN để chuyển đổi giữa các domain ánh sáng khác nhau. Từ đó 1 ảnh có thể sinh ra nhiều ảnh khác mới mức độ ánh sáng khác nhau. Nhược điểm của phương pháp này là cần collect khá nhiều data từ nhiều điều kiện ánh sáng. Vấn đề domain sensitive cũng có thể giải quyết bằng cách cố gắng học ra invariant features, tuy nhiên mảng nghiên cứu này còn khá mới. Còn khá nhiều phương pháp dựa vào hướng tiếp cận domain adaptation và domain generalization. Tuy nhiên nó cần khá nhiều thời gian để thử nghiệm, nếu project của bạn cho phép chạy long term thì có thể nghiên cứu về nó.
Về khía cạnh tăng thêm dữ liệu, có một số phương pháp fancy để bạn tìm ra chiến lược gán nhãn tối ưu hơn, nghĩa là gán nhãn ít nhất mà đem lại hiệu quả cao nhất.
Còn cách đơn giản nhất bạn có thể thử là dùng multi-task learning để train model. Ngoài task chính là segmentation, bạn train thêm 1 task nữa để model reconstruct lại ảnh ban đầu (VAE chẳng hạn). Cách này có thể khiến cho model generalize tốt hơn. Ngoài ra không biết bạn đã thử phương pháp augmentation giống Quốc Lê trong paper Unsupervised data augmentation for consistency learning chưa?
Team mình đang xài DL để làm segmentation (localization) tức là tìm điểm ảnh nào thuộc class nào mà IOU nó cứ trầy trật 50%. Vấn đề là ít sample quá, thay đổi trong môi trường quá nhiều: ánh sáng, góc độ,.. label thì mệt bở hơi tai. Đã xài augmentation tè le rồi vẫn không lên mấy, mấy thím có tuyệt kỹ gì không?
Bản chất cụm điểm ảnh sẽ tạo nên 1 region. Định nghĩa IOU là diện tích vùng giao của prediction và ground truth chia cho diện tích của union hai vùng này. Gọi là classify từng pixel, nhưng sau đó khả năng sẽ phải chạy một giải thuật post-processing gì đó (connected components hoặc dựa trên nearest neighbor chẳng hạn) để group các cụm pixel lại. Hoặc có thể dùng một giải thuật nào đó để làm smooth từ bước sinh ra probability map cho từng pixel (ví dụ CRF) vì các pixels gần nhau không independent với nhau
Nếu bạn thể hiện được bạn đủ ngon trong CV thì vẫn có cơ hội.
Data cũng có mảng Data Analystic. Thường sẽ tuyển các bạn có background kinh tế hoặc background về domain của data đó.
Còn thông thường lọc CV tất nhiên sẽ loại các bạn tay ngang rồi. 4,5 năm đại học không phải chỉ có chơi bời
Các lớp học được tổ chức giảng dạy vào buổi tối trong tuần, thứ bảy và chủ nhật.
namcungkiem
Mình làm Automotive, đang nghiên cứu về Autonomous Driving với Lidar/Radar/Camera thì thấy đụng về ML/Computer Vision khá nhiều. AE nào biết course nào ổn giới thiệu với. Đã tham khảo mấy course của Coursera và Udacity những thấy giá khá chát nên đang tính kiếm tư liệu tự học.
Mình làm Automotive, đang nghiên cứu về Autonomous Driving với Lidar/Radar/Camera thì thấy đụng về ML/Computer Vision khá nhiều. AE nào biết course nào ổn giới thiệu với. Đã tham khảo mấy course của Coursera và Udacity những thấy giá khá chát nên đang tính kiếm tư liệu tự học.
Mình làm Automotive, đang nghiên cứu về Autonomous Driving với Lidar/Radar/Camera thì thấy đụng về ML/Computer Vision khá nhiều. AE nào biết course nào ổn giới thiệu với. Đã tham khảo mấy course của Coursera và Udacity những thấy giá khá chát nên đang tính kiếm tư liệu tự học.
Course của Coursera bác có thể audit sau đó tìm các bài tập trên github ấy
Vậy thì học, làm việc với file data lớn cỡ vài triệu dòng thì nên biết SQL. Vấn đề của thím tôi chỉ cần viết 1 câu SQL update 1 phát rồi export ra Excel lại là xong. Mình chỉ lợi dụng Database để xử lý thôi, xong rồi vẫn xuất ra Excel làm data source mà. Còn xử lý data trên Excel hay Python thì thời gian mở, load file, vlookup, filter, update các kiểu mất cả tiếng.
Nửa đêm mất ngủ lượn thấy topic. Hỏi hơi off topic xíu mong thím rảnh chỉ giúp.
- Học Python thì nên bắt đầu từ đâu? Mình học chủ yếu mục đích xử lý excel. Tại mình cũng k biết gì nhiều excel, toàn nv làm
Rảnh quá nên muốn học, mục tiêu cuối cùng là xử lý data bên mình tốt hơn.
Ngày xưa mình code vi điều khiển(C++), mà 6-7 năm rồi, giờ thuần kinh doanh k đụng. Tiếng Anh ổn, tư duy ổn
Nửa đêm mất ngủ lượn thấy topic. Hỏi hơi off topic xíu mong thím rảnh chỉ giúp.
- Học Python thì nên bắt đầu từ đâu? Mình học chủ yếu mục đích xử lý excel. Tại mình cũng k biết gì nhiều excel, toàn nv làm
Rảnh quá nên muốn học, mục tiêu cuối cùng là xử lý data bên mình tốt hơn.
Ngày xưa mình code vi điều khiển(C++), mà 6-7 năm rồi, giờ thuần kinh doanh k đụng. Tiếng Anh ổn, tư duy ổn
1. Nếu excel vân dùng được thì cứ dùng excel. Py hay SQL nên dùng khi dữ liệu lớn hơn. Mình vẫn thường khuyên các bạn nên thuần thục excel trước khi học cái khác.
2. Học py thì có thể theo cái learning path này để học. Có tiền thì học thẳng bọn này luôn.
https://www.datacamp.com/tracks/data-analyst-with-python
1. Nếu excel vân dùng được thì cứ dùng excel. Py hay SQL nên dùng khi dữ liệu lớn hơn. Mình vẫn thường khuyên các bạn nên thuần thục excel trước khi học cái khác.
2. Học py thì có thể theo cái learning path này để học. Có tiền thì học thẳng bọn này luôn.
https://www.datacamp.com/tracks/data-analyst-with-python
Các bạn Ấn vào khen nhiều lắm, cũng có góp ý này nọ nữa. Mình đọc sơ thấy cũng dễ hiểu. Đang định sẽ nghiên cứu sâu hơn vào cái DE này sau khi xong chương trình về Data Analytics.
timo
Sẵn đây làm review nhỏ về DataQuest mà mình đang học cho ai đang muốn tò mò chuyển sang học Data Science.
Mình học trên Data Quest, gói thành viên có giá cao hơn Data Camp (49/tháng vs 29). Hai trang web này thường xuyên có sale gói 1 năm khoảng $300. Có thể chọn học free Chapter đầu tiên của mỗi module để thử xem có phù hợp hay không trước khi mua gói thành viên.
Cả Data Quest và DataCamp đều có rất nhiều bài học, trải dài từ R, Python, SQL...
Data Camp: -
Điểm mạnh:
++Các môn học rất nhiều và đa dạng, nhất là R, SQL. Có video hướng dẫn.
++Được các công ty bên Mỹ sử dụng để training nhân viên.
++Có hệ thống bài tập Practice đa dạng.
-
Điểm yếu:
++Code thực hành được điền sẵn, mình chỉ điền vào chỗ trống hoặc rê chuột kéo. Cách học này tạo cảm giác dễ dàng, nhưng rất mau quên. Vì học code phải gõ đi gõ lại nhiều mới nhớ lâu.
Data Quest: -
Điểm mạnh:
++Phần thực hành mình phải tự gõ lại code theo hướng dẫn. Cách học này giúp nhớ rất lâu và tư duy tốt hơn.
-
Điểm yếu:
++Không có video, phải tự đọc lý thuyết và thực hành.
++Bài tập Practice chưa nhiều.
++Chỉ mạnh duy nhất về Python. Các môn học về R và SQL rất thiếu thốn so với DataCamp.
++Server chậm. Mỗi khi nhập kết quả vào phải chờ mấy chục giây, thậm chí cả phút để server check kết quả.
++Bị phát hiện dạy Python cũ, trong khi bản mới là 3.8, và họ có hứa sẽ cập nhật.
Tuy nhiên, sau khi dùng thử và cân nhắc, mình quyết định chọn học trên Data Quest cho path Data Science with Python vì các lý do sau:
Các môn học theo path này được xây dựng rõ ràng từng bước, giúp mình biết cách xử lý, phân tích dữ liệu thế nào.
Có kết hợp ôn lại Calculus, Linear Algebra, Statistic cơ bản, đủ dùng cho Machine Learning. Data Camp cũng có dạy về các kiến thức này nhưng trong series chuyên sâu về R, còn học beginner thì không có.
Phần lý thuyết mặc dù phải tự đọc nhưng có gif minh họa thao tác, nội dung được chia nhỏ ra từng mục nên dễ đọc.
Hướng dẫn cài Jupyter, thực hành trên Jupyter online và có thể làm tại máy để quen cách làm việc thực tế.
Dạy cách làm project từ data thô trên Kaggle để sau này tham gia các challenge trên Kaggle.
Nói chung là mình từ một người mù hoàn toàn về data nhưng học thử trên Data Quest thì thấy tự tin hơn hẳn, và biết cần làm gì nếu được giao một project về data.
Tuy nhiên, các trang web này đều chỉ dạy cái cơ bản, không có chuyên sâu.
Nếu ai muốn học free thì có thể lên Coursera, có rất nhiều Certification về Data Analyst, Data Science, Data Engineer của các công ty lớn như IBM, Google...
Các Professional Certificate này liệt kê môn học theo thứ tự giúp mình không phải đau đầu chọn môn nào trước, môn nào sau.
Để học free, thì chỉ cần chọn Audit môn đó là có thể học free, nhưng không thể nộp bài, chấm điểm để tự đánh giá trình độ. Ngoài ra, do xem video rồi tự thực hành lại nên khó khăn hơn là học trên các web có công cụ chấm điểm thực hành tự động như DataCamp, Data Quest hay Code Academy.
Nửa đêm mất ngủ lượn thấy topic. Hỏi hơi off topic xíu mong thím rảnh chỉ giúp.
- Học Python thì nên bắt đầu từ đâu? Mình học chủ yếu mục đích xử lý excel. Tại mình cũng k biết gì nhiều excel, toàn nv làm
Rảnh quá nên muốn học, mục tiêu cuối cùng là xử lý data bên mình tốt hơn.
Ngày xưa mình code vi điều khiển(C++), mà 6-7 năm rồi, giờ thuần kinh doanh k đụng. Tiếng Anh ổn, tư duy ổn
Trong cái certificate về Data Analyst của IBM trên Coursera ở link dưới, bạn sẽ thấy hai môn:
Excel Basics for Data Analysis
Data Visualization and Dashboards with Excel and Cognos
giúp học những kiến thức cơ bản về Excel nhưng chuyên dùng cho Data thôi, nên tiết kiệm thời gian vì học đúng trọng tâm mình cần. Nhớ chọn chữ Audit bé xíu khi đăng ký hai môn này để học free.
Bài giảng có thể có phụ đề tiếng Việt.
Trong cái certificate về Data Analyst của IBM trên Coursera ở link dưới, bạn sẽ thấy hai môn:
Excel Basics for Data Analysis
Data Visualization and Dashboards with Excel and Cognos
giúp học những kiến thức cơ bản về Excel nhưng chuyên dùng cho Data thôi, nên tiết kiệm thời gian vì học đúng trọng tâm mình cần. Nhớ chọn chữ Audit bé xíu khi đăng ký hai môn này để học free.
Bài giảng có thể có phụ đề tiếng Việt.
Lên
Mình làm phân tích, mà đang tìm hiểu lộ trình học để lấn sang Data science - với business requirement là bài toán recommendation (expect near/realtime
)
Sẵn đây làm review nhỏ về DataQuest mà mình đang học cho ai đang muốn tò mò chuyển sang học Data Science.
Mình học trên Data Quest, gói thành viên có giá cao hơn Data Camp (49/tháng vs 29). Hai trang web này thường xuyên có sale gói 1 năm khoảng $300. Có thể chọn học free Chapter đầu tiên của mỗi module để thử xem có phù hợp hay không trước khi mua gói thành viên.
Cả Data Quest và DataCamp đều có rất nhiều bài học, trải dài từ R, Python, SQL...
Data Camp: -
Điểm mạnh:
++Các môn học rất nhiều và đa dạng, nhất là R, SQL. Có video hướng dẫn.
++Được các công ty bên Mỹ sử dụng để training nhân viên.
++Có hệ thống bài tập Practice đa dạng.
-
Điểm yếu:
++Code thực hành được điền sẵn, mình chỉ điền vào chỗ trống hoặc rê chuột kéo. Cách học này tạo cảm giác dễ dàng, nhưng rất mau quên. Vì học code phải gõ đi gõ lại nhiều mới nhớ lâu.
Data Quest: -
Điểm mạnh:
++Phần thực hành mình phải tự gõ lại code theo hướng dẫn. Cách học này giúp nhớ rất lâu và tư duy tốt hơn.
-
Điểm yếu:
++Không có video, phải tự đọc lý thuyết và thực hành.
++Bài tập Practice chưa nhiều.
++Chỉ mạnh duy nhất về Python. Các môn học về R và SQL rất thiếu thốn so với DataCamp.
++Server chậm. Mỗi khi nhập kết quả vào phải chờ mấy chục giây, thậm chí cả phút để server check kết quả.
++Bị phát hiện dạy Python cũ, trong khi bản mới là 3.8, và họ có hứa sẽ cập nhật.
Tuy nhiên, sau khi dùng thử và cân nhắc, mình quyết định chọn học trên Data Quest cho path Data Science with Python vì các lý do sau:
Các môn học theo path này được xây dựng rõ ràng từng bước, giúp mình biết cách xử lý, phân tích dữ liệu thế nào.
Có kết hợp ôn lại Calculus, Linear Algebra, Statistic cơ bản, đủ dùng cho Machine Learning. Data Camp cũng có dạy về các kiến thức này nhưng trong series chuyên sâu về R, còn học beginner thì không có.
Phần lý thuyết mặc dù phải tự đọc nhưng có gif minh họa thao tác, nội dung được chia nhỏ ra từng mục nên dễ đọc.
Hướng dẫn cài Jupyter, thực hành trên Jupyter online và có thể làm tại máy để quen cách làm việc thực tế.
Dạy cách làm project từ data thô trên Kaggle để sau này tham gia các challenge trên Kaggle.
Nói chung là mình từ một người mù hoàn toàn về data nhưng học thử trên Data Quest thì thấy tự tin hơn hẳn, và biết cần làm gì nếu được giao một project về data.
Tuy nhiên, các trang web này đều chỉ dạy cái cơ bản, không có chuyên sâu.
Nếu ai muốn học free thì có thể lên Coursera, có rất nhiều Certification về Data Analyst, Data Science, Data Engineer của các công ty lớn như IBM, Google...
Các Professional Certificate này liệt kê môn học theo thứ tự giúp mình không phải đau đầu chọn môn nào trước, môn nào sau.
Để học free, thì chỉ cần chọn Audit môn đó là có thể học free, nhưng không thể nộp bài, chấm điểm để tự đánh giá trình độ. Ngoài ra, do xem video rồi tự thực hành lại nên khó khăn hơn là học trên các web có công cụ chấm điểm thực hành tự động như DataCamp, Data Quest hay Code Academy.
Mình thì chọn datacamp để học R.
SQL thì trước ôn tập lại bên learnsql.com
Nhìn chung thì theo mình nhận xét các course này học hết cũng chỉ dừng được ở mức fresher, tạm đủ để bắt đầu đi xin việc.
So với các khoá học ở VN (offline) thì có rẻ hơn và chất lượng hơn chút.
Mình đã học xong mấy khóa ML, DL và math trên coursera do đợt này công việc đang khá rảnh. Đang tính học thêm khóa full stack deep learning, có vẻ định hướng khóa khá giống khóa của Huyền chip ở trên nhưng có public video dạy, có bác nào học cùng không ?
Định hướng thì mình đổi ngành từ business sang, cũng chỉ thích làm mấy bài mining model liên quan đến business. Đợt trước mình có làm NLP mà thấy chán quá k hợp, cũng k thực sự có hứng thú đi sâu. Mình thích đi sâu mấy bài kiểu forecast, recommendation, customer segmentation... Bản thân mình đi phỏng vấn và nói chuyện với một vài lead DS thì thấy hiện tại có 2 hướng tiếp cận, và người theo mỗi hướng có vẻ sẽ đánh giá ứng viên theo những tiêu chí khác nhau:
Kiểu phỏng vấn hỏi rất sâu đến thuật toán, luôn quan tâm xem ứng viên đã từng sử dụng thuật toán gì, có làm deep learning không, xác định DS sẽ tiếp cận yêu cầu qua DA, ngồi chỉ build model và tuning này nọ.
Kiểu quan tâm đến critical thinking, cách tiếp cận bài toán, define bài toán, hiểu rõ model dùng để làm gì, xây dựng solution hoàn chỉnh. Không quá hype về Deep learning, hỏi về basic math, rồi use case nhiều hơn.
Cá nhân mình thì ngày trước do dự án đầu tiên mình làm ở vị trí end-user thì khá là fail, không dùng được, dù model đc build bởi những ng khá giỏi về chuyên môn nhưng thiếu domain knowledge, nên cảm thấy hướng 1 nó sai sai. Nhưng người ở hướng 2 mình gặp thì hơi quá extreme, kiểu ứng viên nào nhắc tới deep learning này nọ thì rất bài trừ
))) Mình thì dù thấy nhiều bài hiện tại deep learning còn chưa quá vượt trội nhưng tương lai thì mình nghĩ deep learning sẽ win hết statistical model và ML model. Mọi người nghĩ sao về vấn đề này? (tất nhiên mình đang nói các bài toán thiên về đến business, k nói về những mảng quá đặc thù như NLP hay computer vision)
Các bạn Ấn vào khen nhiều lắm, cũng có góp ý này nọ nữa. Mình đọc sơ thấy cũng dễ hiểu. Đang định sẽ nghiên cứu sâu hơn vào cái DE này sau khi xong chương trình về Data Analytics.
Mình đã học xong mấy khóa ML, DL và math trên coursera do đợt này công việc đang khá rảnh. Đang tính học thêm khóa full stack deep learning, có vẻ định hướng khóa khá giống khóa của Huyền chip ở trên nhưng có public video dạy, có bác nào học cùng không ?
Định hướng thì mình đổi ngành từ business sang, cũng chỉ thích làm mấy bài mining model liên quan đến business. Đợt trước mình có làm NLP mà thấy chán quá k hợp, cũng k thực sự có hứng thú đi sâu. Mình thích đi sâu mấy bài kiểu forecast, recommendation, customer segmentation... Bản thân mình đi phỏng vấn và nói chuyện với một vài lead DS thì thấy hiện tại có 2 hướng tiếp cận, và người theo mỗi hướng có vẻ sẽ đánh giá ứng viên theo những tiêu chí khác nhau:
Kiểu phỏng vấn hỏi rất sâu đến thuật toán, luôn quan tâm xem ứng viên đã từng sử dụng thuật toán gì, có làm deep learning không, xác định DS sẽ tiếp cận yêu cầu qua DA, ngồi chỉ build model và tuning này nọ.
Kiểu quan tâm đến critical thinking, cách tiếp cận bài toán, define bài toán, hiểu rõ model dùng để làm gì, xây dựng solution hoàn chỉnh. Không quá hype về Deep learning, hỏi về basic math, rồi use case nhiều hơn.
Cá nhân mình thì ngày trước do dự án đầu tiên mình làm ở vị trí end-user thì khá là fail, không dùng được, dù model đc build bởi những ng khá giỏi về chuyên môn nhưng thiếu domain knowledge, nên cảm thấy hướng 1 nó sai sai. Nhưng người ở hướng 2 mình gặp thì hơi quá extreme, kiểu ứng viên nào nhắc tới deep learning này nọ thì rất bài trừ
))) Mình thì dù thấy nhiều bài hiện tại deep learning còn chưa quá vượt trội nhưng tương lai thì mình nghĩ deep learning sẽ win hết statistical model và ML model. Mọi người nghĩ sao về vấn đề này? (tất nhiên mình đang nói các bài toán thiên về đến business, k nói về những mảng quá đặc thù như NLP hay computer vision)
Kiểu 1 là pv cho researcher, kiểu 2 là engineer, bây giờ chuộng kiểu 2 hơn
Gần như là chỉ cần thế thôi mà, hiếm khi phải làm một cái gì đó hoàn toàn mới.
Vì nếu phải làm thì công ty ở VN cũng ko sẵn sàng chi tiền cho làm.
Nay vào lại github có cái code mạng plain CNN bằng numpy hồi mới học, thấy hồi đó code còn clean hơn giờ nữa
kenkencon
Mình k nói đến khía cạnh làm cái gì mới, ý mình là cái mindset DS ngồi làm một mình k cần tiếp xúc end-user hay ng có domain knowledge ấy. Kiểu như làm customer segmentation để chạy mkt nhưng k cần hiểu về mkt hay hiện tại người trong cty đang làm ntn
Mình k nói đến khía cạnh làm cái gì mới, ý mình là cái mindset DS ngồi làm một mình k cần tiếp xúc end-user hay ng có domain knowledge ấy. Kiểu như làm customer segmentation để chạy mkt nhưng k cần hiểu về mkt hay hiện tại người trong cty đang làm ntn
Cái đó thì ko nên, vì làm gì lq đến "dữ liệu" thì cũng cần phải biết rõ cái dữ liệu đó như nào, khách hàng muốn nó ra sao. Cái cố định chỉ là hiệu quả kinh tế, khi mình biết người phối hợp mình hoạt động như nào thì có thể điều chỉnh đầu ra của mình phối hợp với các bước của họ nhuần nhuyễn nhất
Topic này lập ra để thảo luận các vấn đề về
Data Analysis, Machine Learning, Deep Learning, AI. Mặc dù biết mấy cái này lên Kaggle, Medium, Reddit… người ta bàn nát rồi nhưng cảm giác chém nhau, vật nhau ở Voz nó vui hơn, coi như là chổ để Vozer làm về mấy cái này hay ai có quan tâm, tò mò về nó "giao thông" (giao lưu), dood deed nhau nhé.
Cách hoạt động sẽ là thế này. Mọi người cứ việc đặt câu hỏi, nêu vấn đề, ai biết thì trả lời. Vấn đề nào thú vị, hấp dẫn sẽ lôi ra vật nhau, vật chán thì qua vấn đề khác. Đặc biệt, tất cả levels đều khuyến khích tham gia nên đừng ngại đặt câu hỏi từ đơn giản như
"Machine Learning là cái quái gì? Nó có ăn được không? Sao dạo này hot thế?". Tới các câu hỏi chuyên về các giải thuật phức tạp hay competitions trên Kaggle.
Tạm thời đặt gạch trước, để xem có ai quan tâm không.
job cho các hướng này có yêu cầu tốt nghiệp CNTT mới làm đc ko b,mình định tìm hiểu lấn sân
Gửi từ Sony G8142 bằng vozFApp
timo
Mới xem được video khá hay cập nhật về tình hình việc làm của Data Scientist ở Mỹ. Năm 2020, số việc làm của DS không tăng, trong khi số người apply nhiều, dẫn đến việc DS từ hạng 1 rớt xuống hạng 3 trong Top những công việc tốt nhất ở Mỹ. Clip này còn liệt kê ngôn ngữ lập trình được tuyển nhiều nhất, kỹ năng được yêu cầu nhiều nhất, bang có nhiều job nhất... Mình có đối chiếu các yêu cầu này với thông báo tuyển dụng của các công ty lớn thì thấy khá trùng khớp.
Cho nên video này theo mình là rất hữu ích cho ai muốn tìm hiểu về DS, không biết phải học cái gì để đáp ứng yêu cầu tuyển dụng.
Bổ sung thêm báo cáo những công việc được tuyển nhiều trong 2020 của LinkedIn ở Mỹ, đọc báo cáo này khá thú vị vì liệt kê đúng những ngành hot nhất bây giờ ở Mỹ, những kỹ năng được yêu cầu nhiều nhất, những bang tuyển nhiều nhất.
Mình đã học xong mấy khóa ML, DL và math trên coursera do đợt này công việc đang khá rảnh. Đang tính học thêm khóa full stack deep learning, có vẻ định hướng khóa khá giống khóa của Huyền chip ở trên nhưng có public video dạy, có bác nào học cùng không ?
Định hướng thì mình đổi ngành từ business sang, cũng chỉ thích làm mấy bài mining model liên quan đến business. Đợt trước mình có làm NLP mà thấy chán quá k hợp, cũng k thực sự có hứng thú đi sâu. Mình thích đi sâu mấy bài kiểu forecast, recommendation, customer segmentation... Bản thân mình đi phỏng vấn và nói chuyện với một vài lead DS thì thấy hiện tại có 2 hướng tiếp cận, và người theo mỗi hướng có vẻ sẽ đánh giá ứng viên theo những tiêu chí khác nhau:
Kiểu phỏng vấn hỏi rất sâu đến thuật toán, luôn quan tâm xem ứng viên đã từng sử dụng thuật toán gì, có làm deep learning không, xác định DS sẽ tiếp cận yêu cầu qua DA, ngồi chỉ build model và tuning này nọ.
Kiểu quan tâm đến critical thinking, cách tiếp cận bài toán, define bài toán, hiểu rõ model dùng để làm gì, xây dựng solution hoàn chỉnh. Không quá hype về Deep learning, hỏi về basic math, rồi use case nhiều hơn.
Cá nhân mình thì ngày trước do dự án đầu tiên mình làm ở vị trí end-user thì khá là fail, không dùng được, dù model đc build bởi những ng khá giỏi về chuyên môn nhưng thiếu domain knowledge, nên cảm thấy hướng 1 nó sai sai. Nhưng người ở hướng 2 mình gặp thì hơi quá extreme, kiểu ứng viên nào nhắc tới deep learning này nọ thì rất bài trừ
))) Mình thì dù thấy nhiều bài hiện tại deep learning còn chưa quá vượt trội nhưng tương lai thì mình nghĩ deep learning sẽ win hết statistical model và ML model. Mọi người nghĩ sao về vấn đề này? (tất nhiên mình đang nói các bài toán thiên về đến business, k nói về những mảng quá đặc thù như NLP hay computer vision)
Thím giống mình, cũng không có hứng thú với NLP mà thích về forecast và recommendation hơn.
Nếu ở HN thì cafe không thím eii ^^
Thím giống mình, cũng không có hứng thú với NLP mà thích về forecast và recommendation hơn.
Nếu ở HN thì cafe không thím eii ^^
Hóng vì cũng quan tâm
Em đang học Python để nhảy sang DA mà khóa Python trên Coursera dạy nhanh quá, thấm không kịp luôn
linklink
Có bác nào có account edu không cho/bán mình 1 cái để đăng ký power BI service với. cái này nó đòi mail work hoặc school.
timo
5 trang Machine Learning Cheatsheet tổng hợp các thuật toán phổ biến. Vào link này xem rồi down về để làm sổ tay nghiên cứu cũng rất hay. Mình chưa học đến mấy cái này nhưng cũng tải về ngâm trước.
Tuy nhiên, theo group datascience trên reddit thì nguyên nhân chính là vì trước đây cái tên data scientist bị gán cho hết tất cả job data. Sau này có sự phân hóa rõ ràng hơn về từng chức danh và nhiệm vụ, và công ty nhận ra không cần phải trả lương quá cao cho một người chỉ làm data analyst nên bây giờ các job với chức danh data science giảm dần, và tăng dần các chức danh chuyên môn bên data hơn.
quannguyen75
Hi các bác, hiện em đang là sv năm 2, dự định hè này apply Resident bên VinAI, có bác nào có kinh nghiệm bên đây rồi có thể tư vấn cho em là phỏng vấn những gì và có yêu cầu phụ gì thêm không ạ, background của em thì em học CS ở UIT và theo hướng Computer Vision, điểm tb hiện tại thì đang là 8.7 ạ , em có tham gia vào các dự án với các thầy bên khoa từ năm nhất nên cơ bản là có xí kinh nghiệm
. Em xin cảm ơn ạ.
o0TarZan0o
đang hí hoáy ngồi gõ sql bất chợt nghe vang vọng từ xa dân tình đang thảo luận sôi sổi, nào là ML, AI ... tối về mở lại film ex-machina càng thấy phấn khích hơn & muốn mình trở thành anh chàng Oscar Issac, lên web down về ngay quyển AI để vọc ngay cho nóng, cơ mà đời ko như mơ, vừa lướt qua được đoạn Intro là thấy đầu óc choáng váng với vô số kí hiệu lạ lẫm như đang nhảy múa trêu ngươi mình ...
??? ...
Ước chi ngày tôi còn cắp sách đến trường, Doraemon xuất hiện nhắc tôi biết tương lai AI sẽ thịnh nên chú tâm vào học, ước gì tôi vẫn còn gặp lại thầy giáo năm xưa để có thể được ngây dại hỏi về những bài tập ... ước gì ... à mà thôi tôi gõ sql tiếp đây, khách hàng đang thúc đít
đang hí hoáy ngồi gõ sql bất chợt nghe vang vọng từ xa dân tình đang thảo luận sôi sổi, nào là ML, AI ... tối về mở lại film ex-machina càng thấy phấn khích hơn & muốn mình trở thành anh chàng Oscar Issac, lên web down về ngay quyển AI để vọc ngay cho nóng, cơ mà đời ko như mơ, vừa lướt qua được đoạn Intro là thấy đầu óc choáng váng với vô số kí hiệu lạ lẫm như đang nhảy múa trêu ngươi mình ...
Ước chi ngày tôi còn cắp sách đến trường, Doraemon xuất hiện nhắc tôi biết tương lai AI sẽ thịnh nên chú tâm vào học, ước gì tôi vẫn còn gặp lại thầy giáo năm xưa để có thể được ngây dại hỏi về những bài tập ... ước gì ... à mà thôi tôi gõ sql tiếp đây, khách hàng đang thúc đít
bác nói ra chữ tích phân em mới biết kí hiệu đó là gì đấy chứ
hồi GD đại cương cái gì mà chả học, nhưng mà dĩ vãng cmnr
a3.phantom.vn
Làm gì mà phải đùa nhau vậy, tích phân ở VN thì học cấp 3 là biết rồi
Mà làm sql hay bất kỳ cái gì ngoài AI cũng hay cả. AI nghe sang mồm thế thôi chứ expert về databases thì tiền xài sao cho hết
Làm gì mà phải đùa nhau vậy, tích phân ở VN thì học cấp 3 là biết rồi
Mà làm sql hay bất kỳ cái gì ngoài AI cũng hay cả. AI nghe sang mồm thế thôi chứ expert về databases thì tiền xài sao cho hết
em làm mấy thứ lăn tăn support khách thôi mà, kiểu như ngày hôm qua doanh thu nhiêu, được nhiêu khách ...
đang hí hoáy ngồi gõ sql bất chợt nghe vang vọng từ xa dân tình đang thảo luận sôi sổi, nào là ML, AI ... tối về mở lại film ex-machina càng thấy phấn khích hơn & muốn mình trở thành anh chàng Oscar Issac, lên web down về ngay quyển AI để vọc ngay cho nóng, cơ mà đời ko như mơ, vừa lướt qua được đoạn Intro là thấy đầu óc choáng váng với vô số kí hiệu lạ lẫm như đang nhảy múa trêu ngươi mình ...
Ước chi ngày tôi còn cắp sách đến trường, Doraemon xuất hiện nhắc tôi biết tương lai AI sẽ thịnh nên chú tâm vào học, ước gì tôi vẫn còn gặp lại thầy giáo năm xưa để có thể được ngây dại hỏi về những bài tập ... ước gì ... à mà thôi tôi gõ sql tiếp đây, khách hàng đang thúc đít
Bác đang làm SQL developer à? Mình cũng đang định đi theo hướng đó. Ngành SQL developer chỉ cần chuyên về SQL thôi hả bác? Có cần ngôn ngữ nào khác không? Công việc thường là viết database hay thế nào? Nhờ bác khai sáng giúp.
Bây giờ Data science yêu cầu cao quá, Data scientist thì cần Master, PhD; còn Data Analyst thì bây giờ cũng prefer Master rồi. Mấy người tuyển dụng còn nói là vừa đăng tuyển job là có 200 hồ sơ nộp ngay ngày đầu tiên, mà đa số là Master, nên Bachelor mà mới ra trường thì khó có cơ hội.(Đang nói ở Mỹ, các bạn ở VN đừng vội lo lắng.)
Các công ty bây giờ có công thức xây dựng team là 5 DE + 2 DA để tạo database phục vụ cho 1 DS. Nên mình tính chuyển qua DE với hi vọng nhiều việc và dễ vô hơn. Không biết SQL developer với Data engineering có gì giống nhau không? Nhưng thấy top 3 ngôn ngữ có SQL thì cũng muốn học vì mình thích làm việc với database.
Bác đang làm SQL developer à? Mình cũng đang định đi theo hướng đó. Ngành SQL developer chỉ cần chuyên về SQL thôi hả bác? Có cần ngôn ngữ nào khác không? Công việc thường là viết database hay thế nào? Nhờ bác khai sáng giúp.
Bây giờ Data science yêu cầu cao quá, Data scientist thì cần Master, PhD; còn Data Analyst thì bây giờ cũng prefer Master rồi. Mấy người tuyển dụng còn nói là vừa đăng tuyển job là có 200 hồ sơ nộp ngay ngày đầu tiên, mà đa số là Master, nên Bachelor mà mới ra trường thì khó có cơ hội.(Đang nói ở Mỹ, các bạn ở VN đừng vội lo lắng.)
Các công ty bây giờ có công thức xây dựng team là 5 DE + 2 DA để tạo database phục vụ cho 1 DS. Nên mình tính chuyển qua DE với hi vọng nhiều việc và dễ vô hơn. Không biết SQL developer với Data engineering có gì giống nhau không? Nhưng thấy top 3 ngôn ngữ có SQL thì cũng muốn học vì mình thích làm việc với database.
E là câu trả lời của em ko giúp ích được gì nhiều cho bác đâu, em bên mảng nhà hàng ks, db đúng là sql server thật, còn report dùng crystal, trước cũng hay đi triển khai mà giờ dịch giã tràn lan nên remote trường kỳ, bản thân phần mềm có sẵn bộ báo cáo mà mấy boss ít khi mó tới + lính mới tuyển về sau này nên thỉnh thoảng liên hệ nhờ mình lấy dữ liệu giùm (đôi lúc sửa lại xíu cho có con số hợp lý mấy cán bộ)
E là câu trả lời của em ko giúp ích được gì nhiều cho bác đâu, em bên mảng nhà hàng ks, db đúng là sql server thật, còn report dùng crystal, trước cũng hay đi triển khai mà giờ dịch giã tràn lan nên remote trường kỳ, bản thân phần mềm có sẵn bộ báo cáo mà mấy boss ít khi mó tới + lính mới tuyển về sau này nên thỉnh thoảng liên hệ nhờ mình lấy dữ liệu giùm (đôi lúc sửa lại xíu cho có con số hợp lý mấy cán bộ)
Cám ơn bác đã trả lời, thật sự thông tin của bác rất hữu ích.
Vì mình chưa hiểu rõ công việc SQL có gì khác với các job IT như software, data analyst, công cụ mà các công ty dùng là gì... Cho nên những gì bác chia sẻ cũng là những thông tin mình cần để biết cần học thêm cái gì sau này. Cám ơn bác nhé.
Lên
Mình làm phân tích, mà đang tìm hiểu lộ trình học để lấn sang Data science - với business requirement là bài toán recommendation (expect near/realtime
)
Bác đang làm SQL developer à? Mình cũng đang định đi theo hướng đó. Ngành SQL developer chỉ cần chuyên về SQL thôi hả bác? Có cần ngôn ngữ nào khác không? Công việc thường là viết database hay thế nào? Nhờ bác khai sáng giúp.
Bây giờ Data science yêu cầu cao quá, Data scientist thì cần Master, PhD; còn Data Analyst thì bây giờ cũng prefer Master rồi. Mấy người tuyển dụng còn nói là vừa đăng tuyển job là có 200 hồ sơ nộp ngay ngày đầu tiên, mà đa số là Master, nên Bachelor mà mới ra trường thì khó có cơ hội.(Đang nói ở Mỹ, các bạn ở VN đừng vội lo lắng.)
Các công ty bây giờ có công thức xây dựng team là 5 DE + 2 DA để tạo database phục vụ cho 1 DS. Nên mình tính chuyển qua DE với hi vọng nhiều việc và dễ vô hơn. Không biết SQL developer với Data engineering có gì giống nhau không? Nhưng thấy top 3 ngôn ngữ có SQL thì cũng muốn học vì mình thích làm việc với database.
DE nó là job title. SQL nó là tool / lang.
DE thường đi từ dev back-end lên. Tuỳ vào size của cty mà công việc của DE cũng khác nhau.
Cty to, có team data rồi thì công việc phần lớn là dựng hệ thống, dựng pipeline, móc nối data, modeling, .... hỗ trợ DA, DS
Cty chưa có team data thì thường phải làm tất cả mọi việc. Từ việc kiếm data, dựng hệ thống, làm report tới build model.
Còn ngôn ngữ thì SQL là cái bắt buộc phải biết khi làm DE. Tất nhiên là không cần tới level của DB Admin nhưng cũng phải tầm 50-60%.
Bác đang làm SQL developer à? Mình cũng đang định đi theo hướng đó. Ngành SQL developer chỉ cần chuyên về SQL thôi hả bác? Có cần ngôn ngữ nào khác không? Công việc thường là viết database hay thế nào? Nhờ bác khai sáng giúp.
Bây giờ Data science yêu cầu cao quá, Data scientist thì cần Master, PhD; còn Data Analyst thì bây giờ cũng prefer Master rồi. Mấy người tuyển dụng còn nói là vừa đăng tuyển job là có 200 hồ sơ nộp ngay ngày đầu tiên, mà đa số là Master, nên Bachelor mà mới ra trường thì khó có cơ hội.(Đang nói ở Mỹ, các bạn ở VN đừng vội lo lắng.)
Các công ty bây giờ có công thức xây dựng team là 5 DE + 2 DA để tạo database phục vụ cho 1 DS. Nên mình tính chuyển qua DE với hi vọng nhiều việc và dễ vô hơn. Không biết SQL developer với Data engineering có gì giống nhau không? Nhưng thấy top 3 ngôn ngữ có SQL thì cũng muốn học vì mình thích làm việc với database.
Mình đang làm SQL dev đây, trả lời câu hỏi giúp bác, thì cv hằng ngày của mình là viết, chỉnh sửa stored procedures. Nên bác chỉ cần nắm chắc T-SQL là làm ngon rồi, không cần biết ngôn ngữ khác, ( biết thì càng tốt để hiểu được cách nó làm việc với DB). Nói chung chung vậy chứ đụng vào thực tế có những SP rất phức tạp. Bác cần hỏi cụ thể thì ib e chia sẻ thêm
Mình đang làm SQL dev đây, trả lời câu hỏi giúp bác, thì cv hằng ngày của mình là viết, chỉnh sửa stored procedures. Nên bác chỉ cần nắm chắc T-SQL là làm ngon rồi, không cần biết ngôn ngữ khác, ( biết thì càng tốt để hiểu được cách nó làm việc với DB). Nói chung chung vậy chứ đụng vào thực tế có những SP rất phức tạp. Bác cần hỏi cụ thể thì ib e chia sẻ thêm
Bác làm bên nào ấy nhỉ? Em nghe job quen quen giống công việc của vợ em làm IT ngân hàng. Suốt ngày thấy ngồi mân mê mấy cái hệ thống report. Trước gạ hắn nhảy ra ngoài làm nhưng thực sự thấy hắn không đủ kinh nghiệm mà nhảy ra làm việc khác
Bác làm bên nào ấy nhỉ? Em nghe job quen quen giống công việc của vợ em làm IT ngân hàng. Suốt ngày thấy ngồi mân mê mấy cái hệ thống report. Trước gạ hắn nhảy ra ngoài làm nhưng thực sự thấy hắn không đủ kinh nghiệm mà nhảy ra làm việc khác
Chắc là khác job của vợ bác rồi, job vợ bác có thể là reporting, viết query sql để lấy data về làm report, còn bên e là viết code T-SQL để bên back end gọi stored connect với database
Không biết ở đây có ai làm về Deep Learning mà rành về deploy bằng C++ không, em từng cố tránh mà có vẻ không chạy dc rồi
Thật ra hiểu bản chất rồi thì deploy cũng không khó. DL model giống như một đồ thị, node là toán tử và dữ liệu thì stream trên cạnh. Để deploy một models thì có vài vấn đề sau:
Graph computing framework (GCF): cái này hầu hết các ông lớn đã support: tensorflow, tensorRT, openvino, onnx runtime... Tất cả mấy framework này đều là GCF, user chỉ cần define graph, còn execute thế nào framework sẽ lo hết. Tất nhiên phải hiểu rõ cái model của mình, vì sau khi tính toán xong thì framework nó cũng chỉ output ra một tensor thôi, interpret cái tensor ấy thế nào để ra kết quả thì dev phải hiểu rõ model của mình rồi tự làm.
Định nghĩa đồ thị: Cái này đôi khi khá đau đầu. Định dạng đồ thị của mỗi framework là khác nhau, nên cần chuyển đổi qua lại (e.g. train = tensorflow, deploy = onnx). Thật ra mỗi framework đều support tool chuyển đổi (nếu đào sâu thì tự viết cũng được - dùng các package python như networkx, graphsurgeon để modify đồ thị). Tuy nhiên, vấn đề đau đầu nhất là cái sau đây.
Support operators: ví dụ train = tensorflow, deploy = tensorrt, nhưng có những operator support trong tensorflow nhưng không support trong tensorrt. Lúc ấy chỉ còn cách tự viết cái operator ấy (các framework hầu hết đều có một operator interface để user extend và tự định nghĩa operator). Viết một operator trên CPU thì còn đỡ, chứ để viết operator cho GPU thì đắng lắm. Hồi tôi đi học được A+ môn GPU programming mà tới giờ cũng chưa viết được cái nào ra hồn.
Sơ sơ thì để deploy một model thì là vậy. Phần serving thật ra cũng không khó lắm. Nếu dùng http thì C++ có boost.beast có thể dùng để parse http message khá ok. Dùng grpc thì còn đơn giản hơn nữa. Định nghĩa message rồi gen stub cho cả server lẫn client, không cần lo gì đến định dạng message. Cái tôi thấy khó nhất là:
Làm sao tận dụng tốt hardware: muốn tận dụng hết hardware để tăng throughput thì phải tăng batch size, tăng batch size thì lại làm tăng latency --> schedule thế nào cho hợp lý.
Làm sao để quản lý được model đang deploy: làm sao để measure độ chính xác, nếu cần update model thì phải làm thế nào... --> đây là cái đau đầu nhất.
Kết: nếu không phải bắt buộc thì thôi khỏi làm, cứ tìm hiểu rồi dùng tfserving ,torch serve ... rồi về lắp vào hệ thống, cần gì đặc biệt thì thêm thắt vào. Nếu làm embedded DL thì chắc chắn sẽ có framework của hardware vendor, đọc kỹ rồi dùng. Không có framework nào hoàn hảo ở thời điểm này cả, nên chắc chắn sẽ có lỗi. DL mới nổi được khoảng chục năm, nên phải xác định sống chung với lũ thôi.
Vừa xem được cái series hướng dẫn của anh Ấn Độ cho ngành Data Engineering, anh này pass phỏng vấn của Amazon (6 vòng) và kinh nghiệm cũng nhiều, nếu phát âm khó nghe thì đọc phụ đề cũng được.
Đây là roadmap những kiến thức mà một data Engineering cần có. Xem xong mà hoảng quá. Để học đủ 13 mảng kiến thức này chắc mất hết 4 năm đại học. Mấy anh Ấn Độ cày bừa kinh thật.
Hai project cá nhân mà anh này làm và dùng để khoe trong 6 vòng phỏng vấn với Amazon. Project 1 là lập data về số ca nhiễm COVID và project 2 là thống kê các tweet về vaccine. Anh này có giải thích cách làm từng project, từ việc tải file trên GitHub, cho đến cài đặt và triển khai như thế nào. Cái này có ích cho ai không có ý tưởng và không biết thực hiện một project về data như thế nào.
Đây là video kể về 6 vòng phỏng vấn với Amazon, chỉ có vòng 5, 6 là hỏi về hành vi, không có liên quan đến kỹ thuật. Các vòng khác đều hỏi một câu kỹ thuật SQL và một câu giải thuật.
Sau khi đọc những cuốn textbook được recommend nhiều nhất trên reddit + thực sự tập trung và suy nghĩ khi học chứ không lướt như lần học đầu thì em đã bắt đầu "hiểu" toán, và hiểu được tại sao những bạn chuyên toán lại đam mê nó tới vậy
Thực ra thì trước giờ môn toán em không tệ, nhưng vì nhiều lí do nên thành ra hồi phổ thông học chuyên tiếng Anh. Kể ra cũng bù trừ cho nhau, nhờ vậy mà tiếp cận được tài liệu nước ngoài, mới thấy rằng môn toán thực sự rất cần những tài liệu hay và thầy cô giáo giỏi, không thì nhìn chỉ thấy công thức với ký hiệu thôi, không hiểu gì hết
Tính ra cũng khá trễ và bỏ phí vài năm qua nhưng giờ em đang học lại toán và quyết tâm theo đuổi con đường AI Research. Nếu sau này thành công thì nói không ngoa tháng vừa rồi chính điểm khởi đầu cho cuộc hành trình
P/s: Thật lòng thì phải cảm ơn trang tải sách lậu, nhờ vậy mà lâu nay em đọc được biết bao nhiêu thứ hay chứ không chỉ là sách toán. Biết tiếng Anh nó thực sự mở ra một thế giới mới theo đúng nghĩa luôn
Môn gì mới được chứ.
Mà bạn cứ google "best books to learn xxx reddit" là ra thôi. Xem cỡ chục trang kết quả rồi tổng hợp lại.
Ở VN thì pirate thoải mái nên cứ tải hết về rồi xem thử được, không phải đắn đo kĩ càng như là mua sách thật