Chào mọi người
Mình có dự án chatbot Nhã Đan cách đây 1 năm [Link] và mình tiếp tục theo đuổi đến giờ. Những phần đã nghiên cứu được:
- Xử lý Model người trên Unity3D, xử lý Animator, Lipsync - Model có thể biểu cảm giống người nhất.
- Speech to text và text to speech ngôn ngữ tiếng Việt - hiện tại bổ sung thêm giọng nam của Microsoft.
- Cảm biến Leapmotion theo dõi chuyển động tay có thể chạm vào Model và tương tác với UI.
- Nội dung cuộc nói chuyện mình dùng Api của Simsimi.
***
Giờ mình muốn tập trung vào phần cốt lõi của chatbot là xử lý ngôn ngữ tự nhiên NLP, mình muốn build một chatbot giống Simsimi, bước đầu tiên là xây dựng Data - trong 1 tháng mình cần 600.000 câu hội thoại.
Mình nhắm tới 2 nguồn là data FB messenger và data Yahoo. Data FB messenger liên quan đến dữ liệu cá nhân nên mình đang build một tool để mọi người có thể đóng góp. Sẽ offline vì liên quan đến dữ liệu nhạy cảm. Mọi người tự up dữ liệu vào và chọn ra những nội dung có thể chia sẽ sau đó gửi lại mình, mình sẽ viết lại nội dung từ dữ liệu đó.
***
Mọi người còn cách nào để thu thập data hoặc mua data help mình
[Link]: