Công nghệ biến chữ thành tiếng Việt của một nữ giảng viên ĐH Bách Khoa Hà Nội mang tới vô số lợi ích cho giới doanh nghiệp, chính quyền và người khuyết tật.

Tiến sĩ Nguyễn Thị Thu Trang là một giảng viên của trường Đại học Bách Khoa Hà Nội. Sau nhiều năm nghiên cứu cùng với ước mơ đóng góp cho cộng đồng, Trang tạo ra công nghệ tổng hợp tiếng nói - cho phép chuyển văn bản tiếng Việt thành giọng nói (Text-To-Speech).

Tiến sỹ Nguyễn Thị Thu Trang, giảng viên Đại học Bách Khoa Hà Nội.

Gặp hai người cùng chí hướng, cô giáo trẻ quyết định thành lập Công ty Cổ phần Dịch vụ và Giải pháp công nghệ VBee - với nền tảng công nghệ cốt lõi là Text to Speech.

Một trong hai nhà đồng sáng lập là anh Hồ Minh Đức - người đã dành hơn chục năm để kinh doanh trong lĩnh vực công nghệ. Người còn lại là thầy Nguyễn Thanh Hùng, trưởng Bộ môn Công nghệ phần mềm Đại học Bách Khoa Hà Nội.

Ra đời từ đầu năm 2018, hiện tại đội ngũ của VBee bao gồm 11 người. Ngoài ra công ty còn có nhiều cộng tác viên. Đa số họ là sinh viên ưu tú của Đại học Bách khoa Hà Nội.

Là bài toán lớn của nhân loại nhưng vẫn còn xa lạ ở Việt Nam

Text-To-Speech (TTS) là công nghệ xử lý văn bản thành giọng nói có bề dày lịch sử khoảng 50 năm. Công nghệ này đã phát triển gần như hoàn thiện ở nước ngoài, đặc biệt tại các nước sử dụng tiếng Anh. TTS được ứng dụng rộng rãi từ hệ thống tổng đài cho đến hệ thống phát thanh trên phương tiện công cộng và trong nhiều lĩnh vực khác như giải trí, đào tạo, khoa học. Các ứng dụng điển hình của TTS bao gồm đồ chơi có phát tiếng cho trẻ em; các công cụ hỗ trợ học ngoại ngữ; sản xuất game và hoạt hình, hệ thống hỏi đáp bằng tiếng nói, tìm kiếm bằng lời nói, đọc tin tức, email, điều hướng bằng tiếng.

Đặc biệt, công nghệ mang lại lợi ích lớn cho cộng đồng người khuyết tật như người khiếm thị, những người mất khả năng đọc, mất khả năng nói hoặc diễn đạt. Với công nghệ TTS, người khiếm thị có thể tiếp cận thông tin, sử dụng máy tính để khai thác kiến thức vô tận trên mạng.

Trong giai đoạn đầu, công nghệ Text to Speech bắt nguồn từ một bộ máy cồng kềnh phức tạp, mô phỏng quá trình tạo ra tiếng nói giống cơ chế phát âm của của con người Tuy nhiên, do độ phức tạp, chi phí cao mà chất lượng không tốt, nên nó chỉ "nằm" trong phòng nghiên cứu với mục đích thử nghiệm và chưa có tính ứng dụng trong đời sống.

Sau đó, phương pháp tổng hợp tần số formant, phương pháp sử dụng lý thuyết mô hình nguồn lọc để tạo tiếng nói ra đời. Phương pháp ấy mô phỏng hiện tượng cộng hưởng của các cơ quan phát âm bằng một tập các bộ lọc.

Tổng hợp ghép nối là một trong số các phương pháp tổng hợp tiếng nói mới phát triển, kết hợp các mẫu tiếng nói tự nhiên thu âm sẵn lại để tạo ra câu nói đầu ra. Người ta áp dụng phương pháp này trong hoạt động phát thanh tại các địa điểm công cộng như tàu điện ngầm, bệnh viện. Một số nhược điểm của phương pháp bao gồm sự gián đoạn tại các điểm ghép nối khiến âm thanh không liên tục, hạn chế về từ vựng có thể phát vì phụ thuộc vào cơ sở dữ liệu.

Ảnh minh hoạ.

Với những bước tiến vượt bậc, ngày nay Text to Speech sử dụng các công nghệ học máy, học sâu. Hai mô hình phổ biến hiện đang được sử dụng là mô hình tham số thống kê Markov ẩn (HMM) và mô hình deep learning. Với hai mô hình này, âm phát ra không phải là tiếng nói của con người mà là tiếng nói nhân tạo. Mẫu thu âm không cần quá lớn và bao phủ tất cả các từ được đưa vào mô hình huấn luyện để máy học và bắt chước giọng người từ các tham số âm học.

Là một bài toán lớn được giải quyết ở nhiều nước trên thế giới, tuy nhiên công nghệ TTS tại Việt Nam lại đang đi những bước đi đầu tiên vào việc giải quyết những vấn đề trong thực tế. Bởi những yếu tố địa phương của Tiếng Việt, bài toán công nghệ chuyển văn bản thành tiếng nói vẫn gặp phải nhiều vấn đề.

Bước ra khỏi phòng nghiên cứu, Text to speech vào cuộc sống

Công nghệ này mang lại nhiều giá trị thực tiễn, ứng dụng trong hệ thống tổng đài chăm sóc khách hàng, tổng đài nhắc nợ, hay các hệ thống phát thanh trong các lĩnh vực công cộng như giao thông, y tế.

Theo đó, TTS có thể hỗ trợ một phần công việc "tay chân" và có tính chất lặp đi lặp lại, tránh lãng phí nhân sự và chi phí quản lý cho doanh nghiệp. Hơn thế nữa, TTS được ứng dụng trong hệ thống tổng đài, chăm sóc khách hàng cho phép việc tự động tương tác một lúc với tệp khách hàng khổng lồ một cách cá nhân hoá dựa trên dữ liệu và lập trình sẵn.

Việc ứng dụng công nghệ xử lý văn bản thành giọng nói được đánh giá sẽ góp phần thực hiện việc hiện đại hoá thủ tục và quy trình hành chính trong thời đại cách mạng 4.0 hiện nay.

Công nghệ đi lên từ ngôi trường ĐH Bách khoa Hà Nội

Một số nhóm đã nghiên cứu về công nghệ Text to speech bằng Tiếng Việt. Nhưng hiện tại mới chỉ hai đơn vị cung cấp lõi công nghệ này trên thị trường là FPT và VBee.

Về VBee, thực tế đây là một startup đi lên từ đề tài của trường đại học Bách khoa Hà Nội - nơi đào tạo nên hàng ngàn kỹ sư trí tuệ. Đề tài nghiên cứu của Thu Trang cùng sinh viên là một trong vài đề tài vượt ra khỏi quy mô của trường đại học và bước ra thực tiễn.

VBee đang sử dụng mô hình HMM trong công nghệ chuyển văn bản thành tiếng nói và đang nghiên cứu công nghệ học sâu (deep learning) nhằm đưa ra kết quả tổng hợp tiếng nói tự nhiên hơn nữa.

Mặc dù công nghệ TTS đã được các hãng lớn như Google hay Microsoft hỗ trợ cho tiếng Việt, VBee có những xử lý riêng đặc thù cho tiếng Việt. Đặc điểm này giúp tiếng nói đầu ra của VBee tự nhiên, giống giọng người hơn, và đặc biệt VBee có thể xử lý các vấn đề trong tiếng Việt khi đầu vào sai chính tả hoặc chứa các từ vay mượn từ nước ngoài.

Để tạo ra sự khác biệt về chất lượng, Vbee tập trung vào các nghiên cứu liên quan tới xử lý ngôn ngữ tự nhiên tiếng Việt, phân tích và khai thác triệt để về tính địa phương của tiếng Việt, như các đặc trưng về ngôn ngữ học, âm học, thanh điệu (ngang, huyền, hỏi, ngã, nặng, sắc) trong tiếng Việt. Chính vì tập trung vào khai những đặc trưng riêng của tiếng Việt, VBee đã tạo ra được tiếng nói đầu ra tự nhiên với nhiều ưu thế so với những giải pháp hiện nay.

VBee đã triển khai các sản phẩm như báo nói và trợ lý giao thông Vadi, tổng đài tự động, sách nói, thuyết minh phim tự động dựa trên công nghệ Text - To-Speech. Các đối tác chính của VBee bao gồm nhà thông minh Lumi trong việc phát triển hội thoại bằng tiếng nói cho loa thông minh Milo hay VNPT-Technology, SoftCare, LacHong Media trong các hệ thống chăm sóc khách hàng tự động.

Website VBee.

Bên cạnh đó, VBee còn có một "câu chuyện" đằng sau với mong muốn xây dựng kho sách nói dữ liệu cho người khiếm thị. Công ty dự kiến kết hợp với một số tổ chức như World Bank để tài trợ thực hiện cho công việc phi lợi nhuận này.

Một trong những nhà sáng lập của VBee, anh Minh Đức đã đi qua và chứng kiến những thành công và thất bại của nhiều thế hệ startup công nghệ. Có nhiều câu chuyện đằng sau khởi nghiệp trong lĩnh vực "cô đặc" chất xám này mà anh chia sẻ. Với ánh mắt kiên định và đầy hy vọng, anh tin rằng công nghệ Text-To-Speech sẽ mang lại sự thay đổi và đóng góp lớn cho xã hội Việt Nam.