Welcome to Scribd!

0% found this document useful (0 votes)

972 views

Presentation 2

Uploaded by

The document discusses end-to-end automatic speech recognition. It mentions two popular open-source toolkits, ESPnet and Eesen, for building end-to-end ASR systems. ESPnet is based on Chainer and PyTorch and follows the Kaldi toolkit for data processing and recipes. Eesen is based on Kaldi but uses bidirectional RNNs/LSTMs with CTC training. It also discusses using Kaldi for end-to-end ASR with TensorFlow integration. Finally, it reviews several papers on end-to-end approaches using CNNs and RNNs with different features.

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Presentation 2

Uploaded by

api-332129590

0% found this document useful (0 votes)

972 views12 pages

Original Title

presentation 2

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Download as pdf or txt

0% found this document useful (0 votes)

972 views12 pages

Presentation 2

Uploaded by

api-332129590

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Download as pdf or txt

Jump to Page

You are on page 1of 12

Search inside document

End-to-End Automatic KUNAL DHAWAN

Speech Recognition KUMAR PRIYADARSHI

Meeting 1
End to End ASR:
online libraries and
open source code
ESPnet: end-to-
end speech
processing toolkit
 Based on Chainer and
PyTorch
 Follows Kaldi ASR toolkit style
for data processing, feature
extraction/format, and
recipes to provide a
complete setup for speech
recognition
 Paper:
https://arxiv.org/pdf/1804.00
015.pdf
 Pretty recent , thus has some bugs, but contributors active in solving
them:
2)Eesen
 Based on Kaldi
 Acoustic Model -- Bi-directional RNNs with LSTM units.
 Training -- Connectionist temporal classification (CTC) as the training
objective.
 Decoding -- A principled decoding approach based on Weighted
Finite-State Transducers (WFSTs).
 Paper: https://arxiv.org/pdf/1507.08240.pdf
 Problems : Difficult to
modify and try out new
things using this library
Kaldi

No current implementation
specifically for end to end ASR

But Kaldi now offers tensorflow

integration. This means it would
be easy to try out our own
ideas
Literature Review
• End-to-End Deep Neural Network for Automatic Speech Recognition (2016)
William Song, Jim Cai, Stanford University

 Approach
 CNN for frame level Classification
 RNN with CTC loss for decoding
 Traditioinal Hidden Markov Model not used
 Used Mel logged-filter bank features as input

 Results
 Frame level classification satisfactory
 Decoding scheme needs improvement
Literature Review
• Towards End-To-End Speech Recognition with Deep Convolutional Neural
Networks Bengio et al., Interspeech 2016

 Approach
 CNN for frame level Classification
 No RNN used at all
 CTC loss used for decoding
 Traditioinal Hidden Markov Model not used
 Used Mel logged-filter bank features as input

 Results
 CNN able to capture temporal relations
 Training faster as comapred to RNN models
Literature Review
• End-To-End Speech Recognition from the Raw Waveform (2018)
Zeghidour et al., Facebook A.I.

 Approach
 End-to-End system trained directly from Raw Waveform
 Uses trainable filterbanks in place of log mel-filterbanks
 Uses CNN architecture

 Results
 Improved performance over log mel-filterbanks
Thank you!

Literary Devices PDF
Document11 pages
Literary Devices PDF
Mary Mueller
94% (16)
Answer Key English Vocabulary in Use Pre-Intermediate and Intermediate Book With Answers Vocabulary Reference and Practice by Stuart Redman (Z-Lib - Org) Pages 251-265 - Flip PDF Download - FlipHTML5
Document265 pages
Answer Key English Vocabulary in Use Pre-Intermediate and Intermediate Book With Answers Vocabulary Reference and Practice by Stuart Redman (Z-Lib - Org) Pages 251-265 - Flip PDF Download - FlipHTML5
Abc
100% (3)
0199230137
Document241 pages
0199230137
corsova
No ratings yet
QTBJ
Document21 pages
QTBJ
danny_mediabooks
100% (5)
Project Report Group1
Document91 pages
Project Report Group1
api-332129590
100% (2)
Kaldi Whitepaper PDF
Document4 pages
Kaldi Whitepaper PDF
Carlangaslangas
No ratings yet
The Kaldi Speech Recognition Toolkit
Document4 pages
The Kaldi Speech Recognition Toolkit
chieubuonhoanghon_ht894249
No ratings yet
What Is Kaldi?: History of The Kaldi Project
Document3 pages
What Is Kaldi?: History of The Kaldi Project
Kumarv
No ratings yet
Kaldi For Dummies
Document13 pages
Kaldi For Dummies
Sher Afghan Malik
No ratings yet
Pytorch-Kaldi 2018
Document5 pages
Pytorch-Kaldi 2018
hhakim32
No ratings yet
Speaker Recognition
Document29 pages
Speaker Recognition
shanmukhasai
No ratings yet
Presentation On Speech Recognition
Document11 pages
Presentation On Speech Recognition
aditya_4_sharma
No ratings yet
Bad Ideas
Document69 pages
Bad Ideas
Armin Ronacher
No ratings yet
The Kaldi Speech Recognition Toolkit PDF
Document4 pages
The Kaldi Speech Recognition Toolkit PDF
ngoisaotinhyeu_valle
No ratings yet
MFCC PDF
Document14 pages
MFCC PDF
Arpit Jaiswal
No ratings yet
Lecture 1 Kaldi
Document56 pages
Lecture 1 Kaldi
Anh Nguyen
No ratings yet
Speech Enhancement Using Kalman Filter
Document14 pages
Speech Enhancement Using Kalman Filter
Tharun
No ratings yet
Automatic Speech Recognition
Document35 pages
Automatic Speech Recognition
Bhem Kumar
No ratings yet
Facial Recognition Using Eigen Faces
Document3 pages
Facial Recognition Using Eigen Faces
Akshay Shinde
No ratings yet
Operating System Exercises - Chapter 13-Sol
Document4 pages
Operating System Exercises - Chapter 13-Sol
evilanubhav
100% (1)
Conformance Testing
Document19 pages
Conformance Testing
Lakshmi N Sree
No ratings yet
Final Report Voting System
Document53 pages
Final Report Voting System
Nilesh Bhoyar
No ratings yet
Time Series Forecasting
Document59 pages
Time Series Forecasting
fterasawmy
No ratings yet
(PDF) Introduction To Machine Learning PDF
Document94 pages
(PDF) Introduction To Machine Learning PDF
gsndharavkatyal
No ratings yet
Genetic Algorithms
Document11 pages
Genetic Algorithms
Jaime Fouché
No ratings yet
Interview Questions
Document8 pages
Interview Questions
Ravindra
No ratings yet
CS5560 Lect12-RNN - LSTM
Document30 pages
CS5560 Lect12-RNN - LSTM
Muhammad Waqas
No ratings yet
Scalable Web Servers
Document49 pages
Scalable Web Servers
Hutami Ristiani
No ratings yet
Transformer Architecture
Document18 pages
Transformer Architecture
pragyajahnvi9
No ratings yet
TCP Over 3G Protocol
Document6 pages
TCP Over 3G Protocol
Hitesh Kumar
No ratings yet
CS 194: Distributed Systems Processes, Threads, Code Migration
Document26 pages
CS 194: Distributed Systems Processes, Threads, Code Migration
Shivakumar Barupati
No ratings yet
07 Kamil Sarac Secure Coding C CPlusPlus
Document35 pages
07 Kamil Sarac Secure Coding C CPlusPlus
leandroparker
No ratings yet
Python Scripting
Document15 pages
Python Scripting
Shishir Gupta
No ratings yet
Abhishek Chakraborty Resume
Document2 pages
Abhishek Chakraborty Resume
abhi2006fiem
No ratings yet
5 Sol
Document4 pages
5 Sol
evilanubhav
50% (2)
MisII Manual Page
Document21 pages
MisII Manual Page
Morgan Peeman
No ratings yet
Automatic Fault Detection System Using PLC
Document26 pages
Automatic Fault Detection System Using PLC
devika cm
No ratings yet
Test Programming An ATE For Diagnosis - 2015
Document30 pages
Test Programming An ATE For Diagnosis - 2015
Mahmoud Wafa
No ratings yet
Cloud Computing Unit 5
Document16 pages
Cloud Computing Unit 5
Manthena Narasimha Raju
No ratings yet
5.3 Unit-V Developing Applications Through IoT Tools
Document8 pages
5.3 Unit-V Developing Applications Through IoT Tools
Gostudy Life
No ratings yet
Beginner Python Coding Book 1
Document8 pages
Beginner Python Coding Book 1
Sarveshrau Sarvesh
No ratings yet
Netops
Document81 pages
Netops
Ashrafur Rahman
No ratings yet
Algorithms For Parallel Machines
Document7 pages
Algorithms For Parallel Machines
shinde_jayesh2005
No ratings yet
III Year-V Semester: B.Tech. Computer Science and Engineering 5CS4-02: Compiler Design UNIT-1
Document11 pages
III Year-V Semester: B.Tech. Computer Science and Engineering 5CS4-02: Compiler Design UNIT-1
shelo berman
100% (1)
How To Use JTAG With ARM7 MCU
Document20 pages
How To Use JTAG With ARM7 MCU
Gurpreet Singh
No ratings yet
SOC Lab Manual
Document11 pages
SOC Lab Manual
santhoshi durga
No ratings yet
TCL Tutorial
Document123 pages
TCL Tutorial
drakic
No ratings yet
Research & Simulation - Network Simulations and Installation of NS2 and NS3
Document2 pages
Research & Simulation - Network Simulations and Installation of NS2 and NS3
deepakk_alpine
No ratings yet
Passing Arguments To A Shell Script
Document13 pages
Passing Arguments To A Shell Script
Mohapatra Sarada
No ratings yet
Deep Learning
Document189 pages
Deep Learning
mausam
No ratings yet
Semaphores and Monitors
Document30 pages
Semaphores and Monitors
rinspd
No ratings yet
Electronics Circuit
Document0 pages
Electronics Circuit
www.bhawesh.com.np
No ratings yet
DCCN Notes
Document27 pages
DCCN Notes
Faisal Firdous
No ratings yet
Unit-3 & 4 Embedded Systems (A1430) Rtos PDF
Document179 pages
Unit-3 & 4 Embedded Systems (A1430) Rtos PDF
ManojPaidimarri
No ratings yet
Vtu Lab Manuals Materials
Document3 pages
Vtu Lab Manuals Materials
Vtuworld Vtu
100% (1)
VLSI Lab Manual
Document68 pages
VLSI Lab Manual
adeivaseelan
No ratings yet
Unit - III:Circuit Characterization and Performance Estimation
Document21 pages
Unit - III:Circuit Characterization and Performance Estimation
AdibaTabassum
No ratings yet
Mining Frequent Itemset-Association Analysis
Document59 pages
Mining Frequent Itemset-Association Analysis
Sandeep Dwivedi
No ratings yet
Formal Language & Automata Theory
Document19 pages
Formal Language & Automata Theory
Mandeep Singh
No ratings yet
Survey On Speech Imitation Using Machine Learning: Rahul Kumar, Jaybrata Chakraborty and Bappaditya Chakraborty
Document5 pages
Survey On Speech Imitation Using Machine Learning: Rahul Kumar, Jaybrata Chakraborty and Bappaditya Chakraborty
Bappaditya Chakraborty
No ratings yet
9
Document6 pages
9
02KiềuĐứcAnh
No ratings yet
Report - SIP - KWS Key Word Spotting
Document2 pages
Report - SIP - KWS Key Word Spotting
somnath mukherjee
No ratings yet
AI - (Deep Learning/NLP) : 5 Days
Document4 pages
AI - (Deep Learning/NLP) : 5 Days
Amit Sharma
No ratings yet
CRI008
Document15 pages
CRI008
Hoa Bk17c4a
No ratings yet
Natural Language Processing with TensorFlow: Teach language to machines using Python's deep learning library
From Everand
Natural Language Processing with TensorFlow: Teach language to machines using Python's deep learning library
Thushan Ganegedara
No ratings yet
Fairmot Explained 1
Document19 pages
Fairmot Explained 1
api-332129590
No ratings yet
BTP Thesis rs1 End-To-End-Asr
Document51 pages
BTP Thesis rs1 End-To-End-Asr
api-332129590
No ratings yet
Usc Poster
Document1 page
Usc Poster
api-332129590
No ratings yet
Towards Adapting NMF Dictionaries Using Total Variability Modeling For Noise-Robust Acoustic Features
Document5 pages
Towards Adapting NMF Dictionaries Using Total Variability Modeling For Noise-Robust Acoustic Features
api-332129590
No ratings yet
Rs 1 Poster
Document1 page
Rs 1 Poster
api-332129590
No ratings yet
Projectreport-G15 Tue
Document19 pages
Projectreport-G15 Tue
api-332129590
100% (1)
Coursera lz9hplj95ph6
Document1 page
Coursera lz9hplj95ph6
api-332129590
No ratings yet
Attention
Document12 pages
Attention
api-332129590
No ratings yet
Coursera vg79h67t6f58
Document1 page
Coursera vg79h67t6f58
api-332129590
No ratings yet
Coursera A6n52bwq2vkg
Document1 page
Coursera A6n52bwq2vkg
api-332129590
No ratings yet
Coursera Wx29vxacwe33
Document1 page
Coursera Wx29vxacwe33
api-332129590
No ratings yet
Coursera Kaxe2yuddqpy
Document1 page
Coursera Kaxe2yuddqpy
api-332129590
No ratings yet
Coursera Vtwwcbh3ae6w
Document1 page
Coursera Vtwwcbh3ae6w
api-332129590
No ratings yet
Project Report-Lg
Document85 pages
Project Report-Lg
api-332129590
100% (1)
Coursera Vgle3dsyt3ke
Document1 page
Coursera Vgle3dsyt3ke
api-332129590
No ratings yet
Cls v2 1 6
Document15 pages
Cls v2 1 6
api-332129590
No ratings yet
Project Report Iitd KD
Document48 pages
Project Report Iitd KD
api-332129590
No ratings yet
Verilog Final Code
Document5 pages
Verilog Final Code
api-332129590
No ratings yet
Ps Ip
Document7 pages
Ps Ip
api-332129590
No ratings yet
Logical Reasoning Book Sankalp
Document348 pages
Logical Reasoning Book Sankalp
OM JADHAV
No ratings yet
Weekly Learning Plan English2 q3 Wk2
Document2 pages
Weekly Learning Plan English2 q3 Wk2
Evelyn Del Rosario
No ratings yet
Second Periodical Test 2019
Document7 pages
Second Periodical Test 2019
Nicha Sophia Vivar Galit
No ratings yet
Meeting in The Coffee Shop
Document6 pages
Meeting in The Coffee Shop
Alejandra Jaramillo
No ratings yet
Replicación de Bases de Datos PostgreSQL Con Bucardo
Document35 pages
Replicación de Bases de Datos PostgreSQL Con Bucardo
carlos_marrero
No ratings yet
Ma Tamil Syllabus 2009
Document30 pages
Ma Tamil Syllabus 2009
PremAnanthan
No ratings yet
TTR - Traduction, Terminologie, Rédaction Volume 14 Issue 1 2001
Document21 pages
TTR - Traduction, Terminologie, Rédaction Volume 14 Issue 1 2001
Francisco Álvez Francese
No ratings yet
Khroskyabs Language
Document14 pages
Khroskyabs Language
Ricardo
No ratings yet
A Brief History of Japanese Literature
Document32 pages
A Brief History of Japanese Literature
Abigail Basco
No ratings yet
Clauses: by Asep Saepuloh, S.S., M.PD
Document16 pages
Clauses: by Asep Saepuloh, S.S., M.PD
Rifa Nur Alia
No ratings yet
W3. Correcting A Review
Document3 pages
W3. Correcting A Review
sduenasmunoz0505
No ratings yet
Narration: Direct and Indirect Speech
Document5 pages
Narration: Direct and Indirect Speech
Insaf Ali
No ratings yet
Chapter Viii-Review of Related Literature
Document34 pages
Chapter Viii-Review of Related Literature
Harry Van
No ratings yet
Assignment 2 Technical Communication
Document2 pages
Assignment 2 Technical Communication
harendrakumarsingh912884
No ratings yet
KP Teaching Portfolio
Document14 pages
KP Teaching Portfolio
KrisciaPortillo
No ratings yet
Lectures On The Comparative Grammar of The Semitic Languages
Document308 pages
Lectures On The Comparative Grammar of The Semitic Languages
Rob Cordopatri
100% (1)
Psychological First Aid
Document28 pages
Psychological First Aid
Dodi Julkarnaen
100% (2)
Achievers B1 Vocabulary Worksheet Consolidation Unit 4
Document1 page
Achievers B1 Vocabulary Worksheet Consolidation Unit 4
Anto Roldan Olivera
0% (1)
Reviewer Ngec 5
Document8 pages
Reviewer Ngec 5
mlc
No ratings yet
Adverbial Vs Adverb - Google Search
Document1 page
Adverbial Vs Adverb - Google Search
Bolorjin Delgerkhaan
No ratings yet
Kuda Baeletse ELCD
Document8 pages
Kuda Baeletse ELCD
Theodorah Mbedzi
No ratings yet
TO Python: Dr. S. Selvakanmani, Associate Professor, Department of Cse, Velammal I Tech
Document36 pages
TO Python: Dr. S. Selvakanmani, Associate Professor, Department of Cse, Velammal I Tech
Selvakanmani Nanda
No ratings yet
Mech Syllabus 207 Credits PDF
Document185 pages
Mech Syllabus 207 Credits PDF
Adi
No ratings yet
Manual Do Usuário Do Laz Stats PDF
Document476 pages
Manual Do Usuário Do Laz Stats PDF
Luiz Pereira
No ratings yet
Journal Non Readers in Singapore
Document24 pages
Journal Non Readers in Singapore
Liching Ching
No ratings yet
Greeting (Ucapan Salam) : Formal Greeting Responses Formal Partings Responses
Document1 page
Greeting (Ucapan Salam) : Formal Greeting Responses Formal Partings Responses
Retno Widiastuti
No ratings yet

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Presentation 2

Uploaded by

Copyright:

Available Formats

Presentation 2

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Presentation 2

Uploaded by

Copyright:

Available Formats

End-to-End Automatic KUNAL DHAWAN

Speech Recognition KUMAR PRIYADARSHI

But Kaldi now offers tensorflow

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.