Tts Sur Son Nas

Abonnés

Posté(e) le 5 janvier 201214 a

Un petit pas de plus, j'ai maintenant un déclenchement d'action sur des phrases de type : "Dobby donne moi la météo"

"Dobby" : phrase de déclenchement

"donne moi la météo" : phrase liée à des actions (en l'occurence une seule action, météo)

Le tout fonctionne, sauf que c'est en anglais et que j'utilise une grammaire bien light.

Y'a encore pas mal de boulot pour rendre ça utilisable facilement

Citer

Réponses 145
Vues 41.1 k
Créé 14 a14 a
Dernière réponse 12 a12 a

Meilleurs contributeurs dans ce sujet

Diaoul 66 messages
Remylpat 42 messages
Sp@r0 22 messages
PatrickH 11 messages

Jours populaires

Posté(e) le 5 janvier 201214 a

Auteur

Salut Diaoul,

Pour ce qui est de la comparaison de mots en fonction de l'interprétation du Speech to Text j'ai trouvé un lien assez interressant qui devrait t'aider si jamais tu ne connais pas : Levenshtein distance.

http://en.wikibooks.org/wiki/Algorithm_implementation/Strings/Levenshtein_distance

Pour faire simple il calcul la différence entre 2 mots Avion & Aviron ou Weather & Eather ....

Des fois que ca aide ...

Citer

Posté(e) le 6 janvier 201214 a

Merci mais je vois pas bien l'intérêt de la chose dans Dobby.

J'ai fini la structure du projet et j'ai fait des tests avec un modèle acoustique anglais. Après un peu de paramètrage :

- Dobby weather and time please

- It is 00 hours 29 minutes. The weather is cloudy with a temperature of 5.5 degrees

C'est plutôt cool Il reste la partie configuration qui est manuelle, surtout sur la partie grammaire qui est un peu lourde. Je vais faire un petit outil qui va regarder toutes les phrases en base de donnée et générer le .dfa et .dict qui vont bien.

Et puis plus tard, une interface graphique pour faire la configuration des actions et des phrases en base de donnée.

Citer

Posté(e) le 7 janvier 201214 a

Auteur

En fait je me disais que lors de l'interpretation de la phrase, Dobby weather & time please, il faut comparer les mots retourné par le speech to text avec une base de mots qui eux memes sont les triggers d'actions specifiques.

Si jamais le mot compris est pas trop eloigné d'un mot d'action (levensthein faible) alors executer l action plutot que de dire Dobby do not undérstand please ask again

Mais a priori ti dois le faire autrement et tu avance bien a priori. En core bravo

Citer

Posté(e) le 7 janvier 201214 a

Le logiciel de reconnaissance vocale ne reconnait que les phrases que je lui donne dans une liste avec l'orthographe que je lui indique. Aucune chance d'avoir un mot mal orthographié ou quoi que ce soit.

Regarde la doc de julius sur la partie .voca + .grammar, c'est super bien fait

Citer

Posté(e) le 13 janvier 201214 a

Sp@ro: tu avances sur la création d'un modèle acoustique français ?

J'aimerai aussi des idées sur le type d'actions que l'on pourrait avoir. Actuellement il y a météo et heure.

J'envisage :

Données système
- Température CPU
- Infos disque dur (SMART)
[*]Un lecteur RSS

[*]Agenda Google

[*]Magnétophone (prise de notes audio, etc.)

D'autres suggestions ?

Citer

Posté(e) le 13 janvier 201214 a

Lecture des notifications du NAS (progression des téléchargements, ...) : "Est-ce que mes téléchargements sont terminés ?" > "Machin est terminé, truc est à 60%, ..."
Démarrage d'une machine compatible WOL : "Allume mon PC."
Lecture de podcasts.
Interfaçage avec OpenRemote (Java ) pour la domotique, avec leur API ça devrait être assez simple.

Citer

Posté(e) le 13 janvier 201214 a

Auteur

Moi j'avais comme idée :

Dictionnaire :

Definition "voiture" => véhicule à moteur et à quatre roues servant à transporter des personne:Traduction

Traduction

Traduit "voiture" en anglais => La traductin est : "car"*

Domotique

Allume / Eteint + device => commande a spécifier dépendant de l'archi.

Mails :

NB mails non lus

Distance :

Distance Paris Bordeaux : la distance est de XX km

RATP mais bon ca peut peut etre marcher avec le lecteur RSS ?? :

Perturbation traffic RATP
Perturbation traffic SNCF (

Au fait as tu recu ton VoiceTracker ?

Moi j'ai pas trop eu de temps pour tester le Bluetooth encore

Citer

Posté(e) le 13 janvier 201214 a

Lecture des notifications du NAS (progression des téléchargements, ...) : "Est-ce que mes téléchargements sont terminés ?" > "Machin est terminé, truc est à 60%, ..."

Démarrage d'une machine compatible WOL : "Allume mon PC."

Lecture de podcasts.

Interfaçage avec OpenRemote (Java ) pour la domotique, avec leur API ça devrait être assez simple.

OK pour le WOL, la lecture de podcasts aussi.

Tu as des indications sur comment récupérer les données Syno comme les températures ou les téléchargements dont tu parles là ?

Pour l'interfaçage pourquoi pas mais je n'ai pas de use case précis sur lequel bosser pour l'instant donc on verra plus tard

Moi j'avais comme idée :

Dictionnaire :

Definition "voiture" => véhicule à moteur et à quatre roues servant à transporter des personne:Traduction

Traduction

Traduit "voiture" en anglais => La traductin est : "car"*

Domotique

Allume / Eteint + device => commande a spécifier dépendant de l'archi.

Mails :

NB mails non lus

Distance :

Distance Paris Bordeaux : la distance est de XX km

RATP mais bon ca peut peut etre marcher avec le lecteur RSS ?? :

Perturbation traffic RATP

Perturbation traffic SNCF (

Au fait as tu recu ton VoiceTracker ?

Moi j'ai pas trop eu de temps pour tester le Bluetooth encore

Mails effectivement c'est pratique, nombre de mails non lus ainsi que la lecture de ces derniers éventuellement.

Traduction, Domotique et Distance pour moi c'est du gadget pas forcément très utile et qui ne respecte pas un des pilier de Dobby : le nombre fini de commandes vocales possibles.

Afin de booster la performance de la reconaissance vocale, Dobby voit son vocabulaire limité aux seules phrases qu'il a besoin de comprendre pour l'instant. Ca limite les erreurs de compréhension.

On est vraiment dans de la commande vocale, c'est pas une intelligence artificielle.

C'est vrai que ça pourrait être pratique d'avoir une certaine flexibilité dans certains cas :

Donne moi les "5" dernières nouvelles

Donc ok, on a un nombre au milieu, ce serait chiant de faire une phrase pour chacun des numéros. Je peux introduire un token spécial pour indiquer qu'un nombre doit se trouver dans cette phrase et que l'action déclenchée par la phrase doit dépendre de ce nombre.

Donne moi les %number% dernières nouvelles

Quoi d'autre ? De quel autre "token" peut-on avoir besoin dans une commande vocale ? Ce token doit avoir une liste finie de possibilités, on ne peut pas avoir de token "mot" par exemple.

Citer

Posté(e) le 14 janvier 201214 a

"Dobby update" pourrait mettre à jour Dobby automatiquement

Citer

Posté(e) le 14 janvier 201214 a

Auteur

tres bien pensé le update

On cree une liste de scripts bash on les numerote (si on pouvais les nommer se serait genial '-)

on les depose dans un repertoire particulier et ensuite :

Dobby execute Script 1

=> sh Script 1

Comme ca on ouvre a tout !!!

Citer

Posté(e) le 14 janvier 201214 a

J'ai un rendu qui est vraiment bon avec mbrola pour la synthèse vocale

J'ai rajouté le lecteur de flux RSS commec action

Le problème de ce que je fais c'est une étape de configuration qui n'est pas difficile mais qu'il faut faire. Après par contre ça marche comme sur des roulettes !

Citer

2 semaines après...

Posté(e) le 24 janvier 201214 a

Bon, j'avance sur l'interface graphique de l'application Dobby afin de la paramètrer facilement l'ensemble. C'est super propre avec Qt.

Là ou je ne sais pas trop comment faire c'est comment paramètrer le Dobby sur le syno depuis une interface graphique sur le PC sachant que l'on a pas accès à la base de donnée sur le Syno ni au fichier de configuration....

Peut être que le mieux c'est une interface web.

La question devient donc, est-ce que cette interface web doit faire parti de l'application Dobby (au même titre que Qt) ou bien plutôt intégré à DSM ?

Dans tous les cas ce sera probablement pas moi qui ferait cette interface

Sp@ro: tu avances sur la création d'un modèle acoustique français ? J'aimerai bien tester ça Si tu as des pistes sur comment entrainer un tel modèle je suis prenneur de toute explications

Citer

Posté(e) le 24 janvier 201214 a

Malheureusement je n'ai pas trop avancer sur le modèle français alléger .... Pas trop le temps en ce moment...

Ce que je pensais faire c'est épurer le dictionnaire français avec un script qui recherche tout les lignes contenant les noms que l'on souhaite ajouter => ok ça roule

Créer un modèle baser sur ce dico avec Une base libre de voix mais la j'ai pri le temps de regarder....

Citer

1 an après...

Posté(e) le 5 juin 201313 a

Pour info, je me suis un peu remis dans le bain : https://github.com/SynoCommunity/spksrc/commit/eecfdd56dae358753541fa3718a6ac2bac67a3cf

Citer

Posté(e) le 5 juin 201313 a

Auteur

Salut Diaoul,

Je ne sais pas si c'est le projet S.A.R.A.H (http://encausse.wordpress.com/s-a-r-a-h/) ou encore AEON (http://aonsquared.co.uk/raspi_voice_control) qui t'ont remis la puce a l'oreille mais cela fait qq semaine que je me repenche aussi sur la question.

J'ai creusé un peu le côté micro et il semblerait que le Playstation Eye disposerait d'un micro array (en fait de 4 micro) je pense que c'est la bonne solution pour le noise reduction et je vais surement craquer la semaine prochaine

Il faut que je me reinstalle tout ca mais j'avoue avoir un peu perdu le fil sur l'installation et la configuration du "clapper".

comment puis-je t'aider avec mes maigres idées et ma petite contribution ?

Est-ce qu'il ne serait pas interressant de prendre aussi exemple sur S.A.R.A.H avec le server NodeJS pour les actions et créer des plugins ?

On demanderais ainsi de l'aide a la communauté pour developper des plugins actions la grammaire ayant l'air de se faire assez simplement ?

Dis moi si ce que je dis est completement a coté ....

Citer

Posté(e) le 6 juin 201313 a

Non c'est mon propre projet Dobby. Je me suis dit qu'il fallait lui donner un petit coup de jeune

Je m'oriente vers la création d'un réseau de neurones pour faire du speech recognition. C'est d'ailleurs vers ça que s'oriente aussi le gars d'AEON : http://aonsquared.co.uk/node/30

Citer

Posté(e) le 6 juin 201313 a

Salut les gars !
Ce projet m'intéresse grandement également mais malheureusement je suis loin d'avoir les compétences nécessaires à sa mise en place -_-

Si jamais je peux aider d'une façon ou d'une autre n'hésitez pas

Citer

Posté(e) le 9 juin 201313 a

Auteur

Salut,

Si diaoul nous autorise a acceder au git et que j'arrive finalement a compiler je veux bien aider.

Faut que je relise les 8 pages car il me semble que deja l'annee derniere j'avais essayer de compiler et j'avais pas reussi

Citer

Posté(e) le 9 juin 201313 a

Il n'y a besoin d'aucun accès pour la lecture. Ou alors je n'ai pas compris de quoi tu parles.

Citer

Posté(e) le 9 juin 201312 a

Auteur

Donc si hé fais un gît clone je peux ensuite compiler ?

Je suis vrailmzent un neewb

Citer

Rejoindre la conversation

Vous pouvez publier maintenant et vous inscrire plus tard. Si vous avez un compte, connectez-vous maintenant pour publier avec votre compte.

Unfortunately, your content contains terms that we do not allow. Please edit your content to remove the highlighted words below.

Répondre à ce sujet…

Abonnés

Aller sur la liste des sujets

Lelolo

Tts Sur Son Nas

Featured Replies

Meilleurs contributeurs dans ce sujet

Jours populaires

Rejoindre la conversation

Qui est en ligne (Afficher la liste complète)

Information importante

Account

Navigation

Rechercher

Configure browser push notifications

Chrome (Android)

Chrome (Desktop)

Safari (iOS 16.4+)

Safari (macOS)

Edge (Android)

Edge (Desktop)

Firefox (Android)

Firefox (Desktop)