JeuWeb - Crée ton jeu par navigateur
Phonem 0.1 - Version imprimable

+- JeuWeb - Crée ton jeu par navigateur (https://jeuweb.org)
+-- Forum : Discussions, Aide, Ressources... (https://jeuweb.org/forumdisplay.php?fid=38)
+--- Forum : Art, graphisme, audio (https://jeuweb.org/forumdisplay.php?fid=50)
+--- Sujet : Phonem 0.1 (/showthread.php?tid=5378)



Phonem 0.1 - Holy - 13-04-2011

Bonjour à tous,

Je vous présente la toute première version de Phonem :p. Comme son nom l'indique, l'objectif de Phonem est de rationnaliser une chaine de caractères pour parvenir à une expression phonétique simplifiée.

C'est un héritier de Soundex & co, sauf que je voulais qu'il soit facilement lisible par un être humain. Je pensais au début faire uniquement de l'optimisation de la classe du Phonetic d'Edouard Bergé et puis je suis reparti de zéro, en prenant deux documents pour référence : prononciation française et les exceptions de la langue française.

Je suis actuellement en pleine phase de nettoyage de la fonction et je termine d'implémenter les exceptions (y en a ... beaucoup; vive la langue française). Je refilerai le code dès qu'il sera tout beau tout propre.

Mais voilà déjà les premiers résultats :
Code :
(920) acoquinâmes : akokiname
(921) acoquinassiez : akokinasié
(922) acoquinassions : akokinasion
(923) acoquinâtes : akokinate
(924) acoquinée : akokine
(925) acoquinement : akokineman
(926) acoquiner : akcokiné
(927) acoquinerez : akokineré
(928) acoquineriez : akokinerié
(929) acoquinerions : akokinerion
(930) acoquinerons : akokineron
(931) acoquinez : akokiné
(932) acoquiniez : akokinié
(933) acoquinions : akokinion
(934) acoquinons : akokinon
(935) acore : akor
(936) acotylédone : akotiledon
(937) acoumètre : akoumètr
(938) acoumétrie : akoumètri
(939) acouphène : akoufen
(940) acousticienne : akoustisiann
(941) acoustique : akoustik
(942) acquérais : akèrè
(943) acquéresse : akerès
(944) acquéreur : akereu
(945) acquérir : akerir
(946) acquerrai : akèré
(947) acquêt : akè
(948) acquiers : akièr
(949) acquiesçai : akièské
(950) acquiesçais : akièskè
(951) acquiescé : akièsk
(952) acquiescement : akièseman
(953) acquiescer : akièské
(954) acquiescerai : akièskèré
(955) acquis : aki
(956) acquise : akis
(957) acquisition : akizition
(958) acquisitive : akizitiv
(959) acquit : aki
(960) acquittable : akitabl
(961) acquittai : akité
(962) acquittais : akitè
(963) acromégalie : akromegali
(964) acromion : akromion
(965) acronyme : akronim
(966) acrophobie : akrofobi
(967) acropole : akropol
(968) acrostiche : akrostich
(969) acrotère : akroter
(970) acrylique : akrilik

Comme vous pouvez le voir, y a encore quelques erreurs par ci, par là. En attendant, ce procédé peut être utile pour ceux qui cherchent de la souplesse dans leur méthode de recherche : ça permet de proposer à l'utilisateur d'autres termes ayant le même phonème par exemple si la recherche s'avère infructueuse. Je compte implémenter un détecteur (et non un censeur) de grossièretés sur mon forum grâce à Phonem. Il gère aussi les l33t sp34k, les multiples caractères, ce qui permet une meilleure captation des mots recherchés.

Je refile le code demain soir en rentrant, le temps de le nettoyer pour qu'il soit présentable Big Grin

Holy


RE: Phonem 0.1 - php_addict - 13-04-2011

(13-04-2011, 02:25 AM)Holy a écrit : (935) acore : akor

la langue française est bien étrange: le 'c' se prononce par moment 'ke' et par d'autres 'se'.

comment comptes tu gérer ceci? exemple:

caranaval --> karnaval
ceci cela --> sheshi sela


RE: Phonem 0.1 - niahoo - 13-04-2011

Code :
acoquinassiez : akokinasié

perdu !

sinon c'est sympa ouais pour faire un moteur de recherche !


RE: Phonem 0.1 - Holy - 13-04-2011

(13-04-2011, 08:27 AM)php_addict a écrit :
(13-04-2011, 02:25 AM)Holy a écrit : (935) acore : akor

la langue française est bien étrange: le 'c' se prononce par moment 'ke' et par d'autres 'se'.

comment comptes tu gérer ceci? exemple:

caranaval --> karnaval
ceci cela --> sheshi sela
Le c doit totalement disparaitre des phonèmes au profit de trois autres : ch (cheval), s (ceci cela) et k (karnaval).

J'ai du utiliser toutes les règles de prononciation générale pour simplifier au maximum les mots. Y a encore des trucs à corriger ou à améliorer mais pour la majorité ça marche assez bien ^^

@ Niahoo : non pas perdu, le 's' représente le son 'ss' :p. Le son 'z' est représenté par un 'Z' ^^.

Pour le moment, les perfs sont pas terribles (1000 mots en 3 secondes en local) vu que je carbure au niveau des regex. On s'en fout un peu à la limite vu que la majorité du temps, le résultat sera mis en cache pour utilisation postérieure mais bon. Y a moyen d'améliorer ça.


RE: Phonem 0.1 - srm - 13-04-2011

Je t'invite à ne pas faire de différence entre é et ai qui est selon les régions prononcé différemment.
Donc :
(961) acquittai : akité
(962) acquittais : akitè

Devrait être :
(961) acquittai : akitai
(962) acquittais : akitai

Ou encore :
(961) acquittai : akité
(962) acquittais : akité

Mais je pense que n'utiliser aucun accent peut-être pratique Wink


RE: Phonem 0.1 - Holy - 13-04-2011

Ça faisait partie des choses que je devais encore trancher. Le problème des accents c'est aussi que ça "raidit" un peu le phonème, ce qui est dommage puisque ça empêche de faire des liens entre certains mots.

Je vais donc les retirer.


RE: Phonem 0.1 - Colmea - 13-04-2011

Super intéressant.

Étrange que tu te sois lancé dans un truc pareil mais bon Smile

J'ai hâte de voir à quoi ça ressemble.


RE: Phonem 0.1 - srm - 13-04-2011

Je m'étais amusé à en faire un aussi à une époque pour mon ancien travail Wink


RE: Phonem 0.1 - niahoo - 13-04-2011

avant que mon PC plante j'étais en train de te faire un réponse : le 's' pour le son 'sss' ok, mais tu disais que tu voulais que ce soit lisible pour un humain. or en français, quand on va lire de la phonétique qui peut être loin du mot d'orgine ( et donc ne pas reconnaitre le mot ), dans notre tête ça fera 'z'.

ensuite dans le cas d'un petit moteur de recherches, d'une part on va être plus patient que pour un chargement de page classique, ensuite 1000 mots en 3secondes c'est cool, on ne taperait pas plus de 5 mots en moyenne. couplé avec une table d'index des mots des contenus du site et leur phonétique associée, ça serait déjà très rapide.