diff --git a/.gitignore b/.gitignore index 3187bf20..4b980d44 100644 --- a/.gitignore +++ b/.gitignore @@ -28,3 +28,4 @@ _doc/examples/data/*.optimized.onnx _doc/examples/*.html _doc/_static/require.js _doc/_static/viz.js +_doc/practice/algo-compose/paris_54000.* diff --git a/_doc/practice/algo-compose/paris_parcours.ipynb b/_doc/practice/algo-compose/paris_parcours.ipynb index bad47cd1..0eea176d 100644 --- a/_doc/practice/algo-compose/paris_parcours.ipynb +++ b/_doc/practice/algo-compose/paris_parcours.ipynb @@ -13,15 +13,7 @@ "cell_type": "code", "execution_count": 1, "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Populating the interactive namespace from numpy and matplotlib\n" - ] - } - ], + "outputs": [], "source": [ "%matplotlib inline" ] @@ -44,7 +36,18 @@ "source": [ "## Les données\n", "\n", - "On récupère les données sur Internet." + "On récupère les données sur Internet. Le paramètre `keep=200` garde seulement les 100 premières rues de Paris. Il faut remplacer cette valuer par `keep=-1` pour les garder toutes. Dans ce cas, l'exécution de ce notebook est longue. Les algorithmes ne sont pas nécessairement implémentés de façon très efficace." + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "metadata": {}, + "outputs": [], + "source": [ + "import sys\n", + "\n", + "sys.path.append(\"/home/xadupre/github/teachpyx\")" ] }, { @@ -56,30 +59,35 @@ "name": "stdout", "output_type": "stream", "text": [ - " downloading of http://www.xavierdupre.fr/enseignement/complements/paris_54000.zip to paris_54000.zip\n", - " unzipped paris_54000.txt to .\\paris_54000.txt\n" + "already downloaded './paris_54000.zip'\n" ] }, { "data": { "text/plain": [ - "['.\\\\paris_54000.txt']" + "(200, 146)" ] }, - "execution_count": 4, + "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ - "url = \"https://github.com/sdpython/teachpyx/_data/paris_54000.zip\"" + "from teachpyx.practice.rues_paris import get_data\n", + "\n", + "url = \"https://github.com/sdpython/teachpyx/raw/main/_data/paris_54000.zip\"\n", + "edges, vertices = get_data(\n", + " url, \".\", verbose=True, keep=200\n", + ") # keep=-1 pour toutes les rues\n", + "len(edges), len(vertices)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "On extrait du fichier l'ensemble des carrefours (vertices) et des rues ou segment de rues (edges)." + "Les noeuds sont simplement décrits par les coordonnées du carrefour." ] }, { @@ -88,42 +96,32 @@ "metadata": {}, "outputs": [ { - "name": "stdout", - "output_type": "stream", - "text": [ - "#E= 17958 #V= 11348 > 11347\n" - ] + "data": { + "text/plain": [ + "[(48.873361200000005, 2.3236609), (48.8730454, 2.3235788)]" + ] + }, + "execution_count": 4, + "metadata": {}, + "output_type": "execute_result" } ], "source": [ - "name = data[0]\n", - "with open(name, \"r\") as f:\n", - " lines = f.readlines()\n", - "\n", - "vertices = []\n", - "edges = []\n", - "for i, line in enumerate(lines):\n", - " spl = line.strip(\"\\n\\r\").split(\" \")\n", - " if len(spl) == 2:\n", - " vertices.append((float(spl[0]), float(spl[1])))\n", - " elif len(spl) == 5 and i > 0:\n", - " v1, v2 = int(spl[0]), int(spl[1])\n", - " ways = int(spl[2]) # dans les deux sens ou pas\n", - " p1 = vertices[v1]\n", - " p2 = vertices[v2]\n", - " edges.append((v1, v2, ways, p1, p2))\n", - " elif i > 0:\n", - " raise ValueError(f\"Unable to interpret line {i}: {line!r}\")\n", - "\n", - "m = max(max(_[0] for _ in edges), max(_[1] for _ in edges))\n", - "print(f\"#E={len(edges)} #V={len(vertices)}>{m}\")" + "vertices[:2]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "On trace sur un graphique un échantillon des carrefours. On suppose la ville de Paris suffisamment petite et loin des pôles pour considérer les coordonnées comme cartésiennes (et non comme longitude/latitude)." + "Les arcs sont des tuples comprenant :\n", + "\n", + "* l'indice du premier carrefour\n", + "* l'indice du second carrefour\n", + "* si la rue est à double sens ou non\n", + "* les coordonnées du premier carrefour\n", + "* les coordonnées du second carrefour\n", + "* la distance entre les deux extrémités (la longueur de la rue)" ] }, { @@ -134,38 +132,35 @@ { "data": { "text/plain": [ - "[]" + "[(0,\n", + " 1,\n", + " 1,\n", + " (48.873361200000005, 2.3236609),\n", + " (48.8730454, 2.3235788),\n", + " 0.03562501840766763),\n", + " (2,\n", + " 0,\n", + " 1,\n", + " (48.8741849, 2.3239352),\n", + " (48.873361200000005, 2.3236609),\n", + " 0.0937624742737696)]" ] }, - "execution_count": 6, + "execution_count": 5, "metadata": {}, "output_type": "execute_result" - }, - { - "data": { - "image/png": "", - "text/plain": [ - "" - ] - }, - "metadata": {}, - "output_type": "display_data" } ], "source": [ - "import matplotlib.pyplot as plt\n", - "import random\n", - "\n", - "sample = [vertices[random.randint(0, len(vertices) - 1)] for i in range(0, 1000)]\n", - "plt.plot([_[0] for _ in sample], [_[1] for _ in sample], \".\")\n", - "plt.title(\"Carrefours de Paris\");" + "edges[:2]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "Puis on dessine également un échantillon des rues." + "Les carrefours sont les extrémités des rues ou noeuds (vertices) du graphe. Les rues sont les arcs (edges).\n", + "On trace sur un graphique un échantillon des carrefours. On suppose la ville de Paris suffisamment petite et loin des pôles pour considérer les coordonnées comme cartésiennes (et non comme longitude/latitude)." ] }, { @@ -175,9 +170,9 @@ "outputs": [ { "data": { - "image/png": "", + "image/png": "", "text/plain": [ - "" + "
" ] }, "metadata": {}, @@ -185,10 +180,18 @@ } ], "source": [ - "sample = [edges[random.randint(0, len(edges) - 1)] for i in range(0, 1000)]\n", + "import matplotlib.pyplot as plt\n", + "import random\n", + "\n", + "fig, ax = plt.subplots(1, 2, figsize=(10, 4))\n", + "sample = [vertices[random.randint(0, len(vertices) - 1)] for i in range(0, 500)]\n", + "ax[0].plot([_[0] for _ in sample], [_[1] for _ in sample], \".\")\n", + "ax[0].set_title(\"Carrefours de Paris\")\n", + "\n", + "sample = [edges[random.randint(0, len(edges) - 1)] for i in range(0, 500)]\n", "for edge in sample:\n", - " plt.plot([_[0] for _ in edge[-2:]], [_[1] for _ in edge[-2:]], \"b-\")\n", - "plt.title(\"Rue de Paris\");" + " ax[1].plot([edge[3][0], edge[4][0]], [edge[3][1], edge[4][1]], \"b-\")\n", + "ax[1].set_title(\"Rue de Paris\");" ] }, { @@ -206,16 +209,16 @@ { "data": { "text/plain": [ - "0" + "(200, 0)" ] }, - "execution_count": 8, + "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ - "len(list(e for e in edges if e[0] == e[1]))" + "len(edges), len(list(e for e in edges if e[0] == e[1]))" ] }, { @@ -242,9 +245,9 @@ "outputs": [ { "data": { - "image/png": "", + "image/png": "", "text/plain": [ - "" + "
" ] }, "metadata": {}, @@ -258,7 +261,7 @@ "g = nx.Graph()\n", "for i, j in [(1, 2), (1, 3), (1, 4), (2, 3), (3, 4), (4, 5), (5, 2), (2, 4)]:\n", " g.add_edge(i, j)\n", - "f, ax = plt.subplots(figsize=(6, 3))\n", + "f, ax = plt.subplots(figsize=(6, 2))\n", "nx.draw(g, ax=ax)" ] }, @@ -277,10 +280,10 @@ { "data": { "text/plain": [ - "[[(2, 1337), (3, 7103), (4, 2657), (5, 209), (6, 35), (7, 6), (8, 1)]]" + "[[(1, 29), (2, 23), (3, 54), (4, 37), (5, 3)]]" ] }, - "execution_count": 10, + "execution_count": 9, "metadata": {}, "output_type": "execute_result" } @@ -316,20 +319,7 @@ "source": [ "### Etape 1 : la matrice Bellman\n", "\n", - "Je ne détaillerai pas trop, la page Wikipedia est assez claire. Dans un premier temps on calcule la longueur de chaque arc (de façon cartésienne). Une autre distance ([Haversine](http://en.wikipedia.org/wiki/Haversine_formula)) ne changerait pas le raisonnement." - ] - }, - { - "cell_type": "code", - "execution_count": 10, - "metadata": {}, - "outputs": [], - "source": [ - "def distance(p1, p2):\n", - " return ((p1[0] - p2[0]) ** 2 + (p1[1] - p2[1]) ** 2) ** 0.5\n", - "\n", - "\n", - "edges = [edge + (distance(edge[-2], edge[-1]),) for edge in edges]" + "Je ne détaillerai pas trop, la page Wikipedia est assez claire. La longueur de chaque rue est incluses dans la description de chaque arc. Elle peut être la distance cartésienne ou la une distance de [Haversine](http://en.wikipedia.org/wiki/Haversine_formula) qui calcule la distance à la surface d'une sphère à partir des coordonnées géographiques. Paris est petit est une approximation cartésienne ne change pas grand chose." ] }, { @@ -341,20 +331,20 @@ }, { "cell_type": "code", - "execution_count": 11, + "execution_count": 10, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ - "2015-04-12 01:16:40.590690 iteration 0 modif 72870 # 35916 / 128777104 = 0.03%\n", - "2015-04-12 01:16:41.340550 iteration 1 modif 120368 # 104842 / 128777104 = 0.08%\n", - "2015-04-12 01:16:42.887810 iteration 2 modif 180646 # 213826 / 128777104 = 0.17%\n", - "2015-04-12 01:16:45.510596 iteration 3 modif 255702 # 368960 / 128777104 = 0.29%\n", - "2015-04-12 01:16:49.759326 iteration 4 modif 347092 # 576106 / 128777104 = 0.45%\n", - "2015-04-12 01:16:55.781000 iteration 5 modif 455899 # 839276 / 128777104 = 0.65%\n", - "2015-04-12 01:17:04.276258 iteration 6 modif 584263 # 1162870 / 128777104 = 0.90%\n" + "2023-08-19 09:10:56.535221 iteration 0 modif 778 # 1138/21316=5.34%\n", + "2023-08-19 09:10:56.538415 iteration 1 modif 1228 # 2258/21316=10.59%\n", + "2023-08-19 09:10:56.545218 iteration 2 modif 1717 # 3748/21316=17.58%\n", + "2023-08-19 09:10:56.557001 iteration 3 modif 2118 # 5500/21316=25.80%\n", + "2023-08-19 09:10:56.574194 iteration 4 modif 2442 # 7470/21316=35.04%\n", + "2023-08-19 09:10:56.602050 iteration 5 modif 2726 # 9624/21316=45.15%\n", + "2023-08-19 09:10:56.642132 iteration 6 modif 2900 # 11810/21316=55.40%\n" ] } ], @@ -378,17 +368,17 @@ "it = 0\n", "while modif > 0:\n", " modif = 0\n", - " initc = (\n", - " init.copy()\n", - " ) # to avoid RuntimeError: dictionary changed size during iteration\n", " s = 0\n", - " for i, d in initc.items():\n", + " # on itère sur les clés connues au début de l'itération\n", + " # il faut éviter d'itérer sur un ensemble et de le modifier en même temps\n", + " keys = list(init)\n", + " for i in keys:\n", + " d = init[i]\n", " fromi2 = edges_from[i[1]]\n", " s += d\n", " for e in fromi2:\n", - " if (\n", - " i[0] == e[1]\n", - " ): # on fait attention à ne pas ajouter de boucle sur le même noeud\n", + " if i[0] == e[1]:\n", + " # on fait attention à ne pas ajouter de boucle sur le même noeud\n", " continue\n", " new_e = i[0], e[1]\n", " new_d = d + e[-1]\n", @@ -396,8 +386,8 @@ " init[new_e] = new_d\n", " modif += 1\n", " print(\n", - " f\"{datetime.datetime.now()} iteration {it} modif {modif} # {len(initc)}/{total_possible_edges}=\"\n", - " f\"{len(initc)*100 / total_possible_edges:0.00f}%\"\n", + " f\"{datetime.datetime.now()} iteration {it} modif {modif} # {len(init)}/{total_possible_edges}=\"\n", + " f\"{len(init)*100 / total_possible_edges:1.2f}%\"\n", " )\n", " it += 1\n", " if it > 6:\n", @@ -408,21 +398,21 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "On s'aperçoit vite que cela va être très très long. On décide alors de ne considérer que les paires de noeuds pour lesquelles la distance à vol d'oiseau est inférieure au plus grand segment de rue ou inférieure à cette distance multipliée par un coefficient." + "Avec 200 rues, c'est rapide mais cela peut être très long avec toutes les rues. On décide alors de ne considérer que les paires de noeuds pour lesquelles la distance à vol d'oiseau est inférieure au plus grand segment de rue ou inférieure à cette distance multipliée par un coefficient." ] }, { "cell_type": "code", - "execution_count": 12, + "execution_count": 11, "metadata": {}, "outputs": [ { "data": { "text/plain": [ - "0.017418989861067814" + "0.3258634178614415" ] }, - "execution_count": 13, + "execution_count": 11, "metadata": {}, "output_type": "execute_result" } @@ -436,73 +426,66 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "On calcule les arcs admissibles (en espérant que les noeuds de degré impairs seront bien dedans). Cette étape prend quelques minutes :" + "On calcule les arcs admissibles (en espérant que les noeuds de degré impairs seront bien dedans). Cette étape peut être longue. C'est pour cela qu'on utilise le module [tqdm](https://github.com/tqdm/tqdm) pour afficher une barre de défilement." ] }, { "cell_type": "code", - "execution_count": 13, + "execution_count": 12, "metadata": {}, "outputs": [ + { + "name": "stderr", + "output_type": "stream", + "text": [ + "100%|██████████| 146/146 [00:00<00:00, 2118.45it/s]" + ] + }, { "name": "stdout", "output_type": "stream", "text": [ - "original 35916 / 128777104 = 0.000278900510140374\n", - "addition 2875586 / 128777104 = 0.022329947721141486\n" + "original 200/21316 = 0.009382623381497467\n", + "addition 5290/21316 = 0.248170388440608\n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "\n" ] } ], "source": [ - "possibles = {(e[0], e[1]): e[-1] for e in edges}\n", - "possibles.update({(e[1], e[0]): e[-1] for e in edges})\n", - "initial = possibles.copy()\n", - "for i1, v1 in enumerate(vertices):\n", - " for i2 in range(i1 + 1, len(vertices)):\n", - " v2 = vertices[i2]\n", - " d = distance(v1, v2)\n", - " if d < max_segment / 2: # on ajuste le seuil\n", - " possibles[i1, i2] = d\n", - " possibles[i2, i1] = d\n", + "from teachpyx.practice.rues_paris import distance_haversine as distance\n", + "from tqdm import tqdm\n", + "\n", "\n", + "def build_possibles(vertices, edges, seuil):\n", + " possibles = {(e[0], e[1]): e[-1] for e in edges}\n", + " possibles.update({(e[1], e[0]): e[-1] for e in edges})\n", + " for i1, v1 in tqdm(list(enumerate(vertices))):\n", + " for i2 in range(i1 + 1, len(vertices)):\n", + " v2 = vertices[i2]\n", + " d = distance(v1[0], v1[1], v2[0], v2[1])\n", + " if d < seuil: # on ajuste le seuil\n", + " possibles[i1, i2] = d\n", + " possibles[i2, i1] = d\n", + " return possibles\n", + "\n", + "\n", + "possibles = build_possibles(vertices, edges, max_segment)\n", "print(\n", - " f\"original {len(initial)}/{total_possible_edges} = \"\n", - " f\"{len(initial)/total_possible_edges}\"\n", + " f\"original {len(edges)}/{total_possible_edges} = \"\n", + " f\"{len(edges)/total_possible_edges}\"\n", ")\n", "print(\n", - " f\"addition {len(possibles)-len(initial)}/{total_possible_edges} = \"\n", - " f\"{(len(possibles)-len(initial))/total_possible_edges}\"\n", + " f\"addition {len(possibles)-len(edges)}/{total_possible_edges} = \"\n", + " f\"{(len(possibles)-len(edges))/total_possible_edges}\"\n", ")" ] }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "On vérifie que les noeuds de degré impairs font tous partie de l'ensemble des noeuds recevant de nouveaux arcs. La matrice de Bellman envisagera au pire 2.2% de toutes les distances possibles." - ] - }, - { - "cell_type": "code", - "execution_count": 14, - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "si vous voyez cette ligne, c'est que tout est bon\n" - ] - } - ], - "source": [ - "allv = {p[0]: True for p in possibles if p not in initial} # possibles est symétrique\n", - "for v, p in nb_edge.items():\n", - " if p % 2 == 1 and v not in allv:\n", - " raise Exception(\"problème pour le noeud: {0}\".format(v))\n", - "print(\"si vous voyez cette ligne, c'est que tout est bon\")" - ] - }, { "cell_type": "markdown", "metadata": {}, @@ -512,75 +495,75 @@ }, { "cell_type": "code", - "execution_count": 15, + "execution_count": 13, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ - "2015-04-12 01:18:45.389333 iteration 0 modif 72870 # 35916 / 128777104 = 0.03%\n", - "2015-04-12 01:18:46.179293 iteration 1 modif 119604 # 104842 / 128777104 = 0.08%\n", - "2015-04-12 01:18:47.853483 iteration 2 modif 178033 # 213086 / 128777104 = 0.17%\n", - "2015-04-12 01:18:50.790772 iteration 3 modif 248648 # 365751 / 128777104 = 0.28%\n", - "2015-04-12 01:18:55.302585 iteration 4 modif 330443 # 566457 / 128777104 = 0.44%\n", - "2015-04-12 01:19:02.002318 iteration 5 modif 419549 # 815211 / 128777104 = 0.63%\n", - "2015-04-12 01:19:11.623367 iteration 6 modif 508807 # 1109019 / 128777104 = 0.86%\n", - "2015-04-12 01:19:23.579840 iteration 7 modif 585973 # 1438040 / 128777104 = 1.12%\n", - "2015-04-12 01:19:38.370350 iteration 8 modif 639491 # 1785232 / 128777104 = 1.39%\n", - "2015-04-12 01:19:56.035255 iteration 9 modif 656961 # 2127675 / 128777104 = 1.65%\n", - "2015-04-12 01:20:16.436453 iteration 10 modif 638987 # 2441604 / 128777104 = 1.90%\n", - "2015-04-12 01:20:39.075644 iteration 11 modif 591284 # 2711201 / 128777104 = 2.11%\n", - "2015-04-12 01:21:04.245760 iteration 12 modif 519515 # 2928527 / 128777104 = 2.27%\n", - "2015-04-12 01:21:33.496050 iteration 13 modif 434787 # 3091667 / 128777104 = 2.40%\n", - "2015-04-12 01:22:02.419568 iteration 14 modif 346204 # 3205671 / 128777104 = 2.49%\n", - "2015-04-12 01:22:29.389913 iteration 15 modif 263229 # 3279078 / 128777104 = 2.55%\n", - "2015-04-12 01:22:55.394012 iteration 16 modif 191482 # 3323381 / 128777104 = 2.58%\n", - "2015-04-12 01:23:22.033884 iteration 17 modif 133738 # 3348569 / 128777104 = 2.60%\n", - "2015-04-12 01:23:49.684842 iteration 18 modif 90442 # 3362160 / 128777104 = 2.61%\n", - "2015-04-12 01:24:17.267404 iteration 19 modif 59686 # 3369505 / 128777104 = 2.62%\n", - "2015-04-12 01:24:46.839139 iteration 20 modif 38936 # 3373640 / 128777104 = 2.62%\n" + "2023-08-19 09:10:56.912505 iteration 0 modif 778 # 400/21316=1.88%\n", + "2023-08-19 09:10:56.928070 iteration 1 modif 1213 # 1138/21316=5.34%\n", + "2023-08-19 09:10:56.938916 iteration 2 modif 1627 # 2244/21316=10.53%\n", + "2023-08-19 09:10:56.957763 iteration 3 modif 1676 # 3644/21316=17.10%\n", + "2023-08-19 09:10:56.976823 iteration 4 modif 1341 # 4989/21316=23.40%\n", + "2023-08-19 09:10:57.020697 iteration 5 modif 833 # 5977/21316=28.04%\n", + "2023-08-19 09:10:57.042415 iteration 6 modif 427 # 6489/21316=30.44%\n", + "2023-08-19 09:10:57.062800 iteration 7 modif 187 # 6716/21316=31.51%\n", + "2023-08-19 09:10:57.088837 iteration 8 modif 74 # 6815/21316=31.97%\n", + "2023-08-19 09:10:57.112715 iteration 9 modif 36 # 6856/21316=32.16%\n", + "2023-08-19 09:10:57.138552 iteration 10 modif 9 # 6874/21316=32.25%\n", + "2023-08-19 09:10:57.168428 iteration 11 modif 1 # 6874/21316=32.25%\n", + "2023-08-19 09:10:57.197202 iteration 12 modif 0 # 6874/21316=32.25%\n" ] } ], "source": [ "import datetime\n", - "init = { (e[0],e[1]) : e[-1] for e in edges }\n", - "init.update ( { (e[1],e[0]) : e[-1] for e in edges } )\n", "\n", - "edges_from = { }\n", - "for e in edges :\n", - " if e[0] not in edges_from : \n", + "init = {(e[0], e[1]): e[-1] for e in edges}\n", + "init.update({(e[1], e[0]): e[-1] for e in edges})\n", + "\n", + "edges_from = {}\n", + "for e in edges:\n", + " if e[0] not in edges_from:\n", " edges_from[e[0]] = []\n", - " if e[1] not in edges_from : \n", + " if e[1] not in edges_from:\n", " edges_from[e[1]] = []\n", " edges_from[e[0]].append(e)\n", - " edges_from[e[1]].append( (e[1], e[0], e[2], e[4], e[3], e[5] ) )\n", - " \n", + " edges_from[e[1]].append((e[1], e[0], e[2], e[4], e[3], e[5]))\n", + "\n", "modif = 1\n", - "total_possible_edges = len(edges_from)**2\n", + "total_possible_edges = len(edges_from) ** 2\n", "it = 0\n", - "while modif > 0 :\n", + "while modif > 0:\n", " modif = 0\n", - " initc = init.copy() # to avoid RuntimeError: dictionary changed size during iteration\n", + " initc = (\n", + " init.copy()\n", + " ) # to avoid RuntimeError: dictionary changed size during iteration\n", " s = 0\n", - " for i,d in initc.items() :\n", - " if i not in possibles : \n", + " for i, d in initc.items():\n", + " if i not in possibles:\n", " continue # we skip undesired edges ------------------- addition\n", " fromi2 = edges_from[i[1]]\n", " s += d\n", - " for e in fromi2 :\n", - " if i[0] == e[1] : # on fait attention à ne pas ajouter de boucle sur le même noeud\n", + " for e in fromi2:\n", + " if (\n", + " i[0] == e[1]\n", + " ): # on fait attention à ne pas ajouter de boucle sur le même noeud\n", " continue\n", " new_e = i[0], e[1]\n", " new_d = d + e[-1]\n", - " if new_e not in init or init[new_e] > new_d :\n", - " init[new_e] = new_d \n", + " if new_e not in init or init[new_e] > new_d:\n", + " init[new_e] = new_d\n", " modif += 1\n", - " print(f\"{datetime.datetime.now()} iteration {it} modif {modif} # {len(initc)}/{total_possible_edges}=\" \n", - " f{len(initc)*100 / total_possible_edges:0.00f}%\")\n", + " print(\n", + " f\"{datetime.datetime.now()} iteration {it} modif {modif} \"\n", + " f\"# {len(initc)}/{total_possible_edges}=\"\n", + " f\"{len(initc)*100 / total_possible_edges:1.2f}%\"\n", + " )\n", " it += 1\n", - " if it > 20 : \n", + " if it > 20:\n", " break" ] }, @@ -588,12 +571,12 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "L'algorithme consiste à regarder les chemins $a \\rightarrow b \\rightarrow c$ et à comparer s'il est plus rapide que $a \\rightarrow c$. 2.6% > 2.2% parce que le filtre est appliqué seulement sur $a \\rightarrow b$. Finalement, on considère les arcs ajoutés puis on retire les arcs originaux." + "L'algorithme consiste à regarder les chemins $a \\rightarrow b \\rightarrow c$ et à comparer s'il est plus rapide que $a \\rightarrow c$. " ] }, { "cell_type": "code", - "execution_count": 16, + "execution_count": 14, "metadata": {}, "outputs": [], "source": [ @@ -614,16 +597,16 @@ }, { "cell_type": "code", - "execution_count": 17, + "execution_count": 15, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ - "nb degré impairs 22 nombre d'arcs ajoutés 3648\n", - "longueur ajoutée 3.5423464430662346\n", - "longueur initiale 17.418504406203844\n" + "nb degré impairs 2 nombre d'arcs ajoutés 42\n", + "longueur ajoutée 5.122002169199727\n", + "longueur initiale 15.661698849016764\n" ] } ], @@ -670,175 +653,128 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Le nombre de noeuds impairs obtenus à la fin doit être inférieur à 2 pour être sûr de trouver un chemin (mais on choisira 0 pour avoir un circuit eulérien). Mon premier essai n'a pas donné satisfaction (92 noeuds impairs restant) car j'avais choisi un seuil (max_segment / 4) trop petit lors de la sélection des arcs à ajouter. J'ai augmenté le seuil par la suite mais il reste encore 22 noeuds de degré impairs. On a le choix entre augmenter ce seuil mais l'algorithme est déjà long ou chercher dans une autre direction comme laisser l'algorithme de Bellman explorer les noeuds de degré impairs. Ca ne veut pas forcément dire qu'il manque des arcs mais que peut-être ils sont mal choisis. Si l'arc $i \\rightarrow j$ est choisi, l'arc $j \\rightarrow k$ ne le sera pas car $j$ aura un degré pair. Mais dans ce cas, si l'arc $j \\rightarrow k$ était le dernier arc disponible pour combler $k$, on est coincé. On peut augmenter le seuil encore mais cela risquee de prendre du temps et puis cela ne fonctionnerait pas toujours sur tous les jeux de données.\n", - "\n", - "On pourait alors écrire une sorte d'algorithme itératif qui exécute l'algorithme de Bellman, puis lance celui qui ajoute les arcs. Puis on revient au premier en ajoutant plus d'arcs autour des noeuds problèmatique lors de la seconde étape. L'ensemble est un peu long pour tenir dans un notebook mais le code est celui de la fonction [eulerien_extension](http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/ensae_teaching_cs/special/rues_paris.html#special.rues_paris.eulerien_extension). Je conseille également la lecture de cet article : [Efficient Algorithms for Eulerian Extension](http://www.akt.tu-berlin.de/fileadmin/fg34/publications-akt/euler_short.pdf) (voir également [On Making Directed Graphs Eulerian](http://arxiv.org/abs/1101.4283)). L'exécution qui suit prend une vingtaine de minutes." - ] - }, - { - "cell_type": "code", - "execution_count": 18, - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "data\n", - "start, nb edges 17958\n", - "possible_edges\n", - "original 17958 / 64382878.0 = 0.00027892508936925745\n", - "addition 1312214 / 64382878.0 = 0.020381412586122666\n", - "next\n", - "iteration 0 modif 72876 # 17958 / 64382878 = 0.03%\n", - "iteration 1 modif 119544 # 52421 / 64382878 = 0.08%\n", - "iteration 2 modif 177609 # 106511 / 64382878 = 0.17%\n", - "iteration 3 modif 247689 # 182680 / 64382878 = 0.28%\n", - "iteration 4 modif 327843 # 282626 / 64382878 = 0.44%\n", - "iteration 5 modif 413418 # 405980 / 64382878 = 0.63%\n", - "iteration 6 modif 496069 # 550546 / 64382878 = 0.86%\n", - "iteration 7 modif 561366 # 710517 / 64382878 = 1.10%\n", - "iteration 8 modif 598700 # 875788 / 64382878 = 1.36%\n", - "iteration 9 modif 600000 # 1034325 / 64382878 = 1.61%\n", - "iteration 10 modif 567801 # 1175548 / 64382878 = 1.83%\n", - "iteration 11 modif 510076 # 1292961 / 64382878 = 2.01%\n", - "iteration 12 modif 433796 # 1384196 / 64382878 = 2.15%\n", - "iteration 13 modif 349510 # 1449682 / 64382878 = 2.25%\n", - "iteration 14 modif 267371 # 1493038 / 64382878 = 2.32%\n", - "iteration 15 modif 194659 # 1519796 / 64382878 = 2.36%\n", - "iteration 16 modif 135778 # 1535222 / 64382878 = 2.38%\n", - "iteration 17 modif 90864 # 1543743 / 64382878 = 2.40%\n", - "iteration 18 modif 58784 # 1548367 / 64382878 = 2.40%\n", - "iteration 19 modif 37306 # 1550830 / 64382878 = 2.41%\n", - "iteration 20 modif 23232 # 1552160 / 64382878 = 2.41%\n", - "nb odd degrees 7318 nb added edges 0\n", - "nb odd degrees 28 nb added edges 3645\n", - "added length 312.732395725235\n", - "initial length 1511.8818424919855\n", - "degrees [444, 833, 1112, 1672, 2080, 2218, 2428, 2595, 2767, 2772]\n", - "------- nb odd vertices 28 iteration 0\n", - "iteration 0 modif 18055 # 1552928 / 64382878 = 2.41%\n", - "iteration 1 modif 11117 # 1555011 / 64382878 = 2.42%\n", - "iteration 2 modif 8346 # 1556008 / 64382878 = 2.42%\n", - "iteration 3 modif 6811 # 1557026 / 64382878 = 2.42%\n", - "iteration 4 modif 6056 # 1558080 / 64382878 = 2.42%\n", - "iteration 5 modif 5889 # 1559203 / 64382878 = 2.42%\n", - "iteration 6 modif 6182 # 1560422 / 64382878 = 2.42%\n", - "iteration 7 modif 6606 # 1561720 / 64382878 = 2.43%\n", - "iteration 8 modif 7245 # 1563108 / 64382878 = 2.43%\n", - "iteration 9 modif 8000 # 1564601 / 64382878 = 2.43%\n", - "iteration 10 modif 8813 # 1566180 / 64382878 = 2.43%\n", - "iteration 11 modif 9947 # 1567891 / 64382878 = 2.44%\n", - "iteration 12 modif 11220 # 1569765 / 64382878 = 2.44%\n", - "iteration 13 modif 12595 # 1571750 / 64382878 = 2.44%\n", - "iteration 14 modif 14231 # 1573865 / 64382878 = 2.44%\n", - "iteration 15 modif 15907 # 1576113 / 64382878 = 2.45%\n", - "iteration 16 modif 17720 # 1578466 / 64382878 = 2.45%\n", - "iteration 17 modif 19396 # 1580917 / 64382878 = 2.46%\n", - "iteration 18 modif 21385 # 1583422 / 64382878 = 2.46%\n", - "iteration 19 modif 23468 # 1586072 / 64382878 = 2.46%\n", - "iteration 20 modif 25721 # 1588844 / 64382878 = 2.47%\n", - "nb odd degrees 7318 nb added edges 0\n", - "nb odd degrees 0 nb added edges 3659\n", - "added length 341.68448700406753\n", - "initial length 1511.8818424919855\n", - "degrees []\n", - "end, nb added 3659\n" - ] - } - ], - "source": [ - "from ensae_teaching_cs.special.rues_paris import (\n", - " eulerien_extension,\n", - " distance_paris,\n", - " get_data,\n", - ")\n", + "Le nombre de noeuds impairs obtenus à la fin doit être inférieur à 2 pour être sûr de trouver un chemin (mais on choisira 0 pour avoir un circuit eulérien). Mon premier essai n'a pas donné satisfaction car j'avais choisi un seuil trop petit lors de la sélection des arcs à ajouter. J'ai augmenté le seuil par la suite. S'il reste encore des noeuds de degré impairs, on a le choix entre augmenter ce seuil - mais l'algorithme est déjà long - ou chercher dans une autre direction comme laisser l'algorithme de Bellman explorer les noeuds de degré impairs. Ca ne veut pas forcément dire qu'il manque des arcs mais que peut-être ils sont mal choisis. Si l'arc $i \\rightarrow j$ est choisi, l'arc $j \\rightarrow k$ ne le sera pas car $j$ aura un degré pair. Mais dans ce cas, si l'arc $j \\rightarrow k$ était le dernier arc disponible pour combler $k$, on est coincé. On peut augmenter le seuil encore mais cela risquee de prendre du temps et puis cela ne fonctionnerait pas toujours sur tous les jeux de données.\n", "\n", - "print(\"data\")\n", - "edges = get_data()\n", - "print(f\"start, nb edges {len(edges)}\")\n", - "added = eulerien_extension(edges, distance=distance_paris)\n", - "print(f\"end, nb added {len(added)}\")" + "On pourait alors écrire une sorte d'algorithme itératif qui exécute l'algorithme de Bellman, puis lance celui qui ajoute les arcs. Puis on revient au premier en ajoutant plus d'arcs autour des noeuds problèmatique lors de la seconde étape. L'ensemble est un peu long pour tenir dans un notebook mais le code est celui de la fonction [eulerien_extension](http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/ensae_teaching_cs/special/rues_paris.html#special.rues_paris.eulerien_extension). Je conseille également la lecture de cet article : [Efficient Algorithms for Eulerian Extension](https://fpt.akt.tu-berlin.de/publications/Eulerian_Extension_and_Rural_Postman_SIDMA.pdf) (voir également [On Making Directed Graphs Eulerian](http://arxiv.org/abs/1101.4283)). L'exécution qui suit prend une vingtaine de minutes." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "On enregistre le résultat où on souhaite recommencer à partir de ce moment-là plus tard." + "### Chemin Eulérien\n", + "\n", + "A cet instant, on n'a pas vraiment besoin de connaître la longueur du chemin eulérien passant par tous les arcs. Il s'agit de la somme des arcs initiaux et ajoutés (soit environ 334 + 1511). On suppose qu'il n'y qu'une composante connexe. Construire le chemin eulérien fait apparaître quelques difficultés comme la suivante : on parcourt le graphe dans un sens mais on peut laisser de côté une partie du chemin et créer une seconde composante connexe." ] }, { "cell_type": "code", - "execution_count": 19, + "execution_count": 16, "metadata": {}, - "outputs": [], + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "" + ] + }, + "execution_count": 16, + "metadata": { + "image/png": { + "width": 400 + } + }, + "output_type": "execute_result" + } + ], "source": [ - "with open(\"added.txt\", \"w\") as f:\n", - " f.write(str(added))" + "from IPython.display import Image\n", + "\n", + "Image(\"euler.png\", width=400)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "### Chemin Eulérien\n", - "\n", - "A cet instant, on n'a pas vraiment besoin de connaître la longueur du chemin eulérien passant par tous les arcs. Il s'agit de la somme des arcs initiaux et ajoutés (soit environ 334 + 1511). On suppose qu'il n'y qu'une composante connexe. Construire le chemin eulérien fait apparaître quelques difficultés comme la suivante : on parcourt le graphe dans un sens mais on peut laisser de côté une partie du chemin et créer une seconde composante connexe." + "Quelques algorithmes sont disponibles sur cette page [Eulerian_path](http://en.wikipedia.org/wiki/Eulerian_path). L'algorithme de Hierholzer consiste à commencer un chemin eulérien qui peut revenir au premier avant d'avoir tout parcouru. Dans ce cas, on parcourt les noeuds du graphe pour trouver un noeud qui repart ailleurs et qui revient au même noeud. On insert cette boucle dans le chemin initial. Tout d'abord, on construit une structure qui pour chaque noeud associe les noeuds suivant. La fonction [euler_path](http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/ensae_teaching_cs/special/rues_paris.html#special.rues_paris.eurler_path)" ] }, { "cell_type": "code", - "execution_count": 22, + "execution_count": 17, "metadata": {}, "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "------- nb odd vertices 10 iteration 0\n", + "iteration 0 #modif 113 # 1327/10585 = 12.54%\n", + "iteration 1 #modif 90 # 1383/10585 = 13.07%\n", + "iteration 2 #modif 113 # 1423/10585 = 13.45%\n", + "iteration 3 #modif 133 # 1470/10585 = 13.89%\n", + "iteration 4 #modif 168 # 1523/10585 = 14.39%\n", + "iteration 5 #modif 187 # 1589/10585 = 15.01%\n", + "iteration 6 #modif 192 # 1655/10585 = 15.64%\n", + "iteration 7 #modif 219 # 1722/10585 = 16.27%\n", + "iteration 8 #modif 232 # 1796/10585 = 16.97%\n", + "iteration 9 #modif 227 # 1863/10585 = 17.61%\n", + "iteration 10 #modif 207 # 1919/10585 = 18.13%\n", + "iteration 11 #modif 164 # 1968/10585 = 18.59%\n", + "iteration 12 #modif 111 # 2003/10585 = 18.92%\n", + "iteration 13 #modif 77 # 2027/10585 = 19.15%\n", + "iteration 14 #modif 43 # 2038/10585 = 19.25%\n", + "iteration 15 #modif 13 # 2039/10585 = 19.27%\n", + "iteration 16 #modif 2 # 2040/10585 = 19.27%\n", + "iteration 17 #modif 0 # 2040/10585 = 19.27%\n" + ] + }, { "data": { - "image/png": "", "text/plain": [ - "" + "[(22, 31, 0.0016168196457467584),\n", + " (48, 55, 0.002915457386378182),\n", + " (26, 45, 0.004107201738406607),\n", + " (109, 138, 0.005201454147672404),\n", + " (29, 73, 0.010775423696863674)]" ] }, - "execution_count": 23, + "execution_count": 17, "metadata": {}, "output_type": "execute_result" } ], "source": [ - "from IPython.display import Image\n", + "from teachpyx.practice.rues_paris import euler_path, eulerien_extension\n", "\n", - "Image(\"euler.png\")" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Quelques algorithmes sont disponibles sur cette page [Eulerian_path](http://en.wikipedia.org/wiki/Eulerian_path). L'algorithme de Hierholzer consiste à commencer un chemin eulérien qui peut revenir au premier avant d'avoir tout parcouru. Dans ce cas, on parcourt les noeuds du graphe pour trouver un noeud qui repart ailleurs et qui revient au même noeud. On insert cette boucle dans le chemin initial. Tout d'abord, on construit une structure qui pour chaque noeud associe les noeuds suivant. La fonction [euler_path](http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/ensae_teaching_cs/special/rues_paris.html#special.rues_paris.eurler_path)" + "added = eulerien_extension(edges, verbose=True)\n", + "added[:5]" ] }, { "cell_type": "code", - "execution_count": 23, + "execution_count": 18, "metadata": {}, "outputs": [ { "data": { "text/plain": [ - "[(2121, ['street', 3, 2121, 0.049532522902426074]),\n", - " (10363, ['street', 2121, 10363, 0.1474817976215633]),\n", - " (3517, ['street', 3517, 10363, 0.10602477572757586]),\n", - " (2829, ['street', 2829, 3517, 0.03409802890007801]),\n", - " (3515, ['street', 3515, 2829, 0.060836636019222866])]" + "[(43, ['street', 43, 59, 0.016229655482986917]),\n", + " (74, ['street', 74, 43, 0.08264740074165475]),\n", + " (36, ['street', 36, 74, 0.026299568900906643]),\n", + " (74, ['jump', 36, 74, 0.026299568900906643]),\n", + " (53, ['street', 74, 53, 0.08193964999861593])]" ] }, - "execution_count": 24, + "execution_count": 18, "metadata": {}, "output_type": "execute_result" } ], "source": [ - "path = euler_path(edges, added_edges)\n", + "path = euler_path(edges, added)\n", "path[:5]" ] }, @@ -889,15 +825,6 @@ "\n", "C'est une variante pour laquelle le coût d'un arc n'est pas le même selon qu'on le parcourt dans un sens ou dans l'autre (à contre sens). Ce problème est [NP complet](https://en.wikipedia.org/wiki/NP-completeness)." ] - }, - { - "cell_type": "code", - "execution_count": 24, - "metadata": { - "collapsed": true - }, - "outputs": [], - "source": [] } ], "metadata": { @@ -916,7 +843,7 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.7.2" + "version": "3.10.6" } }, "nbformat": 4, diff --git a/_unittests/ut_xrun_doc/test_documentation_examples.py b/_unittests/ut_xrun_doc/test_documentation_examples.py index 8856dbfc..c0e037d5 100644 --- a/_unittests/ut_xrun_doc/test_documentation_examples.py +++ b/_unittests/ut_xrun_doc/test_documentation_examples.py @@ -42,6 +42,8 @@ def run_test(self, fold: str, name: str, verbose=0) -> int: res = p.communicate() out, err = res st = err.decode("ascii", errors="ignore") + if "No such file or directory" in st: + raise FileNotFoundError(st) if len(st) > 0 and "Traceback" in st: if '"dot" not found in path.' in st: # dot not installed, this part @@ -49,17 +51,10 @@ def run_test(self, fold: str, name: str, verbose=0) -> int: if verbose: print(f"failed: {name!r} due to missing dot.") return -1 - if "No such file or directory: 'schema_pb2.py'" in str(st): - if verbose: - print( - f"failed: {name!r} due to missing protoc " - f"(or wrong version)." - ) - return -1 raise AssertionError( - "Example '{}' (cmd: {} - exec_prefix='{}') " - "failed due to\n{}" - "".format(name, cmds, sys.exec_prefix, st) + f"Example {name!r} (cmd: {cmds!r} - " + f"exec_prefix={sys.exec_prefix!r}) " + f"failed due to\n{st}" ) dt = time.perf_counter() - perf if verbose: @@ -75,9 +70,20 @@ def add_test_methods(cls): if name.startswith("plot_") and name.endswith(".py"): short_name = os.path.split(os.path.splitext(name)[0])[-1] - def _test_(self, name=name): - res = self.run_test(fold, name, verbose=VERBOSE) - self.assertIn(res, (-1, 1)) + if sys.platform == "win32" and ( + "protobuf" in name or "td_note_2021" in name + ): + + @unittest.skip("notebook with questions or issues with windows") + def _test_(self, name=name): + res = self.run_test(fold, name, verbose=VERBOSE) + self.assertIn(res, (-1, 1)) + + else: + + def _test_(self, name=name): + res = self.run_test(fold, name, verbose=VERBOSE) + self.assertIn(res, (-1, 1)) setattr(cls, f"test_{short_name}", _test_) diff --git a/_unittests/ut_xrun_doc/test_documentation_notebook.py b/_unittests/ut_xrun_doc/test_documentation_notebook.py index 73098198..a661c33f 100644 --- a/_unittests/ut_xrun_doc/test_documentation_notebook.py +++ b/_unittests/ut_xrun_doc/test_documentation_notebook.py @@ -3,7 +3,6 @@ import sys import importlib import subprocess -import tempfile import time from nbconvert import PythonExporter from teachpyx import __file__ as teachpyx_file @@ -48,31 +47,40 @@ def run_test(self, nb_name: str, verbose=0) -> int: content = self.post_process(exporter.from_filename(nb_name)[0]) bcontent = content.encode("utf-8") - with tempfile.NamedTemporaryFile(suffix=".py") as tmp: - self.assertEndsWith(tmp.name, ".py") - tmp.write(bcontent) - tmp.seek(0) + tmp = "temp_notebooks" + if not os.path.exists(tmp): + os.mkdir(tmp) + # with tempfile.NamedTemporaryFile(suffix=".py") as tmp: + name = os.path.splitext(os.path.split(nb_name)[-1])[0] + if os.path.exists(tmp): + tmp_name = os.path.join(tmp, name + ".py") + self.assertEndsWith(tmp_name, ".py") + with open(tmp_name, "wb") as f: + f.write(bcontent) - fold, name = os.path.split(tmp.name) + fold, name = os.path.split(tmp_name) try: mod = import_source(fold, os.path.splitext(name)[0]) assert mod is not None except (FileNotFoundError, RuntimeError): # try another way - cmds = [sys.executable, "-u", name] + cmds = [sys.executable, "-u", tmp_name] p = subprocess.Popen( cmds, stdout=subprocess.PIPE, stderr=subprocess.PIPE ) res = p.communicate() out, err = res st = err.decode("ascii", errors="ignore") + if "No such file or directory" in st: + raise FileNotFoundError(st) if len(st) > 0 and "Traceback" in st: - raise AssertionError( + msg = ( f"Example {nb_name!r} (cmd: {cmds} - " f"exec_prefix={sys.exec_prefix!r}) " - f"failed due to\n{st}\n-----\n{content}" + f"failed due to\n{st}" ) + raise AssertionError(msg) dt = time.perf_counter() - perf if verbose: @@ -84,14 +92,23 @@ def add_test_methods_path(cls, fold): found = os.listdir(fold) last = os.path.split(fold)[-1] for name in found: - if "interro_rapide_" in name: - continue if name.endswith(".ipynb"): fullname = os.path.join(fold, name) + if "interro_rapide_" in name or ( + sys.platform == "win32" + and ("protobuf" in name or "td_note_2021" in name) + ): - def _test_(self, fullname=fullname): - res = self.run_test(fullname, verbose=VERBOSE) - self.assertIn(res, (-1, 1)) + @unittest.skip("notebook with questions or issues with windows") + def _test_(self, fullname=fullname): + res = self.run_test(fullname, verbose=VERBOSE) + self.assertIn(res, (-1, 1)) + + else: + + def _test_(self, fullname=fullname): + res = self.run_test(fullname, verbose=VERBOSE) + self.assertIn(res, (-1, 1)) lasts = last.replace("-", "_") names = os.path.splitext(name)[0].replace("-", "_") @@ -104,6 +121,7 @@ def add_test_methods(cls): os.path.join(this, "..", "..", "_doc", "practice", "exams"), os.path.join(this, "..", "..", "_doc", "practice", "py-base"), os.path.join(this, "..", "..", "_doc", "practice", "algo-base"), + os.path.join(this, "..", "..", "_doc", "practice", "algo-compose"), ] for fold in folds: cls.add_test_methods_path(os.path.normpath(fold)) diff --git a/appveyor.yml b/appveyor.yml index e8ed747f..bbbe8590 100644 --- a/appveyor.yml +++ b/appveyor.yml @@ -15,7 +15,7 @@ install: build: off test_script: - - "%PYTHON%\\python -m pytest _unittests" + - "%PYTHON%\\python -m pytest _unittests -v" after_test: - "%PYTHON%\\python -u setup.py bdist_wheel" diff --git a/requirements-dev.txt b/requirements-dev.txt index c06ffacd..435a2cd3 100644 --- a/requirements-dev.txt +++ b/requirements-dev.txt @@ -11,6 +11,7 @@ lifelines matplotlib mutagen # mp3 nbsphinx +networkx pandas pillow protobuf<4 diff --git a/teachpyx/practice/rues_paris.py b/teachpyx/practice/rues_paris.py index 720754d1..35d19b20 100644 --- a/teachpyx/practice/rues_paris.py +++ b/teachpyx/practice/rues_paris.py @@ -46,7 +46,9 @@ def get_data( :param dest: répertoire dans lequel télécharger les données :param timeout: timeout (seconds) when estabishing the connection :param verbose: affiche le progrès - :param keep: garde tout si la valeur est -1, sinon garde les 1000 premières rues + :param keep: garde tout si la valeur est -1, + sinon garde les 1000 premières rues, ces rues sont choisies + de façon à construire un ensemble connexe :return: liste d'arcs Un arc est défini par un 6-uple contenant les informations suivantes : @@ -88,22 +90,38 @@ def get_data( pairs[p] = True if keep is not None: - short_edges = edges[:keep] new_vertices = {} - edges = [] - for edge in short_edges: - p1, p2 = edge[-3:-1] - if p1 not in new_vertices: - new_vertices[p1] = len(new_vertices) - if p2 not in new_vertices: - new_vertices[p2] = len(new_vertices) - i1, i2 = new_vertices[p1], new_vertices[p2] - edges.append((i1, i2, edge[2], p1, p2, edge[-1])) + already_added = set() + new_edges = [] + for _ in range(0, int(keep**0.5) + 1): + for edge in edges: + if edge[:2] in already_added: + continue + p1, p2 = edge[-3:-1] + if ( + len(new_vertices) > 0 + and p1 not in new_vertices + and p2 not in new_vertices + ): + # On considère des rues connectées à des rues déjà sélectionnées. + continue + if p1 not in new_vertices: + new_vertices[p1] = len(new_vertices) + if p2 not in new_vertices: + new_vertices[p2] = len(new_vertices) + i1, i2 = new_vertices[p1], new_vertices[p2] + new_edges.append((i1, i2, edge[2], p1, p2, edge[-1])) + already_added.add(edge[:2]) + if len(new_edges) >= keep: + break + if len(new_edges) >= keep: + break items = [(v, i) for i, v in new_vertices.items()] items.sort() vertices = [_[1] for _ in items] + edges = new_edges - return edges + return edges, vertices def graph_degree( @@ -321,7 +339,7 @@ def eulerien_extension( totali = 0 while len(allow) > 0: if verbose: - print(f"------- nb odd vertices {len(allow)} iteration {totali}") + print(f"------- # odd vertices {len(allow)} iteration {totali}") allowset = set(allow) init = bellman( edges, @@ -384,9 +402,9 @@ def euler_path( edges_from = {} somme = 0 for e in edges: - k = e[:2] - v = e[-1] - alledges[k] = ["street"] + list(k + (v,)) + k = e[:2] # indices des noeuds + v = e[-1] # distance + alledges[k] = ["street", *k, v] a, b = k alledges[b, a] = alledges[a, b] if a not in edges_from: @@ -398,10 +416,10 @@ def euler_path( somme += v for e in added_edges: # il ne faut pas enlever les doublons - k = e[:2] - v = e[-1] + k = e[:2] # indices ds noeuds + v = e[-1] # distance a, b = k - alledges[k] = ["jump"] + list(k + (v,)) + alledges[k] = ["jump", *k, v] alledges[b, a] = alledges[a, b] if a not in edges_from: edges_from[a] = [] @@ -411,39 +429,43 @@ def euler_path( edges_from[b].append(alledges[a, b]) somme += v - degre = {} - for a, v in edges_from.items(): - t = len(v) - degre[t] = degre.get(t, 0) + 1 - - two = [a for a, v in edges_from.items() if len(v) == 2] + # les noeuds de degré impair odd = [a for a, v in edges_from.items() if len(v) % 2 == 1] if len(odd) > 0: - raise ValueError("some vertices have an odd degree") + raise ValueError("Some vertices have an odd degree.") + # les noeuds de degré 2, on les traverse qu'une fois + two = [a for a, v in edges_from.items() if len(v) == 2] begin = two[0] # checking for v, le in edges_from.items(): + # v est une extrémité for e in le: + # to est l'autre extrémité to = e[1] if v != e[1] else e[2] if to not in edges_from: - raise RuntimeError( - "unable to find vertex {0} for edge {0},{1}".format(to, v) - ) + raise RuntimeError(f"Unable to find vertex {to} for edge {to},{v}") if to == v: - raise RuntimeError(f"circular edge {to}") + raise RuntimeError(f"Circular edge {to}") - # loop + # On sait qu'il existe un chemin. La fonction explore les arcs + # jusqu'à revenir à son point de départ. Elle supprime les arcs + # utilisées de edges_from. path = _explore_path(edges_from, begin) - for p in path: - if len(p) == 0: - raise RuntimeError("this exception should not happen") + + # Il faut s'assurer que le chemin ne contient pas de boucles non visitées. while len(edges_from) > 0: + # Il reste des arcs non visités. On cherche le premier + # arc connecté au chemin existant. start = None for i, p in enumerate(path): if p[0] in edges_from: start = i, p break + if start is None: + raise RuntimeError( + f"start should not be None\npath={path}\nedges_from={edges_from}" + ) sub = _explore_path(edges_from, start[1][0]) i = start[0] path[i : i + 1] = path[i : i + 1] + sub