Testing and Issues

You can test this app and submit issues during the testing period of the Data Clustering Contest contest.

Entries with serious issues will not be able to win the contest, but even minor issues might be important for overall results.


Fair Leopard Feb 28, 2020 at 15:11
Final score for this submission (out of 100):

Languages: 12.52
News EN: 40.02
News RU: 71.56
Categories EN: 11.45
Categories RU: 61.62
Threads EN: 11.6
Threads RU: 28.83
Top news EN: 39.45
Top news RU: 20.56

These data reflect the relative accuracy, precision and speed of the algorithm as compared to the other submissions.
Fair Leopard Feb 6, 2020 at 16:03
In our preliminary tests, this submission received the following scores (out of 100):

Languages: 94
News EN: 74
News RU: 91
Categories EN: 47
Categories RU: 75
Threads EN: 55
Threads RU: 44
Top EN: 56
Top RU: 61

This is not the final result, please stay tuned for updates. We apologize for the delay.
Fair Mammoth Feb 7, 2020 at 16:26
В ходе предварительного тестирования алгоритма были выявлены следующие недостатки в ранжировании:

– Максимальное число статьей в сюжете ограничено двадцатью. В разделе ‘Main’ и категориях представлены не все главные сюжеты.

– Нерелевантная сортировка внутри категорий: в том числе по количеству статей в сюжете. Главные сюжеты слишком широкие, содержат большое количество нерелевантных заголовку статей.

– Нарушена сортировка статей во многих сюжетах: релевантные статьи смешаны с нерелевантными.
Suave Mantis Feb 7, 2020 at 16:47
Ограничено количество топ новостей было исходя из слова 'топ'. Думал сделать 10, но это показалось сильно мало и сделал 20. Никаких ограничений в самом алгоритме нет. Помимо этого не знал как будут отражаться результаты и сделал это так исходя из того, что линейно список конечного размера будет удобно смотреть человеку в текстовом редакторе.

По поводу релевантности: я поздно заметил этот конкурс (он вовсю уже шел), поэтому на обширную прогонку данных и ювелирную донастройку алгоритма не было времени столько, сколько хотелось бы :)
Fair Leopard Dec 12, 2019 at 15:40
The following issues have been discovered during preliminary testing:
- .\ru_providersTop100.txt (No such file or directory)
Suave Mantis Dec 12, 2019 at 19:57
The contain many txt files. This files must be in the same directory with tgnews.jar or executed file, that run this tgnews.jar file.
Fair Leopard Dec 17, 2019 at 12:42
This entry had to be reuploaded after the deadline due to an issue and will not receive any prizes in the current stage.

It's author, however, may get the chance to participate in the next round of the Data Clustering Competition.

The following issues have been discovered during preliminary testing:
- invalid top output format
Suave Mantis Dec 18, 2019 at 05:12
I understand. Problem with this error connected with wrong format of output. I output main news of top threads, but I must output top threads with title of main news. I fix the problem. If I can update program for understanding that in next stage I will have right output I will happy. Thanks.
Fair Leopard Dec 13, 2019 at 14:05
Most likely the problem is that you are using a backslash instead of a slash.
Suave Mantis Dec 13, 2019 at 14:52
Can I fix the problem? Can I recompile and send new version of program? And if it possible what is way for me?
