Я вот однажды вводил код с капчи и перепутал букву q с цифрой 4. Потом задумался как я до этого догадался и понял, что я при распознавании изображения использую всевозможную, разностороннюю информацию. Я смотрю на изгибы линий - плавные они или резкие, я смотрю на соединение линий друг с другом. Но, в то же время я каким-то непонятным образом отделяю шумы - посторонние линии, кляксы на изображении. Как я это делаю - я понять не смог. То есть если строить алгоритм на информации о связи линий на изображении друг с другом, то возникает проблема с фильтрацией посторонних линий, пятен. Такие алгоритмы, вроде, есть и для описания символов используют графы. В общем, думаю, в данной задаче нужно проводить целое исследование на группе добровольцев. Давать различные изображения с различными помехами и выяснять какие-то закономерности. Какая информация является наиболее важно для человека и т.п. Честно говоря, на нейросеть здесь надежды мало. Если только какие-нибудь вспомогательные задачи на неё повесить. Но не весь процесс распознавания.
к сожалению не получится это. А если у тебя серьёзный распределённый проект (читай ботнет) которому необходимо распознавание капчи, причём быстро много и качественно - твой выбор это антикапча. стоит копейки, окупится сходу