ĪÄÕĀ

�¶Īäŗŗ¹¤³Ģ´óŃ§Ń§±Ø�· 2022Äź06ĘŚ 664-669 ³ö°ęČÕĘŚ£ŗ2022-12-31 ISSN:1674-2869 CN:42-1779/TQ

»łÓŚCBAM-Res2NetµÄČĖČŗ¼ĘŹżĖć·Ø

ČĖČŗ¼ĘŹżŹĒ½üÄźĄ´¼ĘĖć»śŹÓ¾õĮģÓņÖŠµÄŅ»øöČČĆÅŃŠ¾æĮģÓņ£¬ĘäÄæµÄŹĒĶØ¹ż¼ĘĖć»ś¶ŌŹäČėĶ¼ĻńµÄ´¦ĄķĄ´¹Ą¼ĘĶ¼ĻńÖŠµÄČĖŹż�£Ėę×Å³ĒŹŠ»ÆµÄ½ų³ĢŅŌ¼°ŹĄ½ēČĖæŚµÄ²»¶ĻŌö³¤£¬ŌŚ»š³µÕ¾�¢ĢåÓż³��¢ŅōĄÖ»įŗĶÓĪŠŠµČŠķ¶ą³�¾°ÖŠ£¬æÉÄÜ»į³öĻÖ´óĮæČĖČŗæģĖŁ¾Ū¼ÆµÄĒéæö�£¶ųČĖČŗ¼ĘŹżÄÜ¹»Õė¶ŌÕāŠ©ĢŲ¶Ø³�¾°ĻĀµÄČĖČŗÄæ±źŹżĮæ½ųŠŠ¹Ą¼Ę£¬×öµ½¶ŌÖŲ´óŹĀ¼žµÄŹĀĻČ¾ÆøęŅŌ¼°ŌŚŹĀŗóø´ÅĢÖŠ·¢»Ó»ż¼«×÷ÓĆ£Ū1£Ż�£´ĖĶā£¬ČĖČŗ¼ĘŹż·½·ØŅ²ÄÜ¹»øØÖśŹµĻÖŹµŹ±¹Ą¼Ę³�¾°ČĖŹż£¬½ų¶ų¶Ōø÷øö³�¾°ÖŠČĖŹż½ųŠŠÓŠŠ§µÄ¹ÜæŲ£¬¼õÉŁČĖČŗµÄ¾Ū¼Æ£¬Õā¶Ōµ±ĻĀŠĀ¹Ś·ĪŃ×ŅßĒéµÄæŲÖĘĘš×Å²»æÉ»ņČ±µÄ×÷ÓĆ�£

ŌŚŌēĘŚµÄČĖČŗ¼ĘŹżÖŠ£¬´ó¶ąŹ¹ÓĆ»łÓŚ¼ģ²āµÄ·½·Ø£¬ÕāŠ©·½·ØĶØ³£ĶØ¹żŅ»øö»¬¶Æ´°æŚŌŚĶ¼ĻńÉĻ¶ŌČĖ»ņĶ·²æ½ųŠŠ¼ģ²ā�£Č»¶ųĘä×¼Č·ŠŌŗĶÄ£ŠĶŠŌÄÜČ´¼«ČŻŅ×ŹÜµ½Äæ±ź³ß¶Č´óŠ�²»Ņ»�¢Äæ±ź¼äÖŲµž�¢±³¾°øÉČÅ�¢Ķ¼Ļń·Ö±ęĀŹµĶµČŅņĖŲµÄÓ°Ļģ�£ĪŖĮĖøÄÉĘÕāŠ©ĪŹĢā£¬ChenµČ£Ū2£ŻĢį³öĮĖ»łÓŚ»Ų¹éµÄ·½·Ø�£øĆ·½·ØÖ±½ÓŃ§Ļ°´ÓĶ¼Ļńµ½¼ĘŹżµÄÓ³Éä£¬ĖäČ»´ÓÕūĢåÉĻĄ´ĖµĢįÉżĮĖ¼ĘŹżµÄŠŌÄÜ£¬Č»¶ų»Ų¹éµÄ¼ĘŹż·½·ØŅĄ¾ÉŗöŹÓĮĖĶ¼ĻńÖŠµÄæÕ¼äŠÅĻ¢£¬½ö½öÖ»µĆµ½Ņ»øö×īÖÕµÄ¼ĘŹż½į¹ū£¬Ņņ´ĖČ±·¦æÉææŠŌŗĶ½āŹĶŠŌ�£

½üÄźĄ´£¬¾ķ»żÉń¾ĶųĀē£Øconvolutional neural networks£¬ CNN£©·¢Õ¹ŃøĖŁ£¬Ļą½ĻÓŚ´«Ķ³¼¼ŹõĄ´Ėµ£¬Ź¹ÓĆÉī¶ČŃ§Ļ°¼¼ŹõµÄĖć·ØĶłĶłÄÜ¹»»ńµĆøüŗĆµÄŠŌÄÜ£¬²¢ĒŅ¾ßÓŠøüĒæµÄ·ŗ»ÆÄÜĮ¦�£Ņņ´Ė£¬Ō½Ą´Ō½¶ąµÄ»łÓŚCNNµÄ·½·Ø±»Ó¦ÓĆÓŚČĖČŗ¼ĘŹżĮģÓņ£Ū3-5£Ż�£²»Ķ¬ÓŚ´«Ķ³·½·ØŠčŅŖŹÖ¹¤ÖĘ×÷ĢŲÕ÷£¬»łÓŚCNNµÄ·½·Ø£Ū6£Ż¶ŌÓŚŹäČėµÄČĖČŗĶ¼Ļń×Ō¶ÆµÄĢįČ�ĢŲÕ÷£¬²¢ŌŚÄ©¶ĖĶØ¹żŅ»øö¾ķ»żŗĖ´óŠ�ĪŖ[1�Į1]µÄŹä³ö²ćÉś³É°üŗ¬ČĖČŗŹżĮæŠÅĻ¢ŗĶĪ»ÖĆŠÅĻ¢µÄĆÜ¶ČĶ¼�£

Õė¶ŌČĖČŗ¼ĘŹżÖŠµÄ³ß¶Č±ä»ÆĪŹĢā£¬ZhangµČ£Ū7£ŻĢį³öĮĖŅ»ÖÖ¶ąĮŠ¾ķ»żÉń¾ĶųĀē£Ømulti-column CNN£¬ MCNN£©£¬ĆæŅ»ĮŠŹ¹ÓĆ²»Ķ¬´óŠ�µÄ¾ķ»żŗĖ£¬ÕāÖÖ½į¹¹ŌŚŅ»¶Ø³Ģ¶ČÉĻ»ŗ½āĮĖ¼ĘŹżÄæ±ź³ß´ē´óŠ�²»Ņ»ÖĀµÄĪŹĢā�£ShiµČ£Ū8£ŻĢį³öĮĖŅ»ÖÖ³ß¶Č¾ŪŗĻĶųĀē£Øscale aggregation network£¬ SANet£©£¬²»Ķ¬ÓŚMCNN£¬øĆĶųĀē²ÉÓĆ·Ö²ćµÄ·½Ź½ĢįČ�¶ą³ß¶ČĢŲÕ÷£¬ŅŌ½ųŠŠŗóŠų´¦Ąķ�£ĖäČ»¶ąĮŠ¾ķ»żÉń¾ĶųĀēĻą½ĻÓŚ´«Ķ³Ėć·ØÓµÓŠĮĖøüŗĆµÄŠŌÄÜŗĶ·ŗ»ÆÄÜĮ¦£¬µ«ÓÉÓŚĘä¶ąĮŠµÄĢŲŠŌµ¼ÖĀĶųĀē½į¹¹ČßÓą£¬Ä£ŠĶ²ĪŹż·±¶ą�¢ŃµĮ·Ą§ÄŃ£¬Ņņ´ĖĪŖĮĖæĖ·žÕāŠ©ĪŹĢā£¬Ō½Ą´Ō½¶ąŠĀŠĶµÄCNN½į¹¹±»ŅżČėµ½ČĖČŗ¼ĘŹżĮģÓņ�£LiµČ£Ū9£ŻĢį³öĮĖŅ»ÖÖæÕ¶´¾ķ»żÉń¾ĶųĀēÄ£ŠĶ £Ønetwork for congested scene recognition£¬ CSRNet£©£¬²ÉÓĆæÕ¶´¾ķ»żÉń¾ĶųĀē£¬ŌŚ±£³Ö·Ö±ęĀŹµÄĶ¬Ź±Ą©´óøŠŹÜŅ°£¬±£ĮōĮĖøü¶ąµÄĶ¼ĻńĻø½ŚŠÅĻ¢�£LiuµČ£Ū10£ŻĢį³öĮĖŅ»ÖÖČŚŗĻ×¢ŅāĮ¦»śÖĘµÄæÉŠĪ±ä¾ķ»żĶųĀē£Øattention-injective deformable convolutional network for crowd understanding£¬ ADCrowdNet£©£¬øĆĶųĀēµÄ×¢ŅāĮ¦Éś³ÉĘ÷£Øattention map generator£¬ AMG£©æÉŅŌ¹żĀĖµōø´ŌÓ±³¾°µČĪŽ¹ŲŠÅĻ¢£¬Ź¹µĆŗóŠųÄ£ŠĶÖ»¹Ų×¢ČĖČŗĒųÓņ�£

±¾ĪÄĢį³öµÄ·½·Ø´ÓŌöĒæĢŲÕ÷µÄ³ß¶ČŹŹÓ¦ŠŌŗĶ½µµĶ±³¾°ŌėÉłøÉČÅĮ½·½Ćę½ųŠŠĮĖÓÅ»Æ£¬´Ó¶ų´ļµ½ĢįøßČĖČŗ¼ĘŹżŠŌÄÜµÄÄæµÄ£¬²¢½ųŠŠĮĖÄ£ŠĶĻūČŚŠŌŹµŃé£¬ŃéÖ¤ĮĖ±¾ĪÄ·½·ØµÄÓŠŠ§ŠŌ�£

1 ČĖČŗ¼ĘŹżĶųĀē

ĪŖĮĖŹµĻÖŌŚ¾²Ģ¬Ķ¼ĻńÖŠ½ųŠŠČĖČŗ¼ĘŹż£¬±¾ĪÄ½įŗĻ¾ķ»ż×¢ŅāĮ¦Ä£æé£Øconvolutional block attention module£¬ CBAM£©£Ū11£ŻÓėRes2NetÄ£æé£Ū12£Ż£¬Ģį³öĮĖŅ»ÖÖ»łÓŚCBAM-Res2NetµÄČĖČŗ¼ĘŹżĖć·Ø£¬ĶųĀēÄ£ŠĶµÄ½į¹¹ČēĶ¼1ĖłŹ¾�£øĆĶųĀēæÉŅŌ·ÖĪŖĒ°¶ĖĶųĀē�¢CBAM-Res2NetÄ£æéŅŌ¼°ŗó¶ĖĶųĀē3øö²æ·Ö£¬ÕūøöĶųĀēµÄŹäČėĪŖŅ»·łČĖČŗĶ¼Ļń£¬Źä³öĪŖ¶ŌÓ¦µÄČĖČŗĆÜ¶ČĶ¼�£

<G:\Īäŗŗ¹¤³Ģ´óŃ§\2022\2022-06¹¤³Ģ\Image\³Ā½´Ø-1.tif><G:\Īäŗŗ¹¤³Ģ´óŃ§\2022\2022-06¹¤³Ģ\Image\³Ā½´Ø-1-1.tif><G:\Īäŗŗ¹¤³Ģ´óŃ§\2022\2022-06¹¤³Ģ\Image\³Ā½´Ø-1-2.tif>

Ķ¼1 ÕūĢåĶųĀē¼Ü¹¹

Fig. 1 Overall network architecture

øĆĶųĀēĒ°¶Ė²æ·ÖĪŖŹÓ¾õ¼øŗĪ×éĶųĀē£Øvisual geometry group networks£¬VGG£©16£Ū13£ŻĶųĀēµÄĒ°10²ć£¬¶ŌŹäČėĶ¼Ļń½ųŠŠ³õ²½µÄĢŲÕ÷ĢįČ��£ĪŖĮĖ½ā¾ö±³¾°ŌėÉłøÉČÅµČĪŹĢāŅżČėĮĖCBAMÄ£æé£¬øĆÄ£æéÄÜ¹»¶ŌŹäČėµÄĢŲÕ÷·Ö±šŌŚæÕ¼äÓņŗĶĶØµĄÓņÉĻ±ąĀė×¢ŅāĮ¦ĢŲÕ÷£¬ČĆÄ£ŠĶøü¶ąµÄČ�¹Ų×¢ČĖČŗĒųÓņ�£ÓÉÓŚČĖČŗĶ¼Ļń¹ć·ŗ´ęŌŚÅÄÉć½Ē¶Č²īŅģ´ó£¬Äæ±ź³ß¶Č±ä»Æ²»¾łŌČµČĪŹĢā£¬½öææVGGŌŚÕūøöĶ¼ĻńÉĻ±ąĀėĻąĶ¬µÄøŠŹÜŅ°ÄŃŅŌµĆµ½ĶźÕūµÄ¶ą³ß¶ČŠÅĻ¢£¬Ņņ´ĖŅżČėĮĖ¶ą³ß¶ČĢŲÕ÷ĢįČ�Ä£æéRes2Net£¬ĖüĶØ¹żŌŚŅ»øö²Š²īæéÖŠ¹¹Ōģ·Ö²ć²Š²īĮ¬½ÓĄ´ŹµĻÖ�£²¢ŌŚ´Ė»ł´�ÉĻ´®ĮŖRes2NetÄ£æéŗĶCBAMÄ£æé×éŗĻ³ÉCBAM-Res2NetÄ£æéĄ´ĢįÉżÄ£ŠĶµÄ¼ĘŹżŠŌÄÜŗĶ·ŗ»ÆÄÜĮ¦�£ŗó¶ĖĶųĀēÉč¼ĘĮĖŅ»øöĄ©ÕÅÄ£æéŅŌĢįČ�øüÉī²ćµÄĢŲÕ÷²¢½ųŠŠĢŲÕ÷ČŚŗĻ»Ų¹é�£

1.1 ¾ķ»ż×¢ŅāĮ¦Ä£æé

ŌŚ¼ĘĖć»śŹÓ¾õĮģÓņ£¬×¢ŅāĮ¦»śÖĘæÉŅŌČĆĶųĀēĻńČĖŅ»ŃłÓŠŃ�ŌńµŲ¹Ų×¢Ķ¼ĻńŠÅĻ¢µÄĶ»³ö²æ·Ö�£Ņņ´Ė£¬ĪŖĮĖ·ĄÖ¹±³¾°ŌėÉł¶ŌĢŲÕ÷Ķ¼µÄøÉČÅ£¬ŌŚĶųĀēÖŠŅżČėĮĖ¾ķ»ż×¢ŅāĮ¦Ä£æéCBAM£¬ČēĶ¼2ĖłŹ¾�£CBAMÄ£æé²»½ö¹Ų×¢ĶØµĄÓņŠÅĻ¢£¬Ķ¬Ź±Ņ²¹Ų×¢æÕ¼äÓņŠÅĻ¢£¬Ņņ´ĖĻą½ĻÓŚµ�ĶØµĄÓņ×¢ŅāĮ¦ĶųĀē£Øsqueeze-and-excitation networks£¬ SENet£©£Ū14£Ż£¬CBAMÄ£æéøüŹŹŗĻŠčŅŖ¹Ų×¢ČĖČŗæÕ¼ä·Ö²¼ŠÅĻ¢µÄČĖČŗ¼ĘŹżČĪĪń�£ĶØµĄ×¢ŅāĮ¦Ä£æéĶØ¹żŃ§Ļ°ĢŲÕ÷¼äµÄĶØµĄ¹ŲĻµÉś³ÉĶØµĄ×¢ŅāĶ¼£¬æÕ¼ä×¢ŅāĮ¦Ä£æéĶØ¹żŃ§Ļ°ĢŲÕ÷¼äµÄæÕ¼ä¹ŲĻµÉś³ÉæÕ¼ä×¢ŅāĮ¦Ķ¼£¬øł¾ŻĶØµĄŗĶæÕ¼ä×¢ŅāĮ¦Ķ¼¶ŌĢŲÕ÷½ųŠŠµ÷Õū£¬ŅŌ´ļµ½ĢįøßĢŲÕ÷Ķ¼ÖŠČĖČŗĒųÓņČØÖŲµÄÄæµÄ�£

<G:\Īäŗŗ¹¤³Ģ´óŃ§\2022\2022-06¹¤³Ģ\Image\³Ā½´Ø-2.tif>[ŹäČėĢŲÕ÷][ĶØµĄ×¢Ņā

Į¦Ä£æé][æÕ¼ä×¢ŅāÄ£æé][Źä³öĢŲÕ÷]

Ķ¼2 ¾ķ»ż×¢ŅāĮ¦Ä£æé

Fig. 2 Convolutional block attention module

1.2 ¶ą³ß¶ČĢŲÕ÷ĢįČ�Ä£æé

¶ą³ß¶ČĢŲÕ÷ĻÖŅŃ¹ć·ŗÓ¦ÓĆÓŚ¼ĘĖć»śŹÓ¾õČĪĪńÖŠ�£Č»¶ų£¬´ó¶ąŹżĻÖÓŠ·½·ØŅŌ·Ö²ćµÄ·½Ź½±ķŹ¾¶ą³ß¶ČĢŲÕ÷�£GaoµČ£Ū12£ŻĢį³öĮĖŅ»ÖÖŠĀµÄ¹¹½ØÄ£æé£¬¼´Res2NetÄ£æé£¬ĖüĶØ¹ż¾ķ»ż·Ö×éµÄ·½Ź½ŅŌøüĻøµÄĮ£¶ČĢįČ�¶ą³ß¶ČĢŲÕ÷�£ŹäČėĢŲÕ÷Ķ¼ŌŚĶØ¹ż[1�Į1]¾ķ»żŗó±»¾ł·ÖĪŖ[s]×é£¬ŌĻČĶØµĄŹżĪŖ[n]µÄ¾ķ»ż²ćŅ²±»¾ł·ÖĪŖ[s]×éĶØµĄŹżĪŖ[n/s]µÄŠ�¾ķ»ż²ć£¬ĆæŅ»×éĢŲÕ÷Ķ¼¶¼»įŹäČėµ½ÓėĘä¶ŌÓ¦µÄŠ�¾ķ»ż²ć£¬²¢½«ĘäŹä³ö½į¹ūŗĶĻĀŅ»×éĢŲÕ÷Ķ¼Ļą¼ÓŗóŹäČėµ½ĻĀŅ»øöŠ�¾ķ»ż²ć�£µ±ĖłÓŠµÄŠ�¾ķ»ż²ć¶¼Źä³ö½į¹ūŗó£¬½«ÕāŠ©ĢŲÕ÷Ķ¼½ųŠŠĘ´½Ó²¢ĶØ¹ż[1�Į1]¾ķ»ż¶Ō¶ą³ß¶ČŠÅĻ¢½ųŠŠČŚŗĻ�£ŌŚÕāøö¹ż³ĢÖŠ£¬·Ö×éŗóµÄŹäČėĢŲÕ÷Ķ¼¾¹żĖłÓŠĀ·¾¶£¬²¢ČŚŗĻĪŖŹä³öĢŲÕ÷Ķ¼£¬ÓÉÓŚ×éŗĻŠ§Ó¦£¬Ćæ¾¹żŅ»øö[3�Į3]µÄ¾ķ»ż²ć£¬ĘäøŠŹÜŅ°¶¼»įŌö¼Ó�£

Ķ¼3Õ¹Ź¾ĮĖ²Š²īæéŗĶRes2NetÄ£æéÖ®¼äµÄ²īŅģ£Ū12£Ż�£ŌŚĶØ¹ż[1�Į1]¾ķ»żÖ®ŗó£¬½«ŹäČėĢŲÕ÷¾łŌČµŲ·ÖøīĪŖ[s]øöĢŲÕ÷×Ó¼Æ£¬²¢ÓĆ[xi]±ķŹ¾£¬ĘäÖŠ[i�Ź{1, 2 ,�, s}]�£ĆæøöĢŲÕ÷×Ó¼Æ[xi]¶¼¾ßÓŠĻąĶ¬µÄæÕ¼ä´óŠ��£³żĮĖ[x1]ŅŌĶāĆæøö[xi]¶¼ÓŠÓėÖ®Ļą¶ŌÓ¦µÄ[3�Į3]¾ķ»ż£¬ÓĆ[Ki]Ą´±ķŹ¾£¬²¢½«ĘäŹä³ö±ķŹ¾ĪŖ[yi]�£[yi]µÄ¶ØŅå¹«Ź½ČēĻĀ£ŗ

[yi=xi i=1Kixi i=2Kixi+yi-1 2<i�Üs] £Ø1£©

ŌŚRes2NetÄ£æéÖŠ£¬Ź¹ÓĆĮĖŅ»øöŠĀµÄæŲÖĘ²ĪŹż�°¹ęÄ£�±£¬ÓĆsĄ´±ķŹ¾£¬øü´óµÄsÄÜŹ¹Ä£ŠĶÓµÓŠøü´óµÄøŠŹÜŅ°�£Ķ¼3£Øb£©ÖŠsÉč¶ØĪŖ4£¬ŌŚÄ£ŠĶÖŠsÉč¶ØĪŖ8�£ĪŖĮĖ¼õÉŁÄ£ŠĶµÄ²ĪŹżĮæ£¬Ź�ĀŌĮĖµŚ1´Ī·ÖøīŗóµÄ¾ķ»ż£¬ÕāŅ²ŹĒĢŲÕ÷ÖŲÓĆµÄŅ»ÖÖŠĪŹ½£¬¼ŁÉčŹäČėŹä³öĢŲÕ÷µÄĶØµĄŹż·Ö±šĪŖ[Ic]ŗĶ[Oc]£¬¶ŌÓŚ²Š²īæé£¬Ęä²ĪŹżĮæĪŖ[3�Į3�ĮIc�ĮOc]£¬¼´[9�ĮIc�ĮOc]£¬¶ŌÓŚRes2NetÄ£æé£¬Ęä²ĪŹżĮæĪŖ[(s-1)�Į9�Į(Ic/s)]

[(Oc/s)]�£ĻŌČ»Res2NetÄ£æé¾ßÓŠøüÉŁµÄ²ĪŹżĮæ�£

<G:\Īäŗŗ¹¤³Ģ´óŃ§\2022\2022-06¹¤³Ģ\Image\³Ā½´Ø-3.tif>

Ķ¼3 £Øa£©²Š²īæé£¬£Øb£©Res2NetÄ£æé

Fig. 3 £Øa£©Bottleneck block£¬ £Øb£©Res2Net module

1.3 CBAM-Res2NetÄ£æé

±¾ĪÄÉč¼ĘµÄCBAM-Res2NetÄ£æéČēĶ¼4ĖłŹ¾�£ŌŚRes2NetÄ£æéÖŠ¼Æ³ÉCBAMÄ£æé£¬ÄÜ¹»Ź¹CBAMÄ£æéµÄÓÅŹĘøü¼ÓĶ»³ö£¬¼´ŌŚ²Š²īµ�ŌŖÄŚ²æŹµĻÖŌŚæÕ¼äÓņŗĶĶØµĄÓņÉĻ¶ŌŌŹ¼ĢŲÕ÷µÄÖŲ±ź¶Ø£¬Ķź³ÉĢŲÕ÷µ÷Õū�£½«CBAMÄ£æéĢķ¼ÓŌŚRes2NetÄ£æéµÄ²Š²īĮ¬½ÓÖ®Ē°£¬[1�Į1]¾ķ»żÖ®ŗó£¬ÕāŅ²ŹĒÄæĒ°Ö÷Į÷µÄĶųĀē½į¹¹¶ŌÓŚ²Š²īæéŗĶ×¢ŅāĮ¦Ä£æéµÄ×éŗĻ¹¹Ōģ·½Ź½£¬ČēSE-Res2Net�¢SE-ResNetŅŌ¼°SE-InceptionµČ�£

1.4 ĖšŹ§ŗÆŹż

±¾ĪÄÄ£ŠĶŌŚŃµĮ·ÖŠŹ¹ÓĆÅ·ŹĻ¾ąĄėĄ´ĘĄ¹ĄÕęŹµĆÜ¶ČĶ¼ÓėŌ¤²āĆÜ¶ČĶ¼Ö®¼äµÄ²īŅģ£¬Ņņ´Ė½«Å·ŹĻ¾ąĄė×÷ĪŖĖšŹ§ŗÆŹżĄ´µ÷ÕūŌ¤²āĆÜ¶ČĶ¼µÄÉś³É£¬¾ßĢå¹«Ź½ČēĻĀ£ŗ

[Ldensity= 12Ni=1NDXi;¦Č-DGTi22] £Ø2£©

Ź½ÖŠ£¬[N]ŹĒŅ»´ĪŃµĮ·Ķ¼Ę¬µÄ×ÜŹżĮæ£¬[Xi]ĪŖµŚ[i]ÕÅŃµĮ·Ķ¼Ę¬£¬[DXi;¦Č]ĪŖµŚ[i]ÕÅĶ¼Ę¬µÄŌ¤²āĆÜ¶ČĶ¼£¬ĘäÖŠ[i�Ź[1, N]]£¬[¦Č]ĪŖĶųĀēÄ£ŠĶ²ĪŹż£¬[DGTi]ĪŖµŚ[i]ÕÅŃµĮ·Ķ¼Ę¬µÄÕęŹµĆÜ¶ČĶ¼�£

2 ŹµŃé²æ·Ö

2.1 ÕęŹµĆÜ¶ČĶ¼µÄÉś³É

ĪŖĮĖ»ńµĆÕęŹµĆÜ¶ČĶ¼£¬²ÉÓĆĮĖÓėÖ®Ē°¹¤×÷£Ū9£ŻĻąĶ¬µÄ²ßĀŌ£¬ ¼´Ź¹ÓĆ¼øŗĪ×ŌŹŹÓ¦øßĖ¹ŗĖÉś³ÉĆÜ¶ČĶ¼£¬×÷ĪŖŌ¤²āŃ§Ļ°µÄ±źĒ©£¬¾ßĢå¹«Ź½ČēĻĀ£ŗ

[Fx=i=1N¦Äx-xi?G¦Ņix,¦Ņi=¦Ād] £Ø3£©

Ź½ÖŠ£¬[x]ĪŖĶ¼ĻńÖŠµÄĻńĖŲµć£¬[xi]±ķŹ¾µŚ[i]øöČĖĶ·ŌŚĶ¼Ę¬ÖŠµÄĪ»ÖĆ£¬[G(x)]ĪŖøßĖ¹ŗĖĀĖ²ØĘ÷£¬[d]ĪŖĆæøöČĖµÄĶ·²æÓėĘäĻąĮŚµÄkøöČĖÖ®¼äµÄĘ½¾ł¾ąĄė£¬[¦Ā]²ĪÕÕĪÄĻ×£Ū9£ŻÉčÖĆĪŖ0.3�£

2.2 ŹµŃé»·¾³ŗĶ²ĪŹżÉčÖĆ

ŹµŃéĖłŹ¹ÓĆµÄŹĒNVIDIA-3060 12 GBĻŌæØ£¬Éī¶ČŃ§Ļ°æņ¼ÜĪŖPyTorch 1.11.0�£ŌŚÄ£ŠĶµÄŃµĮ·¹ż³ĢÖŠ£¬¶ŌÓŚĶ¼Ļń³ß´ē´óŠ�²»Ņ»ÖĀµÄŹż¾Ż¼ÆŹ¹ÓĆÅśĮæ´óŠ�ĪŖ1µÄĖę»śĢŻ¶ČĻĀ½µ£Østochastic gradient descent£¬SGD£©ÓÅ»ÆĘ÷½ųŠŠŃµĮ·£¬¶ŌÓŚĶ¼Ļń³ß´ē¹Ģ¶ØµÄŹż¾Ż¼ÆŹ¹ÓĆÅśĮæ´óŠ�ĪŖ8µÄAdamÓÅ»ÆĘ÷½ųŠŠÄ£ŠĶÓÅ»Æ�£ÓÉÓŚČĖČŗŹż¾Ż¼ÆĶ¼Ę¬ÓŠĻŽ£¬ĪŖĮĖ»ńµĆøü¶ąµÄĶ¼Ę¬ÓĆÓŚŃµĮ·£¬½ųŠŠĮĖŹż¾ŻŌöĒæ¹¤×÷£¬¼´ŌŚ²»Ķ¬µÄĪ»ÖĆ½«Ķ¼ĻńĖę»ś²Ć¼ōĪŖŌŹ¼´óŠ�µÄ1/4£¬²¢¶Ō²Ć¼ōŗóµÄĶ¼Ę¬½ųŠŠ¾µĻń·×Ŗ�£

2.3 ĘĄ¼ŪÖø±ź

Ń�Č�Ę½¾ł¾ų¶ŌĪó²ī£Ømean absolute error£¬ MAE£©ŗĶ¾ł·½øłĪó²ī£Øroot mean square error£¬ RMSE£©×÷ĪŖĘĄ¼ŪÖø±ź£¬MAEĶØ³£ÓĆĄ´ĘĄ¹ĄČĖŹż¹Ą¼ĘµÄ×¼Č·ŠŌ£¬ĘäÖµŌ½Š�Ņ²¾Ķ±ķĆ÷øĆĖć·ØµÄ×¼Č·ŠŌŌ½ŗĆ£¬¶ųRMSEĶØ³£ÓĆĄ´Įæ¶ČĖć·ØµÄĀ³°ōŠŌ£¬ĘäÖµŌ½Š�Ņ²¾Ķ±ķĆ÷øĆĖć·ØµÄĀ³°ōŠŌŌ½ŗĆ�£MAEŗĶRMSEµÄ¶ØŅå¹«Ź½ČēĻĀ£ŗ

[EMAE=1Ni=1NCi-CGTi] £Ø4£©

[ERMSE=1Ni=1N(Ci-CGTi)2] £Ø5£©

[Ci]ŗĶ[CGTi]·Ö±šĪŖµŚ[i]ÕÅĶ¼ĻńÖŠµÄŌ¤²āČĖŹżŗĶÕęŹµČĖŹż�£

2.4 Źż¾Ż¼ÆÓėŹµŃé½į¹ū·ÖĪö

2.4.1 ShanghaiTechŹż¾Ż¼Æ ShanghaiTechŹż¾Ż¼ÆÖŠ¹²ÓŠ1 198ÕÅĶ¼Ę¬²¢øł¾ŻČĖČŗĆÜ¶ČµČ¼¶·ÖĪŖA�¢BĮ½øö²æ·Ö�£ĘäÖŠA²æ·Ö°üŗ¬482ÕÅČĖŹż´Ó33µ½3 193ČĖ²»µČµÄĶ¼Ļń£¬Ę½¾łČĖŹżĪŖ501ČĖ£¬ŃµĮ·¼ÆŗĶ²āŹŌ¼Æ·Ö±š°üŗ¬ĮĖ300ŗĶ182ÕÅĶ¼Ļń�£B²æ·ÖÖŠ°üŗ¬ĮĖ716ÕÅČĖŹż·¶Ī§ĪŖ9µ½578ČĖµÄĶ¼Ę¬£¬Ę½¾łČĖŹżĪŖ124ČĖ£¬ŃµĮ·¼ÆŗĶ²āŹŌ¼Æ·Ö±š°üŗ¬ĮĖ400ŗĶ316ÕÅĶ¼Ļń�£Źż¾Ż¼ÆµÄ×Ü¹²±ź¼ĒČĖŹż´ļµ½ĮĖ330 165ČĖ�£øĆŹż¾Ż¼ÆµÄŹµŃé½į¹ūČē±ķ1ĖłŹ¾�£

±ķ1 »łÓŚShanghaiTechŹż¾Ż¼ÆµÄŹµŃé½į¹ū¶Ō±Č

Tab.1 Comparison of experimental results on

ShanghaiTech dataset

[·½ ·Ø A²æ·Ö B²æ·Ö MAE RMSE MAE RMSE MCNN 110.2 173.2 26.4 41.3 CP-CNN[15] 73.6 106.4 20.1 30.1 CSRNet 68.2 115.0 10.6 16.0 PACNN[16] 66.3 106.4 8.9 13.5 ADCrowdNet 63.2 98.9 7.6 13.9 ASD[17] 65.6 98.0 8.5 13.7 CAN[18] 62.3 100.0 7.8 12.2 CADMFNet[19] 62.2 100.6 7.9 12.1 ±¾ĪÄ 61.4 98.5 7.3 10.8 ]

ÓėĻÖÓŠĖć·ØĻą±Č£¬±¾ĪÄ·½·ØŌŚB²æ·ÖÉĻµÄŠŌÄÜÖø±źMAEÓėRMSE¾łČ�µĆĮĖ×īÓÅµÄ½į¹ū�£¶ųŌŚA²æ·Ö£¬±¾ĪÄ·½·ØŌŚRMSEµÄ±ķĻÖÉĻ½ö´ĪÓŚASD£¬ŌŚMAEµÄ±ķĻÖÉĻČ�µĆĮĖ×īÓÅ�£

2.4.2 UCF_CC_50Źż¾Ż¼Æ UCF_CC_50Źż¾Ż¼ÆÖŠ¹²ÓŠ50ÕÅĶ¼Ę¬£¬ĘäÖŠ³�¾°°üĄØ»š³µÕ¾�¢´óŠĶÓĪŠŠ�¢ŃŻ³Ŗ»įµČ´óĮæČĖČŗ¾Ū¼ÆµÄ³�ŗĻ�£ĆæÕÅĶ¼Ę¬°üŗ¬µÄČĖŹż´Ó94µ½4 543ČĖ²»µČ£¬Źż¾Ż¼ÆµÄ×Ü¹²±ź¼ĒČĖŹż´ļµ½ĮĖ63 974ČĖ£¬Ę½¾łĆæÕÅĶ¼Ę¬±ź¼ĒµÄČĖŹżĪŖ1 280ČĖ�£øĆŹż¾Ż¼ÆµÄŹµŃé½į¹ūČē±ķ2ĖłŹ¾�£ÓÉ±ķ2æÉ¼ū£¬¼´Ź¹ŌŚÕāÖÖČĖČŗĆÜ¶Č±ä»Æ´ó�¢ČĖĶ·Ä£ŗż�¢±³¾°ø´ŌÓµÄŹż¾Ż¼ÆÉĻ£¬±¾ĪÄ·½·ØµÄŠŌÄÜŅĄČ»ÓÅÓŚĘäĖüĖć·Ø�£

2.4.3 ŹµŃé½į¹ūæÉŹÓ»Æ ĪŖĮĖÄÜ¹»Ö±¹ŪµÄÕ¹Ź¾±¾ĪÄ·½·ØµÄŌ¤²āŠ§¹ū£¬ĮŠ³öĮĖ²æ·ÖŌŚ²»Ķ¬Źż¾Ż¼ÆÉĻÉś³ÉµÄŌ¤²āĆÜ¶ČĶ¼µÄæÉŹÓ»Æ½į¹ū£¬ÕęŹµĆÜ¶ČĶ¼ŗĶŌ¤²āĆÜ¶ČĶ¼µÄ¼ĘŹż½į¹ū¾ł±ź×¢ŌŚĶ¼Ę¬ÓŅĻĀ½Ē£¬ČēĶ¼5ĖłŹ¾£¬ĘäÖŠµŚ1ŠŠŗĶµŚ2ŠŠĪŖShanghaiTechŹż¾Ż¼ÆPart BÖŠµÄ²āŹŌĶ¼Ļń£¬µŚ3ŠŠŗĶµŚ4ŠŠĪŖShanghaiTechŹż¾Ż¼ÆPart AÖŠµÄ²āŹŌĶ¼Ļń£¬µŚ5ŠŠŗĶµŚ6ŠŠĪŖUCF_CC_50Źż¾Ż¼ÆµÄ²āŹŌĶ¼Ļń�£ÓÉĶ¼5½į¹ūæÉÖŖ£¬±¾ĪÄÄ£ŠĶÄÜ¹»ÓŠŠ§µÄŃ§Ļ°ČĖČŗĶ¼ĻńŗĶČĖČŗĆÜ¶ČĶ¼Ö®¼äµÄÓ³Éä¹ŲĻµ�£

<G:\Īäŗŗ¹¤³Ģ´óŃ§\2022\2022-06¹¤³Ģ\Image\³Ā½´Ø-5.tif>

2.4.4 ĻūČŚŹµŃé ĪŖĮĖŃéÖ¤Res2NetÄ£æéŗĶCBAMÄ£æéµÄÓŠŠ§ŠŌ�£ŌŚShanghaiTech BŹż¾Ż¼ÆÖŠ½ųŠŠĮĖĻą¹ŲµÄĻūČŚŹµŃé�£ĘäÖŠBaselineĪŖ±¾ĪÄÄ£ŠĶČ�µōCBAM-Res2NetÄ£æéÖ®ŗóµÄĶųĀē£¬½į¹ūČē±ķ3ĖłŹ¾�£

±ķ3 »łÓŚShanghaiTech Part BŹż¾Ż¼ÆµÄĻūČŚŹµŃé½į¹ū

Tab. 3 Ablation experimental results on ShanghaiTech

Part B dataset

[ĶųĀēÄ£ŠĶ MAE RMSE Baseline 10.6 16.0 Baseline+CBAM 8.9 13.2 Baseline+Res2Net 7.8 11.8 Baseline+CBAM-Res2Net 7.3 10.8 ]

´Ó±ķ3ÖŠæÉŅŌæ´³öŌŚ¼ÓČėRes2NetÄ£æéŗĶCBAM×¢ŅāĮ¦Ä£æéŗó¾łæÉŅŌŹ¹ČĖČŗ¼ĘŹżµÄMAEŗĶRMSEĻĀ½µ£¬¾ßÓŠĢįÉż¼ĘŹż×¼Č·ŠŌµÄŠ§¹ū�£ŌŚ¼ÓČėCBAM-Res2NetÄ£æéÖ®ŗó£¬±¾ĪÄÄ£ŠĶµÄ¼ĘŹżŠ§¹ūµĆµ½ĮĖĻŌÖųµÄĢįÉż�£

3 ½į ĀŪ

±¾ĪÄ¶ŌCSRNet½ųŠŠøÄ½ų£¬ŌŚĘäŗó¶ĖĶųĀēĒ°¼ÓČėŅ»ÖÖČŚŗĻ×¢Ņā»śÖĘµÄ¶ą³ß¶ČĢŲÕ÷ĢįČ�Ä£æéCBAM-Res2Net£¬øĆÄ£æé²ÉÓĆRes2NetĢįČ�¶ą³ß¶ČĢŲÕ÷½ųŠŠČŚŗĻ£¬ČŚŗĻŗóµÄ¶ą³ß¶ČĢŲÕ÷¶Ō³ß¶Č±ä»Æ¾ßÓŠĮ¼ŗĆµÄĀ³°ōŠŌ£»²ÉÓĆCBAMĢįÉżĢŲÕ÷Ķ¼ÖŠČĖČŗĒųÓņµÄČØÖŲ£¬²¢ŅÖÖĘČõĻą¹ŲµÄ±³¾°ĢŲÕ÷�£ŌŚShanghaiTechŗĶUCF_CC_50¹«¹²Źż¾Ż¼ÆÉĻ£¬±¾ĪÄÄ£ŠĶ¾ł¾ßÓŠĮ¼ŗĆµÄ×¼Č·ŠŌŗĶĀ³°ōŠŌ�£µ«±¾ĪÄÖŠµÄ·½·ØČŌÓŠ²»×ćÖ®´¦£¬ŌŚ¾¹ż3´Ī×ī´ó³Ų»Æŗó£¬Éś³ÉµÄĆÜ¶ČĶ¼µÄøß¶ČŗĶæķ¶ČÖ»ÓŠŹäČėĶ¼Ę¬µÄ1/8´óŠ�£¬Õā¶Ō×īÖÕµÄ¼ĘŹż½į¹ū´ųĄ´ĮĖøŗĆęÓ°Ļģ�£ŌŚĪ´Ą´µÄ¹¤×÷ÖŠ£¬½«Õė¶ŌČēŗĪÉś³Éøß·Ö±ęĀŹøßÖŹĮæµÄĆÜ¶ČĶ¼½ųŠŠŃŠ¾æ£¬½ųŅ»²½ĢįøßČĖČŗ¼ĘŹżµÄ¾«¶Č�£