بالاخره راهى براى پاسخ گرفتن از اينترنت
بالاخره راهى براى پاسخ گرفتن از اينترنت
مرحله بعدى تحول موتورهاى جست وجو در اينترنت چيست؟ موتور جست وجوى «آلتاويستا» (AltaVista) نشان داد كه فهرست كردن همه شبكه جهانى اطلاعات امكان پذير است.
موفقيت موتور جست وجوى «گوگل» (Google) از توانايى خارق العاده آن در جدا كردن صفحات شبكه اى (وب پيج ها) مفيد از صفحات اشغال بود اما جايزه اصلى مطمئناً به كسى داده خواهد شد كه بتواند از اينترنت براى به دست دادن پاسخى مستقيم به پرسشى مستقيم استفاده كند. و «اريك بيل» پژوهشگر ميكروسافت مى گويد اولين كسى خواهد بود كه اين كار را انجام خواهد داد.
نخستين رخنه دكتر بريل در اين مشكل، سيستمى است كه Ask MSR (از MSR بپرس) ناميده مى شود (MSR مخفف Microsoft Research است). اين برنامه از اطلاعات صفحات شبكه براى پاسخ دادن به پرسش هايى كه پاسخشان كلمه يا عبارتى منفرد است استفاده مى كند براى مثال در برابر پرسش «مريلين مونرو كى متولد شد؟» ASK MSR اين پرسش را به روش هاى گوناگون پردازش مى كند. مثلاً با شناسايى كردن فعل، و سپس تغيير دادن زمان آن يا حركت دادن آن به جاهاى مختلف جمله (مثلاً «مريلين شده مونرو متولد»، «مريلين مونرو متولد شد» و غيره) سپس عبارات حاصل به يك موتور جست وجو خورانده مى شود و اسنادى كه حاوى زنجيره هاى كلمات مطابقت كننده هستند بازيابى مى شوند. اين روش استراتژى بى هدفى به نظر مى رسد، اما عبارت هاى پرت و پلا كلمات مطابقت كننده بسيار كمى توليد مى كنند، بنابراين همانطور كه دكتر بريل اظهار مى كند «غلط بودن بسيار ارزان است.»
سپس توده اسناد جمع آورى شده از اينترنت براى يافتن پاسخ هاى احتمالى مورد بررسى اجمالى قرار مى گيرند و اين پاسخ ها بر حسب فراوانى رديف مى شوند. عملاً به پاسخ صحيح يكى از سه جايگاه اول حدود 75 درصد موارد ظاهر مى شود. اين ميزان ممكن است خيلى خوب به نظر نرسد، اما هوش انسان فيلترى ثانوى را فراهم مى كند، چرا كه پاسخ هاى اشتباه اغلب واضح هستند. براى مثال اگر شما بپرسيد «بيورن بورگ» چند بار در مسابقات تنيس ويمبلدون برنده شد؟، «1980» پاسخى معقول نيست، اما «5» پاسخى منطقى است، در صورت وجود ترديد كليك كردن روى پاسخى، فهرستى از پيوندها (لينك ها) را به صفحاتى فراهم مى آورد كه اطلاعات لازم براى آن پاسخ را در اختيار مى گذارد.
ASK MSR هنوز يك مدل ابتدايى است، گرچه ميكروسافت در تلاش است تا آن را بهبود بخشد و ممكن است تحت نام Answer Bot به طور تجارى عرضه شود. در همين حال دكتر بريل به وظيفه اى سخت تر روى آورده است. عنوان يكى از مقالات اخير او كه با همكارى رادو سوريكات از دانشگاه كاليفرنياى جنوبى نوشته شده، «فراسوى شبه فاكت ها» Beyond Factoids)) است. اين مقاله تلاش هاى او براى ساختن سيستمى را شرح مى دهد كه توانايى فراهم كردن پاسخ هاى 50 كلمه اى را به پرسش هايى مانند اينها داشته باشد: «قواعد شركت در جوايز اسكار كدامند؟» اين وظيفه سخت تر از يافتن پاسخى يك كلمه اى است، اما دكتر بريل معتقد است كه اين كار با استفاده از چيزى كه مدل «كانال پرسروصدا» (Noisy (Channel Noisy) ناميده مى شود بايد امكان پذير باشد. چنين مدل هايى از هم اكنون در سيستم هاى بررسى املاى كلمات و شناسايى گفتار به كار مى روند. آنها با مدل سازى تغيير شكل يابى بين آنچه منظور كاربر است (در بررسى املا كلمه اى كه قصد دارد تايپ كند) و آنچه او انجام مى دهد (كلمه غلطى كه در واقع تايپ شده) عمل مى كنند. درست همانطور كه خط تلفن صداى شخص را در انتهاى ديگر خط تغيير مى دهد، اين فرايند را مى توان به صورت «كانال پرسروصدايى» در نظر گرفت كه قصد كاربر را به صورت چيزى نسبتاً متفاوت تغيير شكل مى دهد.
با تجزيه و تحليل كردن بسيارى از جفت هاى صحيح و با املاى نادرست با استفاده از فنون آمارى پيش بينى كردن اينكه چنين تغيير شكل هايى در موارد عمومى چگونه عمل مى كنند امكان پذير است. آنگاه مى توان سيستمى را طراحى كرد كه در جهت عكس اين فرايند عمل كند.به عبارت ديگر با دادن يك كلمه با املاى غلط، بتواند حدس بزند كه محتمل ترين كلمه اى كه اين كلمه املاى غلط آن است چيست.
سيستم پرسش _ پاسخ دهى دكتر بريل كارى شبيه به همين انجام مى دهد. بسيارى از جفت هاى پرسش _ و _ پاسخ بر روى اينترنت، به صورت صفحات «سئوالات اغلب مورد پرسش» (FAQ) مربوط به موضوعات مختلف وجود دارند. دكتر بريل به سيستمش استفاده از يك ميليون از چنين جفت هايى را آموزش داد تا مدلى را خلق كند كه با داده شدن يك پرسش بتواند ساختارهاى گوناگونى را كه پاسخ مى تواند به خود بگيرد مورد بررسى قرار دهد. سپس اين ساختارها براى توليد عبارات پرسش و اسناد مطابقت كننده اى بر روى اينترنت براى پيدا كردن چيزهايى كه شبيه پاسخ باشند بررسى مى شوند.
اين مدل ابتدايى فعلى پاسخ هاى متناسب را در حدود 40 درصد موارد فراهم مى كند. خيلى عالى نيست، اما خيلى بد هم نيست، و با رشد اينترنت بايد انتظار بهبود آن را داشت. اين روش سريع _ و _ پست (quick _and _dirty)، به جاى تكيه بر رويكرد سنتى «هوش مصنوعى» يعنى تقطيع كردن جملات و تلاش براى پردازش معناى واقعى پرسش، بر خود هوش جمعى و همواره در حال رشد شبكه تكيه مى كند.
برگرفته از سايت sharghnewspaper
مرحله بعدى تحول موتورهاى جست وجو در اينترنت چيست؟ موتور جست وجوى «آلتاويستا» (AltaVista) نشان داد كه فهرست كردن همه شبكه جهانى اطلاعات امكان پذير است.
موفقيت موتور جست وجوى «گوگل» (Google) از توانايى خارق العاده آن در جدا كردن صفحات شبكه اى (وب پيج ها) مفيد از صفحات اشغال بود اما جايزه اصلى مطمئناً به كسى داده خواهد شد كه بتواند از اينترنت براى به دست دادن پاسخى مستقيم به پرسشى مستقيم استفاده كند. و «اريك بيل» پژوهشگر ميكروسافت مى گويد اولين كسى خواهد بود كه اين كار را انجام خواهد داد.
نخستين رخنه دكتر بريل در اين مشكل، سيستمى است كه Ask MSR (از MSR بپرس) ناميده مى شود (MSR مخفف Microsoft Research است). اين برنامه از اطلاعات صفحات شبكه براى پاسخ دادن به پرسش هايى كه پاسخشان كلمه يا عبارتى منفرد است استفاده مى كند براى مثال در برابر پرسش «مريلين مونرو كى متولد شد؟» ASK MSR اين پرسش را به روش هاى گوناگون پردازش مى كند. مثلاً با شناسايى كردن فعل، و سپس تغيير دادن زمان آن يا حركت دادن آن به جاهاى مختلف جمله (مثلاً «مريلين شده مونرو متولد»، «مريلين مونرو متولد شد» و غيره) سپس عبارات حاصل به يك موتور جست وجو خورانده مى شود و اسنادى كه حاوى زنجيره هاى كلمات مطابقت كننده هستند بازيابى مى شوند. اين روش استراتژى بى هدفى به نظر مى رسد، اما عبارت هاى پرت و پلا كلمات مطابقت كننده بسيار كمى توليد مى كنند، بنابراين همانطور كه دكتر بريل اظهار مى كند «غلط بودن بسيار ارزان است.»
سپس توده اسناد جمع آورى شده از اينترنت براى يافتن پاسخ هاى احتمالى مورد بررسى اجمالى قرار مى گيرند و اين پاسخ ها بر حسب فراوانى رديف مى شوند. عملاً به پاسخ صحيح يكى از سه جايگاه اول حدود 75 درصد موارد ظاهر مى شود. اين ميزان ممكن است خيلى خوب به نظر نرسد، اما هوش انسان فيلترى ثانوى را فراهم مى كند، چرا كه پاسخ هاى اشتباه اغلب واضح هستند. براى مثال اگر شما بپرسيد «بيورن بورگ» چند بار در مسابقات تنيس ويمبلدون برنده شد؟، «1980» پاسخى معقول نيست، اما «5» پاسخى منطقى است، در صورت وجود ترديد كليك كردن روى پاسخى، فهرستى از پيوندها (لينك ها) را به صفحاتى فراهم مى آورد كه اطلاعات لازم براى آن پاسخ را در اختيار مى گذارد.
ASK MSR هنوز يك مدل ابتدايى است، گرچه ميكروسافت در تلاش است تا آن را بهبود بخشد و ممكن است تحت نام Answer Bot به طور تجارى عرضه شود. در همين حال دكتر بريل به وظيفه اى سخت تر روى آورده است. عنوان يكى از مقالات اخير او كه با همكارى رادو سوريكات از دانشگاه كاليفرنياى جنوبى نوشته شده، «فراسوى شبه فاكت ها» Beyond Factoids)) است. اين مقاله تلاش هاى او براى ساختن سيستمى را شرح مى دهد كه توانايى فراهم كردن پاسخ هاى 50 كلمه اى را به پرسش هايى مانند اينها داشته باشد: «قواعد شركت در جوايز اسكار كدامند؟» اين وظيفه سخت تر از يافتن پاسخى يك كلمه اى است، اما دكتر بريل معتقد است كه اين كار با استفاده از چيزى كه مدل «كانال پرسروصدا» (Noisy (Channel Noisy) ناميده مى شود بايد امكان پذير باشد. چنين مدل هايى از هم اكنون در سيستم هاى بررسى املاى كلمات و شناسايى گفتار به كار مى روند. آنها با مدل سازى تغيير شكل يابى بين آنچه منظور كاربر است (در بررسى املا كلمه اى كه قصد دارد تايپ كند) و آنچه او انجام مى دهد (كلمه غلطى كه در واقع تايپ شده) عمل مى كنند. درست همانطور كه خط تلفن صداى شخص را در انتهاى ديگر خط تغيير مى دهد، اين فرايند را مى توان به صورت «كانال پرسروصدايى» در نظر گرفت كه قصد كاربر را به صورت چيزى نسبتاً متفاوت تغيير شكل مى دهد.
با تجزيه و تحليل كردن بسيارى از جفت هاى صحيح و با املاى نادرست با استفاده از فنون آمارى پيش بينى كردن اينكه چنين تغيير شكل هايى در موارد عمومى چگونه عمل مى كنند امكان پذير است. آنگاه مى توان سيستمى را طراحى كرد كه در جهت عكس اين فرايند عمل كند.به عبارت ديگر با دادن يك كلمه با املاى غلط، بتواند حدس بزند كه محتمل ترين كلمه اى كه اين كلمه املاى غلط آن است چيست.
سيستم پرسش _ پاسخ دهى دكتر بريل كارى شبيه به همين انجام مى دهد. بسيارى از جفت هاى پرسش _ و _ پاسخ بر روى اينترنت، به صورت صفحات «سئوالات اغلب مورد پرسش» (FAQ) مربوط به موضوعات مختلف وجود دارند. دكتر بريل به سيستمش استفاده از يك ميليون از چنين جفت هايى را آموزش داد تا مدلى را خلق كند كه با داده شدن يك پرسش بتواند ساختارهاى گوناگونى را كه پاسخ مى تواند به خود بگيرد مورد بررسى قرار دهد. سپس اين ساختارها براى توليد عبارات پرسش و اسناد مطابقت كننده اى بر روى اينترنت براى پيدا كردن چيزهايى كه شبيه پاسخ باشند بررسى مى شوند.
اين مدل ابتدايى فعلى پاسخ هاى متناسب را در حدود 40 درصد موارد فراهم مى كند. خيلى عالى نيست، اما خيلى بد هم نيست، و با رشد اينترنت بايد انتظار بهبود آن را داشت. اين روش سريع _ و _ پست (quick _and _dirty)، به جاى تكيه بر رويكرد سنتى «هوش مصنوعى» يعنى تقطيع كردن جملات و تلاش براى پردازش معناى واقعى پرسش، بر خود هوش جمعى و همواره در حال رشد شبكه تكيه مى كند.
برگرفته از سايت sharghnewspaper
+ نوشته شده در ساعت توسط احسان خوشخرام
|